移动轨迹数据去匿名化攻击方法
IP地址的匿名化和伪装技术

IP地址的匿名化和伪装技术IP地址,即Internet Protocol Address(互联网协议地址),是给互联网上的每个设备分配的唯一标识符。
通过IP地址,我们可以追踪到设备的具体位置,这使得个人的在线隐私面临潜在的威胁。
为了保护个人隐私和数据安全,人们发展了一系列的IP地址匿名化和伪装技术。
I. IP地址匿名化技术1. 代理服务器(Proxy Server)代理服务器是一种充当客户端和目标服务器间的中间人的设备。
当用户发起请求时,请求首先发送给代理服务器,然后代理服务器再将请求转发给目标服务器。
通过代理服务器,用户的真实IP地址得以隐藏,目标服务器只能看到代理服务器的IP地址。
2. 虚拟专用网(Virtual Private Network,VPN)VPN是一种通过公共网络创建私密连接的技术。
用户可以通过VPN连接到远程的服务器,所有在该服务器上产生的网络流量都会被加密并通过VPN传输。
由于VPN隧道,用户的真实IP地址得以隐藏,通过访问VPN服务提供商的服务器,来替代用户的IP地址与目标服务器通信。
3. Tor网络Tor网络是一种基于分布式网络的匿名通信系统。
通过Tor网络,用户的通信流量被随机地通过多个节点进行中转,每个节点只能看到前一个和后一个节点的信息。
这种多重加密和中继的方式使得用户的IP地址得以匿名化。
II. IP地址伪装技术1. NAT(Network Address Translation)技术NAT技术将局域网中的多个设备共享一个公网IP地址。
在发送数据包时,源IP地址被替换为公网IP地址,再由NAT设备将数据包转发到互联网上。
这种方式使得外部网络无法直接追踪到真实的IP地址。
2. IP伪装(IP Spoofing)IP伪装是一种技术手段,通过伪造源IP地址来欺骗目标系统。
攻击者可以发送经过伪造的IP地址的数据包,使得目标系统误认为是别的系统发来的请求,从而实现身份伪装和攻击。
大数据时代个人信息安全保护对策

摘要:大数据时代已经来临,我们在庆幸大数据时代带来的大机遇同时,不可避免地因为个人信息安全问题而感到担心,特别是2013年爆发的“棱镜门”事件更加剧了人们对大数据时代的担忧。
大数据时代,个人数据作为“一种新的资产类别”、“未来新石油”,其价值被各类机构和个人广泛发掘和开采;e生活方式的流行也使得我们将过多的个人数据所有权转移给各类服务商;而多重交易和各类第三方渠道的介入也使得个人数据的权利边界更加模糊,甚至逐渐消失。
这无疑给个人信息安全带来了前所未有的挑战,加强个人信息安全保护在大数据时代显得尤为迫切。
关键词:大数据;个人信息安全;隐私保护中图分类号:tp393 文献标识码:a 文章编号:1009-3044(2015)29-0018-03随着科技的飞速发展,互联网时代如期而至,伴随着移动技术推陈出新,互联网+、大数据、云计算等新兴技术被广泛运用和认可,我们的生活也逐渐的发生变化。
数字化生活的改变,在带来高速便捷的同时,也让我们的个人隐私由隐性变成显现,往往让我们不知所措。
信息的泄露给不法分子带来了可乘之机,提供了利益驱动,特别是社交网络中的个人信息已经成为大数据时代商家博弈的一大焦点。
大数据时代的利弊就如同双刃剑一样,在给我们带来惊喜的同时,也给我们带来后怕和困惑,并且后者往往更加严重,因为在造成财富受损的同时,甚至还会带来个人隐私安全的重大隐患,影响个人的身心健康和安全问题。
也正如此,所以个人的信息安全防护在当下被社会大众所关注。
1 大数据时代个人信息安全面临的挑战第一、个人的账户与隐私信息安全问题,已经构成了大数据时代最大的威胁。
在大数据时代,我们几乎无处遁形。
凡是你走过的地方,身后都留下一片数据。
一旦这些数据被泄漏,被倒卖,就成为了商家牟利的有力工具,甚至有可能被不法分子获取,从事电信诈骗、非法讨债甚至绑架勒索等犯罪活动,从而严重威胁人身和财产安全,而你同样一无所知。
被广泛使用的支付宝,其对客户数据的收集包含了身份证、手机号、工作性质、收入状况、购物习惯、银行账号、账户余额等,已近乎个人的全部信息。
k匿名算法python代码

K匿名算法简介K匿名算法是一种用于保护数据隐私的方法,通过对数据进行泛化和加噪处理,使得数据不容易被识别和推断。
匿名化的目的是在保护个人隐私的前提下,仍然能够进行有效的数据分析和共享。
K匿名算法的核心思想是将数据的敏感属性进行模糊化处理,使得每个数据记录在其所属的同一组中有至少K-1个相似的记录。
这样,即使外部人员掌握了部分数据,也不容易对个体进行识别。
在本文中,我们将讨论K匿名算法的原理、实现和一些应用场景。
原理K匿名算法通过泛化和加噪两个步骤实现数据的匿名化。
泛化泛化是指将敏感属性的取值范围缩小,以减少个体间的差异,从而实现数据的保护。
常用的泛化方法包括:•属性泛化:将属性的取值范围进行合并或替换,例如将年龄分为几个区间。
这样可以减少个体的细节信息。
•层次泛化:将属性划分为层次结构,将属性的取值转换为对应层次的一些泛化值。
•值域泛化:将属性的取值映射到指定的值域,例如将连续的数值映射为离散的范围。
加噪加噪是指在原始数据中添加一些噪音,使得敏感属性的取值不那么精确,从而提高数据的隐私性。
常用的加噪方法包括:•拉普拉斯噪音:根据拉普拉斯分布生成噪音,并添加到敏感属性上。
•高斯噪音:根据高斯分布生成噪音,并添加到敏感属性上。
•伪随机函数:根据伪随机函数生成噪音,并添加到敏感属性上。
K-匿名性K-匿名性是指数据集中的每个记录在其所属的同一组中有至少K-1个相似的记录。
通过保证每个组至少包含K个相似的记录,可以降低数据被重新识别的风险。
K-匿名性的计算过程如下:1.根据敏感属性和非敏感属性划分数据集为不同的组。
2.对每个组内的记录进行属性值的泛化和加噪处理,以保证组内的记录有至少K-1个是相似的。
3.检查每个组是否满足K-匿名性,如果不满足,则进行进一步的泛化和加噪处理,直到满足要求为止。
实现下面使用Python实现简化版的K匿名算法,代码如下:# 导入相关的库import pandas as pddef generalize(attribute_value, generalization_level):# 实现属性值的泛化过程,根据具体需求进行相应的处理# ...def add_noise(attribute_value):# 实现在属性值上添加噪音的过程,可以使用拉普拉斯或高斯分布生成噪音# ...def k_anonymization(data, sensitive_attributes, k):# 检查数据集是否满足K-匿名性def is_k_anonymous(group):return len(group) >= kfor sensitive_attribute in sensitive_attributes:# 对敏感属性进行泛化data[sensitive_attribute] = data[sensitive_attribute].apply(generalize, args=(generalization_level,))# 对敏感属性添加噪音data[sensitive_attribute] = data[sensitive_attribute].apply(add_noise)# 根据敏感属性和非敏感属性划分数据集为不同的组groups = data.groupby(non_sensitive_attributes)# 检查每个组是否满足K-匿名性for group_name, group_data in groups:if not is_k_anonymous(group_data):# 重新进行泛化和加噪处理,直到满足K-匿名性# ...return data# 示例代码data = pd.read_csv("data.csv")sensitive_attributes = ["age", "gender"]non_sensitive_attributes = ["name", "city"]k = 5result = k_anonymization(data, sensitive_attributes, k)应用场景K匿名算法可以广泛应用于需要保护数据隐私的场景,例如:1.医疗数据共享:在医疗研究领域,医院可以通过K匿名算法对患者的敏感信息(如年龄、性别等)进行匿名化处理,从而可以在不泄露个人隐私的情况下,与其他医院分享病例数据进行研究分析。
数据去标识化原则

数据去标识化原则随着互联网的发展和应用的普及,个人隐私保护问题也日益受到关注。
为了保护个人隐私和数据安全,数据去标识化成为一种常用的手段。
数据去标识化是指在保持数据有用性的前提下,去除或替换个人身份信息,以保护个人隐私的方法。
下面将介绍几个常用的数据去标识化原则。
一、最小化原则最小化原则是指在数据去标识化过程中,尽量减少或删除不必要的个人信息。
例如,在医疗领域,可以删除患者的姓名、身份证号等直接关联到个人身份的信息,而保留与病情诊断、治疗方案相关的信息。
最小化原则既可以保护个人隐私,又可以保持数据的有用性。
二、脱敏原则脱敏原则是指将敏感信息进行替换或删除,以保护个人隐私。
例如,在金融领域,可以将信用卡号的中间几位数字用“*”代替,或者直接删除信用卡号。
脱敏原则需要根据不同行业和应用场景的要求,对不同的敏感信息进行不同的处理方式。
三、匿名化原则匿名化原则是指将个人身份信息与其他信息进行分离,使之无法关联到具体的个人。
例如,在大数据分析中,可以将个人手机号码与其他数据进行分离,使之无法被用于识别个人身份。
匿名化原则能够有效保护个人隐私,同时又能够保持数据的有用性。
四、差分隐私原则差分隐私原则是指在数据去标识化过程中,添加一定的噪声或扰动,以保护个人隐私。
例如,在数据发布过程中,对于某个具体数值,可以添加一定范围内的随机数,使得数据的真实值不被泄露。
差分隐私原则能够在一定程度上保护个人隐私,同时又能够保持数据的有用性。
五、安全性原则安全性原则是指在数据去标识化过程中,要保证数据的安全性,防止数据被非法获取或篡改。
例如,在数据传输过程中,要使用加密算法对数据进行加密,确保数据的机密性和完整性。
安全性原则是数据去标识化的基础,只有保证了数据的安全性,才能有效保护个人隐私。
六、可追溯性原则可追溯性原则是指在数据去标识化过程中,要保留足够的信息以便追溯数据的来源和使用情况。
例如,在数据共享过程中,可以记录数据的使用者和使用时间,以便对数据的使用进行监督和追溯。
移动群智感知网络中感知数据隐私保护

盗用途径
身份信息可能通过社交工 程攻击、网络钓鱼等方式 被窃取。
影响
身份盗用可能导致个人隐 私泄露、财产损失或安全 威胁等问题。
恶意攻击与欺诈行为
恶意攻击
影响
攻击者可能对移动群智感知网络进行 恶意攻击,如拒绝服务攻击、网络病 毒等,导致网络瘫痪或服务异常。
恶意攻击和欺诈行为可能导致服务质 量下降、用户体验降低或经济损失等 问题。
02
感知数据隐私保护对于保障个人 隐私、维护社会安全具有重要意 义。
移动群智感知网络概述
移动群智感知网络是一种基于移动设备、社交网络和云计算技术的分布式感知网络 。
通过智能手机、平板电脑等移动设备上的传感器,收集环境数据(如温度、湿度、 光照等)并上传至云端进行存储和处理。
移动群智感知网络具有自组织、自适应、高可用性等特点,能够实现大规模、实时 、准确的感知数据采集和处理。
移动群智感知网络中感知数 据隐私保护
汇报人: 日期:
目录
• 引言 • 移动群智感知网络中的隐私威
胁 • 感知数据隐私保护技术 • 移动群智感知网络中的隐私保
护策略 • 实际应用案例分析 • 未来研究方向与挑战
01
引言
背景与意义
01
移动群智感知网络发展迅速,广 泛应用于城市管理、环境监测、 公共安全等领域。
人工智能技术在隐私保护中的应用前景
人工智能技术在隐私保护中的潜力
人工智能技术可以通过对数据的深度分析和模式识别,发现潜在的隐私泄露风险,并提供相应的隐私 保护建议。此外,人工智能技术还可以通过自动化和智能化的方式,提高隐私保护的效率和准确性。
未来研究方向
为了充分发挥人工智能技术在隐私保护中的作用,需要进一步研究和发展相关的技术和方法。这包括 研究如何将人工智能技术与现有的隐私保护技术相结合,以提高隐私保护的效率和准确性;同时,还 需要研究如何确保人工智能技术在隐私保护中的安全性和可靠性。
电脑网络安全中的网络数据溯源研究

电脑网络安全中的网络数据溯源研究网络数据溯源是电脑网络安全领域中的一个重要研究方向。
它指的是通过追踪分析网络上的数据流动路径和处理过程,以确定数据的来源和去向,对网络攻击行为进行追踪与溯源,并采取相应的安全措施,保障网络的安全和稳定性。
1. 网络数据溯源的意义和背景随着互联网的飞速发展,网络攻击的频率和复杂性也在不断增加,因此保护网络安全变得尤为重要。
网络数据溯源作为一种有效的手段,可以帮助我们了解攻击者的行为轨迹,确定攻击源头,从而采取相应的防御措施。
同时,网络数据溯源也对调查取证、网络犯罪打击等领域有着重要的意义。
2. 网络数据溯源的技术方法网络数据溯源主要依赖于以下技术方法:(1)IP地址溯源:通过追踪网络数据包的源IP地址,利用网络路由信息等手段,找出数据的真实来源。
这是一种常用的网络数据溯源方法。
(2)包内容分析:对网络数据包的内容进行深入分析,根据特定的攻击特征、数据格式等进行判定,找出攻击行为的源头。
这种方法对于网络攻击事件的追踪非常有效。
(3)数据流追踪:根据网络数据包的流向,追踪数据的传输过程,找出攻击者与受害者之间的连接关系。
通过分析数据流向、协议等信息,可以进一步揭示攻击行为的来源和路径。
3. 网络数据溯源的应用场景网络数据溯源技术在以下场景中得到广泛应用:(1)网络攻击追踪:当遭受网络攻击时,网络数据溯源的技术可以帮助定位攻击的来源和路径,为进一步的应对措施提供依据。
(2)网络犯罪调查:在处理网络犯罪案件时,溯源技术可以帮助警方追踪犯罪嫌疑人的行踪路径,收集证据,打击犯罪行为。
(3)安全事件响应:在处理网络安全事件时,网络数据溯源可以帮助安全团队快速定位并应对安全威胁,保护网络环境的安全和稳定。
4. 网络数据溯源面临的挑战和解决方案网络数据溯源在实际应用中常常面临一些挑战,如匿名化、数据量大、隐私保护等问题。
为解决这些挑战,我们可以采取以下方案:(1)数据加密和传输安全:采用安全加密算法,保护数据在传输过程中的安全性,防止数据泄漏和篡改。
PrivateCheckIn:一种移动社交网络中的轨迹隐私保护方法
Ab s t r a c t
Wi t h t he de v e l op me nt o f mob i l e d e v i c e s a n d wi r e l e s s ne t wor ks.mob i l e s o c i a l n e t wo r k
H U o Zhe ng M EN G Xi a o — Fe ng H U A N G Yi
( S c h o o l o f I n f o r m a t i o n , Re n mi n Un i v e r s i t y o f C h i n a, Be i j i n g 1 0 0 8 7 2 )
p r e s e r v i n g me t h o d c a l l e d P r i v a t e Ch e c k I n,wh i c h c a n p r o t e c t t r a j e c t o r y p r i v a c y f o r p s e u d o n y m
MS NS,h a s s e r i o u s p e r s o n a l p r i v a c y l e a k a g e t h r e a t s .I n t h i s p a p e r ,we p r o p o s e a t r a j e c t o r y p r i v a c y -
霍 峥 孟小峰 黄 毅
( 中国人民大学信息学院 北京 1 0 0 8 7 2 )
摘 要
移 动设 备 的 发 展 及 无 线 网 络 的 普 及 促 使 移 动 社 交 网络 的 出 现及 发 展 . 签 到 服 务 作 为 移用 , 存在着严重的轨迹隐私泄露风险. 文 中针 对 签 到 服 务 中假 名 用 户 的轨 迹 隐 私 泄 露 问 题 , 提 出 了一 种 轨 迹 隐 私保护方法 P r i v a t e c h e c k I n . 该 方法 设计 了 一 种 签 到 序 列 缓 存 机 制 , 通 过 为缓 存 的 签 到 序 列 建 立 前 缀 树 、 对 前 缀 树 进 行 剪 枝及 重 构 形 成 k 一 匿名 前 缀 树 , 遍历 k 一 匿名前 缀树得 到 k 一 匿名 签到序列 , 达 到 了轨 迹 一 匿 名 的 隐 私 保 护 效 果. 文 中证 明 了 P r i v a t e c h e c k I n方 法 既 能 保 护 假 名 用 户 的轨 迹 隐 私 , 又确 保损失签 到位置最 少 , 有 效 地 保 证 了 用 户 体 验. 通 过 构 建 前 缀 树 的方 式 获 取 轨 迹 k 一 匿 名 集 降 低 了计 算 代 价 . 最后 , 文 中在 真实数 据集 上与 ( k , ) 一 a n o n y mi t y 方 法进 行 了 充 分 的 对 比实 验 , 验证 了 P r i v a t e C h e c k I n方 法 的准 确 性 与有 效性 .
反定位的技巧
反定位的技巧
反定位是指通过一系列技巧或方法来躲避被他人或技术手段定位的行为。
以下是一些常见的反定位技巧:
1. 使用VPN:虚拟私人网络(VPN)是一种通过加密和隧道技术隐藏网络活动的工具。
它可以模拟用户位于不同地理位置,从而隐藏真实的IP地址和位置。
2. 使用代理服务器:代理服务器充当用户和目标网站之间的中间人,隐藏用户的真实IP地址和位置信息。
通过使用代理服务器,用户可以改变自己的地理位置,从而实现反定位。
3. 使用Tor网络:Tor网络是一种通过多层加密和中继节点来隐藏用户真实位置的匿名网络。
通过通过Tor网络,用户的网络活动将被转发并混合在多个中继节点之间,使其难以被追踪。
4. 关闭GPS和Wi-Fi:GPS和Wi-Fi技术可以用于定位设备的物理位置。
通过关闭设备上的GPS和Wi-Fi功能,可以防止被这些技术手段定位。
5. 使用假身份信息:使用假身份信息,如虚拟姓名、虚拟地址和虚拟电话号码,可以在一定程度上混淆和隐藏真实的个人身份和位置。
6. 删除元数据:元数据包含有关文件或数据的信息,如创建时间、地理位置等。
通过删除或修改元数据,可以防止被他人通过这些信息找到或定位。
7. 使用加密通信:使用安全的加密协议和通信工具,如端到端加密的即时通信应用程序,可以确保通信内容和位置信息得到保护,不被他人截取或追踪。
请注意,反定位技巧仅供参考,并不意味着可以完全消除追踪和定位的可能性。
用户需要谨慎使用这些技巧,并确保符合法律法规和个人隐私权的要求。
公共交通业的网络安全与数据保护
公共交通业的网络安全与数据保护在当今数字化时代,公共交通业面临着越来越多的网络安全和数据保护挑战。
随着人们对于公共交通的依赖程度增加,数据的收集、存储和传输成为了不可或缺的环节。
然而,这也给公共交通业带来了一系列的安全威胁和隐患。
本文将探讨公共交通业的网络安全与数据保护,并提出相应的对策。
第一部分:网络安全现状目前,公共交通业面临多种网络安全威胁,其中包括但不仅限于以下几点:数据泄露:公共交通系统大量收集和储存用户的个人信息,包括姓名、支付信息、出行轨迹等,一旦这些数据泄露,会给用户个人隐私带来严重损害。
网络攻击:黑客可以通过攻击公共交通系统的网络,破坏系统正常运行,甚至迫使系统陷入瘫痪,给人们的出行带来不便。
恶意软件:公共交通系统中广泛使用的软件容易受到恶意软件的攻击,这些恶意软件可能窃取用户的个人信息或者扰乱系统的正常运行。
第二部分:数据保护策略为了保护公共交通系统中的数据安全,有以下几点值得注意:强化网络安全防护:公共交通系统应该加强网络安全防护措施,如加密用户数据传输、规范密码设置和定期进行系统安全检测等,以防止黑客入侵和数据泄露。
加强员工教育:公共交通系统的员工应该接受网络安全知识和技能的培训,提高他们对网络安全问题的认识和防范意识,减少由人为失误导致的安全漏洞。
数据分类存储:公共交通系统应根据数据的敏感程度划分等级,并采取相应的存储和保护措施。
如将个人身份信息与支付信息分开存储,确保敏感数据独立存放,减少一旦被攻击的风险。
定期更新软件和硬件:公共交通系统应定期更新软件和硬件设备,确保系统能够时刻保持与最新安全威胁防御技术的同步,及时修补已知漏洞。
第三部分:区块链技术在公共交通业的应用区块链作为一种分布式数据库技术,具备去中心化、公开透明和高度安全的特点,可以为公共交通业提供有效的解决方案。
数据隐私保护:区块链技术可以将用户的个人数据存储在链上,提供匿名化的交易和交互方式,从而保护用户的隐私。
如何追踪和定位恶意IP攻击源
如何追踪和定位恶意IP攻击源随着信息技术的不断发展,网络安全问题越来越受到关注。
恶意IP攻击是网络安全领域中一种常见的攻击方式,对于网络管理员来说,了解如何追踪和定位恶意IP攻击源至关重要。
本文将介绍几种常见的追踪和定位恶意IP攻击源的方法,帮助网络管理员更好地防范和应对恶意攻击。
一、IP地址追踪方法1. 日志分析法日志分析法是追踪和定位恶意IP攻击源常用的方法之一。
网络设备、操作系统和应用程序都会产生各种日志记录,包括网络流量日志、系统日志、安全事件日志等。
通过分析这些日志,可以获得攻击的源IP地址以及其他相关信息。
2. 包分析法包分析法是从网络数据包中获取有关攻击源IP地址的方法。
利用网络抓包软件,捕获数据包并分析其中的源IP地址和攻击特征,可以追踪到恶意IP的来源。
常用的抓包工具有Wireshark和Tcpdump等。
3. Trap技术Trap技术是一种主动追踪和定位恶意IP攻击源的方法。
通过设置诱饵系统,将恶意IP引诱到一个特定的陷阱中,并记录其行为和来源。
这种方法可以提供更加详细的信息,帮助分析攻击者的动机和手段。
二、IP地址定位方法1. ISP协助与互联网服务提供商(ISP)合作,是定位恶意IP攻击源的一种可行方法。
通过与ISP联系,提供攻击发生的时间、目标IP地址等相关信息,并请求其协助追踪源IP。
ISP可以通过自身资源和技术手段,定位到该IP地址所在的网络和地理位置。
2. 地理信息系统地理信息系统(GIS)可以将IP地址与地理位置进行关联,从而定位恶意IP攻击源。
在GIS系统中,可以使用IP地址数据库,根据IP地址的范围和相应区域的经纬度信息,将IP地址映射到具体的地理位置。
3. 合作机构资源一些安全厂商、网络安全研究机构和政府部门拥有大量的网络安全信息资源和数据,可以提供恶意IP的定位服务。
通过与这些机构合作,可以获得更加准确和详细的IP地址定位结果。
三、处理恶意IP攻击的注意事项1. 吊销或封锁恶意IP一旦确定了恶意IP的来源和定位信息,应及时采取措施吊销或封锁该IP,以防止其继续对网络进行攻击。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第42卷 VO1.42 第12期 No.12 计算机工程 Computer Engineering 2016年12月 December 2O16
・安全技术・ 文章编号:1000-3428(2016)12-0133-06 文献标志码:A 中图分类号:TP393
移动轨迹数据去匿名化攻击方法 钟建友,常 姗,刘晓强,宋 晖 (东华大学计算机科学与技术学院,上海201620) 摘 要:为保护移动对象轨迹隐私,轨迹数据集发布前常使用假名对轨迹进行匿名化处理。然而,假名用户的匿名 轨迹仍面临隐私泄露风险。为此,提出一种新的去匿名化攻击方法。攻击者若获得其攻击对象当前或未来任意时 段的若干轨迹片段,则可以此比对匿名历史轨迹数据集,从中识别出攻击对象的历史轨迹。对2组真实移动轨迹 数据进行特征分析,给出基于轨迹特征相似度的去匿名方法。采用改进的词频一逆文档频率方法提取历史轨迹的 特征向量,通过主成分分析降维后,对历史轨迹和攻击者所获得的轨迹片段进行特征匹配,识别出与攻击者所持有 轨迹特征相似度最高的历史轨迹。实验结果表明,所提方法可获得较高的去匿名准确率。 关键词:移动轨迹;假名;轨迹隐私;去匿名化;特征提取
中文引用格式:钟建友,常姗,刘晓强,等.移动轨迹数据去匿名化攻击方法[J].计算机工程,2016,42(12):133—138. 英文引用格式:Zhong Jianyou,Chang Shan,Liu Xiaoqiang,et a1.De—anonymization Attack Method for Mobile Trace Data[J].Computer Engineering,2016,42(12):133-138.
De-anonymization Attack Method for Mobile Trace Data ZHONG Jianyou,CHANG Shan,LIU Xiaoqiang,SONG Hui (School of Computer Science and Technology,Donghua University,Shanghai 201620,China)
【Abstract】To protect the trace privacy of mobile objects,pseudonym is used to the anonymous processing of trace before the release of the trace dataset.However,the anonymous trace of pseudonym users still faces the risk of privacy leakage.This paper proposes a new de—anonymization attack method.If an attacker obtains several track segments of his attack target at present or in any future period,comparing the traces with the anonymous historical trace dataset,the historical traces of the attack target are identified.The characteristics of the real moving track data of the two groups are analyzed,and a de—anonymization method based on characteristic similarity is presented.The feature vectors of history trace are extracted based on improved Term Frequency-Inverse Document Frequency(TF—IDF)method.The dimension I’S reduced by Principal Component Analysis(PCA),and the feature matching is performed on the track segments obtained by the historical track and the attacker,to recognize the historical trace with the highest degree of similarity with the trace characteristics of attackers.Experimental results show that the proposed method can obtain higher accuracy. 【Key words】mobile trace;pseudonym;trace privacy;de—anonymization;feature extraction DOI:10.3969/j.issn.1000—3428.2016.12.024
0概述 移动终端和定位技术的发展,使得随时随地获 取移动对象的精确位置成为可能。将单个移动对象 的一系列时间上相关的位置信息联系起来就形成了 移动轨迹。移动轨迹中通常包含丰富的时空信息, 通过合理的挖掘和分析可获得有价值的信息。例 如,通过对参与车辆GPS轨迹数据的分析,交管部门 可获得有关交通信息,如通过某个路段车辆的行驶 速度判断交通拥挤情况 、路面条件检测 。再比 如,通过分析城市居民(参与者)的日常移动行为轨 迹,可分析城市各板块的功能,从而对未来城市规划
基金项目:国家自然科学基金(61300199,61402101);中央高校基本科研业务费专项资金(2232014D3—21,2232014D3-42);上海自然科学 基金(14ZR1400900)。 作者简介:钟建友(1989一),男,硕士研究生,主研方向为移动网络隐私保护;常 姗(通讯作者),副教授、博士;刘晓强、宋 晖,教授、 博士。 收稿日期:2015—12-07 修回日期:2016-01—13 E-mail:changshan@dhu.edu.ca 134 计算机工程 2016年12月15日 提供指导依据。然而,由于移动轨迹中可能包含参 与者的许多隐私信息,恶意攻击者可根据非法获取 的移动轨迹推测出各类其感兴趣的事件和位置。例 如,推测攻击目标的生活周期或敏感位置,从而可能 严重威胁到参与者的人身和财产安全。然而,基于 对轨迹数据分析的需要,阻止这些信息的访问是不 现实的,同时也无法完全保证数据访问者的合法性。 例如,交管部门可能将车辆GPS轨迹发布给第三方 机构进行数据分析,从而导致轨迹数据进一步泄漏 给恶意攻击者。 本文提出一种移动轨迹数据去匿名攻击方法, 以验证此类攻击的有效性,从而揭示匿名轨迹数据 的隐私风险。对匿名轨迹的特征进行分析,给出一 种改进的词频.逆文档频率方法构造轨迹特征向量, 用于攻击者所持有轨迹与匿名轨迹集合中轨迹的比 对,并使用真实轨迹数据集进行实验。 1 研究背景 为保护轨迹数据隐私,在轨迹数据发布前,需使 用适当的隐私保护技术对轨迹数据进行预处理。目 前常用的方法分为2大类:1)修改原始轨迹,降低轨 迹在空时中的精度(例如,降低记录轨迹的分辨率或 在轨迹中插入噪声),以达到保护隐私的目的,缺点 是数据失真严重、可用性低。2)对轨迹匿名化处理, 即使用假名(pseudonym,具有唯一性的随机标示符) 替代参与者的真实身份,且参与者的真实身份无法 通过任何方式与假名相关联。这种匿名化处理方法 具有容易实现、计算开销低、不改变原始轨迹数据、 可获得最大数据可用性的优点,因而被广泛采用。 然而,尽管假名技术消除了所发布轨迹中参与 者的身份,却不能够有效地保护参与者的位置隐私。 这是因为:1)每个参与者的运动轨迹具有其固有特 征(模式),且短期内不会发生巨大变化。2)匿名轨 迹发布后,参与者的运动仍然会持续发生,其在公共 场所的运动或者踪迹可以通过各种方式被他人观察 到。例如,攻击者可以对其攻击目标实施一段时间 的跟踪,或从社交网络、博客等边信息中推断出攻击 目标的位置。之后,攻击者将其获得的攻击目标的 轨迹或位置与其可访问的匿名轨迹集合中的轨迹进 行特征比对,就可从匿名轨迹中唯一或高概率地识 别出其攻击目标的轨迹。例如,攻击者获得了攻击 目标本周的若干段轨迹及位置,就可能据此比对上 个月发布的匿名轨迹集合,并从中识别出其攻击目 标的历史轨迹。 近年来,研究者们在位置或轨迹隐私保护、访问 控制、风险发现和评估、隐私度量等方面的研究取得 了一些进展 。七.匿名(k-anonymity) ’ 是一种 常见的轨迹隐私保护技术,即对任意一条轨迹,需要 至少k一1条其他轨迹被转换成完全相同的匿名轨 迹来构成一个匿名轨迹集合。攻击者在没有背景知 识的情况下只有1/k的概率猜到参与者的真实轨 迹。隐藏技术(cloaking)¨ 。 通过降低记录数据的 时空精度或添加噪声数据等措施削弱轨迹中连续点 的依赖性,在一定程度上保证了轨迹的真实性。然 而,这些技术往往导致匿名过程中不必要的信息损 失,降低轨迹数据的可用性。假名技术 使用唯一 的随机标示符替代参与者的真实身份,并确保随机 标示符与参与者的真实身份问不存在关联关系。 轨迹隐私风险发现方面,文献[15]提出,攻击者 可能从边信息中获得攻击目标的若干位置信息(这 些位置发生在待识别匿名轨迹所在时间段内),并据 此从匿名轨迹集中推断出攻击目标的完整历史轨 迹。文献[16]提出了一种车载自组网节点中轨迹隐 私攻防博弈模型,给出攻击和防御策略,分析了攻防 双方之间的博弈过程。文献[17]从大规模移动通信 数据中分析了匿名位置的泛化程度与用户隐私信息 泄漏的关系以及边信息,特别是社交网络对缩小匿 名集合、增加隐私风险的影响。文献[18]针对流行 的用户轨迹隐私保护方法Silent Cascade,提出一种 新的轨迹隐私度量方法,将用户运动轨迹用带权无 向图描述,从信息熵的角度计算用户的轨迹隐私 水平。
2基本定义与问题描述 给出本文所面对的移动轨迹数据的基本结构。 其来源主要为车联网、移动社交网络等新兴互联网 应用,有如下描述: 定义1(移动轨迹数据集) 存储大量移动对象 在不同时间采样点的位置信息,构成移动轨迹数据 集D ={V,F,L},其中,V={v ,v ,…,v }表示数 据集中的移动对象集合;位置点在时间上的有序集 合称为轨迹,厂={TR.,TR ,…,TR }表示移动对象 所产生轨迹的集合,TR 表示厂中移动对象v 所生 成的轨迹;L:{P.,P 一}为位置采样点的集合。 定义2(位置数据记录) 单个位置数据记录P 主要包含移动目标v、地理坐标(X,Y)(经度和维度) 和记录时间t,可用四元组表示为P=(v,X,Y,f)。一 般地,将移动对象v 的第.『条位置记录为P;vi),在不 影响理解的情况下可直接写作P 。 定义3(轨迹序列) 移动对象v,的原始轨迹序 列TR 由其移动中的所有位置数据记录构成时空序 列P1---,p2一…一p (1≤i≤n),其中,lenf表示豫f 的长度;p,一p…一…一p…(1≤ ≤…≤ +k≤lenf) 称为TR 的子轨迹。