大数据隐私保护技术综述_方滨兴
大数据安全与隐私保护

息 ,个人信息就 已经 全面 暴露在 了别人 的目光 下。可 以说 ,大数据 时代 让人们变成 了一个透 明体,时时刻刻都处于 隐私 可能被暴露的状态
下 。
对 于大 数据 隐私 保护 问题 而 言,堵不 如 疏 ,越是强制性地禁止企业及相关组织利 用隐 私数据 ,它们越是会为 了利益而暗地里进行使 用 ;而如果不 强制性地禁 止这一行为,反而对
1.3 大数 据 时代 下 隐 私 的 泄 漏 途 径 更 加 隐 匿
3
.
1加
强
隐
私保Байду номын сангаас
护机
构
建设
大数据 的 出现无 疑 方便 了人们 的 工作和
目前 ,美 国、俄 罗斯 、 日本 等发 达 国家
生活 ,它最大的魅力就在于数据 的多维性及数 已经设立 了比较完善的隐私保护机构 ,用于专
据之 间的关联性和交叉性 ,这让一些原本看起 门保 护包括网络隐私在 内的各种隐私 内容。这
隐 患就在 于可 能会泄漏用户的个人 隐私 。对 于 这 点,大数据还 需要加强安全措施 ,保护用 户 隐私 。
1大数据时代 下隐私的新特点
1.1大 数 据 时代 下 的 隐私 为数 据 化 隐 私
在 大数 据 时代 下, 隐私也 有其 独特 的特 点 。与传 统的隐私不同 ,大数据时代 下的隐私 最 大 的特 点就 是 隐 私 的 数 据 化 ,也 即是 说 隐私 是 以个人数据 的形式而 出现 的。所谓 “个 人数 据 ”, 指的就 是被 识别 或可识 别的 自然人 的 任何信 息。对 于人们的个人 隐私来说 ,数据 是 其在 网络环境 中的唯一载体 。而相较于 以往 人 们认知 中的网络 数据 而言,大数据 的规模更加 庞 大,是 一种 具 有 “4V”特 征 的数据 集 合, 这说 明了大数 据的真实可靠性 ,同时也代表 着 可 以对个人进 行全方位识别 。例如近年来所流 行 的一个 词汇 “人肉搜索 ”,指的就是利用大
大数据安全隐私保护技术研究

大数据安全隐私保护技术研究随着大数据时代的到来,越来越多的数据被存储和处理,数据的价值也在不断提高。
同时,随着互联网的迅速发展,数据泄露和网络安全的问题也日益突出。
因此,大数据安全隐私保护技术研究成为了当前亟待解决的问题。
一、大数据安全隐私保护技术概述大数据安全隐私保护技术是指保障大数据安全性和隐私性的技术。
它可以帮助企业和组织保护其数据免受黑客攻击和数据泄露的风险。
该技术可以实现数据保密性、完整性、可用性和可验证性等方面的保护,更好地保护用户的隐私和数据安全。
二、大数据隐私保护技术的研究重点目前,大数据隐私保护技术的研究主要包括以下几方面:1. 数据加密技术。
这种技术可以实现数据的加密存储和加密传输,对数据进行安全保护。
对于加密后的数据,只有合法的解密方能够解密。
2. 数据脱敏技术。
这种技术可以保护个人敏感数据,比如姓名、手机等隐私信息,在不影响数据业务效果的前提下,将其转换为安全化的标识信息。
3. 数据授权和访问控制技术。
该技术可以通过访问控制机制,限制非法获取数据的操作,保障数据的安全性与隐私性。
4. 隐私保护技术的隐私度量。
为了评价隐私保护技术的好坏,需要对其进行评价指标的选择和建立量化的评价体系,从而能够更好地理解、测量、评估数据隐私保护的能力。
三、大数据隐私保护技术的应用大数据隐私保护技术的应用非常广泛,主要包括以下几个领域:1. 金融领域。
利用大数据技术可以更好地分析用户的消费行为,为金融行业提供更加精确的财务信息,并将相关数据加密存储和加密传输,保护用户隐私信息。
2. 医疗领域。
大数据技术可以带来丰富的医疗数据信息,但同时也涉及到患者的隐私信息保护问题。
通过采取数据脱敏和数据加密等措施来实现患者隐私信息的保障。
3. 社交领域。
社交平台是大数据隐私保护技术应用的重要领域之一。
通过对用户隐私信息进行脱敏,并对用户的个人信息加密传输,保护社交用户的安全和隐私。
四、结论在大数据应用的浪潮下,数据安全与隐私保护问题尤为重要。
大数据时代的隐私保护技术与措施

大数据时代的隐私保护技术与措施随着互联网的普及和信息技术的飞速发展,大数据时代已经来临。
在这个时代,数据成为了一种无处不在的资源,它们可以被收集、存储、分析,并被用于决策和预测。
但是,随着数据的积累和使用,隐私问题也变得越来越关键。
数据隐私泄露导致的个人信息和财产损失对个人和组织来说都是无法承受的。
为了保护用户的隐私,大数据时代需要采用更加严格的隐私保护技术和措施。
一、隐私保护技术1. 数据脱敏数据脱敏是一种常用的隐私保护技术。
它的基本思想是通过对敏感字段进行随机替换或者加密算法等技术来达到去除敏感信息和保留数据相关性的目的。
在进行数据脱敏时,需要统计分析整个数据集的模式和规律性,只要数据仍能保留重要的统计学特征,而且个人隐私得到的保护,就可以得到满足。
2. 数据加密数据加密是另外一种常用的隐私保护技术,它通过对数据流,存储器和设备等等信息进行物理加密或软件加密,来使得攻击者无法获取到数据的内容。
加密使用了许多不同类型的算法和技术,这些加密技术可以保护对称密钥,公共密钥,数字签名,SSL/TLS等等机制。
3. 匿名化在实际应用中,很多场景下需要向数据消费者提供的是统计数据,例如商业报告等。
在这种情况下,匿名化是一种很好的选择。
匿名化是一种去除用户信息中可识别单独身份的方法,只保留信息的统计特征和总体趋势,而不涉及个别人或组织的事件,这样做能避免个人隐私泄露的问题。
4. 控制数据访问访问控制是一种重要的隐私保护措施,能够限制有权的用户或者用途来访问数据。
在数据存储和管理系统中,访问控制可以通过管理和设置权限,来限制数据的使用范围。
通过访问控制能够解决许多数据隐私安全的问题。
二、隐私保护措施1. 加强政策和监管一个严格的政策和制度是确保数据隐私得到保护的关键。
为了避免数据诈骗、数据泄露和个人隐私暴露的问题,需要制定一系列合理的政策和制度,并且加强监管。
这些制度可以确保数据保护法规得以遵守,也可以使得数据被正确管理,从而保护数据隐私的安全。
大数据隐私保护技术研究综述

大数据隐私保护技术研究综述随着人们对数据的渴望和需要的增长,大数据正在成为各种应用程序的核心。
大数据自上世纪90年代以来一直是一个热门的话题,随着技术的进步和价格的下降,大数据的规模和影响力正在迅速扩大。
尽管大数据有无限的潜力来提高商业和社会效率,但它也带来了个人隐私和安全性问题。
在这篇文章中,我们将探讨大数据隐私保护技术研究的进展和挑战。
一、大数据隐私保护技术的意义大数据隐私保护技术的意义在于,为人们提供保护他们的个人隐私的工具,并确保在收集和处理他们的数据时,他们的隐私得到保护。
这些技术是为了保护人们的隐私信息和敏感数据而设计的。
二、大数据隐私保护技术的挑战目前,大数据隐私保护技术有很多挑战,包括以下几个方面:1. 数据误处理:由于数据的质量和规模巨大,数据误处理可能导致隐私信息泄露。
2. 隐私攻击:某些人可能会试图通过攻击网络或机器来获得个人隐私和敏感数据。
3. 数据共享:共享数据可能会导致数据丢失或泄露。
此外,一些共享数据程序可能会发布不良数据,对个人隐私和敏感数据造成威胁。
三、隐私保护技术的现有方法当前,有几种大数据隐私保护技术,包括:1. 数据加密:这是一种将数据加密以保护个人隐私的技术。
但数据加密还是需要密钥来解密,因此这种方法并不能完全保护数据安全。
2. 匿名生成:在这种方法中,数据被通过处理使其失去个人身份的特定信息。
但是,该过程并不完全保证隐私。
3. 数据共享:数据共享可将数据分散到多个数据点,并通过解密技术将其重新组合。
然而,这种技术也有一些安全隐患。
四、新兴技术为了增加保护隐私的能力,许多新兴技术正在慢慢的应用到大数据隐私保护技术中,这些新兴技术包括:1. 分布式计算:在分布式计算中,数据是在一组互相通信的计算机上处理的,其中每个计算机只是对收到的数据做预处理,而不是储存整个数据集。
因此该方法有效减少了数据泄露的风险。
2. 数据模糊化:数据模糊化是将个人数据处理成无法被直接使用的形式,以便保护个人隐私和敏感数据。
大数据分析中的隐私保护技术

大数据分析中的隐私保护技术随着数字化时代的到来,大数据分析成为了许多企业和组织的重要工具。
大数据分析的目标是从庞大的数据集中提取有价值的信息,并为企业决策和创新提供支持。
然而,这种数据分析活动也带来了隐私保护的挑战。
隐私保护技术是为了保护个人隐私而开发的一系列方法和工具。
本文将介绍一些在大数据分析中常用的隐私保护技术。
一、数据匿名化技术数据匿名化技术是一种广泛应用于大数据分析中的隐私保护方法。
它的目标是通过去除或替换个人身份相关的信息,使得数据不再可识别。
数据匿名化技术可以分为两种类型:一种是全局匿名化,即对整个数据集进行匿名化处理;另一种是局部匿名化,即对数据集中的特定属性进行匿名化处理。
常用的数据匿名化技术包括泛化、抽样和加噪。
1. 泛化泛化是一种常用的数据匿名化技术。
它通过降低数据的精确度,将具体的数值替换为范围、类别或模糊的概念,从而达到匿名化的目的。
例如,将年龄信息从具体的数值替换为年龄段,将住址信息替换为所在地区。
2. 抽样抽样是另一种常见的数据匿名化技术。
它通过从原始数据集中随机选择一部分数据进行分析,而不是使用全部数据集。
抽样可以使得敏感个人信息的泄露风险降低,同时保持较高的数据分析效果。
3. 加噪加噪是一种常用的数据匿名化技术,它通过向原始数据中加入一定程度的噪声,使得个人敏感信息无法被还原。
加噪可以采用随机噪声、拉普拉斯噪声或高斯噪声等方式进行。
二、差分隐私技术差分隐私是近年来出现的一种新型隐私保护技术。
它通过在数据发布前对原始数据进行一定的扰动,以保证个人隐私的保密性。
差分隐私具有数学上的严格隐私保护定义,能够有效防止针对个别数据的推断攻击。
差分隐私技术的核心思想是在数据发布前为每个个体增加一定的噪声。
这种噪声能够混淆个体的贡献,使得外部用户无法确定任何个别数据的敏感信息。
差分隐私技术的优势在于能够提供一定的隐私保护强度,并保持数据集的可用性和分析效果。
三、安全多方计算技术安全多方计算技术是一种在大数据分析中广泛应用的隐私保护技术。
大数据隐私保护技术综述

大数据隐私保护技术综述随着互联网和信息技术的迅猛发展,大数据已经成为当今社会的重要组成部分。
大数据的广泛应用给我们的生活带来了很多便利,但与此同时也引发了对个人隐私保护的关注。
本文将综述当前主流的大数据隐私保护技术,以期为读者提供全面了解和掌握这一领域的基本知识。
一、隐私保护的重要性隐私是每个个体的基本权利,而大数据技术的广泛应用导致了我们个人隐私受到了前所未有的挑战。
在不合理收集、使用和传播个人信息的情况下,个人的隐私可能会受到泄露和滥用。
因此,保护个人隐私成为了当今社会亟待解决的问题,也是大数据发展的一项必要工作。
二、大数据隐私保护技术概述目前,有许多隐私保护技术被广泛研究和应用于大数据场景中。
下面将介绍几种主流的大数据隐私保护技术。
1. 数据匿名化数据匿名化是一种广泛应用的隐私保护技术,通过对个人敏感信息进行去标识化处理,以保护个体的隐私。
其中最常见的方法是k-匿名算法,即将一组数据中的每个个体与至少k-1个其他个体的属性信息进行混淆,使得个体的身份无法被唯一确定。
2. 访问控制访问控制是一种用于限制数据访问权限的技术。
通过建立访问控制策略和权限管理机制,只有经过授权的用户才能够访问敏感数据。
这种技术可以有效地保护大数据中的个人隐私,避免未经授权的访问和使用。
3. 加密算法加密算法是一种广泛应用的数据保护技术,通过对数据进行加密处理,使得未经授权的用户无法获取明文数据。
对于大数据场景,常用的加密算法包括对称加密和非对称加密。
对称加密使用相同的密钥对数据进行加密和解密,而非对称加密使用公钥和私钥进行加密和解密。
4. 差分隐私差分隐私是一种在数据发布过程中保护个人隐私的技术。
它通过向数据添加噪声的方式,在保持数据可用性的同时,混淆和隐藏了个体的敏感信息。
差分隐私技术在保护个人隐私的同时,仍能够提供对数据的有效分析结果。
三、大数据隐私保护技术的挑战尽管大数据隐私保护技术已经取得了一些进展,但仍然存在一些挑战。
北邮防火墙之父方滨兴请辞校长职务不是行政之殇

北邮防火墙之父方滨兴请辞校长职务不是行政之殇北京邮电大学校长、中国网络防火墙之父方滨兴在今年本科生毕业典礼讲话,称由于过度透支身体,没有足够时间补充,一场大病让他失去能够通宵达旦工作资本,不能再像过去双肩同时挑起学术、管理两副重担。
于是他向主管部门提出不再连任北邮校长。
(6月27日人民网)方滨兴的辞职既让人惋惜,又在意料之中。
他1960年出生,今年54岁,在学术生涯黄金期却让工作拖坏了身体,实在让人惋惜;意料之中,是因为2016年9月,北邮新生开学典礼,他就因为身体原因,不能参加他“视为人生巨大荣誉”的作为校长亲自为新生讲话,只能委托副校长代为发言,可见他的身体早已拉起警钟。
那么,方滨兴辞任北邮校长,是否是官方有可能会宣称的“北邮的损失”?笔者认为这不但不是北邮“行政之殇”,反而是中国“学术之幸”。
方滨兴是中国互联网信息安全技术,中国历来都有“学而优则仕”的传统,学问做大了,就让你去做官。
方滨兴47岁(xx年)岁即担任以通信工程著称的北邮校长可见他当时的学术成就已经很大。
然而,他遇到了国内其他业务出身的大学校长同样的问题:如何协调行政和学术的关系,更何况方滨兴所从事的互联网信息安全研究日星月异,一不小心就要落伍。
作为国家计算机网络应急技术处理协调中心主任和信息产业部互联网应急处理信息协调办公室主任,关系到国家互联网信息安全的战略问题,他肩上所承担的压力可见有多大,再加上北邮校长的行政工作,“通宵达旦工作”对他来说应该是“家常便饭”,虽然有自由泳的兴趣爱好(可参照2016年本科生毕业典礼讲话),无奈时间有限,及至“一场大病让我失去了能够熬夜奋战的资本”。
我们不反对方滨兴担任北邮校长,但往往“鱼和熊掌不能兼得”,要么放弃学术多花时间在校长行政事务上,反正凭校长的行政权力衍生的学术权力完全可以弥补学术工作的“懈怠”;要么一如既往的专心学术研究,学校校长的管理工作能应付就应付。
前一种对视学术为性命的讲师学者是一种折磨,后者只会让自己在校长位置上“在其位不谋其政”,方斌兴显然选择了第三种方案:两手抓,两手都要硬,最后累垮了身体。
精辟!方滨兴院士对国家信息安全保障体系再解读

糯辟联想网御缔造信息安全第~品牌本期特稿第貌届中国信息安全发展趋势与战略高层研讨会方滨兴院士对国家信息安全保障体系再解读长效机制。
二是两个原则,第一个原则是积极预防、综台防范,第二个原则是立足国情、适度安全。
三是三个要素,即人才、管理、技术。
四是核心能力,包括法律保障能力.基础支撑能力、舆情驾驭能力和国际影响能力。
五是五项主要的技术工作,包括风险评估与等级保护,监控系统,密码技术与网络信任体系、应急机制、灾备。
在阐述“一个机制”时,方院士认为,机制一定要是一个完善的长效机制。
在组织上,机制上,经费支撵上都要有保证。
组织上,过去是国家信息化领导小组里有一个专门的国家网络与信息安全协调小组负责,现在由工信部里的信息安全协调司以及国家信息化专家咨询委员会负责。
关于咨询委员会,国务院领导明确表示,国家信息安全咨询专家是国家的信息安全专家,咨询委员会今年换届,工信部代管,同时也可以做工信部的顾问。
从机制上很明确,齐抓共管,也就是说谁建设谁负责,谁主管谁负责。
在资金投入上由发改委负责,在我们各方面的推动下,原来仅仅限于信息中国工程院院士方滨兴安全产品,现在又增加了信息安全服务、信息安全标准、信息安全的示范(本刊讯)在《信息安全与通信保密》杂志社4工作方面的投入。
科技部还有个“863”,每年都有一笔资金。
自然基金委月22日举办的“第九届中国信息安全发展趋势与也有一些重大专项等等。
战略高层研讨会”上,北京邮电大学校长,中国在解读两个原则时,方院士指出,第一个原则是积极防御、综合防范。
工程院方滨兴院士,精辟地解读了{<国家信息安这点比较清楚地论述了信息安全和信息化的关系。
积极防御当然有多种含全保障体系》,在与会嘉宾中产生了强烈的反响。
义,我们不提倡主动攻击,但是掌握攻击技术是防御所需要的。
真正意义方院士首先表示,现在再来谈氍国家信息安上的“积极防御”,是指一旦出现一个新的技术,我们就立即要想到研究全保障体系)).似乎有点过时。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
护,需要对隐 私数 据进行 量化。在隐 私数 据的量化 过 程中,需要综 合考虑用户的属 性、行为、数 据的属性、传播途径、利用方 式等因素,并对隐私数 据的计算和变更有 很好的支撑。
2.2 大数据生命周期的隐私保护模型
在 大 数 据发布、存 储、挖 掘 和使 用的 整 个 生命周期 过 程中,涉及 数 据发布者、数 据 存 储 方、数 据 挖 掘 者 和 数 据 使 用者 等 多 个 数 据 的用户,如图1 所 示。在 大 数 据 生命 周期的各个阶段,大数 据隐私保 护模型各 部分的风险和技术如下所述。
Key words
big data, privacy preservation, data dissemination, data mining, data access
2016001-1
2 BIG DATA RESEARCH 大数据
1 引言
1 https:// / wiki/Privacy
大 数 据 蕴含着巨 大的商业价值,目前 各 行 各业 都 在 做 大 数 据 分 析 和 挖 掘 ,企 业、运营商等 在各自拥有的数 据或互联网 上发布的数 据中发掘潜在价值,为提高自 己的利润或达到其他目的服务。然而,在享 受 大 数 据 挖 掘 得 到的 各种各 样 有价 值 的 信 息给生产、生活带来便利的同时,也不可避 免 地 泄 露了人们的隐 私。例 如,亚马逊 公司 推 出了“未下单先调货”计 划,利 用大 数 据 分析技术,基于对网购数 据的关联挖掘分 析,在用户尚未下单前预测其购物内容,提 前发出包裹 至转运中心,缩短配 送时间, 但如果处理不好,很可能会泄露大量 用户 的 隐 私;医 院 在 给 疾 病 控 制中心 等 研 究 部 门提 供大数 据,进行疾病预防和决策时, 如果不进行数 据处理,则会泄露病人的隐 私信息;上市公司在 发布自己财务年报 或 其他 新产品信息时,如果不对发布的数 据 进行适当处理,就会 给商业 上的竞争者以 可乘之机。
FOCUS 聚焦 1
大数据隐私保护技术综述
方滨兴1,2,贾焰2,李爱平2,江荣2 1. 北京邮电大学,北京 100876;2. 国防科学技术大学计算机学院,湖南 长沙 410073
摘要
大 数 据 分析带 来 的 隐 私 泄 露 问 题日趋 严重,如 何 在 利用 大 数 据为各 行各业 服 务 的 同 时,保 护 隐 私 数 据 和 防 止敏感信息泄露成为新的挑战。大数据具有规模大、来源多、动态更新等特点,传统的隐私保护技术大都已 不 再适 用。为此,给出了大 数 据 时代的 隐 私 概 念 和 生 命周 期 保 护 模 型;从 大 数 据 生 命周 期 的 发布、存储、分 析 和 使 用 4个 阶 段出 发,对 大 数 据 隐 私保 护中的 技 术 现 状 进行了分 类 阐 述,并对 各 技 术 的 优 缺 点、适 用范 围 等 进行分析;对 大 数 据 隐 私保 护技术 发 展的方向和 趋 势 进行了阐 述。
图 1 大数据隐私保护生命周期模型
2016001-3
4 BIG DATA RESEARCH 大数据
匿名、t - clo s e n e s s 匿名、个 性化 匿名、 m -inva ria n ce匿名、基于“角色构成”的匿 名等方 法,可以实现 对发布数 据时的匿名 保 护。在大 数 据的环 境下,如何 对 这 些 Байду номын сангаас 术进行改进和发展,以满足大数 据发布的 隐私保护需求,是需要着重研究的内容。
如何 在不泄 露用户隐 私的前 提下,提 高大 数 据 的 利 用率 ,挖 掘 大 数 据 的 价 值 , 是目前大数 据研究领域的关 键问题,将直 接关系到大数据的民众接受程度和进一步 发 展 趋 势。具体而言,实 施大数 据环境下 的隐私保 护,需要在大数 据产生的整 个生 命周期中考虑两个方面:如何从大数 据中
(2)数据存储 在大数 据时代,数 据存储方一般为云 存储平台,与传统数 据的 拥有者自己存储 数 据不同,大数 据的存储者和拥有者是分 离的,云存储服务 提 供商并不能保证是完 全可信的。用户的数 据面临着被不 可信的 第三方偷窥数 据或者篡改数 据的风险。加 密 方 法 是 解 决该问题 的 传 统 思 路,但 是 , 由于大 数 据的查 询、统计、分析和计 算等 操作也需要在云端 进行,为传统加密技 术 带来了新的挑战。比如,同态加密技术、混 合加 密 技 术、基于 B L S短 签名P O R 模 型、 D P D P、K n o x 等 方 法,是 针对 数 据 存 储 时 防止隐私泄露而采取的一些方法。 (3)数据挖掘 数 据挖掘者即从发布的数 据中挖掘 知 识 的人 或 组 织 ,他 们 往 往希望 从 发 布 的 数 据中尽可能 多地分析 挖 掘出 有价 值 的 信 息,这很可能会分析出用户的隐私信息。在 大数 据环境下,由于数 据存在来源多样性 和 动 态 性 等 特点,在 经 过 匿名等 处 理 后的 数 据,经 过 大 数 据 关联 分析、聚类 、分类 等 数 据挖 掘方 法后,依然可以分析出用户的 隐 私。针对数 据挖 掘的隐 私保 护 技 术,就 是 在 尽可能 提高大 数 据 可用性 的 前 提下, 研 究 更 加 合 适 的 数 据 隐 藏 技 术 ,以 防 范 利 用数 据发 掘 方 法 引发 的 隐 私 泄 露。现 在 的主要 技 术包 括:基 于 数 据 失 真 和 加 密 的 方 法,比 如 数 据 变 换 、隐 藏、随 机 扰 动、平 移、翻转等技术。 (4)数据使用 数据使用者是访问和使用大数据以及 从大数 据中挖 掘出信息的用户,通常为企
例 如,病人 的患病 数 据、个人 的 位 置 轨 迹 信息、公司的财务 信息等 敏感数 据都 属于隐私。但当针对不同的数 据以及数 据 所有者 时,隐 私的定 义也会 存 在 差 别[2]。例 如,保守的病人会视疾病信息为隐私,而开 放的病人却不视 之为隐私;小孩子的定位
FOCUS 聚焦 3
信息 对于父母而言不是隐私,对于其他人 而言却是隐私;有些用户的数 据现在是隐 私,可能几十年后就不是隐私。从隐私的类 型划分,隐私可划分为五大类。
随着智慧城市、智慧交通、智能家居、智 能电网、智慧医疗、在线社交网络、Web 3.0 等 数字 化技术的发展,人们的衣食住行、 健康医疗等 信息被数字化,可以随时随地 通过海量的传感 器、智能处理设备等终端 进 行 收 集 和 使 用,实现 物 与 物、物 与人、人 与人等之间在任 何时候、任 何地点的有 效 连接,也促成了大数据时代的到来[1]。
(1)数据发布 数据发布者即采集数据和发布数据的 实体 ,包 括 政 府 部门、数 据 公司、网 站 或 者用户等。与传统针对隐私保 护进行的数 据发布手段相比,大数 据发布面临的风险 是大数 据的发布是动态的,且针对同一用 户的数 据 来源众多,总量巨 大,如何 在 数 据发布时,保证 用户数 据可用的情况下, 高效、可靠 地去掉可能泄 露用户隐 私的内 容,是 亟待 解决的问题。传统针对 数 据的 匿名发布技术,包括k -匿名、l-diversity
Abstract
Privacy disclosure issue becomes more and more serious due to big data analysis. Privacy-preserving techniques should be conductive to the big data applications while preserving data privacy. Since big data has the characteristics of huge scale, numerous sources and dynamic update, most traditional privacy preserving technologies are not suitable any more. Therefore, the concept of privacy and life cycle protection model of big data era were introduced firstly. Technical state of big data privacy preservation was elaborated from the points of view of four stages in big data life cycle, i.e. data publishing, storage, analysis and use. The relative merits and scope of application of each technology were investigated as well. Finally, some important direction and tendency of privacy preservation technologies for big data were suggested.
Privacy preservation in big data: a survey
FANG Binxing1,2, JIA Yan2, LI Aiping2, JIANG Rong2 1. Beijing University of Posts and Telecommunications, Beijing 100876, China 2. School of Computer, National University of Defense Technology, Changsha 410073, China
2 大数据隐私概念与表示模型
2.1 隐私的概念及量化
在维 基百科中,隐 私的定义是 个人 或 团体 将自己 或自己的属性隐藏 起 来的能 力,从而 可以选择性地 表 达自己1。具体什 么被界定为隐 私,不同的文化 或个体可能 有不同的理 解,但 主体思想是一致的,即 某 些 数 据 是 某 人(或团体)的隐 私时,通常 意 味 着 这 些 数 据对他们 而 言是 特 殊的或 敏 感的。综上所述认为,隐私是可确认特定个 人(或 团 体)身份 或 其 特 征 ,但 个人(或 团 体)不愿 被暴露的敏 感 信息。在具体应 用 中,隐私即用户不愿意泄露的敏感信息,包 括用户和用户的敏感数据。