对现有基于隐私保护的攻击: 进行数据挖掘和数据发布的一项调查

合集下载

数据挖掘中的数据隐私与安全保护

数据挖掘中的数据隐私与安全保护

数据挖掘中的数据隐私与安全保护数据挖掘是一种通过分析大量数据来发现隐藏模式、关联和趋势的技术。

然而,随着数据的不断增长和互联网的普及,数据隐私和安全保护的问题也日益凸显。

在数据挖掘过程中,我们通常需要收集、存储和处理大量的个人数据。

这些数据包括个人身份信息、偏好、购买记录等,具有极高的敏感性。

因此,数据隐私保护成为了一个必不可少的问题。

首先,数据挖掘中的数据隐私问题主要表现在数据收集和存储环节。

为了进行数据挖掘,我们需要从用户那里收集大量的个人数据。

然而,如果这些数据未经充分保护,就可能导致个人隐私的泄露。

因此,在数据收集过程中,我们必须遵循一系列的隐私保护原则,如数据匿名化、脱敏处理等。

其次,数据挖掘中的数据隐私问题还涉及到数据处理和分析阶段。

在这个阶段,我们通常需要对数据进行加工和处理,以便发现其中的模式和规律。

然而,如果不加以妥善处理,这些数据可能会暴露用户的个人信息。

因此,在数据处理和分析过程中,我们必须采取一系列的安全措施,如数据加密、访问控制等,以确保数据的安全性和隐私性。

此外,数据挖掘中的数据隐私问题还涉及到数据共享和交换环节。

在一些情况下,我们需要将数据共享给其他组织或个人,以便进行更深入的分析和研究。

然而,如果没有进行适当的隐私保护措施,这些共享的数据可能会被滥用或泄露。

因此,在数据共享和交换过程中,我们必须确保数据的安全传输和访问控制,以避免数据隐私的泄露。

为了解决数据挖掘中的数据隐私和安全保护问题,研究者们提出了许多有效的解决方案。

例如,差分隐私技术可以在保护数据隐私的同时,仍然能够提供有意义的数据分析结果。

另外,多方安全计算技术可以在不暴露原始数据的情况下,进行安全的数据处理和分析。

这些技术为数据挖掘中的数据隐私和安全保护提供了重要的支持。

然而,尽管有了这些解决方案,数据隐私和安全保护仍然是一个长期而且复杂的问题。

随着技术的不断发展和数据的不断增长,新的隐私和安全威胁也会不断涌现。

隐私保护的分布式关联规则挖掘算法研究的开题报告

隐私保护的分布式关联规则挖掘算法研究的开题报告

隐私保护的分布式关联规则挖掘算法研究的开题报告一、选题背景与意义随着现代信息技术迅速发展,大数据时代已经到来,人们更加依赖于互联网和移动设备进行数据的交换和处理。

然而,这种数据交换和处理行为也给个人隐私带来了风险。

随着个人敏感信息泄露事件的频发,人们对隐私保护的需求也越来越强烈。

在这种情况下,如何保护用户隐私信息成为面临重大挑战的问题。

为了保护隐私,已经有很多的研究着手将数据挖掘技术和隐私保护相结合。

由于大规模数据往往存储于分布式系统中,因此分布式关联规则挖掘成为了一种非常有前景的方法来解决个人隐私保护问题。

本文选择了隐私保护的分布式关联规则挖掘算法研究作为研究课题。

该课题有助于促进隐私保护研究、大数据安全研究、社会区域隐私保护等多个领域的交叉发展,在更好地理解大数据安全与隐私保护问题的基础上,提出更为有效的算法解决方案,维护人们的隐私权益,推动信息安全保障的进一步发展。

二、国内外研究现状和发展动态在隐私保护的领域,已有很多的研究人员投入到这个领域中,尝试解决隐私保护的问题。

然而,轻量级加密技术、差分隐私、homomorphic encryption等技术,虽然在一定程度上解决了隐私保护的问题,但这些技术通常需要修改数据本身,导致数据不能准确地表达用户的实际需求。

与此同时,数据挖掘技术大量应用于隐私保护领域。

其中,关联规则挖掘技术是一种比较流行的技术。

但由于数据往往存储于分布式系统中,如何在分布式环境下进行关联规则挖掘成为了当前研究的难点。

在国际上,已有许多学者提出了相应的分布式关联规则挖掘算法,为解决该问题提供了一定的参考。

然而,在国内该领域的研究相对较少,需要进一步探索和深入研究。

三、研究内容和方法本研究主要关注隐私保护的分布式关联规则挖掘算法,并在此基础上提出有效的算法策略,旨在解决该领域的研究难点。

具体来说,包括以下内容:1. 分析隐私保护的分布式关联规则挖掘技术;2. 分析隐私保护的数据挖掘算法;3. 研究基于隐私保护机制的关联规则挖掘算法,提出一种有效的分布式算法模型;4. 设计和实现隐私保护的分布式关联规则挖掘算法;5. 评估该算法的效果和性能,并进行比较分析。

基于博弈论的隐私保护分布式数据挖掘

基于博弈论的隐私保护分布式数据挖掘

P r i v a c P r e s e r v i n D i s t r i b u t e d D a t a M i n i n B a s e d o n G a m e T h e o r y g g y
G E X i n i n HU J i a n i n - Z -m j g g
两个参与者的隐私保护数据挖掘博弈分析参与者p2准诚信攻击恶意攻击参与者p1准诚信攻击00在该博弈中即在数据挖掘算法执行过程中若只有一个参与者是恶意攻击的虽然不能得到正确的数据挖掘结果但该恶意攻击参与者可以获得某些额外的利益而且该利益大于正确得到数据挖掘结果的利益此时博弈的纳什均衡是恶意攻击恶意攻击则由于博弈双方互相不信任所有参与者均是恶意攻击者从而无法得到正确的数据挖掘结果却浪费了大量的数据挖掘成本合作无法进即在数据挖掘算法执行过程中若只有一个参与者是恶意攻击的虽然不能得到正确的数据挖掘结果但该恶意攻击参与者可以获得某些额外的利益但该额外利益小于得到正确数据挖掘结果的利益这种假设也是符合实际的因为大多数情况下合作进行数据挖掘的目的是为了得到正确的数据挖掘结果而非额外的其它利益则该博弈存在两个纯战略纳什均衡
2] , 义[ 但是其理论依据 是 什 么 ? 同 时 需 要 注 意 的 是 准 诚 信 攻
击是否能阻止参与者之间的共谋行为 ? 因为准诚信攻击只 是 假设参与者能够正确地执行算法或协议的内容, 并没有假定 参与者之间不允许共谋 , 那么在准诚信攻击的假设下 , 参与 者 的最优策略是共谋还是非共谋策略呢 ? 本文针对上述问题 , 基于收益最大化 , 利用博弈论的方 法 进行了研究 , 并得出了如下结论 : 数据挖掘在满足一定的条 件 下, 参与者采取准诚信攻击策略是一个帕累托最优的纳什均
第3 8卷 第1 1期 2 0 1 1年1 1月

基于数据处理的数据挖掘隐私保护技术分析

基于数据处理的数据挖掘隐私保护技术分析

收稿日期:2010-08-29;修回日期:2010-11-28基金项目:国家重点基础研究发展计划(973计划)资助项目(2011CB302903);江苏省高校自然科学基础研究项目(08KJ B620002);南京邮电大学校科研基金(NY207051)作者简介:李玲娟(1963-),女,辽宁辽阳人,教授,CCF 会员,研究方向为数据挖掘、分布式计算等。

基于数据处理的数据挖掘隐私保护技术分析李玲娟,郑少飞(南京邮电大学计算机学院,江苏南京210003)摘 要:随着数据挖掘技术的发展与应用,如何在得到准确的挖掘结果的同时保护隐私信息不被泄露,已经成为必须解决的问题。

基于数据处理的数据挖掘隐私保护是一种有效的途径,通过采用不同的数据处理技术,出现了基于数据匿名、数据变换、数据加密、数据清洗、数据阻塞等技术的隐私保护算法。

文中对基于数据处理的数据挖掘隐私保护技术进行了总结,对各类算法的基本原理、特点进行了探讨。

在对已有技术和算法深入对比分析的基础上,给出了数据挖掘隐私保护算法的评价标准。

关键词:数据挖掘;隐私保护;数据处理中图分类号:TP311 文献标识码:A 文章编号:1673-629X(2011)03-0094-04Analysis of D ata M i ning Privacy Preservi ng T echnologyB ased on Data Processi ngL I L i n g-j u an ,ZHENG Shao -fe i(Co llege o f Com puter ,N an ji ng U niversity o f Po sts and T e l ecomm un i ca tions ,N anji ng 210003,Ch i na)A bstract :A s t he deve l op m en t and app li cati on of data m i n i ng ,it is a p rob l e m w h i ch m u st be res o l ved t hat how t o p rotect p ri vacy fro m l eak i ng w hen obtai n i ng accurate res u l.t Datam i n i n g pri vacy pres erv i ng bas ed on dat a processi ng s hould be an effectivew ay to resolve t he prob le m.B as ed on differen t dat a p rocessi ng techno l og i es ,vari ou s privacy pres erv i ng al gorith m s ,such as data anonym it y,data d ist o r ti on ,dat a encryp ti on ,data purificati on and data ob st ru cti ng ,have been develop ed .In th i s paper ,t h e techno l og i es o f datam i n i ng p ri vacy preservi n g based on data processing are s u rveyed;t h e m echan is m s and ch aracteristics of vari ou s algorit hm s are d i scu ss ed.Follow i ng a com p rehen si ve com parison and anal y sis of t h e ex isti n g techno l og ies as w ellas the al gorit hm s ,the criteria o f eval uati ng dat a m i n i ng priva cy preservi n g algorit hm s are g i ven.K ey words :data m i n i ng ;privacy preservi n g ;data processi ng0 引 言数据挖掘能从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则[1]。

隐私保护分类数据挖掘研究的开题报告

隐私保护分类数据挖掘研究的开题报告

隐私保护分类数据挖掘研究的开题报告一、研究背景及意义随着互联网技术和数据挖掘技术的不断发展和普及,大量的个人隐私数据被收集和存储。

如果这些数据被不当地使用或暴露,可能会给个人带来严重的损失。

因此,隐私保护已经成为人们普遍关注的问题。

数据挖掘是一种通过分析数据来发现潜在的规律和模式的技术。

在数据挖掘过程中,由于数据的敏感性和机密性,分类数据挖掘的隐私保护问题成为了研究热点。

二、研究主要内容本研究将针对分类数据挖掘的隐私保护问题,从以下几个方面展开研究:1. 隐私保护模型研究。

本研究将对相应的隐私保护模型进行分析和研究,并且提出新的隐私保护模型。

2. 隐私保护算法研究。

本研究将针对不同的分类数据挖掘算法,提出隐私保护算法,并且对其进行比较和评估。

3. 隐私保护性能研究。

本研究将通过实验,评估隐私保护算法的性能,并且分析算法的优缺点。

三、研究方法1. 文献综述。

首先对分类数据挖掘的隐私保护问题进行文献综述,了解研究的进展和现状。

2. 隐私保护模型研究。

基于文献综述的结果,对已有的隐私保护模型进行分析和研究,并且提出新的隐私保护模型。

3. 隐私保护算法研究。

基于已有的隐私保护模型和分类数据挖掘算法,提出相应的隐私保护算法,对其进行比较和评估。

4. 隐私保护性能研究。

通过实验,评估隐私保护算法的性能,并且分析算法的优缺点。

四、预期研究成果通过本研究,预期可以达到以下几个方面的成果:1. 提出一种更为有效的隐私保护模型,对分类数据挖掘的隐私保护问题提供新的解决方案。

2. 提出一种更为有效的隐私保护算法,保障个人隐私的同时,保持原有数据的可用性和准确性。

3. 通过实验得出一些有价值的结论和经验,为分类数据挖掘领域的隐私保护提供参考和指导。

五、研究计划本研究预计在一年的时间内完成,具体的计划如下:1. 第一季度。

进行文献综述,了解分类数据挖掘的隐私保护问题的研究进展和现状。

2. 第二季度。

研究相关的隐私保护模型,提出新的隐私保护模型。

基于数据发布的隐私保护规则综述

基于数据发布的隐私保护规则综述

基于数据发布的隐私保护规则综述作者:于金英来源:《数字技术与应用》2012年第12期摘要:数据发布的隐私保护有两方面的研究:一是一次发布,二是多次发布。

目前,已有比较经典的规则应用在隐私保护中。

在本文中,针对这两种情况下的几种隐私保护规则进行分析总结,并对未解决的问题进行客观的评价。

关键词:隐私保护数据发布静态数据集动态数据集中图分类号:TN914 文献标识码:A 文章编号:1007-9416(2012)12-0193-021、引言由于网络技术的迅猛发展,人们进入到信息高度共享的时代。

数据库的应用越来越广泛,数据的收集和发布越来越方便,伴随而来的隐患是重要数据的泄漏。

有些人会趁机窃取用户的重要信息,造成隐私泄露。

为了防止信息的泄漏,许多人进行这方面的研究,形成了一系列的匿名原则,用来保护一次数据发布和多次数据发布中隐私数据的安全性。

2、相关知识2.1 等价类在数据发布的匿名表中,准标识符属性完全相同的记录称为一个等价类,用英文表示为QI-group。

2.2 匿名化匿名化的过程就是扰乱QI属性与敏感属性之间的一对一的关系的过程。

现有的匿名化技术都将数据表值的记录分成若干“等价组”,组中的任何一条记录可能对应多个隐私属性值,外界无法唯一确定某个个体的信息,从而保障了隐私信息的安全性。

2.3 链接攻击[1]通过收集多个数据源,这些数据源在孤立的情况下,无法从它本身得出任何个体的隐私信息,但如果这些数据源中存在部分属性重叠的情况,通过重叠属性的关联,可以在一个数据源中找出一条记录与另一个数据源相对应,而造成个体隐私信息泄露,将这一过程称为链接攻击。

2.4 同质攻击在链接攻击的前提下,如果无法从多个数据源中找出某一个体对应的一条信息,但是却可以找到该个体对应的多条信息,而这些信息都对应着同一个敏感属性信息,从而泄露该个体的隐私,我们称这一过程为同质攻击。

2.5 背景知识攻击在链接攻击的前提下,如果无法从多个数据源中找出某一个体对应的一条信息,但是却可以找到该个体对应的多条信息。

面向隐私保护的数据挖掘技术研究

rt susaie,u i i e rs s mma i h lsii t no rv c rs rig tc nq e , i u sstemo ttc niu fp v c rsraina n y s re t ecasf a i fp ay pee vn e h iu ds se h s e h q eo r a y pee v t mo g s c o i s c i o t ep ia yp eevn e h q e nd ti, d a d es h v laino rv c rs ri lo tms h rvc rsr i t niu si eala d rsestee au t fp a y pe vn ag r h . g c n o i e g i Ke r s p iay pee v t n; e rsi ywo d : rv c rs rai h u it o c—b s dt h iu s d t ti u c rany lv l ae e n q e ; aauit n et it e c ly; e
中图分类 号 : P 0 . T 392 文献标 识码 : A 文章编 号 :6 3— 2 X 2 0 ) 7 1 7 3 1 7 6 9 ( 0 6 0 —0 4 —0
S u y o t i ng Te h q e i e e c t d fDa a M ni c ni u n Pr s n e o i a y Pr s r i f Pr v c e e v ng
维普资讯
第l 6卷 第 7 期 20 0 6年 7月
计 算 机 技 术 与 发 展
OOM P UTER TECHNOL GY D AND DEVELOP ENT M
Vo . 6 No 7 I1 .

隐私保护数据挖掘技术研究综述

文章编号:1007-757X(2020)08-0041-04隐私保护数据挖掘技术研究综述杨洋,陈红军(北京经济管理职业学院管理学院,北京100102)摘要:随着云计算、物联网和社交媒体技术的快速发展,大数据挖掘和分析成为未来知识发现的重要手段,数据隐8泄露问题日趋严重,如何保护用户隐8和防止敏感信息泄露成为面临的最大挑战。

由于大数据具有规模大、多样性、动态更新速度快等特点,许多传统的隐8保护技术不再适用#文章从知识发现的视角,总结了隐8保护数据挖掘的生命周期模型;从输入隐8和输出隐8方面对隐8保护数据挖掘的相关技术研究进行了分类评述;最后,对隐8保护数据挖掘的研究挑战和未来展望进行了阐述#关键词:大数据分析;隐8保护;数据挖掘;知识发现中图分类号:TP309文献标志码:AA Review of Research on Privacy Preserving Data Mining TechnologyYANG Yang,CHEN Hongjun(Schoolof Management,BeijingInstituteofEconomicsand Management,Beijing100102,China)Abstract:With the rapid development of cloud computing,Internet of Things and social media technologies,big data mining andanalysishavebecomeanimportantmeansofknowledgediscoveryinthefuture.Thecontentofinformation withpersonal privacyisbecoming moreand morediverse,and the problem of data privacy leakage is becoming increasingly serious.Howto protectuserprivacyandpreventsensitiveinformationleakagehasbecomethebiggestcha l enge.Becauseofthelargescale,di­versity,andfastdynamicupdateofbigdata,manytraditionalprivacypreservingtechnologiesarenolongerapplicable.Thisar-iclesummarizesthelifecyclemodelofprivacypreservingdataminingfromtheperspectiveofknowledgediscovery.Therelated researchonprivacypreservingdataminingisclassifiedandreviewedintermsofinputprivacyandoutputprivacy.Theresearch cha l engesandfutureprospectsofprivacypreservingdataminingaredescribed.Key words:big data analysis;privacy preserving;data mining;knowledge discovery0引言隐私保护通常与安全性混淆,隐私保护主要是指个人信息,安全性主要是指数据处理的完整性、可用性和机密性&数据挖掘((ata mining)是指从大量数据中获取有价值信息,并采用数据挖掘技术来揭示隐藏在大数据中的有用业务模型和知识,这可能对个人隐私构成威胁。

毕业设计论文-研究生论文—-开题报告—基于隐私保护的多源数据挖掘高效算法研究

研究生学位论文开题报告题目名称:基于隐私保护的多源数据挖掘高效算法研究姓名:学号:专业名称:研究方向:攻读学位:学院:导师姓名:导师职称:填表时间年月日填表说明1.开题报告是研究生培养的重要环节,研究生需在认真完成。

2.完成时间:硕士研究生的开题报告应于第三学期末前完成3.打印要求:此表用A4纸双面打印。

4.此表与中期考核审核表、成绩单、实践报告、学术活动列表等材料一起交于学院,参加中期考核一、课题来源,国内外研究现状、水平及发展趋势,选题的研究意义、目的,参考文献(一)课题来源1、问题的提出数据挖掘,顾名思义即是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的、有用信息,提取的知识表示为概念、规则、规律、模式等形式[1]。

数据挖掘要处理的问题,就是在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,提供给有关部门决策时参考。

目前已经提出的常用方法有关联规则、决策树、聚类、神经网络等方法。

然而,在对数据进行挖掘的时候,都不可避免的会出现敏感信息泄露的问题,随着数据挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。

为了保护数据的隐私,人们不愿提供正确的信息给服务商,以免个人信息泄露造成不必要的麻烦,但是数据挖掘结果准确的重要前提是提供的数据正确。

由于数据挖掘主要任务是对汇总数据的模式开发,这使得构造一个不需要访问精确的单个信息而获得准确的模式的挖掘技术成为可能。

目前,基于隐私保护的数据挖掘技术已经成为一个新颖热门的研究领域,国内外已有很多成熟的研究算法和技术。

通过众多文献比对我们发现,目前已有的这些基于隐私保护的数据挖掘算法和技术大多是针对单源数据库进行挖掘和保护,而在实际应用中,有很多情况必须面对多个数据源。

例如,许多大型企业、跨国公司都拥有过个子公司,每个子公司都有自己相应的数据库。

这就迫切需要数据库挖掘系统具有针对多数据源进行挖掘和保护的能力。

数据挖掘与隐私保护

数据挖掘与隐私保护随着互联网的发展和智能技术的进步,大量的个人数据正在被收集、存储和分析。

而在数据挖掘的过程中,隐私保护问题愈发凸显。

本文将探讨数据挖掘与隐私保护的关系,并提出一些应对措施,以确保个人隐私得到有效保护。

一、数据挖掘的概念数据挖掘是一种从大量数据集中提取有用信息的技术。

通过数据挖掘,可以发现数据中隐藏的模式、规律和知识,帮助企业做出更准确的决策,提高效率和竞争力。

二、隐私保护的重要性个人隐私是每个人的基本权利,保护个人隐私是一项重要的社会责任。

随着数据挖掘技术的应用日益普遍,个人隐私泄露的风险也在增加。

一旦个人敏感信息被滥用,将会导致严重的后果,甚至对个人、组织乃至整个社会造成巨大伤害。

三、数据挖掘对隐私的威胁在数据挖掘过程中,通常需要收集大量的个人数据,这些数据包括但不限于个人身份信息、交易记录、社交网络活动等。

然而,这些数据的收集和分析过程往往涉及隐私的泄露风险。

首先,数据挖掘可能导致个人敏感信息的泄露。

通过分析个人数据,可以获取包括个人偏好、行为习惯、信用记录等在内的敏感信息,进而用于商业目的或其他恶意行为。

其次,数据挖掘可能揭示个人隐私的结构。

通过挖掘个人之间的关联和网络关系,可以推断出个人的社交圈、家庭成员、身份信息等,从而侵犯到个人的隐私权。

最后,数据挖掘可能导致个人信息被误用。

在数据挖掘的过程中,由于算法本身的局限性或操作人员的不当行为,个人信息可能被错误地解读、使用或传播,引发一系列问题。

四、数据挖掘与隐私保护的平衡在保护个人隐私的同时,我们也不能否认数据挖掘的重要性。

因此,需要在数据挖掘和隐私保护之间寻找平衡点,既能充分利用数据挖掘技术的优势,又能有效保护个人隐私。

首先,应采取匿名化和脱敏技术。

在数据收集和存储阶段,可以通过去标识化、数据脱敏等手段,降低数据关联和个人身份的可识别性,从而减轻隐私泄露的风险。

其次,可限制数据挖掘的范围和目的。

合理规定数据挖掘的目的和使用范围,禁止将个人数据用于未经授权的商业目的或其他不当用途。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Journal of Information Security, 2013, 4, 101-112 http://dx.doi.org/10.4236/jis.2013.42012 Published Online April 2013 (http://www.scirp.org/journal/jis)

Attacks on Anonymization-Based Privacy-Preserving: A Survey for Data Mining and Data Publishing

Abou-el-ela Abdou Hussien1, Nermin Hamza2, Hesham A. Hefny2 1Department of Computer Science, Faculty of Science and Humanities, Shaqra University, Shaqra, KSA

2Department of Computer and Information Sciences, Institute of Statistical Studies and Research, Cairo University, Giza, Egypt

Email: abo_el_ela_2004@yahoo.com, nermin_hamza@yahoo.com, hehefny@hotmail.com

Received December 23, 2012; revised January 24, 2013; accepted February 2, 2013 Copyright © 2013 Abou-el-ela Abdou Hussien et al. This is an open access article distributed under the Creative Commons Attribu-tion License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

ABSTRACT Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party running the algorithm. In contrast, pri- vacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is im-munized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sen-sitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy.

Keywords: Privacy; k-Anonymity; Data Mining; Privacy-Preserving Data Publishing; Privacy-Preserving Data Mining

1. Introduction Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive informa-tion of individuals cannot be identified easily. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l- diversity [2], (α,k)-anonymity [3], t-closeness [4]. These models assume that the data or table T contains: (1) a quasi-identifier (QID), which is a set of attributes (e.g., a QID may be {Date of birth, Zipcode, Sex}) in T which can be used to identify an individual, and (2) sensitive attributes, attributes in T which may contain some sensi-tive values (e.g., HIV of attribute Disease) of individuals. Often, it is also assumed that each tuple in T corresponds to an individual and no two tuples refer to the same indi- vidual. All tuples with the same QID value form an

equivalence class, which we call QID-EC. The table T is said to satisfy k-anonymity if the size of every equiva- lence class is greater than or equal to k. The intuition of k-anonymity is to make sure that each individual is indis-tinguishable from other k – 1 individuals. In this paper, we present some attacks for anonymization-based PPDM & PPDP and explain their effects. The paper is organized as follows: Section 2 explains anonymity models, Sec- tion 3 presents related research directions, Section 4 dis- cusses anonymization-based attacks, and Section 4 con- cludes the paper and presents future works.

2. Anonymity Models k-anonymization techniques have been the focus of in- tense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information loss resulting from data modifications, several extending models are proposed, which are dis-

相关文档
最新文档