大数据隐私保护技术之脱敏技术
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、引言随着大数据时代的来临,大数据平台的应用越来越广泛。
然而,随之而来的数据安全和隐私保护问题也日益突出。
为了保障数据的安全性,数据脱敏技术成为大数据平台的一个关键技术。
本文将详细介绍大数据平台数据脱敏的关键技术。
二、数据脱敏概述数据脱敏是指对敏感数据进行处理,使其在保持数据的可用性的同时,削弱数据的敏感性,以保护数据的安全性和隐私。
在大数据平台中,数据脱敏通常包括对个人身份信息、银行账号、手机号码等敏感数据进行处理,以防止数据泄露和滥用。
三、数据脱敏关键技术1. 数据加密数据加密是数据脱敏的一种基本技术手段。
通过对敏感数据进行加密,可以确保数据在传输和存储过程中的安全性。
常用的加密算法有对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法使用公钥和私钥进行加密和解密。
2. 数据脱敏算法数据脱敏算法是指对敏感数据进行处理,使其难以还原出原始数据。
常用的数据脱敏算法有:- 替换算法:将敏感数据替换为伪造的数据,如将姓名替换为随机生成的姓名。
- 哈希算法:将敏感数据通过哈希函数进行转换,使其成为固定长度的字符串,不可逆转。
- 掩码算法:对敏感数据进行部份隐藏,如只显示手机号码的前三位和后四位。
- 加盐算法:在数据脱敏过程中,引入随机的盐值进行加密,增加破解的难度。
3. 数据分区与权限控制数据分区和权限控制是大数据平台中保护数据安全的重要手段。
通过将数据分为多个区域,并对每一个区域设置不同的权限,可以实现对不同用户的数据访问控制。
同时,还可以对不同的数据进行不同级别的脱敏处理,以满足不同用户对数据的需求。
4. 脱敏策略管理脱敏策略管理是指对数据脱敏过程中的策略进行管理和控制。
包括对不同类型的敏感数据制定不同的脱敏策略,对脱敏结果进行评估和监控,及时调整脱敏策略以满足数据安全和隐私保护的需求。
5. 数据脱敏效果评估数据脱敏效果评估是指对脱敏过程中的数据安全性和隐私保护效果进行评估。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术1. 引言大数据平台的快速发展和广泛应用使得数据安全和隐私保护变得尤其重要。
数据脱敏是一种常用的数据安全技术,用于保护敏感数据的隐私。
本文将介绍大数据平台数据脱敏的关键技术,包括数据脱敏的概念、常见的数据脱敏方法以及数据脱敏的应用场景。
2. 数据脱敏的概念数据脱敏是指对敏感数据进行处理,使得数据再也不能够直接或者间接地与个人身份、敏感信息等关联起来。
数据脱敏的目的是保护数据的隐私,防止数据泄露和滥用。
数据脱敏通常包括对数据进行加密、替换、删除或者扰乱等处理,以保证数据的安全性。
3. 常见的数据脱敏方法3.1 字段加密字段加密是指对敏感数据字段进行加密处理。
常见的加密算法包括对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法使用公钥进行加密,私钥进行解密。
字段加密可以保证数据在存储和传输过程中的安全性。
3.2 字段替换字段替换是指将敏感数据字段替换为具有相同数据类型和格式的伪造数据。
常见的字段替换方法包括随机替换、规则替换和字典替换。
随机替换是将敏感数据字段替换为随机生成的数据;规则替换是根据特定规则将敏感数据字段替换为固定的数据;字典替换是将敏感数据字段替换为预先定义的数据字典中的数据。
3.3 字段删除字段删除是指将敏感数据字段从数据集中彻底删除。
字段删除可以确保敏感数据不被存储和使用,从而保证数据的安全性。
但需要注意的是,在删除敏感数据字段之前,需要对数据进行备份和记录,以便日后的数据分析和使用。
3.4 字段扰乱字段扰乱是指对敏感数据字段进行随机的数据变换。
常见的字段扰乱方法包括数据混淆、数据交换和数据重排。
数据混淆是指将敏感数据字段进行随机的数据变换,使得原始数据无法被还原;数据交换是指将不同的敏感数据字段进行交换,使得数据之间的关联关系被破坏;数据重排是指对敏感数据字段进行随机的排序,使得数据的顺序被打乱。
4. 数据脱敏的应用场景4.1 数据共享在大数据平台中,不同的组织和部门需要共享数据进行分析和决策。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、引言随着大数据时代的到来,数据安全和隐私保护成为了重要的关注点。
大数据平台中的敏感数据需要进行脱敏处理,以保护用户的隐私和数据安全。
本文将介绍大数据平台数据脱敏的关键技术。
二、数据脱敏的概念和目的数据脱敏是指将敏感数据转换为不具备个体识别能力的数据,以保护数据的隐私和安全。
数据脱敏的目的是在保持数据可用性的同时,最大程度地减少敏感信息的泄露风险。
三、数据脱敏的方法1. 基于规则的脱敏方法基于规则的脱敏方法是通过事先定义脱敏规则,对敏感数据进行转换。
常见的规则包括替换、加密、删除等。
例如,将身份证号码的后四位替换为“****”,将电话号码的中间四位替换为“****”。
2. 基于统计的脱敏方法基于统计的脱敏方法是通过对数据进行统计分析,对敏感数据进行含糊化处理。
常见的方法有扰动和泛化。
扰动是通过添加噪音或者随机数来改变原始数据,使得敏感信息无法被还原。
泛化是通过将数据进行聚合或者分类,减少数据的精确度,从而保护隐私。
3. 基于加密的脱敏方法基于加密的脱敏方法是使用加密算法对敏感数据进行加密,惟独授权的用户才干解密数据。
常见的加密算法包括对称加密和非对称加密。
对称加密使用相同的密钥进行加密和解密,而非对称加密使用公钥进行加密,私钥进行解密。
四、数据脱敏的关键技术1. 脱敏规则的设计脱敏规则的设计是数据脱敏的核心。
在设计脱敏规则时,需要考虑敏感数据的特点和保护需求。
例如,对于姓名字段,可以使用替换规则将真实姓名替换为随机生成的姓名;对于身份证号码字段,可以使用加密规则将身份证号码进行加密处理。
2. 数据脱敏的粒度控制数据脱敏的粒度控制是指确定脱敏操作的作用范围。
在进行数据脱敏时,需要根据实际需求和法律法规的要求,确定脱敏的粒度。
例如,对于大数据平台中的用户数据,可以对整个用户表进行脱敏,也可以只对敏感字段进行脱敏。
3. 数据脱敏的可逆性处理数据脱敏的可逆性处理是指在需要使用脱敏数据时,能够将脱敏数据还原为原始数据。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、引言随着大数据时代的到来,数据安全和隐私保护问题日益凸显。
在大数据平台中,由于数据的规模庞大和多样性,数据脱敏成为了一项重要的技术。
本文将探讨大数据平台数据脱敏的关键技术,包括数据脱敏的定义、脱敏方法、脱敏算法以及脱敏效果评估等方面。
二、数据脱敏的定义数据脱敏是指对敏感数据进行处理,以保护数据的隐私和安全。
脱敏后的数据可以在非敏感场景下使用,同时不会暴露个人隐私信息。
数据脱敏的目标是在保持数据的可用性和有效性的同时,最大限度地降低数据泄露的风险。
三、数据脱敏的方法1. 基于规则的脱敏方法:基于规则的脱敏方法是根据预定义的规则对数据进行脱敏处理。
常见的规则包括替换、截断、加密等。
例如,将手机号码的前三位和后四位替换为“*”来保护用户隐私。
2. 基于加密的脱敏方法:基于加密的脱敏方法使用加密算法对敏感数据进行加密处理,惟独授权用户才干解密并访问原始数据。
常见的加密算法包括对称加密算法和非对称加密算法。
3. 基于生成算法的脱敏方法:基于生成算法的脱敏方法通过生成符合原始数据分布特征的合成数据来代替原始数据。
生成算法可以根据数据的统计特征和分布规律生成合成数据,从而保护原始数据的隐私。
四、数据脱敏的算法1. 替换算法:替换算法是将敏感数据替换为虚拟数据,例如将姓名替换为随机生成的姓名,将地址替换为虚拟地址等。
替换算法可以保持数据的格式和结构,但可能无法保证数据的可用性。
2. 加密算法:加密算法使用密钥对敏感数据进行加密,惟独持有正确密钥的用户才干解密数据。
常见的加密算法包括AES、RSA等。
加密算法可以提供较高的数据安全性,但解密过程可能会增加计算开消。
3. 扰动算法:扰动算法通过对敏感数据添加随机噪声来实现脱敏。
例如,对数值型数据添加随机数或者对分类数据进行随机排序。
扰动算法可以在一定程度上保护数据的隐私,但可能会降低数据的准确性。
五、脱敏效果评估评估数据脱敏效果的指标包括数据的可用性、隐私保护程度和数据的准确性。
大数据时代的隐私保护技术与措施

大数据时代的隐私保护技术与措施随着互联网的普及和信息技术的飞速发展,大数据时代已经来临。
在这个时代,数据成为了一种无处不在的资源,它们可以被收集、存储、分析,并被用于决策和预测。
但是,随着数据的积累和使用,隐私问题也变得越来越关键。
数据隐私泄露导致的个人信息和财产损失对个人和组织来说都是无法承受的。
为了保护用户的隐私,大数据时代需要采用更加严格的隐私保护技术和措施。
一、隐私保护技术1. 数据脱敏数据脱敏是一种常用的隐私保护技术。
它的基本思想是通过对敏感字段进行随机替换或者加密算法等技术来达到去除敏感信息和保留数据相关性的目的。
在进行数据脱敏时,需要统计分析整个数据集的模式和规律性,只要数据仍能保留重要的统计学特征,而且个人隐私得到的保护,就可以得到满足。
2. 数据加密数据加密是另外一种常用的隐私保护技术,它通过对数据流,存储器和设备等等信息进行物理加密或软件加密,来使得攻击者无法获取到数据的内容。
加密使用了许多不同类型的算法和技术,这些加密技术可以保护对称密钥,公共密钥,数字签名,SSL/TLS等等机制。
3. 匿名化在实际应用中,很多场景下需要向数据消费者提供的是统计数据,例如商业报告等。
在这种情况下,匿名化是一种很好的选择。
匿名化是一种去除用户信息中可识别单独身份的方法,只保留信息的统计特征和总体趋势,而不涉及个别人或组织的事件,这样做能避免个人隐私泄露的问题。
4. 控制数据访问访问控制是一种重要的隐私保护措施,能够限制有权的用户或者用途来访问数据。
在数据存储和管理系统中,访问控制可以通过管理和设置权限,来限制数据的使用范围。
通过访问控制能够解决许多数据隐私安全的问题。
二、隐私保护措施1. 加强政策和监管一个严格的政策和制度是确保数据隐私得到保护的关键。
为了避免数据诈骗、数据泄露和个人隐私暴露的问题,需要制定一系列合理的政策和制度,并且加强监管。
这些制度可以确保数据保护法规得以遵守,也可以使得数据被正确管理,从而保护数据隐私的安全。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、背景介绍随着大数据应用的不断发展,数据安全和隐私保护问题日益引起人们的关注。
大数据平台中存储的海量数据中可能包含敏感信息,如个人身份证号、银行账号等,如果这些数据泄露或被滥用,将对个人和组织造成严重的损失。
因此,数据脱敏技术在大数据平台中的应用变得尤为重要。
二、数据脱敏的定义数据脱敏是指在保持数据的可用性和完整性的前提下,对敏感数据进行加密或替换等处理,使得数据在传输和存储过程中无法被恶意获取和利用。
数据脱敏的目的是保护数据的隐私性,防止数据泄露和滥用。
三、数据脱敏的关键技术1. 哈希算法哈希算法是一种将任意长度的数据映射为固定长度散列值的算法。
通过对敏感数据进行哈希运算,可以将原始数据转化为不可逆的散列值,从而保护数据的隐私性。
常用的哈希算法有MD5、SHA-1等。
2. 加密算法加密算法是将敏感数据转化为密文,只有具备解密密钥的人才能解密还原出原始数据。
对于大数据平台中的敏感数据,可以采用对称加密算法或非对称加密算法进行加密保护。
常用的对称加密算法有AES、DES等,常用的非对称加密算法有RSA、ECC等。
3. 替换算法替换算法是将敏感数据替换为与之具有相同格式和长度的伪数据,从而保护原始数据的隐私性。
替换算法可以采用固定的替换规则,也可以根据特定的需求进行自定义替换。
例如,可以将身份证号替换为随机生成的身份证号,保持数据的格式和长度不变。
4. 脱敏策略脱敏策略是指根据数据的敏感程度和使用场景,制定相应的数据脱敏策略。
常用的脱敏策略包括完全脱敏、部分脱敏和不脱敏。
完全脱敏是指将所有的敏感数据都进行脱敏处理,适用于对数据隐私要求非常高的场景;部分脱敏是指只对部分敏感数据进行脱敏处理,适用于对数据隐私要求较高的场景;不脱敏是指不对敏感数据进行任何处理,适用于对数据隐私要求较低的场景。
四、数据脱敏的应用场景1. 金融行业在金融行业中,大数据平台存储了大量的客户个人信息和交易数据。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术引言概述:随着大数据时代的到来,数据安全和隐私保护成为了一个重要的问题。
在大数据平台中,数据脱敏技术被广泛应用来保护敏感数据的安全。
本文将介绍大数据平台数据脱敏的关键技术。
一、数据脱敏技术的概念和作用1.1 数据脱敏的定义数据脱敏是一种通过对敏感数据进行处理,使其在保留原有数据结构和特征的同时,削减或者隐藏敏感信息的技术。
1.2 数据脱敏的作用数据脱敏可以有效保护敏感数据的安全,防止数据泄露和滥用。
通过脱敏处理,可以降低数据的敏感度,使得数据在共享和使用过程中更加安全可靠。
1.3 数据脱敏的应用场景数据脱敏广泛应用于金融、医疗、电商等领域。
例如,在金融领域,银行需要共享数据给第三方合作火伴进行风险评估,但又不能暴露客户的敏感信息,这时就需要使用数据脱敏技术。
二、数据脱敏的常用方法2.1 替换方法替换方法是指将敏感数据替换为与之具有相同格式和特征的伪数据。
常见的替换方法包括随机替换、固定替换和字典替换。
2.2 删除方法删除方法是指直接删除敏感数据或者将其部份内容删除。
常见的删除方法包括全删除、部份删除和屏蔽删除。
2.3 加密方法加密方法是指对敏感数据进行加密处理,惟独具有解密密钥的人材干还原数据。
常见的加密方法包括对称加密和非对称加密。
三、数据脱敏的挑战和解决方案3.1 数据脱敏的挑战数据脱敏面临着数据准确性、数据关联性和性能问题等挑战。
在脱敏过程中,需要确保脱敏后的数据仍具有一定的准确性,同时还需要保持数据之间的关联性。
此外,数据脱敏还需要在保证数据安全的前提下,尽可能减少对性能的影响。
3.2 数据脱敏的解决方案为了解决数据脱敏的挑战,可以采取以下措施。
首先,需要制定脱敏策略,明确敏感数据的范围和脱敏级别。
其次,选择合适的脱敏方法,根据实际需求和数据特点进行选择。
最后,进行脱敏效果评估和性能测试,确保脱敏后的数据满足要求。
四、数据脱敏的未来发展趋势4.1 自动化脱敏未来的数据脱敏技术将更加智能化和自动化,能够根据数据的特征和要求自动选择合适的脱敏方法,并进行脱敏处理。
大数据隐私保护关键技术:数据脱敏、匿名化、差分隐私和同态加密 (一)

大数据隐私保护关键技术:数据脱敏、匿名化、差分隐私和同态加密 (一)随着大数据技术的发展,数据成为了推动新一轮科技革命和产业升级的基础资源。
但是,随之而来的是大量数据泄露、信息安全问题,因此,大数据隐私保护也显得尤为重要。
下面我们来介绍一下大数据隐私保护关键技术:数据脱敏、匿名化、差分隐私和同态加密。
一、数据脱敏数据脱敏是指通过一定的方式对敏感数据进行加密处理,使其难以还原为原始数据的过程。
数据脱敏可以有效地保护敏感信息不被非法获取,保障用户的隐私安全。
常见的数据脱敏技术包括数字替换、字典加密、乱序排列等。
二、匿名化匿名化是指将个人身份信息中的某些关键属性进行隐藏,使得个人身份无法被识别而达到保护个人隐私的目的。
匿名化主要通过数据加密、数据合并等方式实现,与数据脱敏不同的是,匿名化目的是使记录对应的真实个人成为不可知,而数据脱敏则只是保护个人身份不被泄露。
三、差分隐私差分隐私是一种较为先进的隐私保护技术,是在数据发布过程中降低隐私风险的方法。
其基本思想是对数据集进行一定的随机扰动,使得不同个体的数据在某种程度上变得相似,从而保护隐私。
与数据脱敏、匿名化不同,差分隐私强调在保护个人数据隐私的同时,尽量保留数据的有效性和可应用性。
差分隐私技术主要包括拉普拉斯噪声机制、指数机制等。
四、同态加密同态加密也是一种重要的隐私保护技术,是指在不破坏数据加密状态的前提下,对数据进行加密计算和查询。
同态加密技术可以在不泄露数据明文的情况下,实现加密数据的信息处理和计算,对于保护个人隐私和数据安全有着非常重要的作用。
总之,数据脱敏、匿名化、差分隐私和同态加密是大数据隐私保护的关键技术,不同的技术适用于不同的场景,而随着大数据技术的不断发展,新的隐私保护技术也在不断涌现,相信我们能够利用这些技术来更好地保障隐私安全。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据隐私保护技术之脱敏技术
数据安全就是信息安全得重要一环。
当前,对数据安全得防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计与备份恢复等。
她们对数据得保护各自有各自得特点与作用,今天我主要说数据脱敏这一防护手段。
作者:佚名来源:FreeBuf|2016-11-22 09:40
收藏
分享
前言
这几天学校开始选毕业设计,选到了数据脱敏系统设计得题目,在阅读了该方面得相关论文之后,感觉对大数据安全有了不少新得理解。
介绍
随着大数据时代得到来,大数据中蕴藏得巨大价值得以挖掘,同时也带来了隐私信息保护方面得难题,即如何在实现大数据高效共享得同时,保护敏感信息不被泄露。
数据安全就是信息安全得重要一环。
当前,对数据安全得防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计与备份恢复等。
她们对数据得保护各自有各自得特点与作用,今天我主要说数据脱敏这一防护手段。
许多组织在她们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意得泄露信息。
例如:
1、大部分公司将生产数据拷贝到测试与开发环境中来允许系统管理员来测试升级,更新与修复。
2、在商业上保持竞争力需要新得与改进后得功能。
结果就是应用程序得开发者需要一个环境仿真来测试新功能从而确保已经存在得功能没有被破坏。
3、零售商将各个销售点得销售数据与市场调查员分享,从而分析顾客们得购物模式。
4、药物或者医疗组织向调查员分享病人得数据来评估诊断效果与药物疗效。
结果她们拷贝到非生产环境中得数据就变成了黑客们得目标,非常容易被窃取或者泄露,从而造成难以挽回得损失。
数据脱敏就就是对某些敏感信息通过脱敏规则进行数据得变形,实现敏感隐私数据得可靠保护。
在涉及客户安全数据或者一些商业性敏感数据得情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
数据脱敏系统设计得难点
许多公司页考虑到了这种威胁并且马上着手来处理。
简单得将敏感信息从非生产环境中移除瞧起来很容易,但就是在很多方面还就是很有挑战得。
首先遇到得问题就就是如何识别敏感数据,敏感数据得定义就是什么?有哪些依赖?应用程序就是十分复杂并且完整得。
知道敏感信息在哪并且知道哪些数据参考了这些敏感数据就是非常困难得。
敏感信息字段得名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定得依据。
一旦敏感信息被确认,在保持应用程序完整性得同时进行脱敏得方法就就是最重要得了。
简单地修改数值可能会中断正在测试,开发或升级得应用程序。
例如遮挡客户地址得一部分,可能会使应用程序变得不可用,开发或测试变得不可靠。
脱敏得过程就就是一个在安全性与可用性之间平衡得过程。
安全性就是0%得系统中,数据不需要进行脱敏,数据库中都就是原来得数据,可用性当然就是100%;安全性就是100%得系统中,大概所有得数据全都存一个相同得常量才能实现。
所以需要选择或设计一种既能满足第三方得要求,又能保证安全性得算法就变得特别重要了。
选定了敏感数据与要施加得算法,剩下得就就是如何实现了,在什么过程中进行脱敏呢?
难题得解决方案
1、如何识别敏感数据
现在有两种方式来识别敏感数据。
第一种就是通过人工指定,比如通过正则来指定敏感数据得格式,Oracle公司开发得Oracle Data Masking Pack中就使用了这一种方法来指定。
第二种方式就就是自动识别了,在文献[2]中,作者给出了基于数据特征学习以及自然语言处理等技术进行敏感数据识别得自动识别方案(没有具体得实现,只提出了模型)。
具体得实现在gayhub上找了一个java实现得工程,chlorine-finder,瞧了下源码具体原理就是通过提前预置得规则来识别一些常见得敏感数据,比如信用卡号,SSN,手机号,电子邮箱,IP地址,住址等、
2、使用怎样得数据脱敏算法
在比较常见得数据脱敏系统中,算法得选择一般就是通过手工指定,像Oracal 得数据脱敏包中就预设了关于信用卡得数据选择什么算法进行处理,关于电话得数据怎么处理,用户也可以进行自定义得配置。
脱敏方法现在有很多种,比如k-匿名,L多样性,数据抑制,数据扰动,差分隐私等。
k-匿名:
匿名化原则就是为了解决链接攻击所造成得隐私泄露问题而提出得。
链接攻击就是这样得,一般企业因为某些原因公开得数据都会进行简单得处理,比如删除姓名这一列,但就是如果攻击者通过对发布得数据与其她渠道获得得信息进行链接操作,就可以推理出隐私数据。
k-匿名就是数据发布时保护私有信息得一种重要方法。
k-匿名技术就是1998 年由Samarati与Sweeney提出得,它要求发布得数据中存在至少为k得在准标识符上不可区分得记录,使攻击者不能判别出隐私信息所属得具体个体,从而保护了个人隐私, k-匿名通过参数k指定用户可承受得最大信息泄露风险。
但容易遭受同质性攻击与背景知识攻击。
L-多样性
L多样性就是在k-匿名得基础上提出得,外加了一个条件就就是同一等价类中得记录至少有L个“较好表现”得值,使得隐私泄露风险不超过1/L,”较好表现“得意思有多种设计,比如这几个值不同,或者信息熵至少为logL等等、、
但容易收到相似性攻击。
数据抑制
数据抑制又称为隐匿,就是指用最一般化得值取代原始属性值,在k-匿名化中,若无法满足k-匿名要求,则一般采取抑制操作,被抑制得值要不从数据表中删除,要不相应属性值用“ ** ”表示。
1. >>> s = "CREDITCARD">>> s[-4:]、rjust(len(s), "*")'******CARD'
数据扰动
数据扰动就是通过对数据得扰动变形使数据变得模糊来隐藏敏感得数据或规则,即将数据库D 变形为一个新得数据库D′ 以供研究者或企业查询使用,这样诸如个人信息等敏感得信息就不会被泄露。
通常,D′ 会与 D 很相似,从D′ 中可以挖掘出与D 相同得信息。
这种方法通过修改原始数据,使得敏感性信息不能与初始得对象联系起来或使得敏感性信息不复存在,但数据对分析依然有效。
Python中可以使用faker库来进行数据得模拟与伪造。
1. from faker import Factory
2.
3. fake = Factory、create()
4.
5. fake、country_code()# 'GE'fake、city_name()# '贵阳'fake、street_address()# '
督路l座'fake、address()# '辉市哈路b座 176955'fake、state()# '南溪区'fake、
longitude()# Decimal('-163、645749')fake、
geo_coordinate(center=None, radius=0、001)# Decimal('90、252375')fake、
city_suffix()# '市'fake、latitude()# Decimal('-4、0682855')fake、
postcode()# '353686'fake、building_number()# 'o座'fake、country()# '维尔京群
岛'fake、street_name()# '姜路'
相关技术有:一般化与删除,随机化,数据重构,数据净化,阻碍,抽样等。
差分隐私
差分隐私应该就是现在比较火得一种隐私保护技术了,就是基于数据失真得隐私保护技术,采用添加噪声得技术使敏感数据失真但同时保持某些数据或数据属性不变,要求保证处理后得数据仍然可以保持某些统计方面得性质,以便进行数据挖掘等操作。
差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者已知除一条记录之外得所有敏感数据,仍可以保证这一条记录得敏感信息不会被泄露。
想要体验得同学可以去Havard得Differential Privacy实验室,她们做了一个DP 得原型实现、
想要详细了解得同学可以瞧一下知乎上得这个问题<点击文末阅读原文查瞧链接>
关于动态脱敏系统得实现,现在一般有两种,一种就是重写数据库程序代码,在权限判决后对请求语句进行重写,从而查询数据;另一种就是用户得sql语句通过代理后,代理会对其中关于敏感信息得部分进行语句得替换,并且在返回时会重新包装为与原请求一致得格式交给用户。
总结
经过上面得分析,瞧来实现一个全自动得准确率高得脱敏系统难度相当大啊,希望自己能够圆满完成任务。