大数据隐私保护技术之脱敏技术
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、引言随着大数据时代的来临,大数据平台的应用越来越广泛。
然而,随之而来的数据安全和隐私保护问题也日益突出。
为了保障数据的安全性,数据脱敏技术成为大数据平台的一个关键技术。
本文将详细介绍大数据平台数据脱敏的关键技术。
二、数据脱敏概述数据脱敏是指对敏感数据进行处理,使其在保持数据的可用性的同时,削弱数据的敏感性,以保护数据的安全性和隐私。
在大数据平台中,数据脱敏通常包括对个人身份信息、银行账号、手机号码等敏感数据进行处理,以防止数据泄露和滥用。
三、数据脱敏关键技术1. 数据加密数据加密是数据脱敏的一种基本技术手段。
通过对敏感数据进行加密,可以确保数据在传输和存储过程中的安全性。
常用的加密算法有对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法使用公钥和私钥进行加密和解密。
2. 数据脱敏算法数据脱敏算法是指对敏感数据进行处理,使其难以还原出原始数据。
常用的数据脱敏算法有:- 替换算法:将敏感数据替换为伪造的数据,如将姓名替换为随机生成的姓名。
- 哈希算法:将敏感数据通过哈希函数进行转换,使其成为固定长度的字符串,不可逆转。
- 掩码算法:对敏感数据进行部份隐藏,如只显示手机号码的前三位和后四位。
- 加盐算法:在数据脱敏过程中,引入随机的盐值进行加密,增加破解的难度。
3. 数据分区与权限控制数据分区和权限控制是大数据平台中保护数据安全的重要手段。
通过将数据分为多个区域,并对每一个区域设置不同的权限,可以实现对不同用户的数据访问控制。
同时,还可以对不同的数据进行不同级别的脱敏处理,以满足不同用户对数据的需求。
4. 脱敏策略管理脱敏策略管理是指对数据脱敏过程中的策略进行管理和控制。
包括对不同类型的敏感数据制定不同的脱敏策略,对脱敏结果进行评估和监控,及时调整脱敏策略以满足数据安全和隐私保护的需求。
5. 数据脱敏效果评估数据脱敏效果评估是指对脱敏过程中的数据安全性和隐私保护效果进行评估。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术1. 引言大数据平台的快速发展和广泛应用使得数据安全和隐私保护变得尤其重要。
数据脱敏是一种常用的数据安全技术,用于保护敏感数据的隐私。
本文将介绍大数据平台数据脱敏的关键技术,包括数据脱敏的概念、常见的数据脱敏方法以及数据脱敏的应用场景。
2. 数据脱敏的概念数据脱敏是指对敏感数据进行处理,使得数据再也不能够直接或者间接地与个人身份、敏感信息等关联起来。
数据脱敏的目的是保护数据的隐私,防止数据泄露和滥用。
数据脱敏通常包括对数据进行加密、替换、删除或者扰乱等处理,以保证数据的安全性。
3. 常见的数据脱敏方法3.1 字段加密字段加密是指对敏感数据字段进行加密处理。
常见的加密算法包括对称加密算法和非对称加密算法。
对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法使用公钥进行加密,私钥进行解密。
字段加密可以保证数据在存储和传输过程中的安全性。
3.2 字段替换字段替换是指将敏感数据字段替换为具有相同数据类型和格式的伪造数据。
常见的字段替换方法包括随机替换、规则替换和字典替换。
随机替换是将敏感数据字段替换为随机生成的数据;规则替换是根据特定规则将敏感数据字段替换为固定的数据;字典替换是将敏感数据字段替换为预先定义的数据字典中的数据。
3.3 字段删除字段删除是指将敏感数据字段从数据集中彻底删除。
字段删除可以确保敏感数据不被存储和使用,从而保证数据的安全性。
但需要注意的是,在删除敏感数据字段之前,需要对数据进行备份和记录,以便日后的数据分析和使用。
3.4 字段扰乱字段扰乱是指对敏感数据字段进行随机的数据变换。
常见的字段扰乱方法包括数据混淆、数据交换和数据重排。
数据混淆是指将敏感数据字段进行随机的数据变换,使得原始数据无法被还原;数据交换是指将不同的敏感数据字段进行交换,使得数据之间的关联关系被破坏;数据重排是指对敏感数据字段进行随机的排序,使得数据的顺序被打乱。
4. 数据脱敏的应用场景4.1 数据共享在大数据平台中,不同的组织和部门需要共享数据进行分析和决策。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、引言随着大数据时代的到来,数据安全和隐私保护问题日益凸显。
在大数据平台中,由于数据的规模庞大和多样性,数据脱敏成为了一项重要的技术。
本文将探讨大数据平台数据脱敏的关键技术,包括数据脱敏的定义、脱敏方法、脱敏算法以及脱敏效果评估等方面。
二、数据脱敏的定义数据脱敏是指对敏感数据进行处理,以保护数据的隐私和安全。
脱敏后的数据可以在非敏感场景下使用,同时不会暴露个人隐私信息。
数据脱敏的目标是在保持数据的可用性和有效性的同时,最大限度地降低数据泄露的风险。
三、数据脱敏的方法1. 基于规则的脱敏方法:基于规则的脱敏方法是根据预定义的规则对数据进行脱敏处理。
常见的规则包括替换、截断、加密等。
例如,将手机号码的前三位和后四位替换为“*”来保护用户隐私。
2. 基于加密的脱敏方法:基于加密的脱敏方法使用加密算法对敏感数据进行加密处理,惟独授权用户才干解密并访问原始数据。
常见的加密算法包括对称加密算法和非对称加密算法。
3. 基于生成算法的脱敏方法:基于生成算法的脱敏方法通过生成符合原始数据分布特征的合成数据来代替原始数据。
生成算法可以根据数据的统计特征和分布规律生成合成数据,从而保护原始数据的隐私。
四、数据脱敏的算法1. 替换算法:替换算法是将敏感数据替换为虚拟数据,例如将姓名替换为随机生成的姓名,将地址替换为虚拟地址等。
替换算法可以保持数据的格式和结构,但可能无法保证数据的可用性。
2. 加密算法:加密算法使用密钥对敏感数据进行加密,惟独持有正确密钥的用户才干解密数据。
常见的加密算法包括AES、RSA等。
加密算法可以提供较高的数据安全性,但解密过程可能会增加计算开消。
3. 扰动算法:扰动算法通过对敏感数据添加随机噪声来实现脱敏。
例如,对数值型数据添加随机数或者对分类数据进行随机排序。
扰动算法可以在一定程度上保护数据的隐私,但可能会降低数据的准确性。
五、脱敏效果评估评估数据脱敏效果的指标包括数据的可用性、隐私保护程度和数据的准确性。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术引言概述:在当前大数据时代,数据的安全性和隐私保护成为了重要的关注点。
为了保护敏感数据的安全,大数据平台需要采用数据脱敏技术。
本文将介绍大数据平台数据脱敏的关键技术,并分为五个部份进行详细阐述。
一、数据脱敏的概念1.1 数据脱敏的定义1.2 数据脱敏的目的1.3 数据脱敏的分类二、数据脱敏的方法2.1 字段级脱敏2.1.1 数据加密2.1.2 数据替换2.1.3 数据隐藏2.2 行级脱敏2.2.1 数据扰乱2.2.2 数据抽样2.2.3 数据切割2.3 数据脱敏的选择三、数据脱敏的算法3.1 哈希算法3.1.1 MD5算法3.1.2 SHA算法3.1.3 HMAC算法3.2 加密算法3.2.1 对称加密算法3.2.2 非对称加密算法3.2.3 混合加密算法3.3 数据脱敏算法的比较四、数据脱敏的实施4.1 数据脱敏的流程4.1.1 数据分类和分级4.1.2 数据脱敏策略的确定4.1.3 数据脱敏的实施4.2 数据脱敏的工具4.2.1 开源脱敏工具4.2.2 商业脱敏工具4.2.3 自定义脱敏工具4.3 数据脱敏的注意事项五、数据脱敏的应用5.1 金融行业5.1.1 个人账户信息脱敏5.1.2 交易数据脱敏5.1.3 风险评估数据脱敏5.2 医疗行业5.2.1 患者隐私数据脱敏5.2.2 医疗记录脱敏5.2.3 医学研究数据脱敏5.3 电商行业5.3.1 用户个人信息脱敏5.3.2 交易记录脱敏5.3.3 评价数据脱敏结论:数据脱敏是大数据平台中保护敏感数据安全和隐私的重要技术。
本文详细介绍了数据脱敏的概念、方法、算法、实施和应用。
在大数据时代,合理使用数据脱敏技术,能够有效保护用户隐私,提高数据安全性,推动大数据应用的发展。
生物大数据技术中的数据隐私保护方法

生物大数据技术中的数据隐私保护方法随着生物大数据的快速发展,越来越多的个人生物数据被收集和分析。
这些数据在医疗、科研和健康管理等领域中具有巨大的潜力。
然而,生物大数据的应用也带来了隐私和安全的挑战。
因此,保护生物大数据中的隐私成为了一个迫切的问题。
在生物大数据技术中,数据隐私保护方法主要分为以下几个方面。
1. 数据脱敏技术:数据脱敏是一种常见的数据隐私保护方法,它通过对个人敏感信息进行去标识化处理来降低隐私泄露的风险。
脱敏方法包括数据加密、数据匿名化和数据分区等。
数据加密采用密码算法对数据进行加密处理,只有掌握密钥的人才能还原数据;数据匿名化则采用删除、替换或混淆个人身份信息的方法,使得用户不能被识别出来;数据分区是将数据分成多个独立的区域,每个区域只保留部分数据,以降低隐私泄露的概率。
2. 访问控制策略:访问控制策略是建立在对生物大数据的访问限制上的一种隐私保护方法。
通过访问控制策略,可以限制对数据的访问和使用权限,确保只有经过授权的用户才能获得敏感个人数据。
访问控制策略可以基于角色、身份、时间等多个维度进行设置,使得数据的隐私得到更好的保护。
3. 数据共享安全:生物大数据的共享可以促进科学研究和医疗创新,但也存在着隐私泄露的风险。
因此,需要采取安全的数据共享方式,即在保证数据可用性的同时保护数据的隐私。
一种常见的数据共享安全方法是采用差分隐私技术,通过向数据中添加噪声或模糊化数据来防止个人隐私的泄露。
4. 匿名技术:匿名技术是一种重要的隐私保护手段,通过去除个体的标识信息,使得个体无法被识别出来,进而保护其隐私。
匿名技术包括k-匿名、l-多样性、t-邻近匿名等。
这些技术能够将个人数据融入到更大的群体中,提高隐私保护效果。
5. 数据安全传输和存储:生物大数据的传输和存储环节容易受到黑客攻击和数据泄露的风险。
因此,采取安全的数据传输和存储措施是保护生物大数据隐私的关键一步。
安全的数据传输可以采用加密通信、访问控制机制和防火墙等方法来确保数据的安全;而在数据存储方面,可以采用数据备份、数据加密和安全访问控制等技术来保护隐私。
大数据时代的隐私保护技术与措施

大数据时代的隐私保护技术与措施随着互联网的普及和信息技术的飞速发展,大数据时代已经来临。
在这个时代,数据成为了一种无处不在的资源,它们可以被收集、存储、分析,并被用于决策和预测。
但是,随着数据的积累和使用,隐私问题也变得越来越关键。
数据隐私泄露导致的个人信息和财产损失对个人和组织来说都是无法承受的。
为了保护用户的隐私,大数据时代需要采用更加严格的隐私保护技术和措施。
一、隐私保护技术1. 数据脱敏数据脱敏是一种常用的隐私保护技术。
它的基本思想是通过对敏感字段进行随机替换或者加密算法等技术来达到去除敏感信息和保留数据相关性的目的。
在进行数据脱敏时,需要统计分析整个数据集的模式和规律性,只要数据仍能保留重要的统计学特征,而且个人隐私得到的保护,就可以得到满足。
2. 数据加密数据加密是另外一种常用的隐私保护技术,它通过对数据流,存储器和设备等等信息进行物理加密或软件加密,来使得攻击者无法获取到数据的内容。
加密使用了许多不同类型的算法和技术,这些加密技术可以保护对称密钥,公共密钥,数字签名,SSL/TLS等等机制。
3. 匿名化在实际应用中,很多场景下需要向数据消费者提供的是统计数据,例如商业报告等。
在这种情况下,匿名化是一种很好的选择。
匿名化是一种去除用户信息中可识别单独身份的方法,只保留信息的统计特征和总体趋势,而不涉及个别人或组织的事件,这样做能避免个人隐私泄露的问题。
4. 控制数据访问访问控制是一种重要的隐私保护措施,能够限制有权的用户或者用途来访问数据。
在数据存储和管理系统中,访问控制可以通过管理和设置权限,来限制数据的使用范围。
通过访问控制能够解决许多数据隐私安全的问题。
二、隐私保护措施1. 加强政策和监管一个严格的政策和制度是确保数据隐私得到保护的关键。
为了避免数据诈骗、数据泄露和个人隐私暴露的问题,需要制定一系列合理的政策和制度,并且加强监管。
这些制度可以确保数据保护法规得以遵守,也可以使得数据被正确管理,从而保护数据隐私的安全。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、背景介绍随着大数据应用的不断发展,数据安全和隐私保护问题日益引起人们的关注。
大数据平台中存储的海量数据中可能包含敏感信息,如个人身份证号、银行账号等,如果这些数据泄露或被滥用,将对个人和组织造成严重的损失。
因此,数据脱敏技术在大数据平台中的应用变得尤为重要。
二、数据脱敏的定义数据脱敏是指在保持数据的可用性和完整性的前提下,对敏感数据进行加密或替换等处理,使得数据在传输和存储过程中无法被恶意获取和利用。
数据脱敏的目的是保护数据的隐私性,防止数据泄露和滥用。
三、数据脱敏的关键技术1. 哈希算法哈希算法是一种将任意长度的数据映射为固定长度散列值的算法。
通过对敏感数据进行哈希运算,可以将原始数据转化为不可逆的散列值,从而保护数据的隐私性。
常用的哈希算法有MD5、SHA-1等。
2. 加密算法加密算法是将敏感数据转化为密文,只有具备解密密钥的人才能解密还原出原始数据。
对于大数据平台中的敏感数据,可以采用对称加密算法或非对称加密算法进行加密保护。
常用的对称加密算法有AES、DES等,常用的非对称加密算法有RSA、ECC等。
3. 替换算法替换算法是将敏感数据替换为与之具有相同格式和长度的伪数据,从而保护原始数据的隐私性。
替换算法可以采用固定的替换规则,也可以根据特定的需求进行自定义替换。
例如,可以将身份证号替换为随机生成的身份证号,保持数据的格式和长度不变。
4. 脱敏策略脱敏策略是指根据数据的敏感程度和使用场景,制定相应的数据脱敏策略。
常用的脱敏策略包括完全脱敏、部分脱敏和不脱敏。
完全脱敏是指将所有的敏感数据都进行脱敏处理,适用于对数据隐私要求非常高的场景;部分脱敏是指只对部分敏感数据进行脱敏处理,适用于对数据隐私要求较高的场景;不脱敏是指不对敏感数据进行任何处理,适用于对数据隐私要求较低的场景。
四、数据脱敏的应用场景1. 金融行业在金融行业中,大数据平台存储了大量的客户个人信息和交易数据。
大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术引言概述:随着大数据时代的到来,数据安全和隐私保护成为了一个重要的问题。
在大数据平台中,数据脱敏技术被广泛应用来保护敏感数据的安全。
本文将介绍大数据平台数据脱敏的关键技术。
一、数据脱敏技术的概念和作用1.1 数据脱敏的定义数据脱敏是一种通过对敏感数据进行处理,使其在保留原有数据结构和特征的同时,削减或者隐藏敏感信息的技术。
1.2 数据脱敏的作用数据脱敏可以有效保护敏感数据的安全,防止数据泄露和滥用。
通过脱敏处理,可以降低数据的敏感度,使得数据在共享和使用过程中更加安全可靠。
1.3 数据脱敏的应用场景数据脱敏广泛应用于金融、医疗、电商等领域。
例如,在金融领域,银行需要共享数据给第三方合作火伴进行风险评估,但又不能暴露客户的敏感信息,这时就需要使用数据脱敏技术。
二、数据脱敏的常用方法2.1 替换方法替换方法是指将敏感数据替换为与之具有相同格式和特征的伪数据。
常见的替换方法包括随机替换、固定替换和字典替换。
2.2 删除方法删除方法是指直接删除敏感数据或者将其部份内容删除。
常见的删除方法包括全删除、部份删除和屏蔽删除。
2.3 加密方法加密方法是指对敏感数据进行加密处理,惟独具有解密密钥的人材干还原数据。
常见的加密方法包括对称加密和非对称加密。
三、数据脱敏的挑战和解决方案3.1 数据脱敏的挑战数据脱敏面临着数据准确性、数据关联性和性能问题等挑战。
在脱敏过程中,需要确保脱敏后的数据仍具有一定的准确性,同时还需要保持数据之间的关联性。
此外,数据脱敏还需要在保证数据安全的前提下,尽可能减少对性能的影响。
3.2 数据脱敏的解决方案为了解决数据脱敏的挑战,可以采取以下措施。
首先,需要制定脱敏策略,明确敏感数据的范围和脱敏级别。
其次,选择合适的脱敏方法,根据实际需求和数据特点进行选择。
最后,进行脱敏效果评估和性能测试,确保脱敏后的数据满足要求。
四、数据脱敏的未来发展趋势4.1 自动化脱敏未来的数据脱敏技术将更加智能化和自动化,能够根据数据的特征和要求自动选择合适的脱敏方法,并进行脱敏处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据隐私保护技术之脱敏技术
大数据隐私保护技术之脱敏技术
数据安全是信息安全的重要一环。
当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。
他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。
作者:佚名来源:FreeBuf|2016-11-22 09:40
收藏
分享
前言
这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。
介绍
随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。
数据安全是信息安全的重要一环。
当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。
他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。
许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。
例如:
1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。
2.在商业上保持竞争力需要新的和改进后的功能。
结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。
3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。
4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。
结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。
数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
数据脱敏系统设计的难点
许多公司页考虑到了这种威胁并且马上着手来处理。
简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。
首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么?有哪些依赖?应用程序是十分复杂并且完整的。
知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。
敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。
一旦敏感信息被确认,在保持应用程序完整性的同时进行脱敏的方法就是最重要的了。
简单地修改数值可能会中断正在测试,开发或升级的应用程序。
例如遮挡客户地址的一部分,可能会使应用程序变得不可用,开发或测试变得不可靠。
脱敏的过程就是一个在安全性和可用性之间平衡的过程。
安全性是0%的系统中,数据不需要进行脱敏,数据库中都是原来的数据,可用性当然是100%;安全性是100%的系统中,大概所有的数据全都存一个相同的常量才能实现。
所以需要选择或设计一种既能满足第三方的要求,又能保证安全性的算法就变得特别重要了。
选定了敏感数据和要施加的算法,剩下的就是如何实现了,在什么过程中进行脱敏呢?
难题的解决方案
1.如何识别敏感数据
现在有两种方式来识别敏感数据。
第一种是通过人工指定,比如通过正则来指定敏感数据的格式,Oracle公司开发的Oracle Data Masking Pack中就使用了这一种方法来指定。
第二种方式就是自动识别了,在文献[2]中,作者给出了基于数据特征学习以及自然语言处理等技术进行敏感数据识别的自动识别方案(没有具体的实现,只提出了模型)。
具体的实现在gayhub上找了一个java实现的工程,chlorine-finder,看了下源码具体原理是通过提前预置的规则来识别一些常见的敏感数据,比如信用卡号,SSN,手机号,电子邮箱,IP地址,住址等.
2.使用怎样的数据脱敏算法
在比较常见的数据脱敏系统中,算法的选择一般是通过手工指定,像Oracal的数据脱敏包中就预设了关于信用卡的数据选择什么算法进行处理,关于电话的数据怎么处理,用户也可以进行自定义的配置。
脱敏方法现在有很多种,比如k-匿名,L多样性,数据抑制,数据扰动,差分隐私等。
k-匿名:
匿名化原则是为了解决链接攻击所造成的隐私泄露问题而提出的。
链接攻击是这样的,一般企业因为某些原因公开的数据都会进行简单的处理,比如删除姓名这一列,但是如果攻击者通过对发布的数据和其他渠道获得的信息进行链接操作,就可以推理出隐私数据。
k-匿名是数据发布时保护私有信息的一种重要方法。
k-匿名技术是1998 年由Samarati和Sweeney提出的,它要求发布的数据中存在至少为k的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私, k-匿名通过参数k指定用户可承受的最大信息泄露风险。
但容易遭受同质性攻击和背景知识攻击。
L-多样性
L多样性是在k-匿名的基础上提出的,外加了一个条件就是同一等价类中的记录至少有L个“较好表现”的值,使得隐私泄露风险不超过1/L,”较好表现“的意思有多种设计,比如这几个值不同,或者信息熵至少为logL等等..
但容易收到相似性攻击。
数据抑制
数据抑制又称为隐匿,是指用最一般化的值取代原始属性值,在k-匿名化中,若无法满足k-匿名要求,则一般采取抑制操作,被抑制的值要不从数据表中删除,要不相应属性值用“ ** ”表示。
1. >>> s = "CREDITCARD">>> s[-4:].rjust
(len(s), "*")'******CARD'
数据扰动
数据扰动是通过对数据的扰动变形使数据变得模糊来隐藏敏感的数据或规则,即将数据库 D 变形为一个新的数据库D′ 以供研究者或企业查询使用,这样诸
如个人信息等敏感的信息就不会被泄露。
通常,D′ 会和 D 很相似,从D′ 中可以挖掘出和 D 相同的信息。
这种方法通过修改原始数据,使得敏感性信息不能与初始的对象联系起来或使得敏感性信息不复存在,但数据对分析依然有效。
Python中可以使用faker库来进行数据的模拟和伪造。
1. from faker import Factory
2.
3. fake = Factory.create()
4.
5. fake.country_code()# 'GE'fake.city_na
me()# '贵阳'fake.street_address()# '督
路l座'fake.address()# '辉市哈路b
座 176955'fake.state()# '南溪区
'fake.longitude()# Decimal('-163.64574
9')fake.geo_coordinate(center=None, r
adius=0.001)# Decimal('90.252375')fak
e.city_suffix()# '市
'titude()# Decimal('-4.0682855')f
ake.postcode()# '353686'fake.building
_number()# 'o座'fake.country()# '维尔
京群岛'fake.street_name()# '姜路'
相关技术有:一般化与删除,随机化,数据重构,数据净化,阻碍,抽样等。
差分隐私
差分隐私应该是现在比较火的一种隐私保护技术了,是基于数据失真的隐私保护技术,采用添加噪声的技术使敏感数据失真但同时保持某些数据或数据属性不变,要求保证处理后的数据仍然可以保持某些统计方面的性质,以便进行数据挖掘等操作。
差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者已知除一条记录之外的所有敏感数据,仍可以保证这一条记录的敏感信息不会被泄露。
想要体验的同学可以去Havard的Differential Privacy实验室,他们做了一个DP的原型实现.
想要详细了解的同学可以看一下知乎上的这个问题<点击文末阅读原文查看链接>
关于动态脱敏系统的实现,现在一般有两种,一种是重写数据库程序代码,在权限判决后对请求语句进行重写,从而查询数据;另一种是用户的sql语句通过代理后,代理会对其中关于敏感信息的部分进行语句的替换,并且在返回时会重新包装为与原请求一致的格式交给用户。
总结
经过上面的分析,看来实现一个全自动的准确率高的脱敏系统难度相当大啊,希望自己能够圆满完成任务。