(word完整版)数据脱敏技术方案V1.1

合集下载

大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术

大数据平台数据脱敏关键技术一、引言大数据平台的快速发展和广泛应用使得数据安全和隐私保护变得尤为重要。

数据脱敏是一种常用的数据保护技术,通过对敏感数据进行处理,使其在保持数据分析和应用的可用性的同时,最大程度地保护用户隐私。

本文将详细介绍大数据平台数据脱敏的关键技术。

二、数据脱敏的定义与目标数据脱敏是指对敏感数据进行加密、替换、删除等操作,以保护用户隐私和敏感信息。

数据脱敏的目标是在保持数据可用性和完整性的前提下,最大程度地减少敏感信息被泄露的风险。

三、数据脱敏的关键技术1. 数据分类与敏感度评估在进行数据脱敏之前,首先需要对数据进行分类和敏感度评估。

根据数据的敏感程度,可以确定不同的脱敏策略和措施。

常见的数据分类包括个人身份信息、银行账号、手机号码等。

2. 脱敏算法选择选择合适的脱敏算法是数据脱敏的关键。

常用的脱敏算法包括:- 替换:将敏感数据替换为特定的符号或者随机生成的数据,如将姓名替换为“*”或者将手机号码替换为随机生成的虚拟号码。

- 加密:使用加密算法对敏感数据进行加密处理,如对银行账号进行AES加密。

- 删除:直接删除敏感数据,如删除用户的身份证号码。

3. 脱敏策略与规则制定制定合理的脱敏策略和规则对于数据脱敏的效果至关重要。

脱敏策略需要考虑数据的特点、应用场景和法律法规等因素。

例如,对于医疗数据,应该采取更加严格的脱敏策略,以保护患者的隐私。

4. 数据脱敏工具的选择与应用选择合适的数据脱敏工具可以提高数据脱敏的效率和准确性。

常用的数据脱敏工具包括Apache Ranger、IBM Guardium等。

这些工具提供了丰富的功能和灵活的配置选项,可以满足不同场景下的数据脱敏需求。

5. 脱敏后数据验证与测试在进行数据脱敏之后,需要对脱敏后的数据进行验证和测试,确保脱敏结果符合预期。

验证和测试可以通过比对脱敏前后的数据统计指标、数据分布等方式进行。

6. 脱敏数据的存储和访问控制脱敏后的数据需要进行安全的存储和访问控制。

数据脱敏处理方法

数据脱敏处理方法

数据脱敏处理方法数据脱敏处理是一种数据安全技术,可在保持数据完整性的前提下,尽可能地模糊或者删除用户的个人数据,以减少数据泄露的风险。

数据脱敏的方法很多,包括加密法、隐藏法等。

一、加密法加密法是指通过加密软件将原始数据提供给接收者,接收者接收到加密信息后,必须通过特殊的密码或安全引擎来解码获取数据,可以有效的防止用户的个人信息泄露。

优点是安全性强,可以在不改变本质的前提下保护数据的完整性。

缺点是增加软件的使用成本和运维投入,准备工作也比较繁琐。

二、隐藏法隐藏法是指将用户的敏感信息分拆成多个小的部分,分别用不可读的方式进行保存,以避免数据一次性全部泄露。

优点是可以有效控制数据被泄漏的概率,缺点是程序代码复杂,成本较高,而且信息可以被非法复制。

三、字段变形字段变形是基于数据库字段进行数据脱敏,比如把一个姓名,手机号等,根据规则替换成一系列的随机字符串,这样就可以有效的解决用户的隐私信息泄露问题。

优点是易于实现,使用起来也很方便。

缺点是它只能模糊化部分字段,无法脱敏完整的个人信息。

四、哈希算法哈希算法是指将数据输入到哈希算法生成一定的规律,该算法只能进行加密不能进行解密,即用户输入的内容可以轻易生成加密摘要,但是无法通过摘要解密出用户最初输入的内容,这种方法可以有效的掩盖真实信息,防止数据泄露。

优点是使用简单,加密强度高,不易被破解。

缺点是无法进行反向解密,也没有数据的加强脱敏功能。

五、雷暴算法雷暴算法是指通过计算机对数据进行深度分析,将从中获取的用户信息进行加密处理,使信息变得不可读,以此达到脱敏的效果。

该算法实现更佳的数据脱敏效果,但是由于计算复杂度较高,可能会造成运算效率低下。

总结:数据脱敏处理是一种数据安全技术,可以有效的防止用户的个人信息泄漏,它的实现方法有加密法、隐藏法、字段变形、哈希算法和雷暴算法等。

每种方法都有各自的优缺点,在实际应用中应充分考虑自身的安全性需求来选择最合适的方式进行实现。

数据脱敏系统和数据脱敏方法

数据脱敏系统和数据脱敏方法

数据脱敏系统和数据脱敏方法一、引言数据脱敏系统和数据脱敏方法是为了保护敏感数据的安全性和隐私性而设计的。

在现代信息化社会中,大量的敏感数据存在于各个组织和企业的数据库中,如个人身份信息、银行账号、社保号码等。

为了防止这些敏感数据被非法获取和滥用,数据脱敏系统和数据脱敏方法应运而生。

本文将详细介绍数据脱敏系统的功能和特点,以及常用的数据脱敏方法。

二、数据脱敏系统数据脱敏系统是一种用于对敏感数据进行脱敏处理的软件系统。

其主要功能是将敏感数据转化为不可识别或不可还原的形式,以保护数据的隐私性和安全性。

数据脱敏系统通常包括以下几个模块:1. 数据脱敏模块:该模块是数据脱敏系统的核心模块,负责对敏感数据进行脱敏处理。

常用的数据脱敏方法将在下一部分详细介绍。

2. 数据加密模块:该模块用于对脱敏后的数据进行加密处理,增加数据的安全性。

常用的加密算法包括对称加密算法和非对称加密算法。

3. 访问控制模块:该模块用于对系统的访问进行控制,只有经过授权的用户才能访问系统。

可以通过用户名和密码、指纹识别、身份证验证等方式进行身份认证。

4. 审计模块:该模块用于记录系统的操作日志,包括用户的登录、数据的访问和修改等。

可以帮助系统管理员及时发现异常操作并采取相应的措施。

5. 数据备份与恢复模块:该模块用于对系统中的数据进行定期备份,并能够在数据丢失或系统故障时进行数据恢复。

三、数据脱敏方法数据脱敏方法是指将敏感数据转化为不可识别或不可还原的形式的技术手段。

常用的数据脱敏方法包括以下几种:1. 替换脱敏方法:该方法通过将敏感数据替换为符合规则的虚拟数据来实现脱敏。

例如,将姓名替换为随机生成的字符串,将手机号码替换为随机生成的虚拟手机号码等。

2. 加密脱敏方法:该方法通过对敏感数据进行加密操作来实现脱敏。

常用的加密算法包括对称加密算法和非对称加密算法。

对称加密算法使用相同的密钥进行加密和解密,而非对称加密算法使用公钥进行加密,私钥进行解密。

脱敏的策划方案

脱敏的策划方案

脱敏的策划方案1. 概述数据脱敏是一种在数据处理中广泛应用的技术,它的目的是通过保护敏感数据和隐私来最大程度地减少数据泄露的风险。

在本文档中,将提出一种脱敏的策划方案,以确保在数据处理过程中的数据安全性和隐私保护。

2. 数据脱敏的目标数据脱敏的目标是将敏感数据转换为无法识别个人身份或包含隐私信息的数据形式,同时保持数据的有用性和统计特性。

通过脱敏,可以防止个人隐私信息的泄露,确保数据处理过程的合规性。

3. 数据脱敏的策略数据脱敏的策略有多种,根据实际需求和数据类型的不同,选择合适的脱敏方法是很重要的。

以下是几种常用的脱敏策略:3.1. 哈希算法哈希算法是一种将数据转换为固定长度的散列值的方法,它具有不可逆性和唯一性。

在数据脱敏过程中,可以使用哈希算法对敏感数据进行处理,将原始数据转换为散列值,从而保护个人隐私。

3.2. 随机替换随机替换是一种常见的数据脱敏方法,它通过重新映射敏感数据的值来保护个人身份。

在该方法中,可以使用随机生成的值替换原始敏感数据,从而实现数据脱敏的效果。

3.3. 日期偏移对于包含日期信息的数据,可以使用日期偏移的方法进行脱敏。

该方法通过对日期进行随机偏移或固定偏移来保护个人隐私,同时保持数据的有用性和统计特性。

3.4. 字符串截断字符串截断是一种简单且有效的数据脱敏方法,它将敏感信息的一部分字符删除或替换为特殊字符。

在字符串截断过程中,可以根据实际需求选择保留的字符数量,以达到最佳的脱敏效果。

4. 数据脱敏的过程数据脱敏过程包括以下几个关键步骤:4.1. 数据分类首先,需要对数据进行分类,区分出敏感数据和非敏感数据。

敏感数据是需要脱敏的数据,包括个人身份信息、账号密码、银行卡号等。

4.2. 脱敏策略选择根据数据分类的结果,选择合适的脱敏策略进行处理。

不同类型的敏感数据可能需要使用不同的脱敏方法,以满足数据安全性和隐私保护的要求。

4.3. 数据转换根据所选的脱敏策略,对敏感数据进行处理,将其转换为脱敏后的数据形式。

数据脱敏原理及方法简析

数据脱敏原理及方法简析

数据脱敏原理及方法简析数据脱敏是在保护敏感信息的同时,保持数据的可用性和一致性。

其原理是通过对数据进行加密、替换、泛化等技术手段,对敏感数据进行模糊处理,使其无法还原为原始数据,从而降低数据的敏感程度。

下面将对数据脱敏的原理和方法进行简析。

1.数据脱敏原理数据脱敏的原理主要包括以下几个方面:-加密:通过使用密码学算法,将敏感数据以密文的形式存储或传输,只有授权用户才能解密并查看原始数据。

常见的加密算法包括对称加密算法(如DES、AES)、非对称加密算法(如RSA)等。

-替换:将敏感数据替换为具有相同或相似特征的虚拟数据。

例如,将用户的真实姓名替换为随机生成的虚拟姓名,将手机号码替换为随机生成的虚拟号码等。

-删除:彻底删除或部分删除敏感数据,以避免泄露风险。

但需要注意的是,删除敏感数据可能会导致数据的不完整性,因此在执行删除操作时需谨慎考虑。

-泛化:通过将数据进行分类、归并等操作,抽象出数据的共性特征,减少数据的细节信息。

例如,对年龄数据进行分组处理(如将具体年龄替换为年龄段)、将地理位置数据进行省略处理等。

2.数据脱敏方法数据脱敏有多种方法可供选择,具体方法的选择应根据数据的特点、安全需求、应用场景等因素进行综合考量。

-通过加密算法对数据进行加密处理。

加密算法可以分为对称加密算法和非对称加密算法两种。

对称加密算法的特点是加密解密使用相同的密钥,速度较快,适合对大量数据进行加密;非对称加密算法使用公钥和私钥进行加密解密,安全性较高,但速度较慢。

在选择加密算法时需注意算法的安全性、加解密效率和密钥管理等方面的因素。

-使用哈希算法对数据进行摘要处理。

哈希算法将原始数据映射为固定长度的哈希值,具有不可逆性和唯一性。

常用的哈希算法包括MD5、SHA-1、SHA-256等。

但需要注意的是,由于哈希算法的不可逆性,无法从哈希值还原出原始数据。

-采用数据脱敏技术对数据进行模糊化处理。

具体方法包括替换、泛化、添加噪音等。

数据脱敏 保证银行数据安全的重要手段

数据脱敏 保证银行数据安全的重要手段

数据脱敏保证银行数据安全的重要手段数据脱敏是保证银行数据安全的重要手段数据安全一直是银行业面临的重要挑战之一,而数据脱敏作为一种重要的数据安全手段,在保护银行数据安全方面发挥着重要作用。

本文将从数据脱敏的定义、作用、实施方法、优势和应用场景等方面进行详细介绍。

一、数据脱敏的定义1.1 数据脱敏是一种数据保护技术,通过对敏感数据进行处理,使其无法被识别,从而保护数据的隐私性。

1.2 数据脱敏可以对银行数据库中的敏感数据进行处理,如对用户的姓名、身份证号、银行卡号等进行脱敏处理,确保数据在传输和存储过程中不被泄露。

1.3 数据脱敏可以通过对数据进行加密、替换、混淆等方式进行处理,从而保护数据的安全性。

二、数据脱敏的作用2.1 保护用户隐私。

通过数据脱敏技术,银行可以有效保护用户的个人信息不被泄露,确保用户数据的安全性。

2.2 遵守法律法规。

数据脱敏是银行遵守相关法律法规的重要手段,如《个人信息保护法》等,保护用户数据的隐私权。

2.3 防止数据泄露。

数据脱敏可以有效防止银行数据在传输和存储过程中发生泄露,提高数据的安全性。

三、数据脱敏的实施方法3.1 数据加密。

对敏感数据进行加密处理,确保数据在传输和存储过程中不被窃取。

3.2 数据替换。

对敏感数据进行替换处理,如将用户的真实姓名替换为虚拟姓名,保护用户的隐私信息。

3.3 数据混淆。

对敏感数据进行混淆处理,如对用户的银行卡号进行部分隐藏,确保数据的安全性。

四、数据脱敏的优势4.1 提高数据安全性。

数据脱敏可以有效提高银行数据的安全性,降低数据泄露的风险。

4.2 保护用户隐私。

数据脱敏可以有效保护用户的个人信息不被泄露,提高用户对银行的信任度。

4.3 遵守法律法规。

数据脱敏是银行遵守相关法律法规的重要手段,确保数据处理的合法性。

五、数据脱敏的应用场景5.1 在银行系统中的用户信息管理。

对用户的个人信息进行脱敏处理,确保用户数据的安全性。

5.2 在金融交易中的数据保护。

数据脱敏技术方案

数据脱敏技术方案

数据脱敏技术方案摘要数据脱敏是一种保护个人隐私和敏感信息的重要技术手段。

本文将介绍数据脱敏的概念和意义,并提供一种数据脱敏技术方案,详细介绍了几种常见的数据脱敏方法和算法,并探讨了这些方法的优缺点和适用场景。

引言在现代信息社会中,个人隐私和敏感信息的保护变得愈发重要。

数据脱敏是一种将敏感数据转化为无意义或无法关联到个人身份的数据的方法,以保护个人隐私。

数据脱敏技术在很多应用场景下都得到了广泛的应用,如医疗健康领域、金融服务、人力资源管理等。

数据脱敏的概念和意义数据脱敏是指将原始数据经过加密或转化等方式,进行数据处理,最终生成无法直接关联到个人身份或敏感信息的数据。

数据脱敏的目的是保护个人隐私,防止敏感数据被滥用或泄露,减少个人信息的风险。

数据脱敏的意义在于它可以在数据使用和共享的过程中保护个人隐私和敏感信息。

在一些情况下,为了实现某些业务需求,数据需要被共享或传输给第三方,这个时候数据脱敏就可以起到重要的作用。

数据脱敏可以通过对数据进行加密、替换、扰乱等方式,保护个人隐私,降低数据泄露的风险。

数据脱敏技术方案1. 基于规则的脱敏方法基于规则的脱敏方法是指根据特定的规则进行数据的转换或替换。

例如,将姓名替换为随机生成的字符串,将手机号码中的数字进行扰乱或脱敏处理等。

这种方法比较简单易用,可以根据实际需求制定不同的规则来处理不同的数据。

2. 哈希脱敏方法哈希脱敏方法是指将原始数据通过哈希函数转换为固定长度的哈希值,并使用哈希表进行存储和匹配。

哈希脱敏方法可以保证数据的一致性和唯一性,但无法将哈希值重新还原为原始数据。

这种方法适用于对于个人身份敏感的数据,如身份证号码、银行卡号码等进行脱敏处理。

3. 加密脱敏方法加密脱敏方法是指将原始数据通过加密算法转换为密文,并使用密钥进行解密。

加密脱敏方法可以通过合理的密钥管理和加密算法的选择,保证数据的安全性。

这种方法适用于对于重要和敏感的数据进行处理,如个人账号密码、社保卡号码等。

医疗行业数据脱敏技术方案

医疗行业数据脱敏技术方案

医疗行业数据脱敏技术方案新医疗,新智慧目录CONTENTS 1医疗行业信息化特征2医疗行业数据流转安全风险分析3医疗行业数据脱敏技术4医疗行业数据脱敏应用5医疗行业数据脱敏体系6医疗行业数据脱敏案例分享医疗行业信息化特征敏感数据访问人员•医生•护士•运维人员•外包人员•业务开发人员•个人隐私数据•居民健康数据•母婴登记数据•医院处方数据•特殊疾病数据•HIS 业务系统•E M R 业务系统•LIS 业务系统•PACS/RIS 业务系统•H R P 、手麻、院感•移动/互联网支持等系统业务系统数据生命周期管理数据产生数据传输数据存储数据处理共享交换数据销毁外部威胁风险 恶意攻击风险 数据泄露风险 数据存储风险数据内控风险数据追责溯源数据流转风险数据丢失以及业务连续性风险目录CONTENTS 1医疗行业信息化特征2医疗行业数据流转安全风险分析3医疗行业数据脱敏技术4医疗行业数据脱敏应用5医疗行业数据脱敏体系6医疗行业数据脱敏案例分享03.数据分析、挖掘内部以及与其他单位合作进行业务数据分析挖掘。

02.教育、科研教育、科研环境需要使用到生产业务数据。

01.开发、测试开发、测试部门需要业务数据进行系统测试。

04.数据共享、交换部门之间或其他单位进行数据交换,以及对外开放。

05.数据访问、查询不同角色人员对业务系统数据访问、查询。

06.数据提取与上报业务数据提取到协会、联盟以及上报卫健委。

数据流转安全风险分析(数据视角)诊疗改善交换共享运管改善患者服务测试开发数据流转安全风险分析(业务视角)目录CONTENTS 1医疗行业信息化特征2医疗行业数据流转安全风险分析3医疗行业数据脱敏技术4医疗行业数据脱敏应用5医疗行业数据脱敏体系6医疗行业数据脱敏案例分享敏感信息什么是数据脱敏数据脱敏形态数据脱敏发展历程静态数据脱敏(SDM)一般应用在非生产环境或脱离原生业务系统数据使用,将数据从生产环境抽取到非生产环境或其他目标,同时对敏感数据进行脱敏处理,防止敏感隐私数据泄露,保护数据安全。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据脱敏方案2017—1-15更改履历目录1. 概述 (4)1.1. 编写目的 (4)1.2. 数据脱敏的定义 (4)1。

3. 电网数据脱敏需求 (5)2。

脱敏方案 (6)2。

1。

脱敏算法 (7)2.1。

1。

K—Anonymity (K-匿名) (8)2。

1。

2. L—Diversity (9)2。

1。

3. T-Closeness (10)2。

2. 脱敏规则 (14)3. 电网应用场景................................................ 错误!未定义书签。

3.1. 云平台功能设计........................................ 错误!未定义书签。

3。

2。

大数据平台功能设计.................................. 错误!未定义书签。

1.概述1.1.编写目的本文档描述了数据脱敏的研究成果和方法论.旨在为具有数据脱敏需求的开发人员和项目提供参考和借鉴。

1.2.数据脱敏的定义敏感数据一般指不当使用或未经授权被人接触或修改会不利于国家利益或不利于个人依法享有的个人隐私权的所有信息.工业和信息化部编制的《信息安全技术公共及商用服务信息系统个人信息保护指南》明确要求,处理个人信息应当具有特定、明确和合理的目的,应当在个人信息主体知情的情况下获得个人信息主体的同意,应当在达成个人信息使用目的之后删除个人信息。

这项标准最显著的特点是将个人信息分为个人一般信息和个人敏感信息,并提出了默许同意和明示同意的概念。

对于个人一般信息的处理可以建立在默许同意的基础上,只要个人信息主体没有明确表示反对,便可收集和利用。

但对于个人敏感信息,则需要建立在明示同意的基础上,在收集和利用之前,必须首先获得个人信息主体明确的授权。

这项标准还正式提出了处理个人信息时应当遵循的八项基本原则,即目的明确、最少够用、公开告知、个人同意、质量保证、安全保障、诚信履行和责任明确,划分了收集、加工、转移、删除四个环节,并针对每一个环节提出了落实八项基本原则的具体要求.数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形.百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护.这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。

敏感数据,又称隐私数据,常见的敏感数据有:姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类(如账户查询密码、取款密码、登录密码等)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战–个人隐私信息的保护。

个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也将是数据脱敏必须解决的难题.1.3.数据脱敏需求随着国家电网数据应用的不断深入,有许多应用需要和外部系统对接,数据需要对外提供服务才能体现出它的价值,大数据时代是数据融合的时代,如何在数据融合的过程中,保证数据在开发、测试、生产、应用等各个环节的安全,成为信息安全部门的重要任务.国家电网数据脱敏需求包括:通过数据抽取、数据漂白、数据混淆等处理过程,用来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求,并使得数据处理过程满足国家电网的敏感数据防护的政策规定。

具体脱敏需求包括:➢防止生产库中的敏感数据泄漏通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再提供给第三方使用,防止生产库中的敏感数据泄漏。

➢保证测试、开发、应用阶段的数据关联性通过脱敏策略和算法,保证脱敏数据有效性(保持原有数据类型和业务格式不变)、完整性(保证长度不变、数据含义不丢失)、关系性(保持表间、表内数据关联关系)。

以提升测试、开发、应用环节的数据真实性和可用性。

➢保证数据维护和数据共享的安全对数据库访问者的用户名、IP、工具类型、时间等进行监控,控制数据访问结果的差异化,数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等,通过访问者的不同访问策略,满足细粒度的数据访问需求.例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。

➢保证隐私数据管理的政策合规性数据的脱敏和数据处理必须在国家电网的相关政策规定允许的情况下进行,脱敏规则符合国家电网的数据管理要求。

2.脱敏方案2.1.脱敏流程数据脱敏的流程一般分为:敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大步骤,结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达到最佳的数据脱敏效果。

2.1.1.敏感数据发现敏感数据的发现分为人工发现和自动发现两种。

对于国家电网相对固定的业务数据,可以采用人工甄别,明确指定那些列、那些库的数据是需要脱敏,这些数据一般数据结构和数据长度不会有变化,大部分为数值型和固定长度的字符.比如:单位代码、户号、户名、用电地址等标识列,针对这些数据可以通过人工指定脱敏规则和不同的数据访问策略,保证敏感信息不被泄漏。

自动识别根据人工指定或预定义的敏感数据特征,借助敏感数据信息库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别可以减少工作量和防止遗漏。

一般采用自动发现为主,结合人工发现和审核,来完成敏感数据的发现和定义,最终形成完善的敏感数据字典。

2.1.2.敏感数据梳理在敏感数据发现的基础上,完成敏感数据列、敏感数据关系的调整,以保证数据的关联关系。

通过屏蔽、变形、替换、随机、格式保留加密、强加密等数据脱敏算法,针对不同的数据类型进行数据掩码扰乱.2.1.3.脱敏方案制定对于不同的数据脱敏需求,在基础脱敏算法的基础上,可配置专门的脱敏策略。

脱敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现,通过配置和扩展脱密算法以制定最优方案。

2.1.4.脱敏任务执行脱敏任务的停止、启动、暂停等操作,支持任务并行处理,支持脱敏任务的中断续延等。

2.2.脱敏算法2.2.1.脱敏算法特征通常根据不同数据特征选择不同的脱敏算法,对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email 地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏,脱敏算法通常包括屏蔽、变形、替换、随机、格式保留加密(FPE)和强加密算法(如AES )。

脱敏算法具有如下特性:➢同义替换使用相同含义的数据替换原有的敏感数据,如姓名脱敏后仍然为有意义的姓名,住址脱敏后仍然为住址。

➢部分数据遮蔽将原数据中部分或全部内容,用“*”或“# "等字符进行替换,遮盖部分或全部原文。

➢混合屏蔽将相关的列作为一个组进行屏蔽,以保证这些相关列中被屏蔽的数据保持同样的关系,例如,城市、省、邮编在屏蔽后保持一致。

➢确定性屏蔽确保在运行屏蔽后生成可重复的屏蔽值。

可确保特定的值(如,客户号、身份证号码、银行卡号)在所有数据库中屏蔽为同一个值.➢可逆脱敏确保脱敏后的数据可还原,便于将第三方分析机构和内部分析团队基于脱敏后数据上的分析的结果还原为业务数据。

2.2.2.K—Anonymity (K-匿名)算法描述:要求对于任意一行记录,其所属的相等集内记录数量不小于k,即至少有k—1条记录半标识列属性值与该条记录相同。

理论上来说,对于 K—Anonymity 数据集,对于任意记录,攻击者只有 1/k 的概率将该记录与具体用户关联。

算法步骤:➢先移除标识列➢泛化半标识列算法优缺点:➢优点:可以用于保护个人标识泄漏的风险。

➢缺点:容易受到链接式攻击,无法保护属性泄露的风险。

对于 K-Anonymity 的数据集,攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。

对移除标识列的数据根据半标识列进行分组,每组最少有 k 条记录,每组中至少有 k-1 条记录的半标识列的值与该记录相同.2.2.3.L—Diversity算法描述:➢如果对于任意相等集内所有记录对应的敏感数据的集合,包含 L 个“合适" 值,则称该相等集是满足 L-Deversity .如果数据集中所有相等集都满足 L-Deversity , 则称该数据集满足 L-Deversity。

➢相对于K-Anonymity 标准,符合L-Deversity 标准的数据集显著降低了属性数据泄漏的风险。

对于满足L-Derversity 的数据集,理论上,攻击者最多只有 1/L 的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。

➢通过插入干扰数据构造符合 L-Diversity 的数据集。

在K—Anonymity的基础上,每个数据集中,其敏感信息列有 L 个不同的值,攻击者只有 1/L 的几率获得正确的敏感信息。

2.2.4.T—Closeness算法描述:L-Diversity 是通过约束 P 的 diversity 属性,尽量减少B0 和B2之间的信息量差距,差距越小,说明隐私信息泄漏越少.(word完整版)数据脱敏技术方案V1.1 T—Closeness 约束则期望减少B1 和 B2 之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息.如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,则称该相等类满足 T-Closeness约束。

如果数据集中的所有相等类都满足 T—Closeness,则称该数据集满足T-Closeness。

T—Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系,减弱了半标识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。

不过同时也肯定导致了一定程度的信息丢失,所以管理者通过T值的大小平衡数据可用性与用户隐私保护.2.2.5.算法用例2.2.5。

1原始数据2。

2。

5.2 K-Anonymity( k=2 )2.2.5.3 L—Diversity( L=2 )2.3.脱敏规则脱敏规则,一般的脱敏规则分类为可恢复与不可恢复两类。

可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则.不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。

一般可分为替换算法和生成算法两大类。

替换算法即将需要脱敏的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。

相关文档
最新文档