大数据差分隐私保护解决方案

合集下载

敏感数据隐私保护中的差分隐私技术研究

敏感数据隐私保护中的差分隐私技术研究

敏感数据隐私保护中的差分隐私技术研究随着移动互联网和大数据时代的到来,人们习惯于使用各种数字应用程序,以便方便地交换和共享敏感数据,例如医疗报告、财务数据和个人位置等。

这类数据泄露会对个人权利造成伤害,并且会威胁国家安全。

因此,实现数据隐私保护是当今数字领域的一项重要工作。

对于敏感数据,差分隐私技术是目前广泛应用的一种数据隐私保护方法。

一、差分隐私技术的概念差分隐私技术是用于保护隐私的计算方法,它的基本思想是在计算时向原始数据中添加一些噪声,以便隐藏原始数据的具体值,从而保护隐私。

这种技术对于数据的隐私保护尤其重要,因为它可以保护原始数据中的一些关键信息,例如个人身份、位置、收入等,而仍然允许统计分析塑造数据,洞悉数据中存在的真实模式或趋势。

二、差分隐私技术的应用差分隐私技术应用广泛,例如移动设备位置隐私保护、医疗数据隐私保护、社交网络数据隐私保护等领域。

1. 移动设备位置隐私保护在传统方法中,追踪移动设备位置需要通过使用设备的GPS,这也意味着可以通过广告公司、黑客或其他第三方追踪用户的身份和行为。

差分隐私技术解决了这一问题,它通过向采集的位置数据添加一些噪声,从而掩盖了用户的真实位置,仍然能够实现移动网络覆盖率和用户定位等服务。

2. 社交网络数据隐私保护社交网络是一个重要的数据共享平台,它允许社交网络用户分享他们的个人信息、交友、留言、喜好等数据。

但是,这些数据也可能被第三方和广告公司获取,这会威胁用户的身份安全。

差分隐私技术可以用于对社交网络数据进行匿名化处理,从而防止这些数据被未经授权的个人或组织获取。

3. 医疗数据隐私保护在医疗领域,医疗保健提供者和提供商需要收集和共享大量的高度敏感的患者数据,但是这些数据的存储和共享有可能泄露患者的隐私。

差分隐私技术可以使用加入符合随机分布的噪声对医疗数据中患者隐私进行保护,同时也可以保护医生对患者数据的访问,这样可以在保护隐私的前提下,依然提供有效的医疗服务。

什么是差分隐私?

什么是差分隐私?

什么是差分隐私?差分隐私是一种保护个人隐私的技术和理念。

在大数据时代,我们享受着各种便利的同时,也不可避免地面临着个人隐私泄露的风险。

差分隐私的出现,为我们提供了一种有效的隐私保护手段。

那么,究竟什么是差分隐私呢?一、差分隐私的定义和原理差分隐私是一种通过在数据处理过程中添加噪声的方法,来保护原始数据中的个人隐私信息的技术。

其核心思想是在为用户提供数据分析服务的同时,对个人的隐私信息进行有效保护。

其目标是通过对数据的处理,使得在获得处理结果后,无法通过结果来推断出任何关于个体的敏感信息。

差分隐私的原理非常简单,即向原始数据添加一定程度的噪声。

这种噪声是经过严格控制和计算的,以确保在保护隐私的同时,数据的分析结果仍然具有一定的准确性和可用性。

通过对数据的差分隐私处理,可以最大限度地避免个人敏感信息的泄露,从而有效保护用户的隐私权。

二、差分隐私的应用领域差分隐私的应用领域非常广泛,几乎涵盖了各个数据处理的场景。

以下是一些常见的应用领域:1. 医疗健康领域:在医疗数据分析中,为了保护患者的隐私,差分隐私可以应用于医疗记录的共享与分析,提供匿名化的数据处理。

2. 金融领域:在金融数据处理中,差分隐私可以用于保护用户的财务隐私,使得用户在享受金融服务的同时,隐私信息不会被滥用。

3. 政府与社会科学研究:差分隐私可以应用于人口统计数据的分析,以及社会科学研究中大规模数据集的隐私保护。

4. 互联网广告与推荐系统:差分隐私可以用于对用户个人数据进行保护,在进行广告定向投放和个性化推荐时,保证用户的隐私不被泄露。

三、差分隐私的优势和挑战1. 优势差分隐私作为一种有效的隐私保护手段,具有以下优势:(1)保护隐私:差分隐私能够很好地保护个人的隐私信息,有效避免敏感信息的泄露。

(2)准确性保持:差分隐私处理后的数据,仍然能够保持一定的准确性,保证分析结果的可用性。

(3)灵活性:差分隐私技术可以根据具体应用场景的需求来调整隐私保护的程度,具备一定的灵活性。

满足本地化差分隐私的多维数据收集技术

满足本地化差分隐私的多维数据收集技术

满足本地化差分隐私的多维数据收集技术汇报人:2023-12-30•引言•差分隐私基础•本地化差分隐私目录•多维数据收集技术•满足本地化差分隐私的多维数据收集技术方案•实验与分析•结论与展望01引言随着大数据时代的来临,多维数据收集和分析在各个领域中发挥着越来越重要的作用。

差分隐私是一种有效的隐私保护方法,它通过添加噪声来保护数据隐私。

然而,数据隐私保护成为了一个亟待解决的问题,特别是对于敏感数据的保护。

本地化差分隐私进一步强调了数据收集过程中的隐私保护,避免了数据集中处理带来的隐私泄露风险。

研究背景与意义03现有的多维数据收集技术往往难以平衡数据精度和隐私保护的需求。

01目前,多维数据的差分隐私研究已经取得了一定的进展,但仍然存在一些问题。

02如何在满足差分隐私的同时,提高数据收集的精度和效率是多维数据收集面临的主要挑战。

研究现状与问题研究内容与方法01本研究旨在开发一种满足本地化差分隐私的多维数据收集技术。

02通过深入研究差分隐私的原理和多维数据的特性,设计了一种有效的噪声添加策略。

03该策略能够根据不同维度和数据类型的特点,自适应地调整噪声的规模,以在满足差分隐私的同时,最大化数据收集的精度和效率。

04实验验证表明,该技术相比现有方法在数据精度和隐私保护方面具有更好的性能。

02差分隐私基础差分隐私定义差分隐私是一种隐私保护方法,旨在在数据发布和分析中提供隐私保护。

它通过添加随机噪声来干扰数据,使得攻击者无法准确推断出个体数据。

差分隐私的核心思想是,即使攻击者拥有整个数据集,也无法通过分析噪声后的数据推断出个体数据,从而保护了个人隐私。

差分隐私的度量标准通常使用ε来表示,它表示在添加噪声后,数据集中任意两个个体被错误识别为相同概率的上界。

ε越小,表示隐私保护程度越高,但同时也可能导致噪声过大,影响数据的可用性。

因此,需要在隐私保护和数据可用性之间进行权衡。

差分隐私的度量标准差分隐私的限制和挑战差分隐私的主要限制是它对数据可用性的影响。

面向数据隐私保护的差分隐私量化分析技术研究

面向数据隐私保护的差分隐私量化分析技术研究

面向数据隐私保护的差分隐私量化分析技术研究随着时代的发展,大规模的数据收集和分析已经成为了我们生活中的常态,数据隐私保护问题也愈加重要。

隐私泄露和数据滥用都带来了巨大的经济和社会损失,因此为保护个人和企业的隐私,打造一个隐私保护的安全环境已经成为了一种必要。

在当前人工智能推动下,隐私保护与数据分析的关系愈加密切,因此研究面向数据隐私保护的差分隐私量化分析技术显得尤为重要。

一、差分隐私差分隐私是目前广泛应用的数据隐私保护技术,通过加噪或者其他的技术手段来掩盖隐私信息。

它的基本思想是在不向外部泄露个人隐私的前提下汇总或发掘出一些与个人隐私关联的特征。

差分隐私的具体应用中,通常会通过向原始数据中添加噪音的方法,即通过扰动原始数据的方式来达到隐私保护效果。

具体而言,如果我们希望对某个人的真实年龄进行统计,为了保护其隐私,我们可能会将某个年龄与这个人的真实年龄加一定的随机噪音,以掩盖这个人的真实年龄信息。

差分隐私的实现有多种方法,包括拉普拉斯机制、指数机制等。

拉普拉斯机制是一种基于高斯噪音的机制,主要用于数值数据类型的发布,是差分隐私中最常见的一种方法。

指数机制是一种基于指数分布的机制,主要用于发布离散型数据。

二、量化分析技术量化分析技术是对差分隐私应用的量化度量,常用的度量方法有:隐私保护强度度量、隐私保护质量度量、效率度量。

1、隐私保护强度度量隐私保护强度度量是通过信息熵和KL散度来衡量的,其中,信息熵是表示一个系统或者信源中不确定性的度量。

KL散度是两个概率分布之间的距离,用于评价机密性或隐私信息的泄露程度。

在差分隐私中,通过对差分隐私噪音的添加来掩盖隐私信息,而隐私保护强度的度量可以用KL散度来衡量,KL散度越小,差分隐私的隐私保护强度越高。

2、隐私保护质量度量隐私保护质量度量主要指对隐私信息的掩盖效果以及噪音的影响等性能指标的衡量,是评价差分隐私表现的重要方法之一,其主要表现为误差率和破译概率等指标。

大数据时代的网络数据隐私保护研究——以微信为例

大数据时代的网络数据隐私保护研究——以微信为例

大数据时代的网络数据隐私保护研究——以微信为例随着互联网技术的飞速发展,大数据时代已经来临。

在这个时代,我们的大部分个人信息都存储在互联网上,包括我们的通讯录、聊天记录、地理位置等等。

这些个人数据被用来为用户提供个性化服务和广告,但是对于用户来说也面临着隐私泄露的风险。

而微信作为中国最大的社交媒体平台,其隐私保护问题也越来越引起人们的关注。

因此,本文将以微信为例,讨论大数据时代的网络数据隐私保护研究。

一、微信的隐私保护现状微信作为中国最大的社交媒体平台,其用户群体已经相当庞大。

其中,包括了社交、商务、游戏等多个领域的用户。

在日常使用中,微信用户与他人交流的各种信息包括:微信好友、微信群聊、朋友圈、微信支付、微信红包等等。

这些信息都涉及到用户的个人隐私,如果泄露出去,很容易导致用户的财产财务和个人形象受到影响。

目前,微信在隐私保护方面做了不少努力。

比如,在微信收发消息过程中,信息都会经过加密传输,这样即使被黑客窃取,也无法直接阅读其内容。

此外,微信还加入了人脸识别、短信验证码等多种验证方式,保障了用户的账户安全。

此外,微信还有自主决定自己的公开范围、红包、收款的安全规则等做了大量的保护工作。

这些措施有效地提高了微信用户的账户安全,但是隐私数据还是面临着泄露的风险。

二、大数据时代的网络数据隐私保护随着互联网技术的不断发展,大数据时代已经来临。

在这个时代,用户产生的数据远远超出过往,这些数据包括用户的通讯记录、地理位置、浏览记录、购物记录等等。

这些数据可用于让企业精准投放广告、提供更个性化的服务。

但如果这些数据泄露出去,就会导致个人隐私遭到侵犯,给用户带来巨大的损失。

为了解决用户数据的隐私问题,大数据领域研究了许多隐私保护技术。

其中,常见的技术包括:1.密码学技术:密码学技术能将大量数据加密处理,在数据传输过程中防止数据被黑客窃取。

2.差分隐私技术:差分隐私技术将用户的数据加入一定的噪声,防止数据泄露,同时又不影响数据的分析结果。

数据隐私与差分隐私保护

数据隐私与差分隐私保护

数据隐私与差分隐私保护随着互联网的飞速发展,数据已经成为当今社会最宝贵的资源之一。

然而,随之而来的问题是个人隐私的泄露和滥用。

数据隐私保护成为了一个全球关注的热点话题。

在这个背景下,差分隐私(Differential Privacy)作为一种新兴的数据隐私保护方法备受关注。

一、什么是数据隐私保护?数据隐私保护旨在保护个人的敏感信息不被不必要的访问、收集和滥用。

这些敏感信息可以是个人身份、银行账户、健康记录等。

过去,数据隐私在很大程度上依赖于各个组织的自我约束和监管,并且其有效性一直存在争议。

随着技术的进步,特别是机器学习和大数据分析的迅猛发展,传统的数据隐私保护方式已经显得力不从心。

二、差分隐私的概念与原理差分隐私是由密歇根大学的Cynthia Dwork等人于2006年提出的一种新的隐私保护模型。

它通过向数据集中引入一定程度的噪声,使得数据集中个体的隐私信息无法被恶意分析者追溯和获取。

差分隐私提供了随机性和不确定性,从而为个体隐私提供了坚实的保护。

三、差分隐私的优点差分隐私作为一种新兴的隐私保护方法,具有以下几个优点。

首先,它提供了严格的数学定义和量化的隐私保护界限。

差分隐私的数学定义可以直接衡量个体隐私的泄露风险,因此能够提供更加明确和可靠的隐私保护保证。

其次,差分隐私强调隐私与数据可用性之间的权衡。

在实际应用中,隐私保护和数据可用性往往是矛盾的。

差分隐私通过引入噪声,平衡了隐私保护和数据可用性之间的关系,既保护了隐私,又保留了数据的分析价值。

此外,差分隐私具有良好的适应性和灵活性。

不同的数据集和应用场景可能具有不同的隐私需求和数据特性,差分隐私能够根据具体情况进行调整和适应,从而满足不同隐私保护的需求。

四、差分隐私的应用领域和挑战差分隐私在众多领域中都能够找到应用。

例如,医疗健康领域可以利用差分隐私保护患者数据,实现个性化医疗推荐和疾病预测。

金融领域可以利用差分隐私保护客户信息,防止金融欺诈和身份盗窃。

数据隐私保护的差分隐私技术研究

数据隐私保护的差分隐私技术研究1. 引言数据隐私保护一直是信息安全领域的热点问题。

随着大数据时代的到来,我们越来越关注个人隐私的保护,因此差分隐私技术备受关注。

本文将探讨差分隐私技术在数据隐私保护中的应用和研究。

2. 差分隐私技术的概述差分隐私技术是一种保护个体隐私的方法,通过在数据集中引入噪声,使得某个个体对于特定查询的响应在统计上保持不变。

差分隐私技术在数据的发布、共享和分析过程中发挥重要作用。

主要特点包括:保护个体隐私、提供可证明的隐私保护、对数据集的统计特征有限制性、在隐私与数据可用性之间进行权衡。

3. 差分隐私模型差分隐私模型是差分隐私技术的核心。

它通过引入噪声来保护数据隐私。

最常用的差分隐私模型是拉普拉斯机制和指数机制。

拉普拉斯机制通过向原始查询结果添加服从拉普拉斯分布的噪声来实现隐私保护。

指数机制则通过引入指数机制来保护隐私。

4. 差分隐私的应用领域差分隐私技术在各个领域中都有广泛的应用。

在医疗领域,差分隐私技术可以保护个人病历隐私,在不影响医学研究的前提下,进行数据共享和分析。

在社交网络领域,差分隐私技术可以保护用户的个人信息并允许社交网络平台进行数据分析。

在金融领域,差分隐私技术可以保护客户的个人财务信息,防止恶意利用数据进行欺诈和盗窃。

5. 差分隐私的优势与挑战差分隐私技术相比其他隐私保护方法具有一些明显的优势。

首先,差分隐私技术提供了形式化的隐私保护。

其次,差分隐私技术可以在数据发布和分析过程中提供可验证的隐私保护。

然而,差分隐私技术也面临一些挑战。

其中最主要的挑战是如何在保护隐私的同时保持数据的可用性和准确性。

6. 差分隐私的研究方向目前,差分隐私技术的研究方向主要包括:差分隐私的机制设计、差分隐私与数据发布的关联、差分隐私与机器学习的结合等。

差分隐私的机制设计主要关注如何通过引入噪声来实现隐私保护。

差分隐私与数据发布的关联研究主要探讨如何在数据发布过程中保护隐私。

差分隐私与机器学习的结合则是将差分隐私技术与机器学习相结合,实现在数据挖掘和隐私保护之间的平衡。

差分隐私保护技术及其在云计算中的应用

差分隐私保护技术及其在云计算中的应用随着信息化时代的到来,大数据时代已经到来。

为了更好地管理和利用海量的数据,人们开始寻求更加安全、可靠、高效的数据处理方法。

云计算作为一种新兴的计算技术,已经广泛应用于各行各业,成为人们进行数据处理的重要工具。

然而,在云计算中,如何保证数据的隐私性是一个重要的问题。

差分隐私技术正是解决这一问题的有效方法。

一、什么是差分隐私技术?差分隐私技术是一种针对隐私保护的数据处理技术。

差分隐私的基本思想是,对于任何一个个体的数据加入或者不加入数据库,数据查询结果的概率不变,即不能推断出此个体的隐私信息。

例如,某医院需要将病人的数据上传到云端,但是为了保护病人隐私,虽然需要将这些数据共享给其他人,但却不能泄露病人的个人信息。

差分隐私技术通过在上传数据时添加噪声的方式,使数据的查询结果不会引起对上传数据本身的推断,从而达到了保护隐私的目的。

二、差分隐私技术在云计算中的应用1、保护个人隐私在云计算中,差分隐私技术可以很好地保护用户的个人隐私信息。

比如说,某电商网站需要根据用户的浏览记录为其推荐相关商品,差分隐私技术可以保证此操作不会泄露用户的个人隐私信息。

2、提高数据利用效率差分隐私技术可以避免数据在上传时被篡改或丢失的风险,从而提高数据的利用效率。

同时,差分隐私技术还可以为数据分析提供更准确的结果,进而促进数据利用效率。

3、保护企业的商业秘密在云计算中,很多企业需要将其数据上传到云端进行存储和处理。

为了保护企业的商业秘密,可以使用差分隐私技术对上传的数据进行随机化处理,从而保障企业的商业秘密。

三、差分隐私技术的实现方法差分隐私技术的实现方法有很多种,其中最常用的方法是添加随机噪声技术。

加入噪声的大小应该足够大,以使得数据查询结果不会引起对上传数据本身的推断。

同时,还可以使用差分隐私的算法进行数据加密、脱敏等操作。

四、差分隐私技术的发展趋势目前,差分隐私技术仍然在不断发展之中。

未来,差分隐私技术将逐渐走向成熟,有望成为云计算中隐私保护的标准化解决方案之一。

差分隐私设计与评估保护关键技术

差分隐私设计与评估保护关键技术差分隐私设计与评估保护关键技术近年来,随着信息技术的迅猛发展,大数据的应用已经广泛渗透到各行各业,所涉及的数据也日益庞大且敏感。

然而,数据的采集和分析过程中引发的隐私问题也日益引起人们的关注。

为了保护个人隐私和数据的安全性,差分隐私这一新兴的隐私保护技术被提了出来并逐渐得到应用。

差分隐私是一种通过添加噪音来保护敏感数据的方法。

其核心思想是在数据发布过程中对数据进行扰动,使得攻击者无法区分特定个体的贡献,从而保护原始数据所有者的隐私。

差分隐私在数据发布、数据分析和数据挖掘等领域有着广泛的应用,并且获得了巨大的关注。

差分隐私的关键技术主要包括数据扰动、噪音添加和隐私保护度量评估。

数据扰动是差分隐私的核心步骤,其目的是对原始数据进行适当的修改,从而达到隐私保护的效果。

常见的数据扰动方法包括拉普拉斯机制和指数机制。

拉普拉斯机制通过向每个数据项添加服从拉普拉斯分布的噪音来实现扰动,而指数机制则是通过对查询结果进行扰动,以平衡隐私保护和数据准确性之间的权衡。

噪音添加是差分隐私的基本操作,其目的是在数据发布前向原始数据中添加合理的噪音,以保护个人隐私。

噪音的添加需要根据具体的数据特征进行调整,以避免隐私泄露和数据失真。

例如,在发布人口普查数据时,可以采用扰动响应方法来添加噪音,以保护个体的敏感信息(如年龄、收入等)。

隐私保护度量评估是衡量差分隐私保护效果的关键指标。

在差分隐私的应用中,评估隐私保护的强弱需要考虑多个因素,包括隐私工具的选择、噪音添加的方式以及数据发布和查询模型等。

目前,常用的隐私保护度量指标包括隐私损失、隐私预算和全局敏感度。

这些指标可以帮助评估差分隐私技术对数据隐私的保护程度,并为进一步的隐私研究和应用提供指导。

此外,差分隐私还面临着一些挑战和限制。

首先,如何在保护隐私的同时保持数据的可用性和准确性是一个重要的问题。

噪音添加过多或者不合理可能导致数据失真,从而影响数据的分析和应用效果。

隐私保护中的差分隐私技术应用研究

隐私保护中的差分隐私技术应用研究现如今,数据分析一直是人工智能和大数据时代最为重要的领域。

相较于传统的数据分析方法,新兴的数据分析技术依赖于庞大的数据来源,例如深度学习需要海量的数据进行模型的训练。

然而,随着数据来源的增多,数据泄露和隐私的泄漏问题也日益成为数据分析领域的重要难题,为此,科学家们将目光投向了全新的隐私保护技术——差分隐私。

差分隐私,即不与个体相关的隐私技术,通过人工加噪来保护个人隐私,在数据发布过程中增加一定的随机性,使得发布数据与个人对应的概率大大降低,从而达到保护隐私的目的。

实现差分隐私有多种方法,其中一种常见的方法便是拉普拉斯机制。

拉普拉斯机制是一种概率性隐私保护算法,它通过对原始数据添加服从拉普拉斯分布的噪音实现差分隐私。

噪音的量取决于保密性要求的大小,即如果需要更严格的隐私保护,那么就需要更大的噪音量。

在这种算法下,差分隐私机制可以在保护个人隐私的同时,允许研究人员获得数据的某些特征。

因此,可以有效地支持这些数据进行分析,同时保护个人隐私,避免数据泄露。

在差分隐私的保护下,个人隐私得以得到充分的保护和传输,但同时也给数据分析带来一定的挑战。

加入的噪音可能会影响分析的输出结果和精确度,而噪音量与隐私保护水平的调节也需要学习者有一定的专业技能。

与传统的隐私保护方案相比,差分隐私近几年来在实践中得到了越来越多的应用。

例如,在医疗卫生领域,医学研究人员需要获取离散化的数据来分析疾病发病率和预测模型。

而差分隐私通过添加噪音,可以确保数据是难以在规定的范围内再重新管理、分析和使用的。

在日常的智能家居使用中,差分隐私技术还可以保护用户数据,实现用户数据匿名化,其适用性非常强。

当然,随着人工智能和大数据的不断发展,隐私保护的需求也越来越强烈。

如何更好地平衡隐私保护和数据分析的需求,如何用更好的方式保证隐私的安全,这些都是未来数据分析领域需要解决的一些关键问题。

相信在差分隐私技术的持续优化下,数据分析和隐私保护领域都有望快速发展,为人工智能和大数据时代打下坚实的基础。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析作为挖掘的主要工具之一,学者纷纷尝试将其与差分隐私技术进行联合,比如Blum[14]等人在2005年发表并实现在SuLQ平台上进行差分隐私K-means算法(Differential PrivacyK-means Algorithm,DPK-means);2007年Nissim[15]等人发表了一种PK-means算法使聚类最终结果符合差分隐私保护定义,同时文献中提出了如何计算误差下界和算法中目标函数敏感度的具体过程;国内,李杨等人提出一种改进算法,该算法在符合差分隐私保护定义的条件下,将数据集进行均分为 个子集合后加噪计算初始中心点,这种改进方式确实使聚簇结果的可用性得到了提升。
大数据差分隐私保护解决方案
大数据差分隐私保护解决方案
第1章绪论
1.1方案背景及意义
如今的丰富数据的积累得益于信息化和互联网的发展,人们可以通过互联网自由进行交流,购物等一系列操作行为,这些操作行为每时每刻都在产生数据,同时各种信息系统平台中存储并积累了丰富的数据,比如医院患者的诊断数据,电子商务公司的客户在线交易数据等。现如今的大数据时代,丰富的数据中包含着众多有价值的信息,尤其对于商业领域而言获取这些信息是十分必要的。无论是政府、企业,还是个人均可通过记录和收集来获取有价值的信息,而获取的手段之一就是数据挖掘,因此本文将隐私保护的重点放在大数据中的数据挖掘中。
数据挖掘是指通过算法从大量数据中搜索隐藏的众多信息,可从数目巨大、更新迅速、属性多样的大数据中得到有价值的信息并将其应用于决策分析,比如电子商务公司可根据人们的交易记录进行数据挖掘,可以得到不同区域人们的购买水平以及对不同产品的需求,有利于更好制定销售策略。但是不能忽略的是数据挖掘的目标数据集中包含了一些隐私信息,例如医疗患者数据、家庭住址、密码等,这些信息的泄露给个人、社会都会带来恶劣的影响。随着信息技术的蓬勃发展,涉及隐私泄露的事件已经发生多起,比如90年代中期美国Massachusetts当局的雇员医疗数据被泄露、近几年比如2016年美国有线电视公司Time Warner中近32万左右的用户个人信息被盗(包含用户的邮箱和密码记录)等。故而数据挖掘中产生的隐私数据泄露是亟待处理的关键性问题。虽然数据挖掘中隐藏了隐私泄露的问题,但是根据Ylindell和Bpinka[1]在2000年发表的文章中关于隐私保护立场的调查结果:若数据搜集者可以保障被调查者自身的隐私数据的安全性,过半网友愿意参加调查同时分享自身可提供的真实信息。所以若想成功解决数据挖掘中的隐私泄露问题,就是要在挖掘过程中选择合适的隐私保护技术,使其尽量避免隐私数据被挖掘者泄露的同时,又能够保证挖掘结果的准确性。
数据挖掘可由多种方法实现,其中一种常用的分析方法就是聚类。聚类分析就是在没有已知条件的情况下,将众多无规律、离散的数据记录依据各自具有的特性划分到与其特性近似的聚簇中。目前数据挖掘范围内已有的涉及隐私保护方面的算法重点在分类和关联规则上,且差分隐私保护的方案在初期阶段,因而将上述两者结合进行方案分析的相对较少。
有关保护隐私的问题最早在20世纪70年代末被提出[2],此后众多学者陆续地研发出许多隐私保护的模型。在当前已有的隐私保护模型中,K-匿名[3]模型及在相同理论基础上的一些扩展模型是被大量方案和普遍应用的。但是上述隐私保护模型中存在两个问题:(1)这些模型具有背景相关依赖性,即该模型假定了某一攻击模型或者攻击者所具备的相关知识;(2)这些模型普遍缺少较为严格的数学方法来说明隐私保护水平的高低,若是该类模型中的某些参数变化,分析并评价其隐私保护水平将十分困难[4]。而2006年时由Dwork发表文献[5]中定义的差分隐私保护(Differential Privacy,DP)方法很好的解决了这两个问题。
近年来的方案使得差分隐私的理论不断完善和发展,并在多个领域有所应用,同时,这也是一个相对年轻的方案领域,在理论和应用上都存在难点和需要继续深入探讨的领域。1.3方来自内容1.3.1实验方案设计
课题方案内容是大数据平台中差分隐私保护方案设计与实现,差分隐私技术的出现解决了传统隐私保护模型中存在的两大缺陷,首先,差分隐私保护假设攻击者可拥有最全面的背景知识,在该假设下算法将不必要对攻击者可能拥有的背景知识加以考虑,因为任意一个攻击者具有的背景知识不可能比最大背景更加丰富。其次它具有牢固的数学基础,具备严格的数学定义和定量分析的方法,能使不同隐私预算下被处理数据集所具备的隐私保护水平可以相互进行比较。因此差分隐私被迅速认可并应用。
本文方案大数据平台上的差分隐私保护,着重于大数据中的数据挖掘领域,将聚类分析中最经典的K-means算法与差分隐私保护结合,并将其实施于Hadoop平台中,力求设计的方案在聚类结果准确性和安全性可达到一定平衡。
1.2国内外方案现状
根据保护隐私使用的技术方法进行分类,数据挖掘中常用的隐私保护主要可分为数据加噪、匿名发布和加密这几类[6]。以上三者中各自存在牺牲数据准确性、需较大内存、易泄露等不足。方案者为了降低这些不足,Agrawal[7]等于2000年发表了一种将分类树构建于已加噪数据上的算法,该算法在最大程度上保障了分类结果的准确;Sweeney[8]等于2002年提出K-匿名算法,将数据记录中的敏感信息采用匿名化技术进行处理以达到保护隐私的目的。迄今为止,K-匿名模型及在相同理论基础上的一些扩展模型是被大量方案和普遍应用的,然而正如上节中提到的,这些算法模型中不可避免地存在要假定攻击者具备的背景知识及所对应的攻击算法,并且不能通过设置参数值的不同来较严格地分析隐私保护的程度这两个缺陷,故而由Dwork提出的差分隐私保护方法迅速得到了学界的认可而且广泛应用。在此之后Dwork又相继在几个文献[9,10]中补充并完善该方法,提出了该理论的实现机制拉普拉斯机制(LaplaceMechanism,LM)和指数机制(ExponentialMechanism,EM)和隐私预算参数 选取的两种方法,同时针对流数据和连续观测中存在的差分隐私保护问题,提出在此基础上隐私保护水平更强的泛隐私(Pan-Privacy)理论;Li[11]等人在2011年构造了一种新型模型,他们将K-匿名算法与差分隐私保护技术进行联合,并将其应用在微数据的发布,取得较好效果;国内,李杨[12]和张啸剑[13]等人就国内外近几年的涉及差分隐私保护方面的成果进行总结,说明其将来的方案方向。
相关文档
最新文档