隐私计算算法

合集下载

蚂蚁隐私计算技术手册

蚂蚁隐私计算技术手册一、引言概述嘿，小伙伴们！今天咱们来唠唠蚂蚁隐私计算技术。

这技术可老厉害了呢，就像是给我们的数据穿上了一层超级防护服。

在这个信息爆炸的时代啊，隐私那可是相当重要的东西。

蚂蚁隐私计算技术就像是一个隐私小卫士，守护着我们的数据安全。

二、使用范围说明这技术能用在好多地方呢。

比如说在金融领域，大家都知道金融交易里有好多敏感信息，像咱们的账户余额、交易记录啥的。

蚂蚁隐私计算技术就能保证这些信息在处理和传输的时候不被泄露，让我们可以放心地进行各种金融操作。

还有在医疗领域也能用，患者的病例等隐私信息在医疗研究或者数据共享的时候，就可以靠这个技术来保护。

再比如说电商领域，我们的购物喜好、收货地址这些信息也能被很好地保护起来。

三、操作步骤指南1. 数据准备阶段首先得把要进行隐私计算的数据整理好。

就像是整理自己的小包裹一样，把相关的数据都放在一起，不过要注意按照规定的格式来哦。

然后要对数据进行标记，标记哪些是敏感数据，哪些是可以公开一部分的数据，这样技术才能知道怎么保护。

2. 计算过程当数据准备好后，就可以启动蚂蚁隐私计算技术啦。

这时候技术会根据设定好的规则，对数据进行加密处理。

就像是给数据戴上了一个加密的小帽子，只有有权限的人或者程序才能解开。

在计算过程中，数据会在安全的环境下进行各种运算，比如说求和、求平均值之类的，但是过程中数据的隐私性一直被保护着。

3. 结果输出计算完成后，得到的结果会经过解密等处理，以一种安全的方式呈现出来。

就像是把加密小帽子摘下来，把结果展示给需要的人看，但是这个结果也是经过处理的，不会泄露原始数据的隐私。

四、功能特点介绍1. 高度的安全性这个技术的安全性那是杠杠的。

它采用了先进的加密算法，就像一把超级复杂的锁，很难被破解。

不管是外部的黑客攻击还是内部的一些不当访问，都能有效地抵御。

2. 高效性虽然保护隐私很重要，但是也不能让计算变得超级慢呀。

蚂蚁隐私计算技术在保证隐私的同时，还能快速地进行数据处理和计算，就像一个既细心又快手的小助手。

隐私集合求交算法的对比分析

第３１卷第２期北京电子科技学院学报２０２３年６月Ｖｏｌ．３１Ｎｏ．２ＪｏｕｒｎａｌｏｆＢｅｉｊｉｎｇＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＩｎｓｔｉｔｕｔｅＪｕｎ．２０２３隐私集合求交算法的对比分析∗田文亮㊀王志强㊀张艳硕北京电子科技学院，北京市㊀１０００７０摘㊀要：隐私集合求交（ＰｒｉｖａｔｅＳｅｔＩｎｔｅｒｓｅｃｔｉｏｎ，ＰＳＩ）属于隐私计算领域的特定应用问题，包括秘密共享㊁同态加密㊁不经意传输㊁混淆电路和Ｈａｓｈ技术等基础知识，其兼具重要的理论意义与极强的现实应用价值㊂随着用户数据的隐私保护需求的日益提升，ＰＳＩ可以在满足依赖个人信息的业务的便利性的同时最大程度保护个人信息私密性需求㊂本文首先介绍了隐私集合求交的研究现状，其次按照底层密码技术对ＰＳＩ进行分类并对比分析了它们的复杂度，对其优缺点进行对比分析，同时对比分析了基于不同密码技术的ＰＳＩ的使用场景，最后指出其发展方向并得出结论㊂关键词：隐私集合求交；秘密共享；同态加密；不经意传输；混淆电路；Ｈａｓｈ技术中图分类号：ＴＰ３１２㊀㊀㊀文献标识码：Ａ文章编号：１６７２－４６４Ｘ（２０２３）２－９８－１１２∗㊀基金项目：２０２２年基本科研业务费优硕培养项目ＨＴＴＰ协议的流量拟态技术研究（项目编号：３２８２０２２８０）；信息安全国家级一流本科专业建设点和２０２０年教育部新工科项目新工科背景下数学课程群的教学改革与实践∗∗㊀作者简介：田文亮（１９９６－），男，研究生在读，计算机技术专业㊂Ｅ⁃ｍａｉｌ：１０７０２７４２８７＠ｑｑ．ｃｏｍ王志强（１９８５－），男，副教授，博士，硕导㊂Ｅ⁃ｍａｉｌ：ｗａｎｇｚｑ＠ｂｅｓｔｉ．ｅｄｕ．ｃｎ张艳硕（１９７９－），男，通信作者，副教授，博士，硕导，从事密码理论及其应用研究㊂Ｅ⁃ｍａｉｌ：ｚｈａｎｇ＿ｙａｎｓｈｕｏ＠１６３．ｃｏｍ１㊀引言㊀㊀隐私数据保护最早源于安全多方计算（ｓｅｃｕｒｅｍｕｌｔｉｐａｒｔｙｃｏｍｐｕｔａｔｉｏｎ，ＭＰＣ），由姚期智［１］借百万富翁问题提出，指各计算参与方无法得到除计算结果外的任何其他信息，解决互不信任的数据持有者如何对隐私数据进行计算的问题㊂隐私集合交集是安全多方计算中的热点问题，允许在分布式场景下各自持有隐私集合的参与方联合计算出集合交集而不泄露除交集以外的任何隐私信息㊂在隐私保护的场景中，ＰＳＩ协议具有重要意义，如新冠接触者追踪［２］㊁隐私通讯录查找［３］㊁在线广告实际效果计算［４］㊁基因序列匹配检测［５］等㊂传统的ＰＳＩ协议针对２个参与方设计，Ｍｅａｄｏｗｓ［６］基于公钥加密和利用Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ密钥交换的乘法同态性质提出了第１个ＰＳＩ协议㊂随后，由Ｈｕｂｅｒｍａｎ等人［７］对Ｍｅａｄｏｗｓ［６］的方案做出了完整描述㊂２００４年由Ｆｒｅｅｄｍａｎ等人［８］借助不经意多项式求值和同态加密构造了第１个安全ＰＳＩ协议㊂２０１７年申立艳等人［９］对安全多方计算框架下的ＰＳＩ协议进行了简要总结㊂之后涌现了大量ＰＳＩ的研究成果，一大批新技术手段和构造框架被提出㊂除了传统的安全多方计算理论中的混淆电路（ｇａｒｂｌｅｄｃｉｒｃｕｉｔ，ＧＣ）㊁不经意传输（ｏｂｌｉｖｉｏｕｓｔｒａｎｓｆｅｒ，ＯＴ）㊁秘密共享（ｓｅｃｒｅｔｓｈａｒｉｎｇ，ＳＳ）㊁同态加密（ｈｏｍｏ⁃第３１卷隐私集合求交算法的对比分析㊀ｍｏｒｐｈｉｃｅｎｃｒｙｐｔｉｏｎ，ＨＥ）等技术外，不经意伪随机函数（ｏｂｌｉｖｉｏｕｓｐｓｅｕｄｏ⁃ｒａｎｄｏｍｆｕｎｃｔｉｏｎ，ＯＰＲＦ）㊁经意多项式求值（ｏｂｌｉｖｉｏｕｓｐｏｌｙｎｏｍｉａｌｅｖａｌｕａｔｉｏｎ，ＯＰＥ）㊁布隆过滤器（Ｂｌｏｏｍｆｉｌｔｅｒ，ＢＦ）等集合元素比较技术的应用，使得ＰＳＩ的效率得到了很大的提高㊂现有ＰＳＩ已经非常高效，但现有很多实际应用中仍然以使用高效但存在安全隐患的解决方案为主，了解现有基于不同密码原语构建的ＰＳＩ及其特定适用场景，对促进实际场景中使用安全的方案替换存在隐患的方案有很大帮助㊂在敌手模型方面，研究人员从诚实且好奇的安全模型出发，开始考虑在恶意模型下安全的ＰＳＩ协议㊂随着研究人员对隐私集合交集协议的深入研究，除了传统两方ＰＳＩ协议之外，已衍生出了云辅助ＰＳＩ㊁阈值ＰＳＩ（ｔｈｒｅｓｈｏｌｄＰＳＩ，ＴＰＳＩ）㊁不平衡ＰＳＩ（ｕｎｂａｌａｎｃｅｄＰＳＩ，ＵＰＳＩ）和多方ＰＳＩ新型应用场景㊂本文全面的介绍了ＰＳＩ研究现状，对基于不同底层密码技术的ＰＳＩ算法进行了较为详尽的描述，对不同的ＰＳＩ协议原理进行对比分析，同时对ＰＳＩ协议的复杂度以及ＰＳＩ协议的优缺点进行了对比分析，得出了基于不经意传输的ＰＳＩ协议目前具有更高效率的结果㊂最后针对当前存在的问题，指出ＰＳＩ协议的发展方向以及结论㊂２㊀隐私集合求交的研究现状㊀㊀隐私集合求交（ＰＳＩ）协议有很多分类方法，按照底层依赖的密码技术分类主要包括：基于公钥密码的ＰＳＩ方案，包括：基于密钥交换（ＤＨ：Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ）的ＰＳＩ方案和ＲＳＡ盲签名的ＰＳＩ方案；基于不经意传输的ＰＳＩ方案；基于通用ＭＰＣ的ＰＳＩ方案，例如基于混淆电路的ＰＳＩ方案；基于同态加密的ＰＳＩ方案；基于以上密码技术同时对多方ＰＳＩ进行描述㊂２１㊀基于公钥密码的ＰＳＩ方案１９８６年，Ｍｅａｄｏｗｓ［６］提出了基于Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ问题的ＰＳＩ协议，该协议类似于Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ密钥协商协议㊂双方以各自的输入集合中的元素作为Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ密钥协商中选择出的随机数角色，将集合元素映射到随机会话密钥空间，接收方在会话密钥空间中进行匹配，并获取到最终的交集元素；可以看出，该方案需要双方执行多次的模指数运算（这种代价很高的计算），因此所得的ＰＳＩ方案效率并不高㊂与基于杂凑函数的算法类似，同样可以在签名空间进行比对㊂例如基于盲签名，发起方盲化本方输入的每个元素，向响应方的请求盲签名，获得结果并去盲后得到响应方私钥的签名㊂同时，响应方签名本方的每个元素，并将结果发送给发起方；发起方比对双方的签名结果，获得交集结果㊂ＤｅＣｒｉｓｔｏｆａｒｏ与Ｔｓｕｄｉｋ［１７］在２０１０年提出了基于ＲＳＡ盲签名的ＰＳＩ协议㊂在该协议中，响应方随机产生ＲＳＡ密钥；发起方对本方的每一个输入元素进行随机盲化，将结果发送给响应方；响应方使用ＲＳＡ私钥对盲化结果进行签名并发送给发起方，同时将本方的输入元素用本方私钥进行签名，将结果发送给发起方；发起方对盲化的签名进行去盲，与响应方的签名进行比对，得出交集结果㊂基于公钥体制的方案除了转换匹配空间之外，将参与方输入的集合元素看作是多项式的根，多项式可以与输入集合建立映射关系，对于多项式的某些操作可以转换为集合的某些操作㊂２０２２年ＡｒａｎｈａＤＦ［３５］提出了一种新的两方简洁ＰＳＩ协议，该协议从理论和实践两个方面都以最小化发送方的开销为目标㊂该协议在概念上非常简单，这使得在实践中实现它不易出错：在协议执行期间，只发送两条消息，一条消息从接收方发送到发送方，另一条消息返回㊂接收者的消息的大小是单个组元素（独立于接收者的㊃９９㊃北京电子科技学院学报２０２３年输入集合的大小），而发送者的消息大小与发送者的输入集合大小成线性关系㊂发送方的计算复杂度与接收方输入集的大小无关㊂该协议为了证明新假设的合理性，证明了它在一般群体模型中是成立的㊂还讨论了在主动攻击存在的情况下保证隐私的简单对策，并提出了一个协议，该协议提供了完全基于模拟的安全性来对抗主动攻击㊂２２㊀基于不经意多项式计算的ＰＳＩ方案不经意多项式计算的ＰＳＩ协议主要是将参与方集合元素表示为多项式的根，利用多项式的数学性质来计算交集，并采用同态加密算法加密交互过程中的信息来保证协议的隐私㊂最早由Ｆｒｅｅｄｍａｎ等人在２００４年提出的ＰＳＩ协议［８］就是不经意多项式计算的ＰＳＩ协议㊂其协议的主要过程为：客户端生成同态加密密钥对（ｐｋ，ｓｋ）并发送公钥给服务器端，将输入集Ｘ＝｛ｘ１，ｘ２，，ｘｖ｝表示为多项式Ｐ的根Ｐ（ｚ）＝（ｘ１－ｚ）（ｘ２－ｚ）（ｘｖ－ｚ）＝ðｖｕ＝０ａｕｚｕ，利用插值法求得多项式系数｛ａ１，ａ，，ａｖ｝，将多项式系数用Ｐａｉｌｌｉｅｒ［１３］或ＥＩＧａｍａｌ［１５］同态加密算法加密发送给服务器端；服务器端输入集合为Ｙ＝｛ｙ１，ｙ２，，ｙｗ｝对集合中的每一个元素ｙ，利用同态加密性质计算Ｅｎｃ（ｒ．Ｐ（ｙ）＋ｙ），并将计算的密文混淆发送给客户端；客户端解密所有的密文，依次判断解密的结果是否和输入集合Ｘ中的某一元素ｘ相等，相等则说明ｘ属于集合交集㊂该协议中，多项式的次数过高，会导致同态加密运算中指数的计算代价太大㊂因此作者又采用Ｈａｓｈ函数将集合中元素映射到Ｂ个桶中，每个桶最多Ｍ个元素，在客户端生成Ｍ个低次多项式，服务器端采用同样的Ｈａｓｈ函数将元素进行映射，客户端将相对应的桶里的元素和多项式进行集合交集判断；为了减小Ｍ的值，作者采用了负载均衡Ｈａｓｈ［２１］方法㊂２０１４年Ｆｒｅｅｄｍａｎ等人进一步在文献［８］的基础上改进ＰＳＩ协议［３１］，客户端和服务器端分别采用不同的Ｈａｓｈ函数将集合元素进行映射来减少协议的计算复杂度，并将随机Ｈａｓｈ㊁负载均衡Ｈａｓｈ㊁布谷鸟散列［２２］进行实验对比，其中应用负载均衡Ｈａｓｈ㊁布谷鸟散列进行集合元素计算的复杂度较低㊂以上协议被证明在标准模型下对半诚实敌手是安全的㊂２３㊀基于不经意传输的ＰＳＩ方案不经意传输是密码协议体系中的一个基础协议，由Ｒａｂｉｎ于１９８１年提出［２３］㊂与最原始的概念相比，在更标准化的定义中，发送方拥有若干个输入，接收方输入一个索引下标，该索引下标表示接收方想要得到的结果，在协议过程中这一指标并不会泄露给发送方㊂最基础的ＯＴ协议是２选１ＯＴ㊂基于ＯＴ的ＰＳＩ协议需要使用的ＯＴ运行实例的数量与ＰＳＩ双方输入的集合大小有关系，因此ＯＴ协议成为大集合ＰＳＩ方案的主要瓶颈㊂ＯＴ扩展协议的出现［１３］，使得大集合ＰＳＩ方案的落地成为现实㊂所谓ＯＴ扩展协议是指，ＯＴ协议在并行数量方面的扩展㊂具体来说，是用少量的ＯＴ协议实例来构造较为大数量的ＯＴ协议实例㊂文献［１４－１６］给出了ＯＴ扩展的相关理论结果与实现改进㊂２０１３年，Ｄｏｎｇ等人在文献［２４］中第一次将布隆过滤器引入到ＰＳＩ中，并与ＯＴ扩展结合，使得ＰＳＩ协议能处理的集合数量首次突破了亿级别㊂此后，对于布隆过滤器的改进也成为优化ＰＳＩ协议的一个重要方向㊂通过改进布隆过滤器，Ｒｉｎｄａｌ和Ｒｏｓｕｌｅｋ给出了第一个恶意模型下的ＰＳＩ协议［２５］，这一方案也在２００ｓ时间内完成了两方百万数据量的安全求交㊂２０１６年，在文献［２６］中，Ｋｏｌｅｓｎｉｋｏｖ等人使用ＯＴ扩展来实现不经意伪随机函数，并且将此概念运用到ＰＳＩ中，这也成为后续基于不经意传输的ＰＳＩ协议的主要方向㊂以上所有ＰＳＩ协议的实现几乎都是在两个参与方的场景㊂对于多个参与方的场景，文献［２７］中Ｋｏｌｅｓｎｉｋｏｖ等人引入㊃００１㊃第３１卷隐私集合求交算法的对比分析㊀了不经意的可编程伪随机函数的概念（Ｐｒｏｇｒａｍ⁃ｍａｂｌｅＯｂｌｉｖｉｏｕｓＰｓｅｕｄｏｒａｎｄｏｍＦｕｎｃｔｉｏｎｓ，ＯＰ⁃ＰＲＦ），并且基于插值多项式㊁布隆过滤器等技术实现ＯＰＰＲＦ㊂ＯＰＰＲＦ要求只对发送者编程进去的集合元素，接收者才可以进行不经意地函数取值，未编程进去的元素，接收者返回随机值㊂各个参与方之间顺次循环扮演发送方和接收方角色，最终完成交集的结果㊂２０２２年，李顺［４８］提出了一种基于并行化ＯＰＰＲＦ的隐私集合交集协议㊂２０２２年，魏立斐等人［４９］提出了基一种于云服务器的公平多方隐私集合交集协议，该协议基于该不经意伪随机函数构建了半可信云服务器辅助的隐私集合交集计算协议，将主要计算量外包给云服务器，允许半可信的云服务器参与相等性测试，又不泄露参与方任何集合信息㊂２４㊀基于同态加密的ＰＳＩ方案ＰＳＩ根据参与者的数量可分为两方和多方，下面均以两方为例㊂假设参与ＰＳＩ的两方为发送方Ｓ（Ｓｅｎｄｅｒ）和接受方Ｒ（Ｒｅｃｅｉｖｅｒ），分别持有数据集Ｘ和Ｙ㊂根据两方数据集大小的不同，分为平衡场景和非平衡场景㊂在平衡场景下，双方样本数量相差不大，适用于双方客群有较多重叠的场景，如集团子部门之间的安全求交场景；在非平衡场景下，双方样本数量相差非常大，如营销场景中筛选本机构种子用户与外部数据方海量用户群中的共有用户群，实现目标客群筛选㊂在平衡场景中，ＰＳＩ的实现方式目前较为成熟的有基于ＲＳＡ㊁基于Ｄｉｆｆｉｅ⁃Ｈｅｌｌｍａｎ（ＤＨ）和基于不经意传输等㊂综合安全性㊁效率和通信量考虑，基于ＯＴ以及ＯＴＥｘｔｅｎｓｉｏｎ［４１］系列的对齐方案被广泛使用㊂在非平衡场景中，可在基于ＯＴ的ＰＳＩ方案基础上，将同态加密技术结合特定的优化方法，实现高效的ＰＳＩ㊂下面介绍两种高效的基于同态加密的非平衡ＰＳＩ方案㊂２０１７年，Ｃｈｅｎ等［４６］在ＣＣＳ２０１７中将同态加密应用到非平衡ＰＳＩ中，综合使用了Ｃｕｃｋｏｏｈａｓｈ㊁Ｐａｒｔｉｔｉｏｎ㊁Ｗｉｎｄｏｗ和ＭｏｄｕｌｕｓＳｗｉｔｃｈ技术㊂实验表明，在数据量为ＮＸ＝５０００，ＮＹ＝１６００万时，Ｃｈｅｎ在ＣＣＳ２０１７［２８］中提出的方案的通信量为１２５ＭＢ，求交时间为３６ｓ㊂２０１８年，Ｃｈｅｎ等［４６］改进了ＣＣＳ２０１７方案，提出了一个能抵抗恶意攻击的非平衡ＰＳＩ方案（ＣＣＳ２０１８［２９］）㊂与ＣＣＳ２０１７［２８］方案相比，该方案支持更高位（５１２位和１０２４位）的Ｉｔｅｍ（ＣＣＳ２０１７方案支持３２位），改进了ＳＩＭＤ编码，在不增加加密参数的前提下，提升了效率和安全性㊂该方案较ＣＣＳ２０１７方案在性能上做出很大改进，在数据量为ＮＸ＝２２４和ＮＹ＝５５３５时，ＣＣＳ２０１７方案需要２０ＭＢ的通信量和４０ｓ的在线计算时间，ＣＣＳ２０１８通信量为１６ＭＢ，在线计算时间为２２ｓ（单线程），运行时间几乎缩短２倍和通信量节约２７％㊂此外，当接受方Ｒ的数据集更小时，ＣＣＳ２０１８方案的同态加密的参数会更小，能进行更少的密文计算，当接受方Ｒ的数据量为５１２或１０２４时，该方案运行时间分别只需９１ｓ和１７７ｓ，以及８２ＭＢ的通信量，较ＣＣＳ２０１７方案快２４倍，发送的数据量降低一半，同时支持任意长度的Ｉｔｅｍ㊂２５㊀其他根据底层密码学技术对传统多方ＰＳＩ进行梳理，主要分为基于公钥的多方ＰＳＩ和基于ＯＴ的多方ＰＳＩ，由于混淆电路在预计算阶段构造复杂，且内存占用较高，并没有基于混淆电路的传统多方ＰＳＩ协议的研究，但又鉴于混淆电路可以方便地计算任何功能函数的特性，其更适用于构造门限等特殊场景下的多方ＰＳＩ协议㊂基于公钥的多方ＰＳＩ方案主要采用同态加密技术㊂第１个基于同态加密技术的多方ＰＳＩ协议方案由Ｆｒｅｅｄｍａｎ等人［８］提出，首先使用加法同态加密实现的ＯＰＥ技术，将集合元素表示为多项式的根从而代替集合进行运算，实现了在半诚实敌手模型下的两方ＰＳＩ，其次提出了针对恶意的客户端㊁恶意的服务端㊁恶意的两方以及多方的情况下的ＰＳＩ协议的构造思路㊂在半诚㊃１０１㊃北京电子科技学院学报２０２３年实敌手模型中，Ｋｉｓｓｎｅｒ等人［１９］在２００５年对加法同态加密的私钥进行秘密共享，协议的计算复杂度和通信复杂度是集合大小和参与方数目的２次方㊂２０１７年，Ｈａｚａｙ等人［４４］使用星型通信模型将多方ＰＳＩ协议的通信轮数从Ｏ（ｎ）降低为Ｏ（１），且加解密的操作数与参与方集合大小呈线性关系㊂其中，星型通信结构是最直观的多方通信结构，多个参与方与同一个中心参与方进行交互，此结构对中心参与方的带宽和计算能力要求较高㊂基于ＯＴ协议的多方ＰＳＩ协议主要分为两种，一是使用ＯＴ协议构造ＯＰＲＦ㊁ＯＰＰＲＦ㊁多点ＯＰＲＦ等一系列协议，而后基于ＯＰＲＦ系列协议构造多方ＰＳＩ协议；二是多方直接使用ＯＴ协议进行数据传输㊂基于ＯＰＲＦ的多方ＰＳＩ协议中最经典的同时也是首篇将多方ＰＳＩ进行代码实现的协议为Ｋｏｌｅｓｎｉｋｏｖ等人［４２］在２０１７年提出的方案㊂该文献首次提出了使用ＯＰＲＦ构造ＯＰＰＲＦ的概念，旨在使用发送方的输入来对ＯＰＲＦ的密钥进行编程，其与单点ＯＰＲＦ的区别在于ＯＰＰＲＦ中密钥与发送方的私有集合元素相关㊂在直接使用ＯＴ协议作为数据传输协议方面，２０１８年，Ｉｎｂａｒ等人［４５］在半诚实敌手模型和增强的半诚实敌手模型中分别提出了两种多方ＰＳＩ协议，是对Ｄｏｎｇ等人［２４］两方ＰＳＩ协议的扩展㊂Ｉｎｂａｒ等人的协议［４５］与Ｋｏｌｅｓｎｉｋｏｖ等人的协议［４２］相比的优势在于随着参与方数目的增多，协议消耗时间增长缓慢，与参与方数目呈次线性关系；而Ｋｏｌｅｓｎｉｋｏｖ等人的协议［４２］的最后一个步骤中需要多次计算和比较，计算开销较大㊂由于混淆电路具有计算任何功能函数的特性，可以方便地设计多功能的安全计算协议，因此基于混淆电路的门限多方ＰＳＩ也是研究方向之一㊂２０２１年，Ｃｈａｎｄｒａｎ等人［４６］提出了半诚实敌手模型下的多方ＰＳＩ协议，并设计了两种变体协议，门限多方ＰＳＩ便在其研究范围中㊂协议主要分两部分，首先选择一个特定参与方与其他所有参与方两两交互进行元素相等性判断，此后所有参与方交互通过电路计算结果㊂近年来涌现了很多基于云辅助器的ＰＳＩ协议［４９－５２］，由于在日常生活中数据量庞大，因此借助云辅助器的方案可能是我们以后研究的重点㊂本文对以上基于不同密码技术的ＰＳＩ协议现状进行了总结，不仅对每一种ＰＳＩ协议的历史发展进行描述，而且说明其特点及基本使用场景㊂３㊀ＰＳＩ算法原理的对比分析㊀㊀ＰＳＩ算法既可以有两方参与，又可以有多方参与，以下分别对两方㊁多方以及不经意伪随机函数等ＰＳＩ原理进行对比分析㊂３１㊀两方ＰＳＩ基本原理算法参与方包括Ｓｅｒｖｅｒ和Ｃｌｉｅｎｔ，假设ｓｅｖｅｒ和ｃｌｉｅｎｔ输入元素个数分别为ｋｓ和ｋｃ，ｓｅｒｖｅｒ方输入元素记为ｙｉ，ｉɪ［１，ｋｓ］，ｃｌｉｅｎｔ方输入元素记为ｘｉ，ｉɪ［１，ｋｃ］；２）基于公钥加密技术的加法同态加密算法Ｅｎｃ（ｘ）㊁Ｄｅｃ（ｃ）满足Ｅｎｃ（ｍ１＋ｍ２）＝Ｅｎｃ（ｍ１）＋Ｅｎｃ（ｍ２）（ｋｍ）＝ｋ（ｍ）１）ｃｌｉｅｎｔ方针对全部输入元素利用插值法构造如下多项式Ｐ（ｙ）＝ðｋｃｉ＝１（ｙ－ｘｉ），显然该多项式的最高次数为ｋｃ，用系数表示为Ｐ（ｙ）＝ðｋｃｉ＝０（ａｉｙｉ）㊂然后将全部系数进行加密后发送给ｓｅｒｖｅｒ；２）ｓｅｒｖｅｒ针对每一个ｙｉ进行如下计算：选择随机数ｒｉ计算Ｃｉ＝Ｅｎｃ（ｒｉＰ（ｙｉ）＋ｙｉ，并将Ｃｉ发送给ｃｌｉｅｎｔ；３）ｃｌｉｅｎｔ进行如下验证：对Ｃｉ进行解密得到ｍｉ＝ｒｉＰ（ｙｉ）＋ｙｉ㊂如果ｙｉ和某个ｘｉ相等，则ｒｉＰ（ｙｉ）为０，解密结果ｍｉ必定等于该ｘｉ，即为ＰＳＩ结果之一，如果ｙｉ不等于任一ｘｉ，则解密结果ｍｉ是一个随机数㊂３２㊀多方ＰＳＩ基本原理在２方ＰＳＩ算法基础上可以扩展到多方㊃２０１㊃第３１卷隐私集合求交算法的对比分析㊀ＰＳＩ㊂具体原理如下：１）假定ｎ＋１个参与方，记为Ｌｌ，ｌɪ［１，ｎ＋１］，第Ｌｎ＋１为ｌｅａｄｅｒ；２）对前面ｎ个参与方Ｌｌ，ｌɪ［１，ｎ］，生成各自的同态加密算法公私钥公钥ｐｋｌ和私钥ｓｋｌ，公开公钥ｐｋｌ；３）对前面ｎ个参与方Ｌｌ，ｌɪ［１，ｎ］，针对已方全部元素ｘｌｉ生成自己的多项式Ｐｌ（ｙ），并将多项式参数进行加密（使用公钥ｐｋｌ）后发送给ｌｅａｄｅｒ；４）Ｌｅａｄｅｒ针对己方每个元素ｙｉ进行如下操作：生成ｎ个随机数ｓｌｊ，ｌɪ［１，ｎ］，确保ｎｉ＝１ｓｌｊ＝ｙｊ，然后针对ｎ个参与方Ｌｌ的每一方计算密文Ｃｌｊ＝Ｅｎｃ（ｒｌｊＰ（ｙｊ）＋ｙｊ），然后将全部Ｃｌｊ发送给Ｌｌ；５）对前面ｎ个参与方ＬＬ，ｌɪ［１，ｎ］，解密Ｃｌｊ得到ｍｌｊ，并将已方解密出来的ｍｌｊ全部公开：６）对前面ｎ个参与方Ｌｌ，针对收到的全部ｍｌｊ进行计算ｙｊ＝ｎｌ＝１ｍｌｊ，如果ｙｊ等于已方的某个元素ｘｌｊ相等则表明该元素是多方交集元素㊂３３㊀基于不经意伪随机函数的ＰＳＩＰＳＩ算法参与方包括ｓｅｒｖｅｒ和ｃｌｉｅｎｔ，假设ｓｅｖｅｒ和ｃｌｉｅｎｔ输入元素个数都为ｎ㊂ＯＰＲＦＰＳＩ算法的基本思想是利用ＰＲＧ函数对双方明文元素进行加密，然后ｓｅｒｖｅｒ方和ｃｌｉｅｎｔ方对加密后元素进行逐一比对找出共同交集元素，ＰＲＧ函数设置加密密钥时通过ＯＴ协议交互使得该密钥能够确保相同交集元素的密文相同且不泄露明文元素的信息㊂ＯＰＲＦＰＳＩ算法相对其他ＰＳＩ算法的优势是计算量和通信量都比较小，而且对于ｃｌｉｅｎｔ方来说安全性很高，能够确保ｓｅｒｖｅｒ方无论是半诚实还是恶意模型下的ｃｌｉｅｎｔ方安全性，这样通过ＯＰＲＦＰＳＩ算法构建隐查询ＰＩＲ时能够保证查询方的绝对安全性㊂（１）基本原理１）ＯＰＲＦ函数记为ＯＰＲＦｋ（ｘ）＝Ｈ（ｑ［Ｆ（ｘ）㊃ｓ］），㊃表示位与操作，⊕表示位异或操作，Ｆ（ｘ）表示ｘ作为种子的随机数生成器，Ｈ表示Ｈａｓｈ摘要函数（具有ｒａｎｄｏｍｏｒａｃｌｅ特性）㊂ｑ，ｓɪ｛０，１｝λ，λ表示安全参数；２）ｃｌｉｅｎｔ对己方输入元素ｘ：先采样随机字符串ｒ０ѳƔ｛０，１｝ｎ，计算ｒ１＝ｒ０Ｆ（ｘ）；３）ｓｅｒｖｅｒ端先采样随机字符串ｓѳƔ｛０，１｝ｎ；４）ｃｌｉｅｎｔ和ｓｅｒｖｅｒ运行λ次ＯＴ协议：ｃｌｉｅｎｔ发送方输入ｒ０［ｉ］和ｒ１［ｉ］，ｓｅｒｖｅｒ端输入选择比特ｓ［ｉ］㊂ｓｅｒｖｅｒ通过λ次ＯＴ协议获取到的λ比特随机字符串ｑ＝ｒｓ［１］［１］ｒｓ［２］［２］．．．ｒｓ［λ］［λ］；５）ｓｅｒｖｅｒ端设置ＯＰＲＦｋｅｙｋ＝（ｑ，ｓ），对己方输入元素ｙ计算ＯＰＲＦ值ＯＰＲＦｋ（ｙ）＝Ｈ（ｑ［Ｆ（ｙ）㊃ｓ］），并将改值发送给ｃｌｉｅｎｔ；６）ｃｌｉｅｎｔ检验：当ＯＰＲＦｋ（ｙ）＝Ｈ（ｒ０）时表明ｙ＝ｘ㊂（２）ＯＰＲＦ算法协议公共函数及参数约定如下：λ表示计算安全参数，统计安全参数σ，协议参数ｍ，ｗ，ｌ１，ｌ２，Ｈａｓｈ函数Ｈ１：｛０，１｝∗ң｛０，１｝ｌ１和Ｈ２：｛０，１｝ｗң｛０，１｝ｌ２，伪随机函数Ｆ：｛０，１｝Ａˑ｛０，１｝ｌң［ｍ］ｗ；具体协议过程如下：１）阶段１：预处理ｓｅｒｖｅｒ端采样随机字符串ｓѳƔ｛０，１｝ｗ；ｃｌｉｅｎｔ端执行：初始化个ｍˑω二进制矩阵Ｄ为全１，Ｄｊ表示Ｄ第ｊ列，Ｄ１＝Ｄ２＝＝Ｄｓ＝１ｍ；采样随机字符串ｋѳƔ｛０，１｝λ作为ＰＲＦ函数Ｆ密钥；对于ｃｌｉｅｎｔ端的每个元素ｙ：计算ｖ＝Ｆｋ（Ｈ１（ｙ）），ｖɪ［ｍ］ｗ，对矩阵Ｄ的每一列设置Ｄｉ［ｖ［ｉ］］＝０，ｉɪ［ｗ］㊂２）阶段２ʒ０Ｔ传输㊃３０１㊃北京电子科技学院学报２０２３年ｃｌｉｅｎｔ端随机产生一个ｍˑω二进制矩阵Ａѳ＄｛０，１｝ｍˑｗ，计算Ｂ＝Ａ⊕Ｄ；ｃｌｉｅｎｔ和ｓｅｒｖｅｒ运行ｗ次ＯＴ协议，ｃｌｉｅｎｔ作为发送方，ｓｅｒｖｅｒ作为接收方，每次ＯＴ，ｃｌｉｅｎｔ输入消息｛Ａｉ，Ｂｉ｝，ｉɪ［ｗ］，ｓｅｒｖｅｒ输入ｓｉ进行选择㊂ＯＴ协议结束后ｓｅｒｖｅｒ获得ｗ㊀个ｍ比特字符串，然后作为ω列得到一个ｍˑω二进制矩阵Ｃ㊂３）阶段３：ＯＰＲＦ值验证ｃｌｉｅｎｔ端将ＰＲＦ函数Ｆ密钥发送给ｓｅｒｖｅｒ；ｓｅｒｖｅｒ端针对每个元素ｘｉ：计算ｖｊ＝Ｆｋ（Ｈ１（ｙｊ）），计算ＯＰＲＦ值Ｖｉ＝Ｈ２（Ｃ１［ｖｉ［１］］）Ｃｗ［ｖｉ［ｗ］）；ｓｅｒｖｅｒ将所有：发送给ｃｌｉｅｎｔｃｌｉｅｎｔ端针对己方每个元素ｙｉ：计算ｖｊ＝Ｆｋ（Ｈ１（ｙｊ）），计算ＯＰＦ值中，㊀ϕｊ＝Ｈ２（Ａ１［ｖｊ［１］］Ａｗ［ｖｉ［ｗ］］），然后逐个比较中ϕｊ和ψｉ，当且仅当ϕｊ＝ψｉ时，㊀ｙｊ＝ｘｉ㊂３４㊀不经意的可编程伪随机函数的ＰＳＩＰＲＦ函数Ｆ跟ＯＰＲＦ中的定义一致㊂ＯＰＰＲＦ协议的参与方包括Ｓｅｎｄｅｒ（记为Ｓ）和Ｒｅｃｅｉｖｅｒ（记为Ｒ）两方㊂协议运行过程如下：１）约定安全参数Κ，公开参数ＰＲＦ函数Ｆ：２）Ｓ方输入｛（ｘ１，ｙ１），（ｘ２，ｙ２）（ｘｎ，ｙｎ）｝，ｘｉ不相等，协议生成Ｆ加密密钥ｋ和公共参数ｈｉｎｔ；３）Ｒ方进行公ｑ次查询，每次查询输入ｘ，协议返回ｙ＝Ｆ（ｘ，ｋ，ｈｉｎｔ）㊂Ｓ方的输入可以理解为一些点坐标，协议对Ｓ方输入进行加密计算得到公共参数ｈｉｎｔ，ＰＲＦ函数Ｆ加密密钥ｋ㊂Ｒ方的输入为ｘ，协议返回一个随机值ｙ，当ｘ与Ｓ方某个输入ｘ相等时，Ｒ方获得输出即为ｙ＝ｙｉ㊂协议的安全性要求Ｓ方无法获知Ｒ方输入的查询信息，Ｒ方无法获知查询输出是否匹配到了Ｓ方的某个输入㊂也就是说Ｒ方每次查询中无论输入值是否匹配到Ｓ方的某个输入ｘｉ，输出ｙ相对Ｒ方都是一个随机均匀分布㊂ＯＰＰＲＦ基于多项式的实现：假设Ｓ方输入｛（ｘ１，ｙ１），（ｘ２，ｙ２）（ｘｎ，ｙｎ）｝，令ｙᶄｉ＝ｙｉＦ（ｋ，ｘｉ），Ｓ方通过对｛（ｘ１，ｙᶄ１），（ｘ２，ｙᶄ２）（ｘｎ，ｙᶄｎ）｝进行拉格朗日插值得到多项式如下：Ｐ（ｘ）＝ðｎｉ＝１ｙᶄｉ（ᵑ１ɤｊɤｎｊʂｉｘ－ｘｊｘｉ－ｘｊ）记上述多项式系数为ｈｉｎｔ，记Ｒ方查询输入为ｑ，则查询输出为：Ｆ（ｑ，ｋ，ｈｉｎｔ）＝Ｆ（ｋ，ｑ）Ｐ（ｑ）正确性验证：当Ｒ查询输入ｑ＝ｘ时，查询输出为ｙｉＦ（ｋ，ｘｉ）Ｐ（ｘｉ）＝Ｆ（ｋ，ｘｉ）ｙᶄｉ＝Ｆ（ｋ，ｘｉ）ｙｉＦ（ｋ，ｘｉ）＝ｙｉ当输入ｑ不等于任一ｘｉ时，查询输出是随机均匀分布的㊂因为ｙｉ随机均匀分布，因此Ｐ（ｘ）系数也是随机均匀分布的㊂３５㊀ＭｕｌｔｉＰＳＩ算法原理：算法关键是利用秘密分享技术，通过２次ＯＰＰＲＦ找出共同元素㊂１）第一次ＯＰＰＲＦ：ｓｔｅｐ１中各参与方对本方的每个元素和其他各参与方生成多份秘密分享值ｓｉ，ｊｋ，然后ｓｔｅｐ２中各参与方运行ＯＰＰＲＦ，此时如果有相同元素进行查询则会获取到对方相同元素的某一份秘密分享值㊂如果是不相同元素的查询则是获得一个随机值；２）第二次ＯＰＰＲＦ：ｓｔｅｐ３中各参与方通过本方所有秘密分享值计算一个映射Ｓｉ（ｘｉｋ），然后ｓｔｅｐ４中Ｐ１作为协议中ｌｅａｄｅｒ（负责最终交集元素的输出），和各参与方运行第二次ＯＰＰＲＦ．每个参与方的Ｓｉ（ｘｉｋ）值包含了单个元素在各个参与方对应的秘密分享值㊂Ｓｔｅｐ５中Ｐ１对各个参与方Ｓ（ｘ）进行ＸＯＲ计算，此时如果是该元素在㊃４０１㊃第３１卷隐私集合求交算法的对比分析㊀各个参与方都有，则ｉɪ［ｎ］ｙｉｋ包含了所有参与方关于ｘｉｋ元素的全部秘密分享值，因此ｉɪ［ｎ］ｙｉｋ＝０意味着元素ｘｉｋ在各个参与方输入中都存在㊂４㊀ＰＳＩ算法复杂度的对比分析㊀㊀不同ＰＳＩ协议的计算复杂度和通信复杂度在表２中有所示㊂表１为符号说明，表２中的计算复杂度是通过非对称或是对称密码原语的使用次数衡量的，通信复杂度是通过在信道上传输的比特数衡量的㊂这里的假设是每完成一次ＯＴ协议花费３次对称密码操作（对于使用布隆过滤器的花费２５次对称密码操作）㊂计算姚氏电路中的与门使用４次对称密码操作，计算ＧＭＷ电路中的与门使用６次对称加密操作㊂在同一类别中的ＰＳＩ方案大多数拥有类似的复杂度㊂朴素哈希方法与服务器辅助的方法需要对每一个元素执行一次对称加密操作（哈希），基于公钥的协议需要对每一个元素执行两次公钥操作，并且需要发送两个密文和一个哈希值㊂基于电路的方法的计算复杂度与电路中与门的数量成正比，在基于布隆过滤器的协议中，计算复杂度与布隆过滤器的大小成正比㊂在基于ＯＴ的协议中，基于布隆过滤器的协议［２４］，通信复杂度是与安全参数κ的平方成正比的，但是在［３４］中的协议，通信复杂度是与κ呈线性关系㊂表１㊀符号说明符号说明Ｓ服务端或是发送端Ｒ客户端或是接收端Ｘ，Ｙ发送端和接收端的集合ＮＸ，ＮＹ发送端和接收端集合的大小ｍ哈希表的大小ｖ消息编码的长度σ集合元素的长度κ，λ计算意义的安全参数和统计意义的安全参数ρ，ϕ非对称安全参数与椭圆曲线的规模表２㊀不同ＰＳＩ协议复杂度比较分类协议计算复杂度（对称或非对称密码原语的次数）通信复杂度（比特）基于公钥体系的基于有限域ＤＨ的［６］２ｔｐｋｔρ＋ＮＸｖ基于椭圆曲线上ＤＨ的［６］２ｔｐｋｔϕ＋ＮＸｖ基于ＲＳＡ的［３０］２ｔｐｋｔρ＋ＮＸｖ基于电路的姚氏电路使用ＳＣＳ１２ｍσｌｏｇｍ＋３ｍσｓｙｍ６ｍΚσｌｏｇｍ＋３ｍσＧＭＷ使用ＳＣＳ１８ｍσｌｏｇｍｓｙｍ６ｍ（Κ＋２）σｌｏｇｍ姚氏电路使用ＰＷＣσ（４ＮＹｍａｘｂ＋４ｓＮＸ＋３ＮＹ）ｓｙｍ２ＮＹΚｍａｘｂσ＋３ｓＮＸΚσ＋２ＮＹσＧＭＷ使用ＰＷＣ６σ（ＮＹｍａｘｂ＋ｓＮＸ）ｓｙｍ２（Κ＋２）σ（ＮＹｍａｘｂ＋ｓＮＸ）姚氏电路使用ＯＰＲＦ２１７６０ＮＹ＋３σＮＹｓｙｍ１０８８０ＮＹΚ＋２ＮＹΚσ＋ＮＸｖＧＭＷ使用ＯＰＲＦ３２６４０ＮＹｓｙｍ１０８８０ＮＹ（Κ＋２）＋ＮＸｖＣｉａｍｐｉ等人的方案Ｍ（４σｌｏｇｍ＋３σ）ｓｙｍｍ（２σ＋１）ｍΚ基于ＯＴ协议的使用布隆过滤器［２４］３６ｍΚｓｙｍ１４４ｍΚ（Κ＋λ）使用哈希表［２０］３ＮＹ＋（ｋ＋ｓ）ＮＸｓｙｍ５１２ＮＹ＋（ｋ＋ｓ）ＮＸｖ使用哈希表［２６］（ｓ＋３）ｍ＋（ｍ＋ｓ）ｓｙｍ４（ｍ＋ｓ）ｋ＋（ｓ＋３）ｍｖ使用哈希表［３１］∗－６Κｎ＋βｎｌｏｇｍ基于ＦＨＥ的［４６］－－１５ＣσＮＹｌｏｇ２Ｎｘ㊀㊀注：其中ｓｙｍ和ｐｋ分别表示对称与非对称操作的统计，ｔ＝ＮＸ＋ＮＹ，ｍ＝ｍａｘ（ＮＸ，ＮＹ），βʈλ＋２ｌｏｇｎ－１，，ｋ，ｓ，ｍａｘｂ是哈希函数用到的参数，ｖ是在ＯＴ扩展协议中，使用的哈希函数的输出长度，Ｃ是一个常数，表示［２６］的同态操作产生的密文扩展㊂标有∗的是在恶意模型下安全的协议㊂５㊀ＰＳＩ性能的对比分析㊀㊀基于公钥密码的ＰＳＩ方案中，一些协议公钥加解密操作的次数与集合大小成线性关系㊂因此虽然通信复杂度是最小的，但是计算开销远不及后面叙述的基于不经意传输扩展协议的ＰＳＩ㊂使用公钥加密体系的ＰＳＩ有另一个优点，就是在双方集合大小相差很大的情况下，花销很大的公钥加密操作可以集中在一方进行㊂结合这种方案通信复杂度低的优点，Ｃｈｅｎ等人在文献［２８］㊁㊃５０１㊃。

隐私计算的几种架构

隐私计算的几种架构
隐私计算的几种架构包括多方安全计算、联邦学习、同态加密、可信执行环境以及差分隐私等。

这些技术各有特点，但共同构成了一个清晰、层次分明的隐私计算技术框架。

1. 多方安全计算：在参与方不共享各自数据且没有可信第三方的情况下，仍可以进行协同计算，最终产生有价值的分析内容。

要确保输入数据的独立性、传递数据的准确性以及计算过程的正确性，同时不能把输入值泄露给参与计算的其他成员。

2. 联邦学习：一种分布式机器学习技术或框架，最初是由谷歌提出的。

3. 可信执行环境：一种具有运算和储存功能，并且能提供安全性和完整性保护的独立处理环境。

4. 同态加密：一种加密算法，能够在不解密的情况下对加密的数据进行处理，并保证处理后的数据仍然保持加密状态。

5. 差分隐私：一种隐私保护方法，通过对数据进行一定的噪声添加，使得攻击者无法准确得知原始数据的具体信息。

这些架构在隐私计算领域中发挥着重要的作用，通过这些技术可以有效地保护个人和组织的数据隐私。

隐私计算实例

隐私计算实例隐私计算是一种重要的计算模式，它旨在保护个人隐私和数据安全。

随着互联网的发展和数据的大规模使用，人们对个人隐私的担忧也日益增加。

隐私计算通过在计算过程中保护数据的隐私，为人们提供了一种安全可靠的数据处理方式。

在传统的计算模式中，数据通常需要被明文传输和处理。

这就意味着数据的隐私可能会受到威胁，例如被未经授权的第三方获取和利用。

而隐私计算则采用一系列技术手段，如加密、数据脱敏等，将数据在计算过程中进行保护，从而实现数据的隐私安全。

隐私计算的核心思想是将数据的处理过程与数据的拥有者分离开来。

数据拥有者可以将数据加密后上传至云服务器，而计算任务则由云服务器完成。

在计算过程中，云服务器无法获得数据的明文，只能获取经过加密处理的密文。

这样，即使云服务器被攻击或者被不法分子控制，也无法获取到用户的隐私数据。

隐私计算的一个重要应用是在数据共享场景中。

在传统的数据共享方式中，数据拥有者需要将数据完整地共享给其他合作方，这无疑增加了数据泄露的风险。

而通过隐私计算，数据拥有者可以将数据加密后共享给其他方，其他方可以在不获得明文数据的情况下进行计算和分析。

这样，即使其他方的计算过程被攻击或者泄露，也不会导致数据的泄露。

隐私计算还可以应用于个性化推荐和数据挖掘等领域。

在传统的个性化推荐中，通常需要用户的个人信息和浏览历史等数据。

而通过隐私计算，用户的个人隐私可以得到有效保护，用户可以获得个性化的推荐服务，而无需将个人隐私暴露给第三方。

类似地，隐私计算可以在数据挖掘中保护敏感数据，防止数据的滥用和泄露。

隐私计算的发展离不开安全和加密技术的支持。

目前，已经有很多安全和加密算法被应用于隐私计算中，如同态加密、差分隐私等。

这些算法可以有效地保护数据的隐私，同时又能保持数据的可用性和计算的有效性。

然而，隐私计算仍然面临一些挑战和问题。

首先，隐私计算的计算效率相对较低，需要消耗更多的计算资源。

其次，隐私计算的安全性依赖于加密算法的强度和实现的正确性，一旦加密算法被攻破或者实现存在漏洞，隐私计算的安全性就会受到威胁。

差分隐私（一）----基本介绍

差分隐私（⼀）----基本介绍说明：主要参考资料来源于在本节中，我们介绍差分隐私，⾸先我们会介绍Warner 提出的第⼀个差分隐私算法[1]。

⼀、Randomized Response问题描述问题：假设⾃⼰是⼀个班级的⽼师，这个班级有⼀场考试，但是这场考试有很多⼈作弊，但是⾃⼰不确定多少⼈作弊。

那怎么你怎么能计算出有多少学⽣作弊呢？（当然学⽣肯定不会⽼实承认⾃⼰作弊了）将问题抽象出来：有n 个⼈，每个⼈i 有个私密的数据X i ∈{0,1}，他们确保其他⼈不知道⾃⼰的这个私密数据X i 到底是0还是1。

但是为了配合分析师分析所有⼈的数据，每个⼈i 根据⾃⼰的私密数据X i 和⼀些⾃⼰产⽣的随机数来产⽣⼀个Y i ∈{0,1} ，然后向分析师发送⼀个消息Y i 。

最后分析师根据收到的所有的Y i 来得到⼀个概率估计:p =1n n∑i =1X i这样分析师就⼤概知道这⾥⾯⼤概有多少⼈的X i 是0，多少⼈的X i 是1了。

在上述问题中，可以抽象为：X =∑n Xi ,其中X 1,X 2...X n 是相互独⽴的，且Pr (X i =1)=p i ,Pr (X i =0)=1−p i 。

(即有n 种期望分别为p i 的伯努利分布)令p =µ=E(X )=1n ∑n i =1X i如何⽣成随机数（1）我们先假设所有⼈都说的是真话，每个⼈只可能说真话。

意思是个体i 的隐私数据X i 是多少，那就向分析师发送的数据是多少。

那么分析师收到的Y 值就等于X :Y i =X i with probability 11−X i with probability 0那么可以得到：˜p =1n ∑n i =1Y i，实际上：p =˜p 。

但是虽数值准确，但是分析师可以确切知道⼤家都说的真话，因此明确地知道了每个⼈的X i 值。

那么应该如何既保证个体的隐私，⼜让分析师能计算出真实的p 值呢？（2）如果每个⼈都有⼀半可能说真话，⼀半可能说假话，Y i 的均值是1/2，意思是，每个⼈如果多次发送的话，期望都是1/2，那么分析师分析的数据Y 完全独⽴于X ，两个变量之间没有相关性，那么其实收集到的数据就是个⼆项分布：Y i =X iwith probability 121−X i with probability 12，即每⼈说⾃⼰是0还是1的概率与其本⾝不符合。

数据隐私保护中差分隐私机制与数据扰动算法

数据隐私保护中差分隐私机制与数据扰动算法在数据隐私保护领域，差分隐私机制和数据扰动算法是常见的保护手段。

差分隐私机制是一种隐私保护方法，通过在计算过程中添加噪音来保护个体的隐私信息。

数据扰动算法则是通过对原始数据进行加密和扰动，使得敏感信息难以被恢复和识别。

差分隐私机制是一种通过引入噪音来保护数据隐私的方法。

它的核心思想是在计算、统计或查询操作中添加噪音，以使得攻击者难以将某个特定个体与输出结果相关联。

差分隐私机制是一种强隐私保护手段，能够提供个体隐私的保护，同时保持数据的有限可用性。

差分隐私机制具有较强的数学理论基础和可量化的隐私保护强度。

差分隐私机制的关键要素包括隐私预算、敏感性和噪音生成算法。

隐私预算表示在一定程度上允许泄露的隐私信息量，常用的度量方式是差分隐私参数ε和δ。

ε越小表示隐私保护强度越高，δ表示对于特定敏感查询的失误率。

敏感性是指数据在某个具体查询操作中的变化情况，通常使用全局敏感性和局部敏感性来衡量。

噪音生成算法则是根据查询结果和敏感性来产生随机噪音，以实现隐私保护。

数据扰动算法是另一种常见的数据隐私保护手段。

它通过对原始数据进行加密和扰动来保护数据隐私。

数据扰动算法的核心思想是将敏感信息进行数据变换、数据脱敏和加密，使得敏感信息无法被恢复和识别。

数据扰动算法可以采用各种加密算法和数据变换技术，如哈希函数、数据加密、数据压缩等。

通过数据扰动，可以在保护数据隐私的同时，尽可能地保持数据的可用性和可分析性。

差分隐私机制和数据扰动算法在数据隐私保护中各有优缺点。

差分隐私机制在隐私保护强度上具有明显优势，能够提供较高的隐私保护级别。

同时，差分隐私机制具备较好的可量化特性，可以根据具体需求设置隐私保护参数。

然而，差分隐私机制在数据可用性和计算效率方面存在一定的问题。

由于引入了噪音，查询结果可能出现一定的误差，因此需要在隐私保护和数据可用性之间进行权衡。

相比之下，数据扰动算法更加灵活和可控。

面向高维数据发布的个性化差分隐私算法

面向高维数据发布的个性化差分隐私算法①马苏杭1,2, 龙士工1,2, 刘　海1,2, 彭长根1,2, 李思雨11(贵州大学计算机科学与技术学院, 贵阳 550025)2(贵州大学贵州省公共大数重点实验室, 贵阳 550025)通讯作者: 龙士工q 摘　要: 在高维数据隐私发布过程中, 差分隐私预算大小直接影响噪音的添加. 针对不能合理地为多个相对独立的低维属性集合合理分配隐私预算, 进而影响合成发布数据集的安全性和可用性, 提出一种个性化隐私预算分配算法(PPBA). 引入最大支撑树和属性节点权重值降低差分隐私指数机制挑选属性关系对的候选空间, 提高贝叶斯网络精确度, 提出使用贝叶斯网络中节点动态权重值衡量低维属性集合的敏感性排序. 根据发布数据集安全性和可用性的个性化需求, 个性化设置差分隐私预算分配比值常数值, 实现对按敏感性排序的低维属性集合个性化分配拉普拉斯噪音. 理论分析和实验结果表明, PPBA 算法相比较于同类算法能够满足高维数据发布安全性和可用性的个性化需求, 同时具有更低的时间复杂度.关键词: 贝叶斯网络; 差分隐私; 最大支撑树; 动态权重值; 个性化比例分配引用格式: 马苏杭,龙士工,刘海,彭长根,李思雨.面向高维数据发布的个性化差分隐私算法.计算机系统应用,2021,30(4):131–138. /1003-3254/7870.htmlPersonalized Differential Privacy Algorithm for High-Dimensional Data PublishingMA Su-Hang 1,2, LONG Shi-Gong 1,2, LIU Hai 1,2, PENG Chang-Gen 1,2, LI Si-Yu 11(College of Computer Science and Technology, Guizhou University, Guiyang 550025, China)2(Guizhou Provincial Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025, China)Abstract : In the process of privacy preserving high-dimensional data publishing, the size of the differential privacy budget directly affects the addition of noise. The privacy budget cannot be allocated reasonably for independent low-dimensional attribute sets, compromising the security and restricting availability of composite data sets. Then a Personalized Privacy Budget Allocation (PPBA) algorithm is proposed. The maximum support tree and weight values of attribute nodes are introduced to reduce the candidate space of attribute relationship pairs selected by the differential privacy index mechanism and enhance the accuracy of the Bayesian network. The dynamic weight values of nodes in the Bayesian network are set to rank the sensitivity of low-dimensional attribute sets. According to the personalized requirements for security and availability of published data sets, the constant allocation ratio q of differential privacy budgets is customized for the personalized allocation of Laplace noise to the low-dimensional attribute sets sorted by sensitivity. Theoretical analysis and experimental results reveal that the PPBA algorithm can meet the personalized requirements for security and availability of high-dimensional data publishing, with lower time complexity.Key words : Bayesian network; differential privacy; maximum support tree; dynamic weight value; personalized proportional distribution计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: Computer Systems & Applications,2021,30(4):131−138 [doi: 10.15888/ki.csa.007870] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 国家自然科学基金(62062020, 62002081, U1836205); 贵州省科技计划(黔科合重大专项字[2018]3001)Foundation item: National Natural Science Foundation of China (62062020, 62002081, U1836205); Science and Technology Plan of Guizhou Province ([2018]3001)收稿时间: 2020-08-18; 修改时间: 2020-09-10; 采用时间: 2020-09-18; csa 在线出版时间: 2021-03-301311 引言随着移动互联网的发展, 数据规模也以前所未有的速度不断增长, 数据属性之间的相互关系变得复杂多样, 高维数据已是一种常见的数据发布类型. 随着数据挖掘和分析技术的发展, 高维数据的发布具有更高的信息价值, 但高维数据中通常包含大量隐私信息, 如果使用不当将造成隐私泄露[1,2]. 为了保证高维数据发布过程中不会泄露隐私信息, 在发布之前使用差分隐私[3,4]保护技术进行处理. 如果直接对高维数据进行差分隐私处理, 存在添加噪音过多, 数据可用性差等问题.其中差分隐私预算的分配方式直接影响数据的可用性与安全性关系, 而不同数据机构对于发布数据集安全性和可用性之间的关系需求各不相同, 数据保护级别更高的数据机构更注重数据的安全性; 而主要提供数据进行应用的数据机构则更倾向于数据的可用性.目前已有的面向高维数据发布的差分隐私算法有概率图模型[5–7]、阈值过滤技术[8]以及投影技术[9], 这些技术通过维度转换达到降维效果, 减少噪音添加对数据可用性的影响. 降维效果的好坏直接影响数据的可用性, 而阈值过滤技术和投影技术忽略了高维属性之间普遍存在依赖关系, 采用直接截断的降维方法, 大大降低了数据的可用性. 文献[5–7]利用指数机制[3,10]挑选属性关系对, 受候选空间大小和隐私预算分配方式的影响, 空间越大挑选的属性关系对越不准确. 同时,单一的隐私预算分配方式为敏感性不同的属性数据分配相同的隐私预算, 导致隐私预算无法根据数据可用性与安全性的个性化需求合理分配, 存在隐私浪费的问题.基于在高维数据发布过程中, 数据安全性与可用性受降维算法效果和隐私预算分配方式的影响, 为满足发布数据集安全性与可用性的个性化需求, 本文提出个性化隐私预算分配(Personnalized Privacy Budget Allocation, PPBA)算法, 主要内容如下.(1)对基于概率图模型的贝叶斯网络算法进行优化, 引入最大支撑树和最大权重值, 减少指数机制挑选属性关系对的搜索空间, 避免敌手进行多次查询对比分析, 泄露隐私信息. 提高数据可用性和安全性.q (2)依据动态权重值确定贝叶斯网络中低维属性集合敏感性由大到小的排序. 受文献[11–13]启发, 根据不同用户数据可用性与安全性需要, 个性化设置隐私预算分配比值常数,为不同敏感性的属性集合合理分配差分隐私(Laplace [10])噪声.ε(3)理论证明所提出的PPBA 算法满足-差分隐私, 并在真实数据集上进行性能评估. 实验结果表明能够满足数据可用性与安全性个性化需求, 同时降低了时间复杂度.2 相关工作数据独立发布算法和数据相关发布算法是主要的2类面向高维数据发布的差分隐私算法. 独立发布算法的典型代表是PriVew [14],该算法假设所有属性都是相互独立的,这在真实数据集中是不存在的, 且缺少正式的推理机制. 而PrivBayes 算法[5]、加权贝叶斯网络算法[6]、联合树算法[7]是典型的数据相关发布算法.PrivBayes 算法利用指数机制挑选属性关系对形成贝叶斯网络, 对联合分布概率进行推理, 存在候选空间较大, 数据可用性和安全性得不到保障的问题. 文献[6]对贝叶斯网络进行优化, 利用最大权重值提高贝叶斯网络推理的准确性, 但仍然存在挑选属性关系对候选空间较大的问题. 文献[7]通过指数机制构造Markov 网, 引入高通滤波技术缩减指数机制搜索空间. 并结合相应的后置技术对Markov 网分割来获得完全团图, 生成满足差分隐私的联合树, 利用联合树中各个团后置处理之后的联合分布表合成最终的高维数据. 文献[5–7]在高维数据相关发布得到广泛的应用, 但在面对不同数据机构对于数据安全性与可用性的个性化需求, 缺少个性化的隐私预算分配策略.针对不同数据类型关于隐私预算分配问题, 为了兼顾数据安全性与可用性的效率, 文献[11]以差分隐私保护结合主流决策树分类方法, 提出等差分配隐私预算的方式, 改善决策树的分类准确率. 文献[12]针对树索引结构提出等差数列分配和等比数列分配两种方式. 避免对树的某一层分配过小, 数据可用性过低; 分配过大, 不能对这层数据提供足够安全保障的问题.3 基础知识本节内容主要对面向高维数据发布的个性化差分隐私算法所使用的贝叶斯网络、差分隐私概念进行说明.3.1 贝叶斯网络文章在论述过程中涉及较多数学符号, 为了更好地对下文相关内容进行解释, 给出相关符号定义, 如表1所示.计算机系统应用2021 年第 30 卷第 4 期132表1 符号定义表符号描述D 原始高维数据集D n 数据集D 的元组个数Ar 数据集D 中的属性集合d Ar 属性集合中的属性个数N 贝叶斯网络Pr[Ar ]高维数据集D 的原始分布Pr N [Ar ]根据贝叶斯网络推理原始数据集的近似分布K 贝叶斯网络的最大父节点数, 即贝叶斯网络的度值WV 属性节点的权重值DWV 属性节点的动态权重值CM 属性值的多样性P (X ,M )属性节点与父节点集合的联合概率M 父节点集合dom (X )属性变量的域N N N N 定义1. 贝叶斯网络. 贝叶斯网络为一个有向无环图, 中每一个节点代表高维数据集D 中一个字段属性, 如果中两个属性节点之间存在着直接依赖关系, 则两个属性字段节点之间用一条弧(或有向边)直接相连. 贝叶斯网络使用(属性字段节点, 属性字段节点的父节点集合)对来表示.Ar 1通过挑选属性间的依赖关系, 实现高维数据的维度转换, 构建贝叶斯网络进行联合分布的推理. 通过例子解释说明, 高维数据集属性集合为, 有A 、B 、C 、D 共4个属性, 未进行维度转换形成贝叶斯网络时, 其联合分布的计算如下式所示:若在属性依赖关系的挑选中使用最大父节点个数值即度值为2的贝叶斯网络算法对该数据集进行处理,形成如图1所示4个属性字段节点构成的2度贝叶斯网络图.图1 2度贝叶斯网络(A ,∅)(B ,{A })(C ,{A ,B })(D ,{A ,C })Pr N [Ar 1]则该贝叶斯网络用4个相对独立的低维属性集合,, ,, 来表示, 其中联合分布的计算如式(2)所示.Pr N [Ar 1]Pr[Ar 1]未进行维度转化处理之前该数据集属性之间存在6种属性关系, 当使用2度贝叶斯网络算法之后降低到5种属性关系. 相比在数据量较多的情况下具有更低的计算复杂度, 为多个相对独立的低维属性集合加入更少的噪声.3.2 差分隐私差分隐私保护技术通过向原始数据集添加满足差分隐私的噪音生成邻近数据集, 使得原始数据集与邻近数据集在查询输出中具有概率不可区分性.εD 1D 2εRange (A )A S ⊆Range (A )定义2. -差分隐私[10]. 对于任意两个相邻数据集和, 它们之间相差最多为一条记录, 若一个随机函数A 满足-差分隐私保护, 表示随机函数的取值范围, 则对于所有的有:Pr[E ]ε其中, 表示事件E 的披露风险, 为隐私预算参数,代表了差分隐私保护水平, 其值越小, 不可区分性越大,隐私保护级别越高.定义3. 敏感度[10]. 敏感度是由函数本身决定的, 不同函数具有不同的敏感度, 敏感度过低会使发布数据集的安全性得不到保障, 敏感度过高则使发布数据集的发布结果实用性降低.给定F 是将一个数据集映射到一个固定大小实数向量的函数, 那么函数F 的敏感度为:D 1D 2其中, 和为任意两个邻近数据集, 二者仅相差一个数据元组.为了在给定的隐私预算内, 将全部隐私预算合理分配到多个相对独立的低维属性集合中, 使整个数据发布过程中满足差分隐私, 可以利用差分隐私的序列组合性质.D A 1,A 2,···,A i εi 1≤i ≤d {A 1,A 2,···,A i }εε=d ∑i =1εi 性质1. 差分隐私序列组合性[11]. 给定数据集,相互独立的差分隐私随机算法分别满足-差分隐私, 其中, 则序列组合满足-差分隐私, 其中.定义4. 互信息函数. 1948年香农提出信息熵[14]的概念, 属性之间互信息I 的大小代表属性之间的关联程度. 高维数据集D 属性节点X 与Y 之间的互信息2021 年第 30 卷第 4 期计算机系统应用133I 如式(5)所示.其中, 满足差分隐私的噪音机制主要有指数机制、Laplace 机制.∆I (X :Y )exp (εI (X :Y )2∆I (X :Y ))εε命题1. 基于互信息函数的指数机制. 指数机制[10]主要用于处理输出结果为非数值型结果. 在维度转换过程中, 属性节点的关联程度作为指数机制挑选属性关系对的依据, 打分函数为属性间的互信息函数I , 其中为互信息函数I 的敏感度, 以正比于的概率挑选出具有最大依赖关系的维度属性, 组成多个满足差分隐私的相对独立的低维属性集合.其中文献[5]中给出了维度转换过程中互信息敏感度的计算方法, 见式(6); 由于在指数机制挑选过程中,除挑选属性关系对外无其它隐私消耗, 由差分隐私组合性质[11], 该过程满足对应-差分隐私.P P ∗=P +Z Z ∆f Z ∼Lap (∆f /ε)∆f /ε2∆f 2/ε2ε命题2. 基于联合分布的拉普拉斯机制. 拉普拉斯机制[11]通过Laplace 分布产生噪声扰动真实值达到差分隐私保护. 在贝叶斯网络中对多个相对独立的低维属性集合, 计算其联合分布. 为向其联合分布概率中添加拉普拉斯噪音, 其中为联合分布函数敏感度, 为服从尺度参数, 方差为的Laplace 分布. 由于在该过程中除为联合分布添加拉普拉斯噪音外无其它隐私消耗, 由差分隐私组合性质[11]满足对应值的差分隐私.4 PPBA 算法4.1 最大支撑树本节对最大支撑树的定义和构建过程进行解释说明, 通过最大支撑树限制指数机制挑选属性关系对的候选空间.K 命题3. 最大支撑树. 利用高维数据属性之间的互信息得到的一种树状网络结构, 通过依次计算两两属性间的互信息, 只保留与该属性具有最大互信息的属性之间的无向边, 完成最大支撑树的建立. 根据最大支撑树减少挑选属性关系对的候选空间, 确定贝叶斯网络度值.算法1. 最大支撑树输入: Data D VT输出: T =∅VT =∅1. Initialize: , ;i d 2. ①for =1 to j d j ifor = 1 to and I (X i ,X j )I (X i ,X j )T Compute , add to I (X i ,X j )(X i ,X j )VT ②Select Max , add to ;VT 3. Return ;V T VT (X i ,X j )根据算法1输出的集合, 其中集合用于存储最大支撑树的无向边, 以图1为例将图中有向边转化为无向边, 由连接关系可知A 、B 、C 、D 四个属性节点无向边个数分别为3、3、2、2其中最大值为3, 则选取K 值为3.4.2 个性化比例分配本节内容主要对个性化比例分配方法所涉及的敏感性排序和比例分配的计算过程进行解释.(1)依据动态权重值对低维属性集合进行敏感性排序CM WV DWV 在文献[6]中分别给出了、、值的计算方法, 根据文献[6]中对属性节点动态权重值的定义, 动态权重值可以很好地代表属性节点在贝叶斯网络中的重要性, 重要性越高, 对于贝叶斯网络精确度和数据集的可用性影响越大, 该属性值隐私泄露对数据集的安全性影响越大. 故选取动态权重值作为敏感性的衡量依据.CM 假设图1中各属性值如表2中所示, 则由文献[6]的计算方法, 对图1中4个属性权重值计算结果如表2所示.表2 属性权重值计算结果表iX i M i CM WV DWV1A ∅150.33330.55552B A {}100.22220.15563C A B {、}120.26670.16684DB C {、}80.1778−0.1222根据动态权重值大小进行排序, 则属性节点的敏感性排序为A 、C 、B 、D .(2) 个性化比例分配计算d 高维数据集经贝叶斯网络处理之后, 将数据集划分为个相对独立的低维属性集合, 依据属性节点的动态权重值对低维属性集合进行敏感性由大到小排序, 根据隐私预算分配策略将总的隐私预算合理分配计算机系统应用2021 年第 30 卷第 4 期134q (q >1)q (q >1)εε1,ε2,···,εd d 到每个低维属性集合. 通过个性化设置分配比值常数, 从敏感性最高的低维属性集合起, 使该节点低维属性集合与前一个敏感性更高的低维属性集合分配的隐私预算大小比值为常数 , 从而将隐私预算划分为分别分配至个低维属性集合.εq (q ≥1)由图1中属性节点的低维属性集合敏感性由大到小的排序为A 、C 、B 、D . 总隐私预算大小, 根据需要设置的比值常数为.由等比数列性质式(7)、式(8):得:εq ε取=0.5时, 分别设值为1、1.1、1.3, 则A 、B 、C 、D 各属性节点分配的值由式(9), 式(10)计算结果如表3所示.ε表3 分配表qA CB D 10.16670.16670.16670.16671.10.10770.11850.13030.14331.30.08080.10500.13660.1775q q =1q >1q q q 由以上分析和表3可知, 当给定总的隐私预算和低维属性集合按敏感性由高到低的排序, 用户只需调整值, 就可以改变隐私预算的分配方式. 当时, 每个低维属性集合分配的隐私预算相同, 即均匀分配隐私预算. 当时, 按低维属性集合排序, 每个集合分配的隐私预算以倍增加, 随着值的增加, 越重要的低维属性集合分配的隐私预算越小, 对应的保护强度越高, 数据的可用性则相应降低. 不难理解只要稍微改变值, 就可以改变隐私预算分配方式.4.3 PPBA 算法实现本节描述PPBA 算法的具体实现细节如算法2.算法2. PPBA 算法D K q ε输入: 、、、N D ∗输出: 、N ∅V ∅1. Initialize: =,=;X 1X 1V X 1∅N 2. Select ; add to ;add (,) to ;i d 3. ① for =2 to Ω∅② Initialize =;X ∈A r /V ③ for 每一个属性字段, 并且(X ,M )Ω④ add to ⑤ end forΩexp(εi I (X i ,M i )2∆I (X i ,M i))(X i ,M i )(X i ,M i )N X i V ⑥ 从中选择使最大的; add to ;add to ;⑦ end for N 4. Return ;N DWV 5. 依据, 计算低维属性集合属性节点的值;DWV εi 6. 根据值, 将低维属性集合敏感性由大到小排序, 计算为每个集合分配的值i d 7. ① for =1 to doλi =∆fεiP (X i |M i )② Add to ;P ∗(X i ,M i )③ return ;④ end for D ∗8. Return ε/2K ε/2N V V KV min(K ,|V |)N PPBA 算法主要分为两个部分, 1–4步为算法第一部分, 实现满足-差分隐私的贝叶斯网络. 由最大支撑树确定贝叶斯网络的度值, 第2步选择具有最大权重值的属性节点作为贝叶斯网络的首节点. 第3步以互信息函数为满足-差分隐私指数机制的打分函数,从属性字段集合中选择d–1个低维属性集合对加入贝叶斯网络, 其中用于存储属性节点, 表示的所有子集元素个数为. 第4步返回满足差分隐私的贝叶斯网络.εq ε/2X i P (X i |M i )P ∗(X i |M i )P ∗(X i |M i )εD ∗算法第2部分, 合成满足-差分隐私的发布数据集. 5–7步根据数据可用性和安全性需求设置值, 为每个属性集合分配满足-差分隐私Laplace 机制的隐私预算. 为属性节点的条件分布加入服从Laplace 分布的噪音, 得到. 第8步根据形成原始数据集的近似联合分布, 抽样合成满足-差分隐私的合成发布数据集.4.4 满足差分隐私证明ε/2ε证明. 在PPBA 算法中, 根据命题1和命题2在指数机制挑选属性关系对和对条件分布添加拉普拉斯噪音的过程中由差分隐私序列组合性质[11]分别满足-差分隐私保护, 其它行为不会产生额外的隐私预算. 根据差分隐私组合性质中的序列组合性[11], 证得PPBA 算法满足-差分隐私.2021 年第 30 卷第 4 期计算机系统应用1355 实验与分析根据实验测试结果, 对比分析PPBA算法、加权PrivBayes算法、PrivBayes算法的数据可用性、数据安全性与可用性之间个性化平衡需求的实验以及算法时间性能3个方面.5.1 实验环境实验中, 采用美国UCI (University of California, Irvine)所提供的机器学习库中的成人数据集, 该数据集由美国人口普查数据组成, 共计32 561个元组. 在该数据集中一共选取了10个属性字段: Age, Workclass, Educatio, Maritalstatus, Race, Occupation, Relationship, Sex, Native, Country, Income. 在实验之前将数据集划分为测试数据集和训练数据集, 并对数据集做删除缺省值, 属性离散化等数据预处理操作.实验中所使用的软硬件参数如下:(1)操作系统: Windows10;(2)硬件参数: IntelCoreTM I5, 2.4 GHz CPU, 8 GB DDR 内存;(3)编译环境及工具: Python3.6, Pycharm.5.2 贝叶斯网络精确度分析贝叶斯网络与原始数据的拟合度直接影响发布数据的可用性. 在贝叶斯网络结构学习中使用K2[15]算法中的评分函数确定网络结构的好坏, 本实验选择K2Score 函数分别对3个算法生成的贝叶斯网络进行评分, 评分越高, 贝叶斯网络与原始数据拟合度越高. 其中由于K2函数公式特性计算网络评分值均为负值. 实验分别选取1000、5000、10 000、15 000、20 000、25 000、30 000大小数据集对比3个算法生成的贝叶斯网络的精确度,结果如图2所示.从图2可以看出随着数据集不断增大, PPBA算法生成的贝叶斯网络的精确性高于PrivBayes算法, 原因是随着数据集不断增大, 属性维度之间的依赖关系越来越复杂, 相较于加权PrivBayes算法和PrivBayes 算法, PPBA算法利用最大支撑树, 将指数机制属性关系对的挑选空间控制在较优的范围, 提高贝叶斯网络的精确度, 在数据集不断增大, 属性关系越来越复杂的情况下, 优势更为明显.5.3 个性化分配隐私预算下数据可用性与数据安全性分析PPBA算法将实验数据集低维属性集合按敏感性由大到小排序, 取q值大小分别为1.0、1.2、1.3、1.5、ε=0.51.6、1.8、2.0. 观察取不同q值下, 将的隐私预算分配给低维属性集合, 结果如图3所示. 图3横坐标为按敏感性由大到小进行排序的低维属性集合的属性节点, 1为敏感性最高的低维属性集合的节点, 以此类推. 从图3看出, 在q值为1.0时各属性集合分配均等的隐私预算. 随着q值不断增大, 越敏感的属性集合分配的隐私预算越小, 对其隐私保护强度越大, 反之, 敏感性越小属性分配的隐私预算越大, 隐私保护强度越小. 从而实现隐私预算合理分配.图2 贝叶斯网络精确度对比图图3 敏感性排序下为属性集合分配的隐私预算ε=1.0ε=1.0qε=1.0ε发布数据集所需的可用性与安全性之间的个性化平衡是衡量隐私预算分配优劣极重要指标. 选取训练数据集大小分别为1000、5000、10 000、15 000、20 000、25 000、30 000的数据, 使用加权PrivBayes ()算法, PrivBayes ()算法, 以及取值1.0、1.1、1.2、1.3、1.5下的PPBA ()算法生成满足-差分隐私的合成发布数据集. 使用以上算法生成的合成计算机系统应用2021 年第 30 卷第 4 期136q q q q q 发布数据集训练SVM 分类模型, 利用SVM 分类模型[16]对测试数据集进行测试. 选取训练得到的SVM 模型分类器对测试数据集中“Sex”属性进行分类. SVM 分类的结果以及值分别选取1.0、1.1、1.3、1.5时通过Laplace 方差计算隐私损失所得的隐私保护强度结果分别如图4、图5所示. 从图4看出值逐渐增大, 在数据集不大的情况下, 会出现PPBA 算法SVM 准确率低于加权PrivBayes 算法和PrivBayes 算法的现象, 但随着数据集的不断增大, PPBA 算法的分类准确率均高于加权PrivBayes 算法和PrivBayes 算法, 更进一步的说明PPBA 算法更适用于高维数据集的情况下. 从图5看出值越大, 隐私保护强度越高. 结合图4、图5, 根据用户对发布数据集安全性与可用性的需求, 当用户数据集元组大于15 000的情况下, 对SVM 分类准确率要求为80%与82%之间, 但同时要求隐私保护强度不低于0.001%与0.002%之间, 根据图4, 取值1.2可以达到数据可用性与安全性的最优平衡需求. 当用户对隐私要求保护强度为0.007%与0.008%之间, 数据可用性需求为79%到80%之间, 结合图4, 图5, 可个性化设置取值为1.5. 从而证明PPBA 算法可以根据用户需要满足数据可用性与隐私保护强度之间个性化选择的平衡.图4 Sex 属性下SVM 分类准确率5.4 时间性能对比分析ε=1.0q ε=1.0ε=1.0在实验中, 将PPBA 隐私保护算法(, =1.0)、加权PrivBayes 隐私保护算法()和PrivBayes 隐私保护算法()在合成发布数据集过程中, 按照训练数据集由小到大进行运行时间对比分析. 由于加权PrivBayes 隐私保护算法、PrivBayes 隐私保护算法随机生成贝叶斯网络, 运行时间具有不确定性, 实验选择每个数据集下运行10次取平均值的方式衡量时间性能. 对比分析结果如图6所示, PPBA 算法运行时间相对PrivBayes 算法、加权PrivBayes 算法时间更短,究其原因PPBA 算法利用属性节点权重值确定首节点,最大支撑树确定最大父节点个数K 值, 减少属性关系候选空间, 避免K 值过大, 内存资源的浪费, 具有更优的时间性能. 但由于实验计算机性能有限, 数据预处理工作量大等问题, 整体耗时较长, 实验结果有待改进.q 图5 不同值下隐私保护强度图6 时间性能对比图6 总结与展望q 面向高维数据隐私发布, 不同数据发布用户对于数据安全性和可用性的个性化需求, 本文提出个性化差分隐私预算分配算法(PPBA), 通过最大权重值和最大支撑树, 降低属性关系对的挑选空间, 构建更优的贝叶斯网络, 按照高维数据隐私保护强度和数据可用性间的平衡需要, 个性化设置比例常数值,依据集合的敏感性排序, 为低维属性集合分配合理的隐私预算, 合成2021 年第 30 卷第 4 期计算机系统应用137。

基于安全多方计算的隐私保护异常检测算法的外包计算

摘要异常检测是指通过算法发现数据中的异常模式，作为数据挖掘的一个分支，有着重要的研究意义。

随着信息技术的快速发展，异常检测的数据来源更加多元化，为了保证数据拥有者的隐私数据在异常检测的过程中不被泄露，需要采取有隐私保护功能的方案。

隐私保护的数据挖掘是指采用数据扰动、数据重构、密码学等手段，在尽量保证数据挖掘结果准确性的前提下，保护数据拥有者的隐私数据。

其中数据扰动和数据重构技术会使得数据挖掘精度受到影响。

而基于密码学的安全多方计算方法能够保证数据挖掘精度不受影响，但该方法中涉及了大量关于密文的计算，往往使得整个方法效率低下而无法实用化。

本文基于以上需求，提出了一种基于安全多方计算的异常检测算法，支持将计算外包移至外包服务器端以提高算法的效率。

在异常检测算法中，隔离森林（Isolation Forest, iForest）是表现的较为突出的一个算法。

该方法巧妙的使用了异常是“少且不同”的特点，使用隔离树将样本隔离，拥有较低深度的样本说明很容易被分割出来，成为异常的可能性较大。

同时该方法还利用了集成学习的思想，随机的构造出一系列的隔离树组成隔离森林，用样本的平均深度表示异常度。

平均深度越低的样本成为异常的可能性越高。

但是将该方法扩展到多方后就会面临着信息泄露的问题，由于树的结构是原始数据的高度浓缩，因此将树发送给其他方之后意味着泄露了自身的某些信息。

本课题针对这个问题，提出了一种改进的方法，安全隔离森林（Secure Isolation Forest, SIF）。

该方法在构建隔离树时就掩盖了原始数据集的信息，构建的并非是一棵随机隔离树而是一棵满二叉树，满二叉树的每个节点都包含训练集中落到该节点的样本数量，并将该值用同态加密算法加密。

将这种结构的树向外广播时，并不会泄露原始数据集的敏感信息。

针对安全多方计算开销大的问题，本文通过结合外包计算技术来降低用户端的计算开销。

外包方案主要有单一计算外包和计算与存储的双外包，本文采用的就是单一的计算外包。

基于博弈理论的数据隐私保护算法研究

基于博弈理论的数据隐私保护算法研究随着互联网的发展，人们越来越关注数据的安全和隐私保护。

在大数据时代，有关数据隐私的不良事件频繁发生，给个人隐私和整个社会带来了很大的危害。

要保证数据安全和隐私保护就需要应用一种高效可靠的算法。

基于博弈理论的数据隐私保护算法是近年来研究的热点之一。

它可以在保证数据隐私的前提下，最大化数据的使用价值。

该算法主要包括两个部分：数据隐私保护和数据共享。

第一，数据隐私保护是指在数据共享的过程中，防止数据泄露给没有权限的个人或机构。

在隐私保护的过程中，需要考虑数据的加密、数据脱敏和数据隐私保护等技术手段。

其中，数据加密是最常见最基础的技术手段。

一般情况下，数据加密分为对称加密和非对称加密两种方式。

在数据通信的过程中，数据加密可以有效防止数据被窃取。

而在数据存储的过程中，需要对数据进行脱敏处理，即通过删除或替换数据中的敏感信息，实现数据的匿名和保护。

除了基础的数据加密和脱敏技术外，还有一些高级算法也可以用于数据隐私保护，如差分隐私、同态加密、安全多方计算等。

其中，差分隐私算法的主要思想是在保持数据信息足够的前提下，对数据进行噪声处理，从而混淆数据真实性，保护数据隐私。

同态加密技术是指允许在密文状态下进行计算，从而避免了数据在解密过程中的暴露。

安全多方计算算法也可以保护数据隐私，具有较高的安全性和可靠性。

第二，数据共享是基于博弈理论的数据隐私保护算法的重要部分。

在数据共享的过程中，要考虑数据的合理利用和访问权限的控制。

数据共享需要博弈理论的支持，以平衡数据有效利用和数据隐私保护之间的关系。

在数据共享中，不同利益相关者的利益往往是相互矛盾的，需要通过博弈理论的方法进行协商和平衡。

博弈理论是非常重要的数学工具，在数据隐私保护中也得到了广泛的应用。

博弈理论旨在解决决策者在不同利益方面做出决策时的困境问题。

在数据隐私保护中，博弈模型可以引入随机游戏的博弈理论来解决决策者之间的冲突问题。

隐私计算实例

隐私计算实例1.什么是隐私计算隐私计算（Privacy Computing），是一种保护个人隐私的计算方法和技术。

它通过掩蔽个人数据的真实信息和特征，实现计算的安全和隐私保护，这种方法既能满足数据使用的需求，又不会泄露个人敏感信息。

在现代社会，隐私计算逐渐成为保护个人隐私的主要方法，广泛运用于金融、医疗、电子商务、物联网等领域。

2.隐私计算的应用场景隐私计算在许多应用场景中扮演了非常重要的角色。

其中最常见的应用场景是医疗领域。

医疗数据对于疾病的预测、诊断和治疗等过程非常重要，但又因为医疗数据的隐私性较高而难以传输和共享。

隐私计算可在保证医疗数据隐私安全的前提下，实现医疗数据的有效共享和合作。

同时，在金融领域，隐私计算也能够通过加密技术和安全算法，对银行账户、支付交易等进行安全保护，有效保护客户的隐私和账户安全。

3.隐私计算的实现方式目前，隐私计算主要分为三种实现方式，分别是加密计算、多方计算和同态计算。

加密计算：通过对敏感数据进行加密处理，有效保护数据隐私并实现计算。

这种方式能够提供更高的安全性和保密性，但需要消耗更多的计算资源和时间。

多方计算：将多个参与方的数据进行合并计算，从而确保数据隐私性和安全性。

该方法可分为两个分支：安全多方计算和安全两方计算。

安全多方计算多于两方参与，数据保密性更高，但计算成本和时间也更高。

同态计算：用于对加密数据进行计算，而无需解密。

这种计算方式不会泄漏数据信息，同时保留计算结果中的数据特征和统计信息，因此被广泛应用于金融、医疗等领域。

4.隐私计算的优势和挑战隐私计算的优势在于能够达到数据隐私和计算效率的平衡。

它不需要参与方共享敏感信息，而是通过各种计算技术将数据进行加密、合并等处理，从而实现数据的安全性和实用性同时保障。

与此同时，隐私计算也面临着许多挑战，其中主要的问题包括计算效率、数据正确性和标准规范等。

为了更好地保护个人隐私和数据安全，隐私计算需要在技术创新和标准规范方面实现突破和完善。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

隐私计算算法
隐私计算算法是一种新兴的保护隐私的计算技术。

隐私计算算法
的基本思想是，在不将数据传输到中心处理器的情况下，直接在本地
对数据进行加密、处理和计算，从而实现数据的安全共享。

这种算法
可以在保护数据隐私的同时，保证数据的正确性和可靠性，因此在数
据安全共享方面有着广泛的应用前景。

隐私计算算法主要有三种类型：同态加密、安全多方计算和差分
隐私。

同态加密是一种可保护数据隐私的加密技术，它可以在加密的
状态下进行计算，如加法和乘法运算。

安全多方计算则是一种多个参
与者协作计算的算法，在其中，每个参与者持有一部分数据，在保持
数据私密的同时实现共同的计算目标。

差分隐私则是一种以最小化手
头数据泄露为目标的数据处理方法，通过添加噪声或扰动来保护隐私。

总之，隐私计算算法已经成为保护数据隐私的重要技术手段之一，为数据共享、数据挖掘等领域的数据安全及个人隐私保护提供了一种
有效的解决方案。

隐私计算算法

蚂蚁隐私计算技术手册

隐私集合求交算法的对比分析

隐私计算的几种架构

隐私计算 实例

差分隐私（一）----基本介绍

数据隐私保护中差分隐私机制与数据扰动算法

面向高维数据发布的个性化差分隐私算法

基于安全多方计算的隐私保护异常检测算法的外包计算

基于博弈理论的数据隐私保护算法研究

隐私计算 实例

隐私计算实例

隐私计算实例