k_匿名映射的一种局部搜索算法
第2章 禁忌搜索算法

2 . 2 禁忌搜索
• 是局部搜索算法的扩展 • 它的一个重要思想是标记已得到的局部最 优解或求解的过程,并在进一步的迭代中 避开这些局部最优解或过程.
例2 . 2 . 1四城市非对称TSP
距离矩阵
例2 . 2 . 1
• 假设初始解x0 =(ABCD ),目标值为f (x0)=4 • 邻域映射为两个城市顺序对换的2-opt • 始、终点都为A 城市,所以候选集中最多 有两两城市对换对3 个 • 分别对换城市顺序并按目标值由小到大排 列,三个评价值都劣于原值4 .此时已达到 局部最优解.
问题
( 6 )如何利用更多的信息? • 通过记录其他一些信息,如当前最好解, 一个被禁对象(交换)被禁的次数,评价 值的大小等,来提高算法的效率 • BC 或CB 出现的高频率反映出这对顺序交 换对目标值影响较大,在现有的禁忌条件 下对BC 的禁忌长度应该增加 ( 7 )终止原则怎样给出?
Hale Waihona Puke 禁忌搜索算法的特征上次
所有候选对换被禁
问题
( 1 )选择什么为禁忌的对象? 例2 . 2 .1禁忌的是城市顺序对换,是否会造成 求全局最优解的困难? ( 2 )禁忌的长度如何选取? • 禁忌长度短会造成循环,也就可能在一个局部最 优解附近循环 • 禁忌长度长会造成算法的记忆存储量增加,使得 算法计算时间增加,同时可能造成算法无法继续 计算下去 • 因此,必须权衡这对矛盾,确定禁忌长度
例2 . 3 . 4 第3 步
• xnow = ( ACBED ) , f ( xnow ) = 43 • H = { ( ABCDE ; 45 ) , ( ACBDE ; 43 ) , ( ACBED ; 43 ) } • Can_N ( xnow ) = { ( ACBED ; 43 ) , ( ACBDE ; 43 ) , ( ABCED ; 44 ) , ( AEBCD ; 45 ) , ( ADBEC ; 58 ) } • xnext= ( ABCED; 44 )
k-近邻算法梳理(从原理到示例)

k-近邻算法梳理(从原理到⽰例)https:///kun_csdn/article/details/88919091k-近邻算法是⼀个有监督的机器学习算法,k-近邻算法也被称为knn算法,可以解决分类问题。
也可以解决回归问题。
本⽂主要内容整理为如下:knn算法的原理、优缺点及参数k取值对算法性能的影响;使⽤knn算法处理分类问题的⽰例;使⽤knn算法解决回归问题的⽰例;使⽤knn算法进⾏糖尿病检测的⽰例;1 算法原理knn算法的核⼼思想是未标记样本的类别,由距离其最近的k个邻居投票来决定。
具体的,假设我们有⼀个已标记好的数据集。
此时有⼀个未标记的数据样本,我们的任务是预测出这个数据样本所属的类别。
knn的原理是,计算待标记样本和数据集中每个样本的距离,取距离最近的k个样本。
待标记的样本所属类别就由这k个距离最近的样本投票产⽣。
假设X_test为待标记的样本,X_train为已标记的数据集,算法原理的伪代码如下:遍历X_train中的所有样本,计算每个样本与X_test的距离,并把距离保存在Distance数组中。
对Distance数组进⾏排序,取距离最近的k个点,记为X_knn。
在X_knn中统计每个类别的个数,即class0在X_knn中有⼏个样本,class1在X_knn中有⼏个样本等。
待标记样本的类别,就是在X_knn中样本个数最多的那个类别。
1.1 算法优缺点优点:准确性⾼,对异常值和噪声有较⾼的容忍度。
缺点:计算量较⼤,对内存的需求也较⼤。
1.2 算法参数其算法参数是k,参数选择需要根据数据来决定。
k值越⼤,模型的偏差越⼤,对噪声数据越不敏感,当k值很⼤时,可能造成⽋拟合;k值越⼩,模型的⽅差就会越⼤,当k值太⼩,就会造成过拟合。
1.3 变种knn算法有⼀些变种,其中之⼀是可以增加邻居的权重。
默认情况下,在计算距离时,都是使⽤相同权重。
实际上,可以针对不同的邻居指定不同的距离权重,如距离越近权重越⾼。
局部敏感哈希算法在近似最近邻搜索中的应用

局部敏感哈希算法在近似最近邻搜索中的应用随着数据量的增长和处理速度的提高,近似最近邻搜索(Approximate Nearest Neighbor Search,简称ANN Search)成为了实际应用中十分重要的问题。
ANN Search指的是在大规模数据中查找与目标数据最接近的数据点,但是为了减少计算量,通常只需要返回一个近似的结果。
近似最近邻搜索在很多领域都有广泛的应用,例如计算机视觉、自然语言处理以及人脸识别等。
但是,在处理大规模数据时,基于暴力搜索的传统算法往往需要大量的计算时间,无法满足实际需求。
因此,需要一些高效的算法来提高ANN Search的效率。
局部敏感哈希(Locality Sensitive Hashing,简称LSH)算法便是一种高效的ANN Search算法。
LSH算法能够将高维空间中相似的数据点映射到低维空间的相近位置,并且保证在低维空间中相似的数据点的距离尽可能地接近。
这种映射方式从而可以在低维空间中通过一些简单的计算找出相似的最近邻。
在LSH算法中,哈希函数起到了关键的作用。
常用的哈希函数有多样性哈希(MinHash)、随机超平面哈希(Random Hyperplane Hash)以及基于余弦相似度的哈希(Cosine Hash)。
这些哈希函数均有一个共同的特点,即局部敏感性。
LSH算法可以通过不同的哈希函数来构建多个哈希表,每个哈希表能够提供一部分相似的数据点。
同时,将多个哈希表的结果组合起来,即可得到更加准确的近似最近邻结果。
局部敏感哈希算法的优点在于它在高维空间中能够快速地找到相似的最近邻。
由于随着维度的增加,数据集中数据点之间的“距离”变得越来越稀疏,因此LSH算法能够在高维空间中快速地缩小数据点之间的距离,从而同样能够提高搜索效率。
但是,局部敏感哈希算法在实际应用中也存在一些问题。
首先,哈希函数的选择十分重要,不同的哈希函数能够提供的精度也存在差异。
因此,如何选择合适的哈希函数以及如何设置哈希函数中的参数,也是LSH算法优化的一个重要方向。
基于KCAC和CP-ABE的隐私保护方案研究

隹Isl^iSls V12021年第03期(总第219期)基于KCAC和CP-ABE的隐私保护方案研究张月雅(阳光学院人工智能学院空间数据挖振与应用福建省高校工程研究中心,福建福州350015)摘要:在商业化应用中,用户在信息共享中不能制定细粒度的访问控制,并且可能造成隐私泄露。
为了解决此问题,提出了将KACA和CP-ABE算法相结合的方法来构造信息共享的隐私保护方案,实现以用户为中心的避免敏感信息泄露及可控的信息共享方案,并对方案进行了验证分析,证明了方案的可行性。
关键词:访问控制;KACA;CP-ABE;信息共享;隐私保护中图分类号:TP309文献标识码:A文章编号:2096-9759(2021)03-0099-04Research on privacy protection scheme based on KCAC and CP-ABEZhang Yueya(Spatial Information Engineering Research Centre of Fujian Province,College of artificial intelligence,Yango University,Fuzhou,Fujian350015,China)Abstract:In commercial applications,users cannot establish fine-grained access control in infonnation sharing,and privacy may be compromised.In order to solve this problem,a combination of KACA and CP-ABE algorithm is proposed to construct a privacy protection scheme for infonnation sharing,so as to realize a user-centered infonnation sharing scheme that avoids sensitive infonnation leakage and is controllable.The scheme is verified and analyzed,and the correctness and feasibility of the scheme are proved.Key words:Access Control;KACA;CP-ABE;Information Sharing;Privacy Protection0引言信息时代,云计算、物联网和大数据等新兴技术悄然改变着人们的生活。
禁忌搜索算法有关介绍与举例

的结构;为了得到好的解,可以比较不同的邻域结构和不同的初始点;如果初 始点的选择足够多,总可以计算出全局最优解。
禁忌搜索算法
禁忌搜索(Tabu search)是局部邻域搜索算法的推广,Fred Glover 在 1986 年提出这个概念,进而形成一套完整算法。其特点为使用禁忌表封锁刚搜 索过的区域,禁止重复前面的工作。跳出局部最优点,也可避免陷入死循环。赦 免禁忌区域中的一些优良状态,以保证搜索的多样性。 编码方法属于灵活的选择编码方法,如背包的 0-1 编码。 同一问题有多种编码方法,如分组问题:不相同的 n 件物品分为 m 组, n=9,m=3. 编码 1: 1-3-4-0-2-6-7-5-0-8-9 (1-4-3-0-6-2-5-7-0-9-8) 0 起到隔开作用 1-3-4 分为一组,2-6-7-5 一组,8-9 一组。 编码 2: 1-2-1-1-2-2-2-3-3 (2-1-2-2-1-1-1-3-3)
int ytemp; int min=INT_MAX; for(int i=1;i<num-1;i++) { for(int j=i+1;j<num;j++) { swap(x[i],x[j]); int temp=countDis(x,v); if(temp<min&&tabutable[x[i]][x[j]]==0&&tabutable[x[j]][x[i]]==0) { min=temp; xtemp=i; ytemp=j; } swap(x[i],x[j]); } } if(min==INT_MAX) { return false; } else { swap(x[xtemp],x[ytemp]); tabutable[x[xtemp]][x[ytemp]]=1; tabutable[x[ytemp]][x[xtemp]]=1; return true; } } void tabusearchN(const vector< vector<int> > &v,vector<int> &x,int &costbest,int firstcity) { swap(x[0],x[firstcity]); int num=x.size();//城市节点个数 vector< vector<int> > tabutable;//禁忌表,tabutable[i][j]=z 表示对换对(i,j) 的禁忌长度为 z vector<int> f;//记录每一个局部最优解 initX(tabutable,num); for(int i=0;i<num;i++)//初始化禁忌长度为 0 { for(int j=i+1;j<num;j++) {
1967 k-近邻算法

1967 k-近邻算法
K-近邻算法是一种基本的分类与回归方法,由Cover和Hart于1967年提出。
它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。
输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。
一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k 是不大于20的整数。
最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
K-近邻算法步骤如下:
1.计算已知类别数据集中的点与当前点之间的距离。
2.按照距离递增次序排序。
3.选取与当前点距离最小的k个点。
4.确定前k个点所在类别的出现频率。
5.返回前k个点所出现频率最高的类别作为当前点的预测分类。
举个经典的例子,我们可以使用k-近邻算法分类一个电影是爱情片还是动作片。
具体步骤如下:
1.准备数据:提取电影的特征,例如打斗和接吻镜头数等。
2.计算距离:使用欧氏距离等距离度量方法计算新电影与已知类别电影之间的距离。
3.选取最近邻:选择距离最近的k部电影。
4.确定类别:根据k部最近邻电影的类别,使用投票等方法确定新电影的类别。
5.预测分类:根据确定的类别对新电影进行分类。
需要注意的是,K-近邻算法的性能很大程度上取决于所选择的距离度量和特征的选择。
在实际应用中,需要根据具体问题选择合适的特征和距离度量方法,并进行参数调优以获得最佳分类效果。
k 近邻算法
k 近邻算法
k近邻算法(k-nearest neighbors,KNN)是一种用于分类和回
归的机器学习算法。
它的基本思想是在特征空间中,在训练数据集中寻找k个与待预测样本最相似的样本,然后根据这k个样本的标签来预测待预测样本的类别或值。
具体步骤如下:
1. 计算待预测样本与每个训练样本之间的距离,通常使用欧氏距离或曼哈顿距离等测量方法。
2. 选择k个距离最近的训练样本。
3. 根据这k个训练样本的标签,确定待预测样本的类别或值。
对于分类问题,通常采用少数服从多数的投票机制来确定类别。
对于回归问题,通常采用k个样本的平均值来预测待预测样本的值。
k近邻算法的优点包括简单易理解、无需训练过程、对数据没
有假设等;但它也存在一些缺点,如需要存储全部的训练数据、计算复杂度较高等。
在应用k近邻算法时,需要确定的重要参数是k的取值,通常通过交叉验证等方法来选择。
另外,数据预处理和特征选择等步骤通常会对k近邻算法的性能产生重要影响。
k- 最近邻算法
k- 最近邻算法摘要:1.K-最近邻算法的定义和原理2.K-最近邻算法的计算方法3.K-最近邻算法的应用场景4.K-最近邻算法的优缺点正文:1.K-最近邻算法的定义和原理K-最近邻(K-Nearest Neighbors,简称KNN)算法是一种基于相似度度量的聚类分析方法。
该算法的基本思想是:在数据集中,每个数据点都与距离它最近的K 个数据点属于同一类别。
这里的K 是一个超参数,可以根据实际问题和数据情况进行调整。
KNN 算法的主要步骤包括数据预处理、计算距离、确定最近邻和进行分类等。
2.K-最近邻算法的计算方法计算K-最近邻算法的过程可以分为以下几个步骤:(1)数据预处理:将原始数据转换为适用于计算距离的格式,如数值型数据。
(2)计算距离:采用欧氏距离、曼哈顿距离等方法计算数据点之间的距离。
(3)确定最近邻:对每个数据点,找到距离最近的K 个数据点。
(4)进行分类:根据最近邻的数据点所属的类别,对目标数据点进行分类。
3.K-最近邻算法的应用场景K-最近邻算法广泛应用于数据挖掘、机器学习、模式识别等领域。
常见的应用场景包括:(1)分类:将数据点划分到不同的类别中。
(2)回归:根据特征值预测目标值。
(3)降维:通过将高维数据映射到低维空间,减少计算复杂度和噪声干扰。
4.K-最近邻算法的优缺点K-最近邻算法具有以下优缺点:优点:(1)简单易懂,易于实现。
(2)对数据规模和分布没有特殊要求。
(3)对噪声不敏感,具有较好的鲁棒性。
缺点:(1)计算复杂度高,尤其是大规模数据集。
(2)对离群点和噪声敏感。
k- 最近邻算法
k- 最近邻算法k-最近邻算法是一种常用的机器学习算法,它在分类和回归问题中广泛应用。
该算法的核心思想是通过计算样本之间的距离,将测试样本与训练样本中最相似的k个样本进行比较,从而进行预测或分类。
在k-最近邻算法中,k代表了选择最相似的k个样本。
一般而言,k 的选择会影响到算法的性能和结果。
如果选择较小的k值,算法会更加敏感,可能会受到噪声的影响,导致过拟合。
而选择较大的k 值,则可能会忽略一些重要的特征,导致欠拟合。
因此,在使用k-最近邻算法时,我们需要根据具体问题和数据集的特点来选择合适的k值。
在应用k-最近邻算法时,我们首先需要计算测试样本与训练样本之间的距离。
常用的距离度量方法有欧式距离、曼哈顿距离和闵可夫斯基距离等。
通过计算距离,我们可以找到与测试样本最相似的k 个训练样本。
一旦找到了最相似的k个训练样本,根据分类问题或回归问题的不同,我们可以采用不同的方法进行预测或分类。
对于分类问题,一种常用的方法是采用多数表决的方式,即选择k个样本中出现最多的类别作为预测结果。
而对于回归问题,通常采用平均值的方式,即将k个样本的输出值进行平均,作为预测结果。
k-最近邻算法的优点之一是其简单性和易于理解。
它不需要进行模型训练,只需要进行距离计算和预测,因此在处理小型数据集或实时数据时非常有效。
此外,k-最近邻算法还具有较强的鲁棒性,对异常值和噪声具有一定的容忍度。
然而,k-最近邻算法也存在一些局限性。
首先,由于需要计算所有样本之间的距离,当数据集较大时,算法的计算复杂度较高,导致运行时间较长。
其次,k-最近邻算法对于数据集的特征尺度和数据分布较为敏感,需要对数据进行归一化和标准化处理,以确保距离计算的准确性。
此外,当数据集存在类别不平衡或噪声较多时,算法的性能可能会下降。
为了提高k-最近邻算法的性能,我们可以采用一些改进的方法。
例如,可以通过加权平均的方式考虑不同样本对预测结果的贡献程度,使得距离较近的样本具有更大的权重。
kad网络
kad网络Kad网络是一种去中心化的P2P网络模型,它的设计目标是提供更好的文件共享和搜索服务。
Kad网络采用分布式哈希表技术,将网络上的节点组织成一个网络结构,使得每个节点都可以和其他节点直接通信。
Kad网络的特点去中心化Kad网络是去中心化的,没有中心节点控制网络的操作。
每个节点都是平等的,它们之间通过相互通信来协调工作,共同维护网络的稳定运行。
分布式哈希表Kad网络使用分布式哈希表技术来实现文件的定位和搜索。
每个文件都被映射到唯一的一个哈希值,根据这个哈希值可以确定文件在网络中的位置。
节点根据哈希表来找到存储文件的节点,实现快速的文件查找和下载。
路由算法Kad网络采用一种基于距离的路由算法,通过计算节点之间的距离来确定消息传输的路径。
这种算法能够保证消息的可靠传递,并且在网络节点动态变化时能够自适应调整路由。
Kad网络的应用文件共享Kad网络最初被设计用于文件共享,用户可以通过网络上传和下载文件。
由于Kad网络是去中心化的,没有中心服务器存储文件,用户可以通过网络中的节点互相分享文件。
分布式存储除了文件共享,Kad网络还可以用于分布式存储。
用户可以将自己的文件存储在网络中的多个节点上,实现文件的备份和冗余存储,提高数据的安全性和可靠性。
匿名通信Kad网络也可以用于匿名通信,用户可以通过网络中的节点来传递消息,保护通信内容的隐私和安全。
结语Kad网络是一种创新的P2P网络模型,它提供了一种去中心化的文件共享和搜索服务。
通过分布式哈希表技术和距离路由算法的应用,Kad网络实现了高效的文件定位和数据传输,具有广泛的应用前景。
随着P2P网络技术的不断发展,Kad 网络将在未来发挥更加重要的作用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 3 过泛化及映射分解
定义 4 过泛化的映射 给定一个非标识属性 Q, 若 Q 上 的一个泛化映射使 T [ f (Q ) ]满足 k2匿名 ,且使得 T [ f (Q ) ]中至 少一条记录重复出现至少 2k 次 , 则这个泛化映射为过泛化的 映射 。
定义 5 过泛化的映射向量 若一个泛化映射向量使关系 表 T [ f (Q IT) ]满足 k2匿名 ,且使得 T [ f (Q IT) ]中至少一条记录 重复出现 至 少 2k 次 , 则 这 个 泛 化 映 射 向 量 为 过 泛 化 的 映 射 向量 。
定义 6 可分解的过泛化的映射 设 f为 Q ID 属性 Q 上的 一个过泛化映射 ,等价类集 E ( f, q)满足 q∈T [Q ]且 | E ( f, q) | ≥2k,若存在 q1 , q2 ∈E ( f, q)且 f可以分解为 f1 和 f2 , 满足 E ( f, q) = E ( f1 , q1 ) ∪E ( f2 , q2 )且 | E ( f1 , q1 ) | ≥k, | E ( f2 , q2 ) | ≥k, 则 这个过泛化映射 f称为可分解的过泛化映射 。
T [Q ],集合 E ( f, q) = { x | f ( x) = f ( q) , x ∈ T [Q ] } 称为 q在映
射 f下的等价类的集合 。称 f = ( f1 , f2 , …, fn ) 为 Q IT上的一个泛化 映射向量 ,其中 fi 为属性 Q i 的泛化映射 , i = 1, 2, …, n。给定 Q ID 属性向量 q = ( q1 , q2 , …, qn ) 和一个泛化映射向量 f = ( f1 , f2 , …, fn ) ,记 f ( q) 为向量 ( f1 ( q1 ) , f2 ( q2 ) , …, fn ( qn ) ) , 集合 E ( f, q) = { x | f ( x) = f ( q) , x ∈ T. Q ID } 称为 q在映射向量 f下的等价类的
Race
3 3 3 3 3 3
O ccup a tion
Adm 2clerical P rof2sp ec ia lty
Sales Exec2m anage ria l H and le rs2c leane rs
O ther service
表 3 另外一种满足 2 - 匿名的发布
A ge 20 - 24 20 - 24 25 - 29 25 - 29 40 - 49 40 - 49
第 12期
梁小毅等 : k2匿名映射的一种局部搜索算法
115
念 ,即原始数据的值 。特别的 , 约定恒等映射 f: X → X 为一类特
殊的泛化映射记为 f0 ,而当所有 X中的值被映射为 3 时 ,记这个 映射为 f3 : X → 3 。
给定一个 Q ID 属性 Q 及其上的泛化映射 f, 若属性值 q ∈
k2匿名的基本想法是将原始数据中的每个 Q ID的具体值映 射 ( k2匿名映射 )成一个通用值 ,使得处理后的数据中具有相同 Q ID 向量值的元组数至少有 k个 , 从而将链接攻击成功的概率 降为 1 / k, k2匿名处理会带来数据可分辨度的降低 ,减少数据可 用性 。因此 ,寻求隐私保护度和数据可用性的折中 ,是构造 k2 匿名映射的重要原则 。
∑ =
| E ( f, q) | 2 为度量可用性的可分辨度量 [3 ]。
q
定义 3 泛化映射的序 设 f1 : X → Y1 , f2 : X → Y2 是两个泛
化映射 , 若存 在 Y1 → Y2 的 泛 化 映 射 , 则 称 f1 满足 f1 <D f2 的两个泛化映射 f1、f2 ,若不存在 f3 使得 f1
已有的研究表明 ,构造 k2匿名映射的复杂度与 Q ID 属性的 个数存在密切的关联性 ,寻求具有最佳可用性的 k2匿名映射的 问题是 NP困难的 [2 ] 。即使 Q ID 属性个数有限 ,如果待处理的
数据量大 ,构造具有最佳可用性的 k2匿名映射也需要消耗大量 的计算资源 [3 ] 。
局部搜索算法是一类寻找最优解的近似算法 ,它从一个初 始解开始 ,每一步在当前邻域内找到一个更好的解 ,使目标函数 逐步优化 ,直到不能进一步改进为止 。依据局部搜索原理 ,如果 我们能够快速找到一个可行的 k2匿名映射 ,就有可能通过逐个 属性的搜索 ,优化这个映射以获得较佳的可用性 。
第 26卷第 12期 2009年 12月
计算机应用与软件 Computer App lications and Software
Vol126 No. 12 Dec. 2009
k2匿名映射的一种局部搜索算法
梁小毅 唐 屹
(广州大学数学与信息科学学院 广东 广州 510006)
摘 要 基于泛化映射的 k2匿名技术是保护数据共享环境中的隐私信息的有效方法 。然而 ,寻求具有最佳可用性的泛化映射是 NP困难的 。提出了一种泛化映射的局部搜索算法 ,从满足 k2匿名的一个等深泛化映射向量出发 ,依据预定的属性次序 ,寻找并分解 选定属性的过泛化映射 ,形成新的非等深的满足 k2匿名的泛化映射向量 。实验表明在搜索等深映射的时间开销基础上 ,增加少量 的计算时间 ,就可得到可用性更高的泛化映射 。 关键词 k2匿名 可用性 泛化映射 局部搜索
定义 2 泛化映射 映射 f: X → Y称为一个泛化映射 ,若 f (A ) = a,其中 A Α X, a ∈ Y。
泛化映射的构造依赖于一个预定的概念层次 , 层次的最高 端代表最通用的概念 ,用“3 ”表示 , 而最低层则为最具体的概
收稿日期 : 2008 - 06 - 04。广东省科技计划 ( 2005B10101024 ) 。梁 小毅 ,硕士生 ,主研领域 :信息安全 。
1 基本概念
1. 1 泛化映射及映射深度
考虑一个关系表 T [Q1 , Q2 , …, Qn , S1 , S2 , …, Sm ], 其中 Q IT = { Q1 , Q2 , …, Qn } 为准标识属性集 , SA T = { S1 , S2 , …, Sm } 为 敏感属性集 。
定义 1 k2匿 名 [1 ] 关 系 表 T 满 足 k2匿 名 , 当 且 仅 当 T [Q IT ] 中的每条记录重复出现至少 k次 。
A LOCAL SEARCH AL GO R ITHM FO R K2ANO NYM ITY M APP I NG
L iang Xiaoyi Tang Yi
( S chool of M athem a tics and Inform ation S ciences, Guangzhou U niversity, Guangzhou 510006, Guangdong, China)
Keywords K2anonym ity U tility Generalization mapp ing Local search
0 引 言
可用的共享数据 ,是进行科学分析与研究的重要资源 ,然 而 ,每一类数据背后都会包含着一些敏感的隐私信息 。无论这 些数据的发布范围局限在什么程度 ,一个首先必须解决的问题 是如何保护那些隐私 。
Abstract The k2Anonym ity technique, based on generalization mapp ing, is an efficient method to p reserve information p rivacy in public data sharing environment. However, to find a generalization mapp ing w ith the best utilities is of NP hard. This paper p roposes a local search al2 gorithm of generalization mapp ing, p roceeding from a dep th2equal generalization mapp ing magnitude satisfying the k2anonym ity to find and de2 compose the over2generalization mapp ing of the selected attributes according to a p redefined attribute order, and form s new non dep th2equal generalization mapp ing vector satisfying the k2anonym ity. The conducted experiments show that the generalization mapp ing w ith higher utilities can be found by only increasing lim ited computation costs based on the time cost of searching dep th2equal mapp ing.
P rof2sp ec ia lty O ther service
Sales
A ge
20 - 29 20 - 29 20 - 29 20 - 29 40 - 49 40 - 49
表 2 满足 2 - 匿名的发布
Sex
Fem a le Fem a le Fem a le Fem a le M a le M a le
1. 2 一个具体的例子
表 1显示了一个包含有四个属性的人口统计数据 ,其中 Age、Sex、Race属于 Q ID 属性 , Occupation属于 SA 属性 。对所有 的 Q ID属性 ,可以通过预定的概念层次 ,构造相应的泛化映射 。 图 1即为 Age属性的一个泛化映射层次 。
表 1 原始数据