J-2012-变精度粗糙集的属性核和最小属性约简算法_陈昊

J-2012-变精度粗糙集的属性核和最小属性约简算法_陈昊
J-2012-变精度粗糙集的属性核和最小属性约简算法_陈昊

粗糙集属性约简matlab程序

粗糙集-属性约简-matlab程序 Data2为条件属性,decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file = textread('data2.txt','%s','delimiter','\n','whitespace',''); %读取文件信息,每一行为一个胞元 [m,n]=size(file); %胞元的大小 for i=1:m words=strread(file{i},'%s','delimiter',' ');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X); %信息系统的约简 ind_A T=ind(X); %信息系统的不可等价关系 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); for i=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file = textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); for i=1:m words=strread(file{i},'%s','delimiter',' '); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 for i=1:m %%%%%%%%%%%%%%正域有问

属性约简(MATLAB算法)有实例有讲解

粗糙集属性约简 注:这是我学粗糙集时老师给的作业 属性约简的顺序如下:求正域、生成未经处理的区分矩阵、对区分矩阵进行化简、求核、对已经处理过的区分矩阵进行属性约简。约简后的决策表有26行,所有12个属性都是正域中的属性,核为空 程序: % main.m tic; a=[ 1,1,1,1,0,0,0,0,1,1,0,1; 0,0,0,0,0,0,0,0,0,0,0,0; 1,0,1,0,0,0,0,0,0,1,0,0; 0,0,0,1,1,1,1,0,1,0,1,1; 1,0,0,1,1,1,1,1,0,1,1,0; 0,1,0,1,1,1,1,1,1,0,0,1; 1,0,0,0,1,1,1,0,0,1,1,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,1,1,1,0,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1; 1,0,1,1,1,0,0,0,1,1,0,1 ]; d=[1;0;0;0;0;0;0;1;1;1;1;1]; pos=posCD(a,d); dismat=dismatrix(a,d,pos); dism=disbe(dismat);

core=cor(dism); [red,row]=redu(dism); time=toc % dismatrix.m % 生成未经处理的区分矩阵dismat function dismat=dismatrix(a,d,pos) [m,n]=size(a); p=1; index1=0;index2=0;index=0; dis=-1*ones(m*(m-1)/2,n); for i=1:m for j=i+1:m if (isxbelongtopos(i,pos)&~isxbelongtopos(j,pos))... |(~isxbelongtopos(i,pos)&isxbelongtopos(j,pos))... |(isxbelongtopos(i,pos)&isxbelongtopos(j,pos)&~isxybelongtoindD(i,j,d)) index2=1; end if index2==0 continue; end for k=1:n if a(i,k)~=a(j,k) dis(p,k)=1; index1=1; else dis(p,k)=0; end end if index1==1 p=p+1;index=1; end index1=0; index2=0; end end if p<=m*(m-1)/2 if index==0 dismat=[]; return; end if dis(p,1)==-1 p=p-1; end else p=m*(m-1)/2; end

属性约简

粗糙集的几种属性约简算法分析 分类:默认栏目 2006.6.16 10:32 作者:万富| 评论:0 | 阅读:1628 陈淑珍,基于粗集的几种属性约简算法分析,武汉工业学院学报,Vol.2 4No.3,Sep .20 05 1.1 利用差别矩阵求最小约简 差别矩阵(Discernibility Matrix)是由波兰华沙大学的著名数学家Skowron[21 提出来的,利用这个工具,可以将存在于复杂的信息系统中的全部不可区分关系表达出来。利用差别矩阵求取最小约简的一个前提是:在数据表的预处理阶段要先对不相容的记录进行处理,即差别矩阵不处理不相容记录。预处理的方法如将冲突的记录数除以记录总数,得到一个粗糙度的量度,该量度可以作为数据表的一个特征。 通过差别矩阵可以很方便地求取核属性,以核属性为出发点,再求取差别函数的最小析取范式,则求析取范式的运算就可以得到很大的简化。而最后得到的每个析取分量对应着一个约简。因此,一定可以得到最小约简。 但该算法的缺陷十分明显:首先,当论域的对象与属性的规模较大时,差别矩阵将占有大量的存储空间口(n的二次方);其次,差别函数的化简本身就是一个NP一hard问题,因此只要数据集稍大一点,就不具备可操作性。 1.2 基于属性依赖度约简算法 求取所有约简是一个NP一hard问题,因此运用启发信息来简化计算以找出最优或次优约简显然是一种可取的方法。 许多启发式约简算法的基本步骤都是:由信息系统或决策表的核为起始点,然后根据属性重要性的某种测度,依次选择最重要的属性加人核中,直到满足终止条件。便得到信息系统或决策表的一个约简(更确切的说,是包含约简的一个属性集)。 一个信息系统中的所有属性对于决策来说并不是同等重要的,在粗集理论中,属性重要性可通过相依度来体现。 决策属性D对于属性R(R属于C)的相依度y(R,D)定义为[3]:显然有,O <,y(R,D), l,y(R,D)给出了决策D对属性R之间相依性的一种测度。它反映了属性R对于决策D的重要程度。在已知条件R的前提下,一个属性R对于决策D的重要度SGF(a,R,D)可以定义为如下的差值:SGF = (a ,R,D)=y(R+{a},D)一y(R,D),SG F= ( a,R,D)反映了把属性a加到R后,R 与D之间相依度的增长程度。事实上,属性对于R与之间相依性的影响越强,则SGF= (a,R,D)的值就越大。 1.3 基于条件信息嫡约简算法 基于属性依赖度的启发式约简方法在实际应用中遇到的一个重大困难是属性间不确定关系的表达。粗糙集约简表达的是属性间的确定性关系,正区域之外等价类族表达的属性间关系并不被粗糙集认可,因此除要求属性满足确定性关系外,挑选有强烈概率因果关系的属性集具有十分意义。 为了描述概率因果关系,人们在处理这类数据时,在约简算法中引人信息嫡来度量属性重要度。 事实上基于信息嫡与基于属性依赖度的启发式算法也是不完备的。 应当指出的是以上所分析的两种算法都只是搜索次优解的算法,采用属性重要性方法的约简算法并不能保证一定能够找到信息系统的最优解。出现这种情况的原因在于属性的“组合爆炸”。在信息系统中各个属性并不是孤立存在的,而是存在着互相之间的联系和影响。某些属性虽然它们的单个重要性都很小,但是当这些属性组合在一起时,却能对整个信息系统的正确分类产生很大的作用,而这一点有时仅仅凭借单个属性的重要性评价方法是很难发现的,因为那些重要性很小的属性很难被约简算法所选择。尽管采用每次属性扩张后都动态调整各属性重要性的办法能够在一定程度上克服这一问题,但还是无法从根本上解决问题。 利用启发式算法的确能够提高约简的求解速度,而且在解空间不复杂的情况下有可能得到最优解或次优解,但在解空间较复杂或属性间关系较为复杂的情况下,用这些方法找到的解极有可能陷人局部最优解,这种算法并非对所有的知识表达系统都适用。 1.4 基于遗传算法的属性约简 遗传遗传算法是一种自适应随机搜索方法,其搜索方式不是由单一的方向或结构,它将多个个体作为可能的解并考虑搜索空间全局范围内的抽样,从而导致以更大的可能性收敛到全局最优解,因此,人们把遗传算法引人粗集属性约简。 算法通过用计算机模拟生物进化过程,使群体不断优化,并在变化过程中找出最优解。在遗传算法中,适应度函数的设计是整个GA 算法的核心步骤,由于几个遗传算子都依赖于染色体的适应度值,因此适应度函数的设计目标,在很大程度上决定着迭代收敛的方向。而粗糙集的属性约简主要是为了求得最小的约简属性集。这样,在保证属性集满足一定精度的情况下,使其属性个数最小,即最终所

粗糙集属性约简matlab程序

粗糙集-属性约简-m a t l a b程序 Data2为条件属性,decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file=textread('data2.txt','%s','delimiter','\n','whitespace','');%读取文件信息,每一行为一个胞元 [m,n]=size(file);%胞元的大小 fori=1:m words=strread(file{i},'%s','delimiter','');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X);%信息系统的约简 ind_AT=ind(X);%信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); fori=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file=textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); fori=1:m words=strread(file{i},'%s','delimiter',''); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 fori=1:m%%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%% if(~ismember(num(i),pos_d)) B{i}='';%若约简后的信息系统B{i}不在正域中则删除该行 end%因为相同的条件得到的决策不一样, end %将在正域规则下约简过的信息系统B连接决策系统D

属性约简方法概述

属性约简方法概述 属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。 对数据进行属性约简的意义,主要从以下几个方面考虑: a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间; c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响; d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。 为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。每个实例包含p 个属性{|x i |=p }。从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。 (1) PCA 主成分分析 主成分概念是Karl parson 于1901年最先引进。1933年,Hotelling 把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。 主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。 定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。其中i u 是正交阵U 的第i 列向量。并且满足: 1Y 是12,,...,p X X X 的线性组合中方差最大者; k Y 是与11,...k Y Y -不相关的12,,...,p X X X 的线性组合中方差最大。 (k =2,3,…p )。 定义4-2[45]: 设∑是随机向量12(,,...,)'p X X X X =的协方差矩阵,其特征值-特征向量对1122(,),(,),...(,)p p e e e λλλ,其中12...0p λλλ≥≥≥≥。则第i 个主成分为: 1122 '...i i i i i p p Y e X e X e X e X ==+++ i =1, 2, …p ………………….式

属性选择

分类模型中的属性选择算法研究 1引言 20世纪六、七十年代以来,计算机科学技术的飞速发展使得存储或获得海量数据成为可能,数据存储成本的不断降低则加速了这一过程的发展。因为数据生成和积聚的量超过了分析人员所能分析的数量,建立一套方法来从数据库中自动分析数据和进行知识发现将是一种必然性选择。对这一问题,人们进行了有益的探索,其结果是导致了处理大型或海量数据的数据挖掘技术的产生和发展。 数据挖掘从机器学习、统计学、数据库等多学科领域汲取营养,发展了一套适合自身特点的数据挖掘方法和数据处理手段,用于知识学习、信息提取和结果可视化展现。数据挖掘任务建模过程中,在考虑模型拟合效果、任务系统运行时间和数据存储空间限制的前提下,对某些数据集而言,包含所有或更多的属性/变量的模型并不一定是最适合、最满意的(或最优的)模型。这是因为数据集中存在和学习任务不相关的属性/变量,或者是高度相关而冗余属性/变量,它们会导致无效的归纳和降低学习的效率。最近的研究表明【1】,简单最近邻算法(KNN)对不相关属性非常敏感——它的样本复杂度(达到给定精度所需最低样本量)与冗余属性呈指数性增长。决策树算法,如C4.5,有时可能过度拟合数据,从而获得较大的树,在许多情形下,去掉不相关或冗余的信息可使得C4.5产生更小的树。朴素贝叶斯分类算法由于其给定类的属性独立性假设,冗余属性的存在也可能影响其分类表现。 大量的实证研究结果表明,属性选择在提高学习任务的效率、任务预测的精度和增强、获得规则的可理解性等方面是较有成效的。由此,可知在数据挖掘任务建模过程中,通过一定的方式和方法去掉不相关或冗余属性,进行属性变量选择往往可以获得更令人满意的知识学习模型。这也就引发并促进了有关属性选择问题的研究和讨论。 2属性选择概述 2.1属性选择的定义 在过去的十多年,属性选择己经在机器学习、模式识别中关于数据的预处理部分变得非常重要,特别是对于一些高维的数据,如基因数据、代谢数据、质谱数据等。从理论上讲,属性数目越多,越有利于目标的分类,但实际情况并非如此。在样本数目有限的情况下,利用很多属性进行分类器设计,无论是从计算的复杂程度考虑,还是分类器性能都是不适宜的。同时样本的属性通常可分为4种类型,即有效属性,噪音属性,问题无关属性和冗余属性。其中有效属性是指对学习算法有积极效果的属性,噪音属性会对学习算法造成不良影响,问题无关属性指与学习算法无关的属性,而冗余属性指包含分类有关的信息,但在己有的属性集中添加或删除该属性并不会影响学习算法性能的属性。 对于特定的任务来说,噪音属性的存在容易使分类算法得出错误的结果,导致错误分类;冗余和问题无关属性的存在会降低算法的性能。人们通常通过属性选择或提取来去掉冗余和噪音属性,这是降低复杂度和提高分类精度的有效途径。属性选择在减少冗余不相关属性的同时,往往也可以:(1)减少获取数据的成本;(2)获得更易理解和解释的模型;(3)提高数据挖掘归纳学习的速度和效率;(4)提高分类的精度;(5)降低或避免维度灾难;(6)更好地形成结构化知识。

融合K均值聚类和低秩约束的属性选择算法

第32卷 第7期 2018年7月中文信息学报JOU RNAL OF CHINESE INFORM A TION PROCESSING Vol .32,No .7July ,2018文章编号:1003-0077(2018)07-0091-08 融合K 均值聚类和低秩约束的属性选择算法 杨常清 (西安航空学院材料工程学院,陕西西安710077) 摘 要:针对无监督属性选择算法无类别信息和未考虑属性低秩等问题,该文提出了一种融合K 均值聚类和低秩约束的属性选择算法。算法在线性回归的模型框架中有效地嵌入自表达方法,同时利用K 均值聚类产生伪类标签最大化类间距以更好地稀疏结构,并使用l 2,p -范数代替传统的l 2,1-范数,通过参数p 来灵活调节结果的稀疏性,最后证明了该文算法具有执行线性判别分析的特点和收敛性。经实验验证,该文提出的属性算法与NFS 算法、LDA 算法、RFS 算法、RSR 算法相比分类准确率平均提高了17.04%、13.95%、3.6%和9.39%,分类准确率方差 也是最小的,分类结果稳定。关键词:属性选择;自表达方法;K 均值聚类;低秩约束;稀疏学习 中图分类号:T P 181 文献标识码:A Attribute Selection Algorithm Based on K -Means Clustering and Low Rank Constraint YANG Changqing (School of Materials Engineering ,Xi ’an Aeronautical University ,Xi ’an ,Shaanxi 710077,China ) Abstract :T he unsupervised attribute selection algorithm does not consider the classification information and the low rank of attributes .To address this issue ,this paper proposes an attribute selection algorithm combining K -means clustering and low -rank constraint .The algorithm embeds the self -expression method into the framework of the line -ar regression model .At the same time ,the K -means clustering is used to generate the pseudo -class label to maxi -mize the class spacing to better sparse the structure .The algorithm uses l 2,p -norm instead of the traditional l 2,1-norm ,which can adjust the sparsity of the result flexibly by parameter p .It is also proved that the algorithm has the characteristics and convergence of linear discriminant analysis .The experimental results show that the accuracy of the proposed algorithm is 17.04%,13.95%,3.6%and 9.39%higher than that of the NFS algorithm 、the LDA al - g orithm 、the RFS algorithm 、the RSR algorithm ,respectively ,with the lowest classification accuracy variance .Key words :attribute selection ;self -expression method ;K -means clustering ;low rank constraints ;sparse learning 收稿日期:2017-09-04 定稿日期:2017-11-07 基金项目:陕西省教育厅项目(15BY 117)0 引言 高维特征虽然可以准确多样化地表现物体特 性,但使用高维数据不仅增大存储空间,还增加运算 复杂度。对高维数据进行属性约简,降低数据维度, 挖掘数据内部具有代表性的低维属性,已成为机器 学习的一个研究热点[1-2]。属性约简的优点包括能降低处理时间和得到更具有泛化能力和更坚实的学习模型等 [3-4]。常见的属性约简方法包含子空间学习和属性选择两种方法。子空间学习是把高维属性从高维空间投影到低维空间,并保持数据间的关联结构,而属性选择是从原始属性集中选择最能代表整个属性集的属性。利用多方向理论,学者们提出了各种属性选择算法。文献[5]将知觉理论赫姆霍兹原理作为特征选择的度量,用于文本分类的特征选择中,取得了较好的效果。文献[6]将类特定变换的新型语义平滑核融入 支持向量机模型中,提出了一种使用语义分类方法 来构建高性能的半监督文本分类算法。文献[7]将万方数据

粗糙集属性约简matlab程序

粗糙集属性约简m a t l a b程序 (总3页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

粗糙集-属性约简-matlab程序 Data2为条件属性, decision2为决策属性 %%%my_test函数实现 clc; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取信息系统文件 file = textread('data2.txt','%s','delimiter','\n','whitespace',''); %读取文件信息,每一行为一个胞元 [m,n]=size(file); %胞元的大小 for i=1:m words=strread(file{i},'%s','delimiter',' ');%读取每个胞元中字符,即分解胞元为新的胞元 words=words';%转置 X{i}=words; end X=X'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% [B,num,AT]=my_reduct(X); %信息系统的约简 ind_AT=ind(X); %信息系统的不可等价关系%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%显示约简信息系统 disp('约简后的条件系统为:'); [m,n]=size(B); for i=1:m disp(B{i}); end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%读取决策系统文件 file = textread('decision2.txt','%s','delimiter','\n','whitespace',''); [m,n]=size(file); for i=1:m words=strread(file{i},'%s','delimiter',' '); words=words'; D{i}=words; end D=D'; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%决策系统的正域约简 X_D=X; [l,k]=size(X_D{1}); pos_d=pos(X_D,D);%正域 for i=1:m %%%%%%%%%%%%%%正域有问题%%%%%%%%%%%%%%%%%%%%%%%%%%% if(~ismember(num(i),pos_d)) B{i}=''; %若约简后的信息系统B{i}不在正域中则删除该行 end %因为相同的条件得到的决策不一样, end %将在正域规则下约简过的信息系统B连接决策系统D [m,n]=size(B);

多属性决策算法对比分析

算法分析 1.TOPSIS(逼近理想解法):(TOPSIS方法属于经典的多属性决策方法之一,由H.wang.C.L和Yoon,K.S.1981提出). 基本原理:根据评价指标的标准化值与指标的权重共同构成规范化矩阵来确定评价指标的正、负理想解。然后,建立评价指标综合向量与正、负理想解之间距离的二维数据空间。在此基础上对评价方案与最优理想参照点之间的距离进行模糊评判。最后,依据该距离的大小对评价方案进行优劣排序.若某方案为最优方案则此方案最接近最优解,同时又远离最劣解. TOPSIS法最大的优点是:无严格限制数据分布及样本含量指标的多少,小样本资料、多评价单元、多指标的大系统资料都同样适用,同时也不受参考序列选择的干扰。既可用于多单位之间进行对比,也可用于不同年度之间对比分析,该法运用灵活,计算简便同时结果量化也客观[1]。 缺点:(1)规范决策矩阵的求解比较复杂,故不易求出理想解和负理想解;(2)评价缺少稳定性,当评判的环境及自身条件发生变化时,指标值也相应会发生变化,就有可能引起理想解和负理想解向量的改变,使排出的顺序随之变化,评判结果就不具有唯一性;(3)属性权重是事先确定的,其主观性较强。[2] 基本步骤: ○1建立多属性决策问题的决策矩阵

○2决策矩阵的规范化处理 常见的标准化处理方法有:模糊数学法、标准差标准化法、极差标准化法、极大值标准化法和百分比标准法等. ○3构建加权规范化矩阵 确定权重的方法有主观赋权法和客观赋权法。主观赋权法包括层次分析法、Delphi法等。主观权重法土要根据专家判断打分,主观性

太强,其结果对多因素非线性定量关系的反映有一定影响:客观权重法人为因素干扰较小,可以较为客观地确定权重,但该方法也受样本数据数量和质量的制约。权重确定的方法:主成分分析法、变异系数法。 ○4确定正理想点和负理想点 所谓正理想点是设想得到的最好的解,它的各个指标值都达到各候选方案中最好的值。而负理想点是另一设想的最坏的解,它的各个指标都达到各候选方案中最坏的值。 ○5计算各方案到正负理想点的距离 ○6计算各方案与理想点的相对贴近度,相对贴近度的取值越大则表示该方案越优。贴近度的计算公式为:[3]

属性约简

粗糙集的研究对象是一个数据集,数据集一般被保存为数据表格形式,即数据库或信息系统。信息系统的形式是由研究对象和属性值关系构成的二维数据表,类似于基础数学中的关系数据库。信息系统实现了粗糙集模型的知识表示。 定义 2.1.1[46] 设(,,,)S U A V f =为一个数据库,即信息系统,也称为知识表示系统。其中12{,}U U x x x = 为一个非空的有限对象集,12{,,}A A a a a = 是属性的有限非空集合,a V V =?,a A ∈,a V 为属性a 的值域;定义信息函数 :U V c a f A ?→ . 例如表2.1.1是一个信息系统,其中12345{,,,,}U x x x x x =, 1234{,,,}A a a a a =,123a a a V V V ==={0,1},4a V ={0,1,2}. 表2.1.1 信息系统 定义2.1.2[46] 对于a A ?∈,x U ?∈,(,)a f x a V ∈,对于P A ??≠?,定义:{(,):(,)(,),}I x y U U f x q f y q q P =∈?=?∈, I U 称为上的不可分辨关系。 (1)若(,)x y I ∈,则称:x y 和是不可分辨的。 (2)不可分辨关系是等价关系,具有: 自反性:xIx ; 对称性:xIy yIx ?;

传递性:,xIy yIz xIz ? . (3) I 是U 上的一个等价关系,[]{,}I x y y U xIy =∈, 12{[]}{,}I k U I x x U X X X =∈= ,12,k X X X 称为U 关于I 的一个划分。 (4)P I ?≠?,1,2I I I ∈, 112{,}k U I X X X = ,212{,}l U I Y Y Y = , 12{,1,2,1,2}i j U I I X Y i k j l ?=?== ,()I P ind P I P ∈== , 则称:()ind P U 是上的一个等价关系,称为P 上的不可区分关系。 ()[][]ind P I I P x x ∈= 称为P 的基本知识。 当12()()ind I ind I ?,称1,I 比2I 细,21I I . 1.1.1粗糙集与近似 定义2.1.3[46] X U ?,I 是U 上的一个等价关系,12{,}k U I X X X = ,若存在1i X ,2i X j i X U I ∈,.st X =1 t j i t X = ,称X 是关于I 的精确集。否 则称X 是I 的粗糙集。 定义 2.1.4[46] 给定一个知识系统(,,,)S U A V f =,D A ?,X U ?, x U ∈,集合X 关于D 的下近似,上近似,负区域及边界区域分别为: 下近似:()D apr X DX ={:()}x U D x X = ∈? {,}Y U D Y X =∈? {[][],}D D x x X x U =?∈ ; 上近似: ()D apr X =DX = {:()}x U D x X ∈?≠? {,}Y U D Y X =∈?≠? {[][],}D D x x X x U =?≠?∈ ; 负区域:()D neg X =()D U apr X -= {:()}x U D x X ∈?=? ;

基于属性选择的改进加权朴素贝叶斯分类算法

2015 年 第24卷 第 8 期 https://www.360docs.net/doc/9a12509504.html, 计 算 机 系 统 应 用 Software Technique ·Algorithm 软件技术·算法 149 基于属性选择的改进加权朴素贝叶斯分类算法① 王行甫, 杜 婷 (中国科学技术大学 计算机学院, 合肥 230022) 摘 要: 朴素贝叶斯分类算法简单且高效, 但其基于属性间强独立性的假设限制了其应用范围. 针对这一问题, 提出一种基于属性选择的改进加权朴素贝叶斯分类算法(ASWNBC). 该算法将基于相关的属性选择算法(CFS)和加权朴素贝叶斯分类算法(WNBC)相结合, 首先使用CFS 算法获得属性子集使简化后的属性集尽量满足条件独立性, 同时根据不同属性取值对分类结果影响的不同设计新权重作为算法的加权系数, 最后使用ASWNBC 算法进行分类. 实验结果表明, 该算法在降低分类消耗时间的同时提高了分类准确率, 有效地提高了朴素贝叶斯分类算法的性能. 关键词: 属性选择; 朴素贝叶斯分类; 权重; 相关性; 关联性 Improved Weighted Naive Bayes Classification Algorithm Based on Attribute Selection WANG Xing-Fu, DU Ting (School of Computer Science, University of Science and Technology of China, Hefei 230022, China) Abstract : Naive Bayes Classification is simple and effective, but its strong attribute independency assumption limits its application scope. Concerning this problem, an improved WNBC algorithm is proposed based on attribute selection. This algorithm combines CFS algorithm with WNBC algorithm, it firstly uses CFS algorithm to get an attribute subset so that the simplified attribute subset can meet conditional independency; meanwhile, the algorithm’s weighting coefficient is designed on that different attribute values have different influences on the classification result. Finally, it uses ASWNBC algorithm to classify datasets. The experimental results show that the proposed algorithm improves the classification accuracy with lower time consumption, therefore heightens the performance of NBC algorithm. Key words : attribute selection; naive Bayes classification (NBC); weight; dependency; relevance 朴素贝叶斯分类算法发源于古典数学理论, 有着坚实的理论基础, 其理论基础贝叶斯理论是由英国数学家 Thomas Bayes 在前人知识积累的基础上首次归纳总结出来的一个数学理论体系. 与其他分类算法相比, 朴素贝叶斯算法[1](Naive Bayes Classification NBC)是目前公认的一种相对简单且高效的分类算法, 因其稳定的分类效率被广泛应用于自然语言处理、机器学习、机器人导航、模式识别等领域. NBC 算法是一种基于概率的分类方法, 该算法假设一个属性对给定类的影响独立于其他属性. 理论上, 当满足此假设时, NBC 算法与其他分类算法相比具有 最小的误差率. 但此假设在实际应用中往往无法满足, 为提高分类精度, 研究人员提出多种加权朴素贝叶斯分类算法[2](WNBC). 如陈朝大等[3]提出的利用关联规则改进NBC 算法, 通过关联规则的置信度给朴素贝叶斯加权; 张步良[4]提出的基于分类概率的NBC, 使用朴素贝叶斯分类成功的概率作为加权系数; Jie Lin 等[5]提出的基于粒子群算法的WNBC 算法, 通过粒子群算法的自动搜索功能对现有数据和信息进行学习, 以数据集中所有数据各自权重的平均值作为加权系数. 相比较NBC 算法, 上述加权朴素贝叶斯分类算法在一定程度上均提高了分类准确率, 但由于增加了加权系数 ① 基金项目:国家科技重大专项(2012ZX10004-301-609);国家自然科学基金(61272472,61232018,61202404);安徽省教学研究计划2010 收稿时间:2014-12-02;收到修改稿时间:2015-01-26

属性约简方法概述

属性约简方法概述 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

属性约简方法概述 属性约简又称维规约或特征选择,从数学的角度考虑,就是有p 维数据 x =(x 1,x 2……x p ),通过某种方法,得到新的数据 x’=(x’1,x’2…… x’k ) , k ≤p , 新的数据在某种评判标准下,最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。 对数据进行属性约简的意义,主要从以下几个方面考虑: a) 从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的; b) 对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间; c) 假如不进行属性约简,噪音或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响; d) 当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。 为了描述属性约简方法,这里假设数据集合为D ,D ={x 1,x 2….x n }, x i 表示D 中第i 个实例,1≤i≤n ,n 为总的实例个数。每个实例包含p 个属性{|x i |=p }。从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。 (1) PCA 主成分分析 主成分概念是Karl parson 于1901年最先引进。1933年,Hotelling 把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。通过主成分的提取,降低了部分冗余属性的影响,提高了计算的精度。 主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。 定义4-1[44]:设12(,,...,)'p X X X X =为p 维随机向量,它的第i 主成分分量可表示'i i Y u X =,i =1,2,…, p 。其中i u 是正交阵U 的第i 列向量。并且满足: 1Y 是12,,...,p X X X 的线性组合中方差最大者; k Y 是与11,...k Y Y -不相关的12,,...,p X X X 的线性组合中方差最大。(k =2, 3,…p )。

机器学习工具WEKA的使用总结 包括算法选择、属性选择、参数优化

一、属性选择: 1、理论知识: 见以下两篇文章: 数据挖掘中的特征选择算法综述及基于WEKA的性能比较_陈良龙 数据挖掘中约简技术与属性选择的研究_刘辉 2、weka中的属性选择 2.1评价策略(attribute evaluator) 总的可分为filter和wrapper方法,前者注重对单个属性进行评价,后者侧重对特征子集进行评价。 Wrapper方法有:CfsSubsetEval Filter方法有:CorrelationAttributeEval 2.1.1Wrapper方法: (1)CfsSubsetEval 根据属性子集中每一个特征的预测能力以及它们之间的关联性进行评估,单个特征预测能力强且特征子集内的相关性低的子集表现好。 Evaluates the worth of a subset of attributes by considering the individual predictive ability of each feature along with the degree of redundancy between them.Subsets of features that are highly correlated with the class while having low intercorrelation are preferred. For more information see: M.A.Hall(1998).Correlation-based Feature Subset Selection for Machine Learning.Hamilton,New Zealand. (2)WrapperSubsetEval Wrapper方法中,用后续的学习算法嵌入到特征选择过程中,通过测试特征

决策树C4.5算法属性取值优化研究

Computer Science and Application 计算机科学与应用, 2015, 5, 171-178 Published Online May 2015 in Hans. https://www.360docs.net/doc/9a12509504.html,/journal/csa https://www.360docs.net/doc/9a12509504.html,/10.12677/csa.2015.55022 C4.5 of Decision Tree Algorithm Optimization of Property Values Shifan Huang*, Yong Shen, Ruifang Wang, Huali Ma, Changgeng Chen, Yuhao Zhang School of Software, Yunnan University, Kunming Yunnan Email: *974794674@https://www.360docs.net/doc/9a12509504.html, Received: May 7th, 2015; accepted: May 23rd, 2015; published: May 28th, 2015 Copyright ? 2015 by authors and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.360docs.net/doc/9a12509504.html,/licenses/by/4.0/ Abstract About the decision tree algorithm, the quantity of the attribute value types determines the quan-tity of the decision tree branch. Based on this, we put forward a new method which can optimize attribute value. The examples show that the method can optimize the quantity of the decision tree branch, and reach the purpose that simplifies the decision tree structure. This method has no ef-fect on the classification accuracy of the C4.5 algorithm. Keywords Decision Tree, C4.5 Algorithm, Property Values, Optimization 决策树C4.5算法属性取值优化研究 黄世反*,沈勇,王瑞芳,马华丽,陈长赓,张宇昊 云南大学软件学院,云南昆明 Email: *974794674@https://www.360docs.net/doc/9a12509504.html, 收稿日期:2015年5月7日;录用日期:2015年5月23日;发布日期:2015年5月28日 摘要 在决策树算法中,属性取值种类的多少决定着决策树分支数量的多少。基于此,提出了一种新的属性取*通讯作者。

相关文档
最新文档