模式识别特征选择与提取

合集下载

模式识别特征选择与提取

模式识别特征选择与提取

模式识别特征选择与提取(总8页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级:信科11-1班,学号:08113545,姓名:褚钰博联系方法(QQ或手机):8,日期:2014 年 06月 10日摘要实际问题中常常需要维数约简,如人脸识别、图像检索等。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。

本文是对主成分分析和线性判别分析。

关键词:特征选择,特征提取,主成分分析,线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。

而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。

因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。

对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。

如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。

反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。

本文要讨论的问题就是特征空间如何设计的问题。

基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。

所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。

模式识别讲义-特征提取和特征选择

模式识别讲义-特征提取和特征选择

完全可分:若p(x|ω1) ≠0时, p(x|ω2)=0;
完全不可分:对任意x,都有 p(x|ω1) = p(x|ω2);
二、距离
(2)概率距离
若任何函数Jp g[ p(x | 1), p(x | 2), P1, P2]dx满足以下条件:
a、Jp 0; b、当两类完全可分时 Jp取得最大值; c、当两类完全不可分是 Jp为0;
总错误率P(e) P(x R2 1) P(x R3 1) ... P(x RM 1)P(1) P(x R1 2 ) P(x R3 2 ) ... P(x RM 2 )P(2 ) ... P(x R1 M ) P(x R2 M ) ... P(x RM 1 M )P(M )
X
p(x | j)
Xp(x | i)来自 [ p(x | i) p(x | j)]ln p(x | i) dx
X
p(x | j)
三、特征提取算法
1、使用类内类间距离进行特征提取类内类间距离
Jd=Jw+Jb=tr(Sw+Sb)
其中Jw是类内平均距离,Jb是类间平均距离 通常给定一个训练集后,Jd是固定的,因此,在特征
模式识别 第八讲 特征选择与特征提取
回顾:
贝叶斯分类的原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布情况下的贝叶斯分类
分类器的错误率
1、分类器的错误率
•错误率是评价一个分类器的重要指标 •错误率受分类决策方法、训练集、测试集和偶然因 素的影响 •分类错误是一个概率事件,错误率应由概率方式表 达
各特征向量之间的距离 的平均值,称为类内类 间距离:
c

特征选择和特征提取

特征选择和特征提取

在这个例子里,用LLE 进行降维成功的体现了数 据内在的局部分布结构,而用PCA 映射则会将高维空 间里的远点映射到低维空间后变成了近邻点。
四、特征的选择
特征选择:=从原始特征中挑选出一些最有代表性、 分类性能最好的特征进行分类。
从-D典个型特的征组中合选优取化d个问,共题CdCD种Dd 组合。 特征选择的方法大体可分两大类:
u2
x2
u1 x1
主成分是这个椭圆的「长轴」方 向。短轴的方向和长轴垂直,是 「第二个」主成分的方向。变换 后的各分量,它们所包括的信息 量不同,呈逐渐减少趋势。事实 上,第一主分量集中了最大的信 息量,常常占80%以上。第二、 三主分量的信息量依次很快递减, 到了第n分量,信息几乎为零。
从几何意义来看,变换后的主分量空间坐标系与变
➢ 等距映射(Isomap).
J.B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, vol. 290, pp. 2319--2323, 2000.
• LDA的思想: 寻找最能把两类样本分开的投影直线. • LDA的目标: 使投影后两类样本的均值之差与投影
样本的总类散布的比值最大 . • LDA的求解: 经过推导把原问题转化为关于样本集
总类内散布矩阵和总类间散布矩阵的广义特征值 问题.
Best projection direction for classification
y
2 j


E


uTj
xxT

模式识别(7-2)特征的选择与提取

模式识别(7-2)特征的选择与提取


5 4
,

54
试用K-L变换作一维数据压缩。
思路:1)求总体均值向量;2)求产生矩阵ψ ; 3)求产生矩阵的特征值λi 及特征向量 i ;
4)按λi排序,确定变换矩阵W; 5)利用 y W T x 求新的一维样本。
K-L变换的一些典型应用
上面我们从数学的角度分析了K-L变换的 性质。归结起来,它消除了各分量之间的 相关性,因而用它来描述事物时,可以减 少描述量的冗余性,做到用最经济有效的 方法描述事物。下面结合一些应用实例来 说明如何运用K-L变换的这一性质。
但是由于它的正交基函数族是从训练样本集中计算出 来的,因此并不存在一种对任何数据都适用的K-L变 换基,一般的作法是先用一组训练数据计算出K-L变 换基,然后用这组基来分析其它数据。
K-L变换的性质
K-L变换的性质
K-L变换的性质
K-L变换的产生矩阵
当样本所属类别未知时:
x的相关函数矩阵 x的协方差矩阵
§7.3 基于K-L展开式的特征提取
图6-3b
图6-3(b)中的向量A与B在一个二维空间定义,它们两者分别含有成 分为(a1,a2)与(b1,b2),a1与b1是两者的同一种成分,a2与b2则是 另一种成分。故它们的点积定义为a1b1+a2b2,在这种条件下就不 需要积分,而只是简单求和。
§7.3 基于K-L展开式的特征提取
K-L变换的一些典型应用
4.人脸图象合成
用K-L变换构造参数模型的另一种典型用途是人 脸图象合成。从下面的例子中可以看出,有目 的地控制各个分量的比例,也就是通过调整参 数向量。可以将一幅不带表情图象改变成带各 种表情的图象,称为人脸表情图象合成。
为了对复杂事物进行经济有效的描述,我们希望将其分解 成相互独立的成分,譬如我们分析其快速变化的成分时, 就希望它只不再混杂其它成分。

模式识别7-特征选择和提取

模式识别7-特征选择和提取
为一般来说,原来的n个数据各自在不同程度上反映
了识别对象的某些特征,简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换,获得的每个数据都是
原来n个数据的线性组合,然后从新的数据中选出少
数几个,使其尽可能多地反映各类模式之间的差异,
而这些特征间又尽可能相互独立,则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队,取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性,
该方法可以选出一组最优的特征来,例:
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征,使得
它与已入选的特征组合在一起时所得的J值
为最大,直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集:从全体特征开始,每次剔除
➢ 当特征独立时有可加性:
k 1
➢ 单调性:
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据:基于距离、概率分布、熵
函数

模式识别(7-1)特征的选择与提取

模式识别(7-1)特征的选择与提取
细胞自动识别:
原始测量:(正常与异常)细胞的数字图像
原始特征(特征的形成,找到一组代表细胞性质的 特征):细胞面积,胞核面积,形状系数,光密度, 核内纹理,和浆比
压缩特征:原始特征的维数仍很高,需压缩以便于 分类
特征选择:挑选最有分类信息的特征 特征提取:数学变换
傅立叶变换或小波变换 用PCA方法作特征压缩
基于距离的可分性判据
计算所有样本平均距离作为判据 Jd (x) tr(Sw Sb )
其中“tr”表示矩阵的迹(对角线元素的和)。
各类特征向量之间的平均距离可写成:
1
Jd (x) 2
c
Pi
i 1
c
Pj
j 1
1 nin j
ni n j
(xk(i) , xl( j) )
k 1 l 1
其中Pi、Pj 分别表示各类的先验概率,ni、nj分别是第i与j
基于距离的可分性判据
如果推广至c类别情况,同时考虑各类的先验概率Pi 不等,则可将上列各式表示成:
c
Sb = Pi(mi m)(mi m)T i 1 c
Sw = PiEi[(mi m)(mi m)T ] i 1
其中, m 为总均值向量,Pi表示各类别的先验
概率,Ei表示i类的期望符号。
基于距离的可分性判据
Fisher准则时曾用过两个描述离散度的矩阵。一个 是类间离散矩阵Sb
Sb = (m1 - m2 )(m1 - m2 )T
另一个是类内离散度矩阵SW
Si = (x - mi )(x - mi )T , xX i
Sw = S1 + S2
i 1, 2
以上式子是针对两类别情况的,如果推广至c 类别情况?
)T (x(ki)

特征选择与提取

特征选择与提取

模式识别技术的发展应用模式识别(Pattern Recognition)是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。

模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。

模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(Supervised Classification)和无监督的分类(Unsupervised Classification)两种。

二者的主要差别在于,各实验样本所属的类别是否预先已知。

一般说来,有监督的分类往往需要提供大量已知类别的样本,但在实际问题中,这是存在一定困难的,因此研究无监督的分类就变得十分有必要了。

其中,特征选择和特征提取技术更是尤为关键。

在许多现实问题中,如人脸识别、文本分类、图像检索等,维数约简是一个不可缺少的步骤。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是指从原始空间中挑选特征,得到由原始特征组成的特征子集,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。

目前大部分研究都是将特征选择与特征提取独立开来,本文以特征提取的典型方法主成分分析(Principal Component Analysis,PCA)和线性判别分析(Linear Discriminant Analysis,LDA)为主,将特征提取与特征选择结合起来进行研究,利用二者各自的长处去进行维数约简,设计与提出基于主成分分析的特征选择算法和基于线性判别分析的高维特征选择算法。

基于主成分分析的特征选择算法的思想是建立在这样的基础上:主成分分析方法将原始特征通过线性变换映射到新的低维特征空间时,获得的主成分失去了物理意义,难以理解,并且主成分是所有原始特征的线性组合;此外由于特征选择是直接寻找有实际意义的特征,并且能减少计算开支。

模式识别-5--特征选择与提取

模式识别-5--特征选择与提取

1 Cj 1 Iij = ln + tr[Ci (C−1 −Ci−1)] j 2 Ci 2
当Ci和Cj之间越相近则散度越小。
1 −1 −1 Jij = tr[ Ci −Cj )(Cj −Ci )] ( 2
散度的性质 从上面的定义我们可以看出散度Jij具有如下性质: (i) Jij=Jji, (ii) 当ωi和ωj的分布不同时,Jij>0 (iii)当ωi和ωj的分布完全同时,Jij=0 (iv) 在模式特征的各个分量都相互独立的情况下,有:
Sb2 = (m −m2 )(m −m2 )t 1 1
当三类或者更多的时候就引入先验概率作为加权 :
Sb2 = (m − m2 )(m − m2 )t 表示1和2两类模式的类间散布矩阵; 1 1
Sb1 = ∑P(ω )(m − m )(m − m )t i i 0 i 0
其中 m = E{ x} = ∑P(ωi )m为多类模式(这里共c类)分布 0 i 总体的均值向量 i=1 多类模式集散布矩阵 多类的类内散布矩阵,可用各类类内散布矩阵的先验加权表示:
该式子是散度的一般表达式。 注:当ωi和ωj的分布是一些特殊的表达式子,那么对数似然比 函数和散度可以得到一些很简单形式。 当ωi和ωj服从正态分布, 散度为:
p(x | ωi ) Jij = I ji + Iij = ∫ [ p(x | ωi ) − p(x | ωj )]ln dx x p(x | ωj )
3. 特征选择和提取是构造模式识别系统的一重要课题
在很多实际问题中,往往不容易找到那些最重要的特征,或 受客观条件的限制,不能对它们进行有效的测量; 因此在测量时,由于人们心理上的作用,只要条件许可总希 望把特征取得多一些; 另外,由于客观上的需要,为了突出某些有用信息,抑制无 用信息,有意加上一些比值、指数或对数等组合计算特征 (在数据上作一些处理); 如果将数目很多的测量值不做分析,全部直接用作分类特征, 不但耗时,而且会影响到分类的效果,产生“特征维数灾难” 问题。 为了设计出效果好的分类器,通常需要对原始的测量值集合 进行分析,经过选择或变换处理,组成有效的识别特征; 在保证一定分类精度的前提下,减少特征维数,即进行“降 维”处理,使分类器实现快速、准确和高效的分类。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

模式识别特征选择与提取中国矿业大学计算机科学与技术学院电子信息科学系班级:信科11-1班,学号:08113545,姓名:褚钰博联系方法(QQ或手机):390345438,e-mail:****************日期:2014 年06月10日摘要实际问题中常常需要维数约简,如人脸识别、图像检索等。

而特征选择和特征提取是两种最常用的维数约简方法。

特征选择是从某些事物中提取出本质性的功能、应用、优势等,而特征提取是对特征空间进行变换,将原始特征空间映射到低维空间中。

本文是对主成分分析和线性判别分析。

关键词:特征选择,特征提取,主成分分析,线性判别分析1.引言模式识别的主要任务是利用从样本中提取的特征,并将样本划分为相应的模式类别,获得好的分类性能。

而分类方法与分类器设计,都是在d(变量统一用斜体)维特征空间已经确定的前提下进行的。

因此讨论的分类器设计问题是一个选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题。

对分类器设计方法的研究固然重要,但如何确定合适的特征空间是设计模式识别系统另一个十分重要,甚至更为关键的问题。

如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。

反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。

本文要讨论的问题就是特征空间如何设计的问题。

基于主成分分析的特征选择算法的思想是建立在这样的基础上的:主成分分析方法将原始特征通过线性变换映射到新的低维空间时,获得的主成分是去了新的物理意义,难以理解,并且主成分是所有原始特征的线性组合。

所以将主成分分析与特征选择相结合,设计多种相似性度量准则,通过找到与主成分相关的关键特征或者删除冗余、不相关以及没有意义的特征,将主成分又重新映射到原始空间,来理解成主成分的实际意义。

基于线性判别分析的高维特征选择将单个特征的Fisher准则与其他特征选择算法相结合,分层消除不相关特征与冗余特征。

不相关特征滤波器按照每个特征的Fisher评价值进行特征排序,来去除噪音和不相关特征。

通过对高维数据特征关联性的分析,冗余特征滤波器选用冗余度量方法和基于相关性的快速过滤器算法。

分别在不同情境下进行数据分类实验,验证其性能。

2.原理分析对一原始特征来说,特征选择的方案很多,从N 维特征种选择出M 个特征共有()!!!M N N C M N M =-中选法,其中哪一种方案最佳,则需要有一个原则来进行指导。

我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。

用这样的可分性判据可以度量当前特征维数下类别样本的可分性。

可分性越大,对识别越有利,可分性越小,对识别越不利。

人们对的特征的可分性判据研究很多下面几种常用的判据,我们需要根据实际问题,从中选择出一种。

一般来说,我们希望可分性判据满足以下几个条件:1. 与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;2. 当特征独立时有可加性,即:)(),,,(121K NK ij N ij x J x x x J ∑==ij J 是第i 类和第j 类的可分性判据,ij J 越大,两类的可分程度越大,()12,,,N x x x 为N 维特征;3. 应具有某种距离的特点:0ij J >,当i j ≠时; 0ij J =,当i j =时;ij ji J J =;4. 单调性,加入新的特征后,判据不减小:()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤。

但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。

特征提取又称为特征变换,最常采用的特征变换是线性变换,即若DR x ∈是D 维原始特征,变换后的d 维新特征dR y ∈为x W y T= , 其中,W 是d ⨯D 维矩阵,称作变换阵。

特征提取就是根据训练样本求适当的W ,使得某种特征变换准则最优。

主成分分析方法的出发点是从一组特征中计算出一组按重要性从大到小排序的新特征,他们是原有特征的线性组合,并且相互之间是不相关的。

记p x x x ,,,21 为p 个原始特征,设新特征ξ,i=1, ,p 是这些原始特征的线性组合 x x T i j pj ij i ααξ==∑=1,为了统一i ξ的尺度,要求线性组合的模为1,即1=i T i αα,写成矩阵形式是 x A T=ξ,其中,ξ是由新特征i ξ组成的向量,A 是特征变换矩阵。

要求解的是最优的正交变换A ,它使新特征i ξ的方差达到极值。

3.理论证明或说明特征选择的基本框图为:一个典型的特征选择算法通常包括四个人基本步骤:1.子集产生,这是一个搜索过程,通过一定的搜索策略产生候选的特征子集。

2.子集评价,每一个候选的特征子集都根据一定的评价准则得到,并与先前的最优特征子集进行比较。

3.终止条件,算法结束所需要满足的条件,它与子集的产生过程和评价准则的选用有关。

4.结果验证,就是根据一定的先验知识或通过合成现实数据集的测试来证明所选择的特征子集的性能。

基于特征提取主成分分析变换矩阵的一般过程:训练数据全集4.实现方法或步骤流程特征选择顺序前进法每次从未入选的特征中选择一个特征,使得它与已入选的特征组合到一起所得到的可分性判据最大,直到特征数增加到M 为止。

用k X 表示在第k 步时的特征集合,搜索算法如下:1) 开始时,0X =∅,从N 个特征中选择一个()i J x 最大的特征,加入已选特征集,{}1i X x =; 2) 在第k 步,k X 中包含已经选择的k 个特征,对未入选的N k -个特征计算,{}()kjJ X x ,其中1,2,,j N k =-,并且按照由大到小排序,将可分性判据最大的特征l x 加入k X ,{}1k kl X X x +=;3) 直到所选的特征数等于M 为止。

特征抽取的方法—基于离散K-L 变换(DKLT)的特征抽取: 设原始特征为N 为矢量()12,,,TN x x x =X ,均值矢量[]E =m X ,相关矩阵T E ⎡⎤=⎣⎦X R XX ,协方差矩阵()()TE ⎡⎤=--⎣⎦X C X m X m 。

我们可以对X 作如下的标准正交变换,将其变为矢量()12,,,TN y y y =Y :12T T T N ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦T T TY =T X X TY 的每个分量:T i i y =T X ,其中T 为一个N N ⨯的标准正交矩阵,i T 为其第i 个列矢量,1,0,T i j i ji j=⎧=⎨≠⎩T T 。

也就是说Y 的每个分量是X 每一个分量的线性组合。

同样X 可以表示为:()()112121NT N i i i N y y y y -=⎡⎤⎢⎥⎢⎥====⎢⎥⎢⎥⎢⎥⎣⎦∑X T Y TY T T T T我们要进行特征提取,也就是要用Y 的M 项来代替X ,这种代替必然带来误差,下面我们来对这个误差进行估计:令:1ˆMi ii y ==∑X T ,1M N ≤<,引入的均方误差为: ()()()2211N NTTi i i i M i M e M E E y E y y =+=+⎡⎤⎡⎤⎡⎤=--==⎣⎦⎣⎦⎢⎥⎣⎦∑∑X XX X 11NNTTTii ii i M i M E =+=+⎡⎤==⎣⎦∑∑XTXX T T RT这又变成一个优化问题,我们希望寻找到一个标准正交矩阵T ,使得()2e M 最小,因此可以去这样的准则函数:()111NNT T ii iiii M i M J λ=+=+=--∑∑XT RT T T第一项保证均方误差最小,第二项保证T 为标准正交矩阵,i λ为一待定常数。

()i i iJλ∂=-=∂X R I T 0T ,1,,i M N =+即:i i i λ=X R T T ,很明显i λ为相关矩阵X R 的特征值,i T 为对应于i λ的特征矢量,由于X R 是一个实对称矩阵,所以12,,.N T T T 相互正交,T 为一个正交矩阵。

均方无差:()2111NN NT T ii ii iii M i M i M e M λλ=+=+=+===∑∑∑XT RT T T根据矩阵论,有这样的结论:一个N N ⨯的正定实对称矩阵有N 个特征值和特征矢量,这些特征矢量之间是正交的。

相关矩阵X R 就是一个实对称矩阵,当训练样本足够多时,也可以满足正定性,根据上式我们知道,当要从N 维特征中提取出M 维特征时,我们只需要统计出特征相关矩阵X R ,然后计算其特征值和特征矢量,选择对应特征值最大的前M 个特征矢量作成一个N M ⨯特征变换矩阵T ,就可以完成特征提取。

步骤如下:1、 利用训练样本集合估计出相关矩阵T E ⎡⎤=⎣⎦X R XX ;2、 计算X R 的特征值,并由大到小排序:12N λλλ≥≥≥,以及相应的特征矢量:12,,,N T T T ;3、 选择前M 个特征矢量作成一个变换矩阵[]12M =T T T T ;4、 在训练和识别时,每一个输入的N 维特征矢量X 可以转换为M 维的新特征矢量:TY =T X 。

这种方法是利用相关矩阵X R 进行变换,同样也可以利用协方差矩阵X C 进行变换,还可以利用样本的散度矩阵W S ,B S ,T S 或者1W B -S S 进行变换。

过程都是一样的,需要计算特征值和特征向量,选择最大的M 个特征值对应的特征矢量作出变换矩阵。

5.实验设计和结果分析基于特征相关性的特征选择算法选择c 均值聚类算法来去除冗余。

C 均值算法的基本思想即是通过迭代寻找c 个聚类的一种划分方案,使得用这c 个聚类的均值来代表相应各类样本时所得到的总体误差最小。

C 均值算法的基础是最小误差平方和准则。

若i N 是第i 聚类i Γ中的样本数目,i m 是这些样本的均值,即∑Γ∈=iy ii y N m 1把iΓ中的各样本y 与均值i m 间的误差平方和对所有类相加后为21e ∑∑=Γ∈-=ci y i im y Je J 是误差平方和聚类准则,它是样本集y 和类别集Ω的函数。

C 均值算法的步骤:1.选择初始划分,并计算每个聚类的均值以及误差平方和;2.选择一个备选样本y ,设y i Γ∈;X1the first results of kmeansX2X 3X1X2X 31.无论在聚类时,初始均值如何选取,在程序结果中总能得到相同的分类结果,同时e J 的结果相差很小。

2.当各聚类设定的初始均值不同时,程序结果经过的步骤不同。

3.e J 是随着聚类数目的增加而单调的减少的,当聚类数目等于样本数时e J =0,即每个样本自己成一类。

相关文档
最新文档