基于核熵成分分析的数据降维
数据分析知识:如何进行数据分析的核主成分分析

数据分析知识:如何进行数据分析的核主成分分析数据分析知识:如何进行数据分析的核主成分分析在进行数据分析的过程中,一项重要的任务就是降维,即从大量数据中提取出主要的特征。
核主成分分析(Kernel PCA)是一种有效的降维方法,通过它可以将高维的数据转化为低维的数据,并在不失去重要信息的前提下,更好地表达数据。
1. PCA与Kernel PCA的区别在介绍Kernel PCA之前,我们先来了解一下主成分分析(PCA)。
PCA是一种常用的降维方法,它通过对原始数据进行线性变换,将其转化为一组新的维度,使得在新的维度下,数据的方差尽可能地大。
在新的维度下,数据形成一个坐标系,每个坐标轴被称为主成分。
与PCA不同的是,Kernel PCA(以下简称KPCA)是一种非线性的方法。
KPCA可以将高维数据通过核函数映射到特征空间,并在特征空间中进行PCA,从而实现对数据的降维。
2. KPCA的基本原理KPCA的基本原理是通过非线性映射将原始数据映射到一个高维的特征空间(称为核空间),然后在该空间中进行PCA,得到新的成分,最后再将其映射回原始的数据空间。
与PCA相比,KPCA提供了更高的灵活性和表达能力。
具体地,设有一个n个数据点的样本集{xi},x是一个d维的向量,即x∈R^d。
首先在原始的数据空间中定义一个核函数,用于将原始数据点映射到一个新的特征空间。
核函数的作用在于,通过量化数据点之间的相似性,并将相似的点映射到特征空间中的相邻位置。
核函数可以选择多项式核函数、高斯核函数或sigmoid核函数等。
这里以高斯核函数为例:K(x,xi)=exp(−|| x−xi ||^2 / 2σ^2)其中,x和xi是原始数据点,K(x,xi)是将x和xi映射到特征空间的函数值,σ是高斯核函数的带宽参数。
映射后,我们得到的是一个在特征空间内的数据集{Φ(xi) },Φ(xi)是一个M维的向量。
在特征空间中,我们可以得到主成分和贡献率,就像在PCA中一样。
高维数据降维算法的性能评估与改进

高维数据降维算法的性能评估与改进引言:在现实生活和科学研究中,我们经常面临处理高维数据的挑战。
高维数据具有大量的特征,因此难以直观地可视化和分析。
为了解决这个问题,降维算法被广泛应用于高维数据的预处理和分析。
降维旨在通过将高维数据映射到低维空间,保留最重要的信息,同时减少数据维度,以实现更有效的数据分析。
本文旨在探讨高维数据降维算法的性能评估与改进。
首先,我们将介绍几种常用的高维数据降维算法,包括主成分分析(PCA)、线性判别分析(LDA)和局部线性嵌入(LLE)。
然后,我们将讨论如何评估这些算法的性能,并提出一些改进方法以提高降维算法的效果和稳定性。
一、高维数据降维算法1. 主成分分析(PCA):PCA是一种最常用的降维算法。
它通过线性变换将原始数据映射到一个低维空间,以使得投影方差最大化。
这意味着通过选择最主要的特征,PCA 可以减少数据的维度,并且保留了大部分的变异性。
2. 线性判别分析(LDA):LDA是一种监督学习的降维算法。
它通过将数据投影到一个低维空间,以最大化不同类别之间的差异性,同时最小化同一类别内部的方差。
相比于PCA,LDA更适用于分类问题。
3. 局部线性嵌入(LLE):LLE是一种非线性的降维方法。
它通过局部的线性逼近来保持数据之间的局部关系。
LLE首先确定每个数据点的邻域,然后通过最小化邻域内点之间的重建误差,将原始数据映射到低维空间。
二、性能评估方法为了评估高维数据降维算法的性能,我们需要考虑以下几个指标:1. 降维后数据的可视化效果:降维算法的主要目标之一是可视化高维数据。
因此,我们可以通过可视化降维后的数据,观察数据的分布和结构是否更清晰可辨。
2. 信息保留能力:降维算法在减少数据维度的同时,应尽可能保留原始数据的重要信息。
我们可以使用各种信息论指标(如方差解释比例)来评估降维算法在信息保留方面的效果。
3. 计算效率:降维算法的计算效率也是一个重要的指标,特别是在处理大规模高维数据时。
核PCA的应用

核PCA的应用PCA是一种基于数学统计方法的数据降维技术,可以将高维数据降低为低维数据,从而更好地理解和处理数据。
在数据处理和分析的领域中,PCA已经被广泛应用。
而核PCA,作为传统PCA 的扩展,更是在一些特定领域有着广泛的应用前景。
一、PCA的基本原理在介绍核PCA之前,首先要了解PCA的基本原理。
PCA的主要目的是将高维数据降低为低维数据,同时最大化数据信息的维度。
其基本原理由以下步骤组成:1.计算均值:对于给定的数据集,首先需要计算每个维度上的均值。
2.计算协方差矩阵:通过计算每个数据点与其它数据点之间的协方差矩阵,可以进一步了解原始数据的结构。
3.计算特征值和特征向量:协方差矩阵的特征值和特征向量可以帮助我们实现数据降维。
4.选中要保留的特征向量:通过选取一定数量的协方差矩阵的特征向量,我们就可以将数据集从高维度降低到低维度。
以上就是PCA的基本原理,通过降低数据维度的同时,尽可能多的保留原有数据的信息。
二、核PCA的基本思想虽然PCA在数据降维方面的效果已经得到了广泛的应用,但在特定的领域中,它也有一些缺陷。
其中的一项典型的缺陷,是它不擅长处理非线性数据。
因此人们在此基础上,发展出了核PCA的新型技术,以帮助我们更好的解决问题。
首先,核PCA的基本思想是:数据集在高维空间中存在一个非线性的映射关系,而PCA所要做的,就是将这个高维空间映射到低维空间。
具体而言,就是将一些复杂、非线性的数据映射到一个更低维度、更简单的空间,这样,我们就可以更好地分析和处理数据。
在理解核PCA的过程中,还需要了解两个基本概念:核矩阵和核函数。
(1)核矩阵核矩阵是用来描述样本点之间的相似性的矩阵。
样本点之间的相似性可以直接用数据间的内积来表示。
因此,核矩阵就是所有样本之间的内积所组成的矩阵。
这里强调一下,核矩阵只与样本点在高维空间中的内积相关,与他们在低维度空间无关。
(2)核函数核函数通常具有以下两种基本属性:1.核函数只与样本之间的内积有关。
基于EEMD-Renyi熵和PCA-PNN的滚动轴承故障诊断

提取 相应运 行状 况 的复杂性 测度 , 以作 为设备 运 可
行状 况 的一个 判 据 J R n i 作 为 S an n熵 的 . ey 熵 hno
一
① 在输入 信号 () t上添 加一个 随机 高斯 白噪
个 扩展 , 以 较好 地 作 为 时 间序 列 复 杂 性 的 可
R n ie t p ;p nia cmp nn n yi ( C ) po aisc nua n t ok e y n o y r c l o o et aa s r i p l s P A ; rb blt er ew r ii l
( NN ) P
滚 动轴 承是 机械设 备 中故 障常 发部 件之 一 , 它
n ns( C )aeaq i da dfdi oteP N fr n l l s ia o .T eep r n fS F 2 3 e t P s r cur t N a ca ict n h x e me t K 6 0 e n e n h o f sf i i i o
由于轴 承 寿命 离 散 性 很 大 , 只有 做 到 “ 情 维 修 ” 视
或 “ 知 维 修 ” 能 最 大 限 度 地 发 挥 它 的 工 作 潜 预 才
力 , 约提效 , 此 近年 来 关 于 轴 承 的振 动分 析 与 节 因
收稿 日期 : 0 10 —6 作者简介 : 2 1 -51 . 窦东 阳(9 3 ) 18 一 ,男,博士 , 师 ,d 4 @13 cm. 讲 dy 1 6 .o 基金项 目: 江苏省 自然科学基金资助项 目( 20 3 6 、江苏省高校 自然科学研究 资助项 目(9 J 5 0 0 ) BK 0 9 5 ) 0 KB 0 3 . 1 引文格 式 : 窦东 阳, 李丽娟 , 赵英凯. 基于 E MD—e y 熵和 P A—N 的滚动轴承故障诊 断[ ] 东南大学学报 : E R ni C PN J. 自然科学版 ,0 14 ( 1 : 2 1 ,1 s )
降维的原理

降维的原理降维是指将高维数据映射到低维空间的过程,其目的是为了减少数据的复杂度和提高计算效率。
在实际应用中,降维技术被广泛应用于数据压缩、特征提取和数据可视化等领域。
本文将介绍降维的原理及其常见的方法。
降维的原理可以从线性代数和统计学的角度来理解。
在高维空间中,数据点之间的距离和角度关系复杂多变,给数据分析和处理带来了困难。
而在低维空间中,数据点之间的关系相对简单,更容易进行分析和处理。
因此,通过降维可以将原始数据中的噪声和冗余信息去除,保留主要特征,从而提高数据的表达能力和分类准确度。
在实际应用中,降维的方法主要包括主成分分析(PCA)、线性判别分析(LDA)、t分布邻域嵌入(t-SNE)等。
其中,PCA是一种常用的线性降维方法,它通过寻找数据中的主成分来实现降维。
而LDA则是一种监督学习的降维方法,它在保持数据类别信息的同时,将数据映射到低维空间。
另外,t-SNE是一种非线性降维方法,它可以有效地保留数据的局部结构,适用于数据可视化和聚类分析。
除了上述方法外,还有一些其他的降维技术,如自编码器、核主成分分析(Kernel PCA)等。
这些方法各有特点,可以根据具体的应用场景选择合适的方法进行降维处理。
需要注意的是,降维并不是万能的,它也存在一些局限性。
首先,降维可能会丢失一部分信息,导致数据表达能力下降。
其次,降维过程需要消耗一定的计算资源和时间。
因此,在选择降维方法时,需要综合考虑数据的特点、应用需求和计算资源等因素。
综上所述,降维是一种重要的数据预处理技术,它可以有效地提高数据的表达能力和计算效率。
在实际应用中,我们可以根据具体的需求选择合适的降维方法,并结合特征选择、模型训练等步骤,实现对高维数据的有效分析和处理。
希望本文对降维技术有所帮助,谢谢阅读!。
核主成分分析

核主成分分析核主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的数据挖掘技术,它有助于对数据进行更有效的分析,以便从原始数据中提取更多信息。
PCA是一种统计分析方法,可以把原始变量转换为一组具有相关性的新变量,即主成分,它们能够捕捉原始变量的最大变化量,并且能很好地反映数据集中的总体分布。
将一组变量转换成一组主成分可提高数据集的分析能力,主要有以下几个优点:首先,可以把原始变量降维,从而减少信息的噪音。
其次,主成分可以提高变量的透明度。
最后,主成分可以更好地捕捉复杂的数据集中的关系。
从数学角度解释,PCA的原理有三个步骤:首先,确定输入变量的协方差矩阵,其次,求出协方差矩阵的特征值和特征向量,最后,按照特征值大小进行排序,获得由最大到最小排序的特征值和特征向量,从而构建特征空间来实现数据降维。
如何使用PCA呢?在使用PCA时,第一步是确定给定数据集的协方差矩阵,即根据各变量之间的相关性计算出协方差矩阵。
之后,对该协方差矩阵进行特征分解,求出该矩阵的特征值和特征向量,最后,按照特征值大小进行排序,构建特征空间,从而实现数据变化。
使用PCA还有一些注意事项,首先,由于它是一种线性降维方法,所以如果要得到有效的结果,所需要分析的数据应该是线性可分的;其次,由于PCA计算量较大,所以在使用的过程中必须调整系统的参数,以降低计算量;最后,PCA的技术性取决于数据集的偏度,所以在使用PCA之前,最好对数据进行正态化或标准化处理以消除数据的噪声。
总之,PCA是一种有效的数据挖掘技术,可以帮助分析者更有效地分析数据集,从而提取更多的信息。
不过使用PCA也有一定的注意事项,需要用户根据实际情况来决定是否采用这种方法。
kpca算法的python实现

kpca算法的python实现kpca算法是一种非线性降维算法,它是基于核技巧的主成分分析方法。
本文将介绍kpca算法的原理和python实现。
我们来了解一下主成分分析(PCA)算法。
PCA是一种常用的线性降维算法,它通过寻找数据中的主要方向来减少数据的维度。
然而,PCA只适用于线性可分的数据,对于非线性数据效果不佳。
而kpca 算法则是通过引入核函数,将数据映射到高维空间中,从而使得原本线性不可分的数据在新的高维空间中线性可分。
具体来说,kpca算法的实现步骤如下:1. 计算核矩阵:首先,根据给定的核函数,计算原始数据的核矩阵。
核矩阵是一个对称的矩阵,它的元素是通过核函数计算得到的两个样本之间的相似度。
2. 中心化核矩阵:对核矩阵进行中心化操作,即将每一行和每一列的元素减去各自的均值,从而消除数据的平移影响。
3. 计算核矩阵的特征值和特征向量:通过对中心化的核矩阵进行特征值分解,得到核矩阵的特征值和对应的特征向量。
4. 选择主成分:根据特征值的大小,选择前k个最大的特征值和对应的特征向量作为主成分。
5. 降维:将原始数据投影到所选的主成分上,得到降维后的数据。
接下来,我们使用python实现kpca算法。
首先,我们需要导入所需的库:```pythonimport numpy as npfrom sklearn.decomposition import PCAfrom sklearn.preprocessing import StandardScaler```然后,我们定义一个kpca类,其中包含fit和transform两个方法:```pythonclass KPCA:def __init__(self, n_components=2, kernel='linear'):self.n_components = n_componentsself.kernel = kerneldef fit(self, X):# 计算核矩阵kernel_matrix = self._calculate_kernel_matrix(X)# 中心化核矩阵centered_kernel_matrix = self._center_kernel_matrix(kernel_matrix)# 计算核矩阵的特征值和特征向量eigenvalues, eigenvectors = self._calculate_eigen(centered_kernel_matrix)# 选择主成分ponents_ = eigenvectors[:, :self.n_components]return selfdef transform(self, X):# 计算核矩阵kernel_matrix = self._calculate_kernel_matrix(X)# 中心化核矩阵centered_kernel_matrix = self._center_kernel_matrix(kernel_matrix)# 将数据投影到主成分上return np.dot(centered_kernel_matrix, ponents_)def _calculate_kernel_matrix(self, X):# 计算核矩阵if self.kernel == 'linear':kernel_matrix = np.dot(X, X.T)elif self.kernel == 'rbf':sigma = 1.0pairwise_sq_dists = np.sum((X[:, np.newaxis] - X[np.newaxis, :]) ** 2, axis=-1)kernel_matrix = np.exp(-pairwise_sq_dists / (2 * sigma ** 2))else:raise ValueError("Invalid kernel.")return kernel_matrixdef _center_kernel_matrix(self, kernel_matrix):# 中心化核矩阵n_samples = kernel_matrix.shape[0]one_n = np.ones((n_samples, n_samples)) / n_samples centered_kernel_matrix = kernel_matrix - one_n.dot(kernel_matrix) - kernel_matrix.dot(one_n) + one_n.dot(kernel_matrix).dot(one_n)return centered_kernel_matrixdef _calculate_eigen(self, kernel_matrix):# 计算核矩阵的特征值和特征向量eigenvalues, eigenvectors = np.linalg.eigh(kernel_matrix)return eigenvalues[::-1], eigenvectors[:, ::-1]```在以上代码中,我们定义了一个KPCA类,其中包含了_fit_kernel_matrix、_center_kernel_matrix和_calculate_eigen三个私有方法。
主成分分析的降维原理

主成分分析的降维原理主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维技术,可用于处理高维数据。
其原理是通过线性变换将原始数据映射到一个新的坐标系中,使得新的坐标系中的数据具有最大的方差。
本文将详细介绍主成分分析的降维原理。
1. 数据预处理在进行主成分分析之前,需要对数据进行预处理。
常用的预处理方法包括中心化和标准化。
中心化是指将数据的均值移到原点,即将每个维度的数据减去该维度数据的均值。
标准化是指将数据按照一定比例进行缩放,使得每个维度的数据具有相同的尺度。
2. 协方差矩阵计算在主成分分析中,我们首先需要计算数据的协方差矩阵。
协方差矩阵描述了数据各维度之间的关系。
对于一个n维数据集,协方差矩阵为一个n×n的矩阵,其中第i行第j列的元素表示第i个维度和第j个维度之间的协方差。
3. 特征值与特征向量计算通过对协方差矩阵进行特征值分解,我们可以得到特征值和特征向量。
特征值表示数据在对应特征向量方向上的方差,特征向量表示数据在对应特征值方向上的单位方向向量。
特征值和特征向量是成对出现的,且按照特征值的大小从大到小排列。
4. 选择主成分选择主成分的原则是保留方差最大的特征值及其对应的特征向量。
一般来说,前k个特征值的和占总特征值的比例越大,说明这k个主成分能够尽可能多地解释原始数据的方差,即保留的信息损失较小。
5. 数据映射选取保留的主成分后,我们将原始数据映射到主成分构成的新坐标系中。
具体而言,对于一个m×n的数据集,其中m为样本数量,n为维度数,我们可以将每个样本表示为n维向量,将选取的k个主成分表示为n×k的映射矩阵W。
通过将原始数据集与映射矩阵相乘,即可得到降维后的数据集。
6. 重构数据我们可以通过将降维后的数据集与映射矩阵的转置相乘,即可得到对原始数据的重构。
重构数据是对原始数据在主成分方向上的投影。
7. 解释性主成分分析的一个重要应用是解释性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H ( p) = − lg ∫ p2 (x)dx
(1)
令 V ( p)
=
∫
p2 ( x)
,采用
Parzen
窗
pˆ (x) =
1 N
∑ Kσ (x, xt )
xt∈D
,以
均值对 V ( p) 进行估计,可得到下式:
Vˆ( p)
=
1 N
∑
xt∈D
pˆ (xt )
=
1 N
∑
xt∈D
1 N
∑
xt '∈D
Kσ
本文基于 KECA 理论,结合支持向量机(Support Vector Machine, SVM)分类算法,研究分析 KECA 应用于降维的可 行性与降维性能。
2 核熵成分分析原理与降维算法
2.1 KECA 基本原理 KECA 的原理介绍如下[8]:
给定 N 维样本 x, p(x)是概率密度函数,则 Renyi 熵为:
表 1 数据库信息描述
数据库
样本数
原始特征维数
WDBC
569
32
Ionosphere
351
35
Lung Cancer
32
57
为验证 KECA 的降维效果,本文选择了同为谱降维算法 的 PCA 和 KPCA 进行对比实验。对每一个数据库的数据,分
图 3 Ionosphere 数据库的降维算法性能比较
图 4 为肺癌数据降维后的分类结果。肺癌数据库具有明 显的维灾现象。由图 4 可见,当特征维数降至第 9 维时, KECA 与 PCA 同时达到最优性能。由于肺癌数据需要进行 3 种分类,因此 3 种降维算法的波动性都较大。但总体来说, KECA 相对更为稳定,也能取得较好的分类精度。
第 38 卷 第 2 期 Vol.38 No.2
·人工智能及识别技术·
计算机工程 Computer Engineering
文章编号:1000—3428(201ቤተ መጻሕፍቲ ባይዱ)02—0175—03
文献标识码:A
2012 年 1 月 January 2012
中图分类号:TN911.72
基于核熵成分分析的数据降维
黄丽瑾,施 俊,钟 瑾 (上海大学通信与信息工程学院,上海 200072)
=
PU
Φ
k
=
D2ET kk
(3)
其中,D
是特征值
λ 1
,
λ 2
,⋯,
λ N
的对角矩阵;
E
=
[
e 1
,
e 2
,⋯,
e
N
]
。
转换成求解最小值问题,即:
1
Φ eca
=
D2ET kk
: minVˆ( p) −Vˆk ( p)
(4)
结合式(2),可将式(4)改写为:
min
1 N2
1T (K
−
Keca )1
(5)
者最大的不同在于 KECA 在求解过程中需要计算特征值与特
征向量的 Renyi 熵。KECA 不需要重新建立核矩阵的中心,
且它突破了仅依赖于前 k 个特征值限制的局限性,具有降低
计算机复杂程度、简单有效的优点。
2.2 支持向量机原理 为检验 KECA 的降维性能,对于降维后的数据,采用
SVM 算法进行分类,以评估分类精度。SVM 是在统计学习
理论和结构风险最小化原理基础上建立起来的一种机器学习 方法[9-10]。它较好地解决了小样本、非线性、高维数、局部
极小点等实际问题,具有很强的泛化能力。因此,本文采用
SVM 作为分类器,其具体算法见文献[9]。
2.3 降维算法 如图 1 所示,基于 KECA 的降维算法具体流程如下:
(1)输入 N 维向量数据集 X=[x1,x2,…,xN]; (2)求数据集 X 的欧式距离,通过 Parzen 窗函数建立核
摘 要:针对高维数据的维灾问题,采用核熵成分分析方法降维数据,并与主成分分析及核主成分分析方法进行对比。降维后的数据利用 支持向量机算法进行分类,以验证算法有效性。实验结果表明,KECA 在较低的维数时仍然能获得较好的分类精度,可以减少后续的处理 复杂度和运行时间,适用于机器学习、模式识别等领域。 关键词:降维;核熵成分分析;核主成分分析;支持向量机
基金项目:国家自然科学基金资助项目(60701021);上海市教育委员 会科研创新基金资助项目(09YZ15);上海市教委重点学科建设基金 资助项目(J50104);上海大学研究生创新基金资助项目(SHUCX112
137) 作者简介:黄丽瑾(1986-),女,硕士研究生,主研方向:信号处理; 施 俊,副教授;钟 瑾,硕士研究生
1 概述
数据降维是解决维灾问题的有效手段[1-3]。降维技术分为 线性和非线性 2 大类。常见的线性降维方法包括主成分分析 (Principal Component Analysis, PCA)、多维缩放、因子分析、 投影追踪、线性判别分析、局部保留投影、独立分量分析 等。常见的非线性降维方法包括自组织映射网络、核主成分 分析(Kernel Principal Component Analysis, KPCA)、Isomap、 局部线性嵌入、流形学习等[2-3]。这些方法在不同的应用领域 都取得了很好的效果[1-3]。PCA 是应用广泛的经典降维方法 之一[4],它借助于一个正交变换,将其分量相关的原随机向 量转化成分量不相关的新随机向量。PCA 的缺点之一是存储 空间大,计算复杂度高,且线性映射在一定程度上影响其效 果。而 KPCA 是 PCA 的非线性推广[5-6],可处理大量非线性 问 题 , 且 更 为 简 洁 高 效 。 核 熵 成 分 分 析 (Kernel Entropy Component Analysis, KECA)是一种新的数据变换方法[7-8]。它 是在 KPCA 的基础上引入熵的概念,在特征空间进行熵成分 分析以实现数据变换,具有很好的非线性处理能力。目前, KECA 已初步应用于数据聚类和图像去噪,并取得了很好的 效果,但还未有将 KECA 应用于降维处理的较为全面的研究。
收稿日期:2011-07-18 E-mail:junshi@
176
计算机工程
2012 年 1 月 20 日
其中,
K eca
=ΦTΦ eca eca
=
E D ET kkk
。
由式(5)可知,KECA 通过在特征空间中进行类似 KPCA
的相关操作,转换为最小值的优化问题以实现数据变换。两
第 38 卷 第 2 期
黄丽瑾,施 俊,钟 瑾:基于核熵成分分析的数据降维
177
图 4 肺癌数据库的降维算法性能比较
表 2 定量比较了 3 种算法降维后的结果。对于 WDBC 数据,KECA 的最优分类精度只比 PCA 低了一个百分点,但 此时对应的维数却是远低于 PCA 和 KPCA 的维数,只有 PCA 的 41.7%,KPCA 的 17.2%。对于 Ionosphere 数据,KECA 不 仅获得了最高分类精度,而且其最优分类时对应的维数也远 低于 PCA 和 KPCA 的维数,只有 PCA 的 23.3%,KPCA 的 74.9%。对于肺癌数据,KECA 和 PCA 的最优分类精度和对 应的特征维数一样,分类精度远高于 KPCA 降维后的分类精 度,而维数只比 KPCA 多了 3 维。由定量的数据比较发现, KECA 表现出优越的降维性能,它一般能在较小的特征维数 时反而获得最优的分类精度。
图 1 KECA 降维流程
3 实验测试
为测试 KECA 降维算法的性能,采用 UCI 机器学习数据 库中的数据进行测试[11]。如表 1 所示,选取数据为原始特征
维数较多的威斯康辛肿瘤数据库(WDBC Dataset)、电离层数
据库(Ionosphere Dataset)和肺癌数据库(Lung Cancer Dataset)。
测试。
别利用这 3 种降维算法从原始特征维数或原始样本数开始逐 一递减降维,并将每次降维后的数据输入 SVM 进行分类。 SVM 算法采用简单易用且有效的 LIBSVM 软件包[12]。同时, 利用交叉验证方法进行寻优。
4 实验结果与分析
图 2 所示为 3 种降维算法对 WDBC 数据降维后分类的结 果。由图可见,从第 2 维到 30 维特征,KECA 降维以后都表 现出了稳定的分类结果,即使是当维数低于 5 维(大于 1 维) 时,其分类精度也在 93%左右,体现了很好的稳定性和准确 性。PCA 的降维性能与 KECA 差不多,但它是在维数超过 10 维以后才在部分维数时体现出较好的分类精度,而且稳定 性不如 KECA,在不同维数时分类精度的波动较大。KPCA 不仅分类精度低,在不同维数时的分类精度波动也很大。
矩阵
K eca
;
(3)通过非线性映射在特征空间计算特征值和特征向量;
(4)计算特征值与特征向量的 Renyi 熵,并将特征值和特
征向量根据熵值的大小进行重新排序,产生
KECA
映射
Φ eca
;
(5)根据降维需要,选择前 k(k<N)维映射,建立核矩阵与
映射之间的关系,从而实现高维到低维的数据变换;
(6)在求出新的降维数据后,输入分类器进行降维性能
【Abstract】Aiming at the curse of dimensionality, the kernel entropy component analysis(KECA) is used to reduce the dimension of data, which is compared with Principal Component Analysis(PCA) and Kernel PCA(KPCA). The low dimensional data after dimension reduction are classified by Support Vector Machine(SVM) algorithm to compare the accuracy. Experimental results indicate that high classification accuracy can be obtained at low dimension number with KECA, which reduces the processing complexity and running time. It suggests that KECA-based dimension reduction algorithm has the feasibility to be applied in the fields of machine learning, pattern recognition, etc. 【Key words】dimension reduction; Kernel Entropy Component Analysis(KECA); Kernel Principal Component Analysis(KPCA); Support Vector Machine(SVM) DOI: 10.3969/j.issn.1000-3428.2012.02.057