高维数据流形的低维嵌入问题研究
基于流形学习的图像识别算法研究

基于流形学习的图像识别算法研究一、引言图像识别算法是近年来人工智能领域的研究热点之一,其背后涉及深度学习、神经网络等前沿技术。
然而,在图像识别过程中,往往难以处理的是复杂的非线性数据。
这时候,传统的机器学习算法便会出现瓶颈。
因此,利用流形学习进行处理,有望使得图像识别算法取得更好的效果。
二、流形学习流形学习理论源于数学和计算机科学领域,是一种基于高维数据的低维嵌入的方法。
好比在三维平面上绘制平面图一样,将高维数据转化为低维空间的过程,就是嵌入。
当数据较为简单时,将其嵌入到低维空间后,数据点互相之间的距离关系不会发生大的变化。
但是,当数据较为复杂,即数据点在高维空间中的分布比较复杂时,不同的嵌入有可能会导致不同的距离。
所以要选取一个能保证彼此距离稳定的嵌入方法。
流形学习一般可分为两大类:1.基于局部特征的方法:利用邻域的特征信息来构造嵌入空间。
2.基于全局特征的方法:利用全局分布来建立嵌入空间。
在这里,我们主要介绍局部线性嵌入(LLE)算法和拉普拉斯特征映射嵌入(LE)算法。
三、局部线性嵌入算法(LLE)LLE算法是基于邻域的流形学习算法之一。
其思想是:对于任一给定点i,其最近邻i’(i’不包含i)点的邻居点与点i可以近似线性关系,即在它们的嵌入坐标中可以通过一个线性变换来重建。
然后在这些局部邻域中对点i进行仿射变换,使其重建误差最小。
通过这种方法可以获得局部坐标系,将数据嵌入到低维空间。
具体实现过程如下图所示:1、计算样本间距离矩阵W2、对于每一个样本xj,找到它的k个近邻xk1, xk2,……xkk3、对于样本xj, 建立权重系数wij4、寻找每一个样本xj在低维空间中的坐标wijyj5、最小化重构误差四、拉普拉斯特征映射嵌入算法(LE)LE算法是一种基于全局特征的流形学习算法,也是一种基于矩阵计算的嵌入方法。
它使用了图论的思想,将高维空间的数据看成一个图G=(V, E),每个节点表示一个数据点,每条边表示它们之间的相似度。
高维数据降维方法研究与比较

高维数据降维方法研究与比较降维是数据处理领域中的重要问题,特别是在高维数据分析中。
高维数据指具有大量维度的数据,由于其维度高,数据分析和可视化变得困难,因此需要采用降维方法将数据映射到低维空间中。
本文将研究和比较几种常用的高维数据降维方法。
一、主成分分析(PCA)主成分分析是一种经典的线性降维方法,通过找到数据中最大方差方向的一组正交基,将高维数据映射到低维空间。
PCA的优点是简单且易于理解,可以保留较高比例的原始数据方差。
然而,PCA在处理非线性数据时效果欠佳,且无法处理样本之间的非线性关系。
二、独立成分分析(ICA)独立成分分析是基于统计学的降维方法,通过寻找数据中的独立成分,将高维数据分解为相互独立的子空间。
ICA适用于非高斯分布的数据,可以发现数据中的隐藏信息。
然而,ICA对数据分布的假设较强,对噪声和异常值敏感。
三、流形学习(Manifold Learning)流形学习是一种非线性降维方法,基于流形假设,认为高维数据存在于低维流形上。
流形学习可以通过保持数据局部特征结构来实现降维,能够较好地处理非线性数据。
常见的流形学习算法包括局部线性嵌入(LLE)、等距映射(Isomap)和拉普拉斯特征映射(LE)。
流形学习的不足之处在于对参数选择敏感,计算复杂度较高。
四、自动编码器(Autoencoder)自动编码器是一种基于神经网络的无监督学习模型,通过训练编码器和解码器来学习高维数据的低维表示。
自动编码器可以学习数据的高阶特征,对非线性数据具有较好的适应性。
然而,自动编码器容易过拟合,并且在训练过程中需要大量的计算资源。
总结来说,不同的高维数据降维方法各有优劣。
PCA适用于线性数据降维,ICA适用于非高斯分布数据,流形学习适用于非线性数据,自动编码器则可以学习高阶特征。
在实际应用中,可以根据数据的特点选择合适的降维方法。
同时,也可以结合多种降维方法进行综合分析,以获取更好的降维效果。
降维方法的比较需要考虑多个方面,如降维效果、计算复杂度、对异常值和噪声的敏感性等。
时间序列数据的流形降维方法研究

时间序列数据的流形降维方法研究在大数据时代,时间序列数据越来越受到重视。
例如,金融数据、生物医学数据、气象数据等,在这些数据中,我们往往需要寻找的是潜在的规律和模式,以便更好地预测未来的趋势。
而流形降维是一种有效的数据降维方法,通过将高维数据映射到低维空间中,帮助我们更好地理解数据的结构和规律。
本篇文章主要介绍时间序列数据的流形降维方法及其应用。
一、时间序列数据的流形降维方法流形降维的主要思想是保留数据样本的局部结构,尽可能地减少噪声和冗余信息。
常见的流形降维方法包括核主成分分析(Kernel PCA)、局部线性嵌入(Locally Linear Embedding,LLE)、等距映射(Isomap)等。
不同的流形降维方法具有不同的优缺点,应根据数据的特征选择合适的方法。
时间序列数据的流形降维方法与普通流形降维方法有所不同。
时间序列数据由时序样本组成,而流形降维方法是一种非参数方法,不适用于时序数据。
因此,时间序列数据的流形降维方法需要考虑到数据的时序性。
目前,常见的时间序列流形降维方法包括基于机器学习的方法、基于时间序列分析的方法、基于图论的方法等。
机器学习方法中,基于自编码器的流形学习方法是较常用的方法之一。
自编码器是一种深度神经网络,其主要思想是通过将数据压缩到低维空间中,再通过解码器将压缩的数据重构为原始数据。
在自编码器中,激活函数起到关键作用,一般采用非线性函数,如ReLU函数、sigmoid函数等。
时间序列分析方法中,时间序列的相似性是降维的主要考虑因素。
一些经典的时间序列相似性度量方法包括欧氏距离、动态时间规整(DTW)等。
同时,在时间序列降维中,需要保留时间序列的基本信息,例如周期性、趋势性等。
基于图论的方法是一种新兴的时间序列流形降维方法。
由于时间序列数据通常具有多重分辨率,常规的距离度量方法不一定有效。
在图论方法中,常用的相似度度量方法包括近邻法、最短路径法等。
相似度度量之后,可以通过图嵌入方法将高维时间序列数据嵌入到低维空间中。
高维数据流形的低维嵌入问题研究

第10卷 第5期大连民族学院学报Vol .10,No .5 2008年9月Journal of D alian N ationalities UniversitySeptembe r 2008文章编号:1009-315X (2008)05-0441-03高维数据流形的低维嵌入问题研究吴晓婷1,马玉梅2(1.辽宁师范大学计算机与信息技术学院,辽宁大连116029;2.大连民族学院理学院,辽宁大连116605)摘 要:Is o m ap 是基于流形理论提出的一种非线性降维方法,用于恢复潜藏于高维空间低维子流形中数据的低维参数。
Is omap 方法的一个重要前提是假设数据空间与参数空间之间存在等距映射。
通过流形学习和对Iso map 方法的分析,证明了高维数据空间与参数空间之间存在一般意义下的等距映射,并引用一个基于Iso map 的实例说明Is o m ap 算法的有效性。
关键词:流形;等距映射;Is o m ap;测地线距离;数据降维中图分类号:TP18文献标志码:AThe Resea rch on the M ean i n gfu l L ow -D i m en siona l Em bed ofH igh -d i m en siona l Da ta M an i f oldW U X i a o -t i n g 1,M A Yu -m e i2(1.College of Compute r and Infor ma tion Technol ogy,L i aoning No r ma l University,Da lian Liaoning 116029,China;2.Coll ege of Sc ience,Da lian Na ti onalities University,Da lian L i aoning 116605,China)Ab stra ct :Is om ap is a non -linear di mensi onality reducti on m ethod based on the theory of man 2if old to r ecover a low -di m ensi onal para m ete rs lying on a l ow -di m ensional sub -m anifold in high -di m ensional s pace .The i mportant p r econditi on of Iso m ap is supposing that there is an i 2som etric mapp ing bet ween the data s pace and the para m ete r space .This paper pr oved the exist 2ence of is om etric m a pp ing bet ween high -di m ensi onal data space and the para m eter s pace .And we als o use some exa mp les based on I som ap t o expla in the effectiveness of I som ap.Key word s:m anifold;is om etric m apping;is om ap;geodesic distance;data di mensi ona l reduc 2tion1 概 述在不同距离、不同方向,或在不同姿态和光照强度下,同一个对象能够形成多种不同的图像。
高维数据流形的低维嵌入及嵌入维数研究

V ol.16, No.8 ©2005 Journal of Software 软 件 学 报 1000-9825/2005/16(08)1423 高维数据流形的低维嵌入及嵌入维数研究∗ 赵连伟1+, 罗四维1, 赵艳敞2, 刘蕴辉11(北京交通大学 计算机与信息技术学院,北京 100044) 2(Faculty of Information Technology, University of Technology, Sydney, Australia)Study on the Low-Dimensional Embedding and the Embedding Dimensionality of Manifold of High-Dimensional DataZHAO Lian-Wei 1+, LUO Si-Wei 1, ZHAO Yan-Chang 2, LIU Yun-Hui 11(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China) 2(Faculty of Information Technology, University of Technology, Sydney, Australia)+ Corresponding author: Phn: +86-10-51688556, E-mail: lw_zhao@, Received 2004-07-14; Accepted 2004-09-08Zhao LW, Luo SW, Zhao YC, Liu YH. Study on the low-dimensional embedding and the embedding dimensionality of manifold of high-dimensional data. Journal of Software , 2005,16(8):1423−1430. DOI: 10.1360/jos161423Abstract : Finding meaningful low-dimensional embedded in a high-dimensional space is a classical problem. Isomap is a nonlinear dimensionality reduction method proposed and based on the theory of manifold. It not only can reveal the meaningful low-dimensional structure hidden in the high-dimensional observation data, but can recover the underlying parameter of data lying on a low-dimensional submanifold. Based on the hypothesis that there is an isometric mapping between the data space and the parameter space, Isomap works, but this hypothesis has not been proved. In this paper, the existence of isometric mapping between the manifold in the high-dimensional data space and the parameter space is proved. By distinguishing the intrinsic dimensionality of high-dimensional data space from the manifold dimensionality, and it is proved that the intrinsic dimensionality is the upper bound of the manifold dimensionality in the high-dimensional space in which there is a toroidal manifold. Finally an algorithm is proposed to find the underlying toroidal manifold and judge whether there exists one. The results of experiments on the multi-pose three-dimensional object show that the method is effective.Key words : Isomap; toroidal manifold; isometric mapping; embedding dimensionality摘 要: 发现高维数据空间流形中有意义的低维嵌入是一个经典难题.Isomap 是提出的一种有效的基于流形理论的非线性降维方法,它不仅能够揭示高维观察数据的内在结构,还能够发现潜在的低维参数空间.Isomap 的理论基础是假设在高维数据空间和低维参数空间存在等距映射,但并没有进行证明.首先给出了高维数据的连续流形和低维∗ Supported by the National Natural Science Foundation of China under Grant No.60373029 (国家自然科学基金)作者简介: 赵连伟(1976-),男,河南驻马店人,博士生,讲师,主要研究领域为人工神经网络,流形学习;罗四维(1943-)男,博士,教授,博士生导师,主要研究领域为人工神经网络,模式识别,并行计算;赵艳敞(1977-)男,博士,主要研究领域为模式识别,数据挖掘;刘蕴辉(1976-)女,博士生,主要研究领域为人工神经网络,信息几何.1424 Journal of Software软件学报2005,16(8)参数空间之间的等距映射存在性证明,然后区分了嵌入空间维数、高维数据空间的固有维数和流形维数,并证明存在环状流形高维数据空间的参数空间维数小于嵌入空间维数.最后提出一种环状流形的发现算法,判断高维数据空间是否存在环状流形,进而估计其固有维数及潜在空间维数.在多姿态三维对象的实验中证明了算法的有效性,并得到正确的低维参数空间.关键词: Isomap;环状流形;等距映射;嵌入维数中图法分类号: TP391文献标识码: A在不同距离、不同方向,或在不同姿态和光照强度下,同一个对象能够形成多种不同的图像.一个对象所有图像的集合可以看作是以位置、尺度、姿态、光照等为参数的一个高维空间流形.人类能够感知由同一个对象产生的变化着的信号,并能够正确地识别.为了更精确地刻画图像和其他感知刺激的变化,采取数学方法是非常必要的.如果每一个像素都对应于空间中的一维,那么一幅图像就可以看作高维图像抽象空间中的一个点,一个对象在不同方向上所有图像的集合就是图像空间中的一个连续流形.文献[1]认为,流形是感知的基础,经过自然界长期进化的人脑能够用流形的方法表示对外界对象的感知.大量神经元对信息的编码方法成为我们对人脑表示方法研究的基础,如果一个神经元的触发率对应于一维,那么图像信息就能够由与像素个数相等的神经元来表示.神经生理学家已经发现,群体中神经元的点火率都能够表示为几个变量的连续函数,比如人眼转动的角度和头旋转的方向,这说明群体活动被限定在低维空间光滑流形上,所以在理解人脑如何从神经动力学中产生感知时,流形的低维嵌入起到非常重要的作用.很多科学家都在寻求发现嵌入在高维数据中有意义低维结构的方法,对流形学习算法的研究引起了广泛的兴趣.对于由一个对象在不同参数(如不同光照和姿态)下的数字图像组成的流形M,其参数的个数未知,相应的参数值也未知.但是对于图像理解和图像编码这样的问题,学习图像流形的结构和发现潜在的参数又是非常有用的,比如人脸识别中不同表情的人脸和目标检测中目标的姿态等.利用分散样本进行流形学习一直是一个令人关注的难题,现在也已经有了一些高维数据低维表示方法,比如主成分分析(PCA)、独立分量分析(ICA)、Fisher判别分析(FDA)、多维尺度分析(MDS)等.这些大都是线性的方法,所以对于那些非线性结构的数据就无能为力,而非线性降维技术则能产生较好的结果.LLE[2]和Isomap[3]是两种有代表性的非线性降维方法.Roweis 和Saul提出的LLE算法能够实现高维输入数据点映射到一个全局低维坐标系,同时保留了邻接点之间的关系,这样,固有的几何结构就能够得到保留.此算法不仅能够有效地发现数据的非线性结构,同时还具有平移、旋转等不变特性.Tenenbaum等人提出的Isomap算法首先使用最近邻图中的最短路径得到近似的测地线距离,代替不能表示内在流形结构的Euclidean距离,然后输入到多维尺度分析(MDS)中处理,进而发现嵌入在高维空间的低维坐标.在人脸和手势的实验中,Isomap发现了存在于高维空间中的潜在低维参数空间.Donoho等人[4]用人工合成(实验者可以事先知道其潜在的参数,比如平移、旋转等)的数据用Isomap算法进行测试实验,实验结果表明,Isomap能够准确地发现图像流形潜在的参数空间,并在自然图像(人脸图像)中不同姿态和亮度等潜在的未知参数下也可得到较好的结果.Donoho等人还拓展了LLE算法,提出HLLE算法[5],能够发现流形上局部的潜在等距映射参数.张长水等人[6]在LLE的基础上提出一种从低维嵌入空间向高维空间映射的方法,并在多姿态人脸图像的重构实验中得到有效的验证,进一步完善了非线性降维方法.虽然这些算法都要求知道嵌入空间的维数,但很少有文献对它进行分析和估计.文献[6]使用的是文献[3]中的方法,而在文献[3]中只是通过剩余方差与维数的关系来估计d值的范围.Marzia Polito和Pietro Perona[7]提出了应该首先知道嵌入空间维数,但没有给出一个有效的方法.本文首先介绍了Isomap算法,并通过两个典型流形的实验结果,提出嵌入空间的维数问题.第2节给出了连续流形与其低维参数空间等距映射的存在性证明,完善了Isomap的理论基础,并指出在圆筒形曲面实验中之所以没有能够发现潜在的结构,是因为没有能够正确估计嵌入空间的维数.然后区分了嵌入空间维数、高维数据的固有维数与流形维数,并且证明如果数据空间存在环状流形,则流形维数要小于数据的固有维数,从而说明了并非任何情况下二维流形都能够嵌入在二维空间.第3节给出一种环状流形发现算法.根据此算法,能够判断数据空间是否存在环状流形.第4节在多姿态三维对象的实验中证明了算法的有效性,并得到正确的低维参数空赵连伟 等:高维数据流形的低维嵌入及嵌入维数研究1425间.最后总结全文. 1 Isomap ——非线性降维算法1.1 Isomap 的主要思想及算法步骤Tenenbaum 等人提出的Isomap 算法[3]的主要思想就是首先计算流形上的测地线距离,然后应用MDS 算法,发现嵌入在高维空间的低维坐标,这样Isomap 就通过数据间的测地线距离,保留了数据固有的几何分布结构.下面给出标准Isomap 算法,共3步:Step 1. 构建输入空间X 中流形M 上所有数据点x i ,i =1,2,…,N ,X i ∈R D 的邻接图,距离定义为Euclidean 距离),(j i d x ,邻接关系定义为ε球或K 最近邻.Step 2. 通过计算图G 上两点间的最短路径),(j i d G 估计流形M 上测地线距离),(j i d M ,得到的矩阵)},({j i d D G G =为图G 上任意两点间的最短路径距离.Step 3. 应用MDS 算法,构建d 维Euclidean 空间Y 上的嵌入.详见文献[3].Isomap 的有效性在人工合成数据和自然图像的实验中已经得到验证.1.2 使用Isomap 降维实验在文献[3]中,使用Swiss roll 数据集说明Isomap 近似计算测地线距离以及降维的过程,并得到较好的结果.这里使用Cylinder 数据集进行实验,如图1所示,随机选择1000个数据点,使用Isomap 算法降维,其中每一数据点的最近邻连接数7=k ,投影到二维空间.图2为得到的维数和剩余方差的关系,可以看出,在维数大于2时,随着维数的增加,剩余方差并没有减少.Fig.1 The Cylinder manifolds Fig.2 The relationship between dimensionality andresidual variance applying Isomap 图1 Cylinder 流形 图2 对Cylinder 数据集应用Isomap 得到维数和剩余方差的关系图3给出Isomap 对二维投影结果,可以看出Cylinder 的投影图上只保留了圆面上的距离,高度上的距离丢失,而不同于Swiss roll 的投影图很好地保留了邻接图中的最短路径距离,这表明Isomap 很难对Cylinder 进行降维.这就产生一个问题:是Isomap 降维不适用于所有的光滑流形,如像Cylinder 之类的流形,还是另有其他原因?Fig.3 Two-Dimensional projections from the cylinder by Isomap图3 应用Isomap 得到Cylinder 数据集的二维映射图−30 −20 −100102030−−−1020301426 Journal of Software 软件学报 2005,16(8) 2 光滑流形与低维参数空间等距映射存在性Isomap 算法基础就是假设光滑流形M 和参数空间(R d 的子集)之间存在等距映射,使我们能够找到内在的映射参数.如果有满足一定条件的等距映射存在,Isomap 就适用.文献[4]给出了存在等距映射的条件(定理1),并证明了一些特定条件下等距映射存在,但是对于一般光滑流形与低维参数空间之间等距映射的存在性没有给予证明.定理1. 假设参数图像族f (θ):R 2→R ,f (θ)属于L 2,且在L 2上可微,其中θ∈Θ,Θ为参数空间.如果总存在一个0>c ,使得)(0θf 和)(1θf 间的测地线距离可以由下式表示:20110),(L c G θθθθ−=,则(Θ,G )和(Θ,||⋅||)之间存在等距映射,且Isomap 成立,并能发现潜在的参数空间.这里,)(θf 可以看作是光滑流形M 上的点,所以此定理对于一般光滑流形情况同样适用.这样,只要能够证明一般光滑流形与其低维参数空间存在等距映射,就可以得到Isomap 对一般光滑流形适用的结论.光滑流形M 上两点0y ,1y 之间的测地线距离为连接两点最短的曲线长度,表示为})1(,)0(:)(inf{);,(1010y y l M y y d ===γγγ (1)命题. 对于任意光滑流形M ⊆R d ,Θ⊆R m 为其低维参数空间,则(Θ,G )和(Θ,||⋅||)之间存在等距映射.在证明之前,我们首先给出共形映射以及等距映射的定义.定义1.M →Θϕ:称为共形映射,如果ϕ是双可微映射,如果对于任意的Θθ∈,具有保角性和伸缩不变性,即对于Θ上任意的切向量v 和w ,都有w v w d v d T T )()()(θϕϕϕθθ′=,其中,0))(>′θϕ称为伸缩率.如果对所有的θ∈Θ,都有1)(=′θϕ,则ϕ称为等距映射.证明:对高维流形d R M ⊆,令Θ⊆R m 为其参数空间,则存在映射M →Θϕ:,即)(Θϕ=M .流形M 上测地线距离可以表示为t t l L d )()(1 0 2∫′=γγ,其中,M →]1,0[:γ.令ΘΓ→]1,0[:是m R 上光滑曲线,则任意光滑曲线M →]1,0[:γ能够表示为))(()(t t Γϕγ=,那么,曲线的长度∫∫′=′=10 1 0 d )())((d ))(()(t t t J t t l ΓΓΓϕγϕ (2) 考虑非线性共形映射ϕ,由共形映射的定义可知,在曲面上的切线向量之间的夹角和参数空间中相应的向量之间的夹角相等,所以无论空间Θ经映射ϕ在M 上如何变形,M 上的测地线距离和Θ上的Euclidean 距离都保持一定的关系.又因为M →Θϕ:为两个流形上的共形映射,Γ为Θ上的曲线,则对任意的点Θ∈x ,切向量为v ,切映射为x d ϕ,那么在M 上点)(x ϕ的切向量为v d x ϕ.如果v 是Θ上Γ的方向,v d x ϕ就是M 上曲线)(x ϕ的方向.因为M →Θϕ:为共形映射,所以有m T I J J )()()(θϕθθϕϕ′=,这里,m I 是一个m 阶单位矩阵.代入式(2),曲线长度可以表示为∫′′=10 d )())(()(t t t l ΓΓϕγ (3)因为在m R 中任意两点之间的最短路径等于连接它们的直线长度,若Θ为开的凸集,则在光滑曲线上有)()(010θθθΓ−+=t t ,其中0θ为起点,1θ为终点,]1,0[∈t .代入式(3)有0110 10 01d ))((d ))(()(θθΓϕθθΓϕγ−′=−′=∫∫t t t t l (4)如果对于任意的Θθ∈,都有c t =′))((Γϕ为常数,那么点0y ,M y ∈1之间的测地线距离为0110);,(θθ−=c M y y d .由定理1可知,),(G Θ和(Θ,||⋅||)之间存在等距映射.所以对于任意光滑流形M 可以通过计算M 上点之间的赵连伟 等:高维数据流形的低维嵌入及嵌入维数研究1427 测地线距离,计算Θ上点之间的Euclidean 距离. □从上面的讨论可以看出,测地线距离对于研究高维空间中的流形是非常重要的.(Θ,G )和(Θ,||⋅||)之间如果存在一个等距映射,那么就可以从M 中获得其潜在的参数空间Θ和参数值θ,并重新描述参数空间.然而,计算测地线要经由ϕ及其Jacobian 矩阵,但一般情况下ϕ很难求出,这里我们只是证明了其存在性.在证明中,需要假设Θ是一个开的凸集,原因在于,如果流形上有一个洞,测地线曲线需要绕这个洞,即使有J ϕ(θ)T J ϕ(θ)=c (θ)I m ,0110);,(θθ−=c M y y d也不一定成立.虽然在非凸的情况下,等距依然成立,但是成比例的性质不再成立.当c 为任意函数时,就可以进行任意的拓扑映射.只是恒等于1时,ϕ为等距映射,要求更为严格.这也说明了为什么虽然Cylinder 数据集在拓扑上和二维是同胚的,但二者不存在等距映射,所以不能利用等距映射投影到二维空间.测地线距离是流形的全局性质,而等距映射则是每个点附近的局部性质.测地线距离和参数空间中的Euclidean 距离成比例是等距的结果,所以Isomap 使用等距映射,得到高维流形的低维嵌入空间,一个前提条件就是要能够覆盖其全局性质,即要知道低维嵌入空间的维数.在很多算法中都要求预设低维嵌入空间维数作为参数,对其参数分析和估计却很少涉及.能够决定嵌入空间维数的一个基本概念是高维数据集的固有维数,反映的是流形的固有性质,对固有维数的研究也有很多算法[8−11].如果一个数据集能够完全嵌入在一个d 维子空间中,而不损失信息,则认为其嵌入维数等于d .流形维数大多是指在损失较少信息的情况下其子流形的维数.准确地讲,固有维数是流形维数的上界,是嵌入空间维数的下界.由此可见,Isomap 能够发现光滑流形上的潜在参数空间,但在Cylinder 数据集的实验中,失败的原因在于混淆了流形维数和嵌入空间维数,使用了未能覆盖其全局性质的流形维数.如何利用拓扑方法研究固有维数,然后确定嵌入空间维数呢?3 一种环状流形发现算法拓扑方法是估计数据流形维数的常用的重要方法之一.一般情况下,m R 中的正则曲线γ:(a ,b )→R m 是一维嵌入子流形,同样,m R 中的正则曲面是m R 的二维嵌入子流形.而Whitney 定理同时表明,任意高维Euclidean 空间的嵌入子流形囊括了所有可能的m 维光滑流形,所以嵌入子流形的状态是十分复杂的.定义2. n 维球面S n ={x :x ∈R n +1,|x |=1}为n 维光滑流形,一维单位球面1S 就称为一维光滑流形,r 维环面r T 定义为r 个1S 的积流形11...S S T r ××=.拓扑学已经证明了m S 不可能与m R 同胚,比如圆不可能与直线同胚,球面也不可能与平面区域同胚,存在环面的低维流形其固有维数大于拓扑流形维数的.Robert Pless 和Ian Simon [12]对环状流形进行了研究,并针对球形、柱形、环形等流形,利用测地线距离,分别给出了拓展的MDS 算法,嵌入到低维空间中,但其要求首先要知道流形的形状,但是否存在环状流形以及如何判断流形形状却没有提及.本节在流形定向理论的基础上提出一种环状流形发现算法,根据此算法能够判断高维数据空间中是否存在潜在的环状流形,并且可以根据流形上存在的环状,通过拓扑维数进一步估计其固有维数.定义3. 设M 是m 维的光滑流形,如果存在M 的一个允许的坐标卡集)},{(0ααϕU A =,使得}{αU 构成M的开覆盖,并且当U α∩U β≠∅(不为空)时,坐标变换)()(:1βαββααβϕϕϕϕU U U U I I o →−的Jacobi 行列式0)(det 1>⎟⎟⎠⎞⎜⎜⎝⎛∂∂−j i x ααβϕϕo (2) 则称M 是可定向的m 维光滑流形.若M 是一个可定向的连通光滑流形,在任意一点M p ∈的切空间T p M 上指定一个定向,则通过该定向沿着从点p 出发的任意一条路径的传播在每一点M q ∈的切空间T q M 上唯一地确定了一个定向.对于M 中任意一条闭路径M →]1,0[:γ,即)1()0(γγ=,使得在T γ(0)M 中的一个定向λ沿着γ的传播在T γ(1)M =T γ(0)M 上都能够获1428 Journal of Software 软件学报 2005,16(8) 得相同的方向,这样就能够发现流形上的环状.对于空间曲线(面),取得标架场};{e p ,使得e 为曲线(面)的切向量.很明显,这个标架场给出了切空间的定向沿着曲线EF 的连续延拓.如果点p 沿着该曲线从E 到F,再回到E 时,e 和原来的方向是一致的,则存在环状流形.下面给出一种环状流形发现算法的步骤:设输入空间X 中流形M 上所有数据点为D i i R X N i x ∈=,,...,2,1,,Step 1. 构建邻接图.方法同Isomap 算法Step 1.对于所有数据点构成的图G ,找到每个点的邻接点.Step 2. 选择i X p =为起始点.Step 3. 选取X i k 个近邻中的一个X j ,计算空间标架场};{e p ,计算为流形方向e =X j −X i ,并令q =X j .Step 4. 发现X j 的k 个近邻中与切空间方向相同的方向k X ,并令k X q =;如果不存在,则执行Step 3,选择下一个近邻.Step 5. 如果q 能够沿着一定的路径回到起始的样本点i X ,则存在从i X 开始的环状流形.Step 6. 选择下一个l X p =为起始点,重复Step 2~Step 5,直到选遍所有n 个数据点为止.用n 表示样本点的个数,k 表示每个节点的近邻数.以其中一点为起始点进行一趟循环在最坏情况下的O (kn )时间来完成,所以算法选遍n 个样本点最坏情况下的时间复杂度为O (kn 2).另外,本文提出的环状流形发现算法能够发现高维数据空间中的低维环状流形,其理论基础是取得定向流形上某处的标架场};{e p ,而标架场的取得并不受维数的限制.但是对于高维流形上的复杂数据来说,无论是从数值算法还是从实际应用来讲都有一定的困难,一是因为算法使用图的最短路径逼近测地线距离,需要大样本;二是因为随着维数的增加,对样本量的需求也呈指数增加.本文提出的算法主要适用于高维观察数据嵌入的低维子流形情况.4 仿真实验我们进行对象实验的对象数据集为COIL-20 (Columbia object image library)数据库.数据库中共有20个对象,对每一个对象从0°~360°进行水平方向的旋转,每隔5°采样一幅图像,这样每一对象共有72幅图像.整个数据库共有1440幅图像,图像大小为64×64,向量化图像以后,观察数据的维数D =4096.在这样一个高维空间中,使用稀疏样本很难描述数据分布.在对象识别过程中,这种多姿态的对象识别还是非常困难的,特别是姿态估计.对象旋转时,图像的变化是光滑的,我们可以把它看作是连续的;又因为它是由一个自由度变化产生的,所以又是一维的.所以说这个流形可以看作是嵌入在高维图像空间中的一维光滑流形.图4给出一个对象的图像部分样本(每30°取一个样本).…………………………Fig.4 Example of multi-pose object images图4 多姿态对象图像示例实验1. 选定一个对象从0°~180°共36幅图像样本,首先使用环状流形发现算法,结果没有能够发现环状流形,这时映射维数等于拓扑维数,所以能够投影到一维空间.使用Isomap 在一维和二维空间的投影结果如图5所示.实验中我们发现,投影在一维空间和二维空间剩余方差的变化并不大,所以剩余方差和维数的关系不能作为估计嵌入空间维数的标准.又因为可以投影在一维空间,所以可以认为图像流形的变化由一个参数引起——旋转的角度,从图中也可以看出,从左到右,随着旋转角度的变大,在横轴的投影也越来越大.实验2.选定一个对象从0°~360°全部的72幅图像样本,首先使用环状流形发现算法,结果发现存在一条环状路径,所以不能投影到一维空间.这时考虑投影到更高维的空间——二维.使用Isomap 算法,投影结果如图6赵连伟 等:高维数据流形的低维嵌入及嵌入维数研究1429所示.图中发现旋转一周的图像流形投影在二维空间形成一个近似于圆的流形.Fig.5 Output data points in one-dimensional (left) and two-dimensional (right) embedded space andthe corresponding images respectively图5 投影到一维(左)和二维(右)空间数据点和相应的对象图像Fig.6 Output data points in two-dimensional embedded space and the corresponding images图6 投影到二维空间数据点和相应的对象图像综合实验1的结果我们可以认为,图像流形变化是由一个参数变化引起的,而且完全可以通过流形学习的方法发现潜在的参数空间.但是即使同样是一维流形,同样的一维参数空间,却不能同样地投影到一维空间. 5 结 论流形方法现已成为研究人类感知的一种重要方法,发现高维观察数据中有意义的低维嵌入空间是研究高维流形空间的有效途径.Isomap 是一种有效的非线性降维方法,在一些实验中也发现了潜在的低维参数空间.但是,其算法的前提是假设光滑流形M 及其参数空间d R 的子集之间存在等距映射.本文从理论上对这种等距映−2−1 0 1 2 −1 −0.50 1 ×10 −2−1012104 −−Two-Dimensional Isomap embedding ×104−1−0.50.511430 Journal of Software软件学报2005,16(8)射的存在性进行了探讨;然后区分了高维数据空间的固有维数和嵌入在其中的低维参数空间维数这一对容易混淆的概念.三者在一些情况下是一致的;如果高维数据空间存在环状流形,流形维数则要小于嵌入空间维数.本文提出一种环状流形发现算法,能够有效地判别高维数据空间是否存在环状流形.实验结果证明了算法的有效性.尽管流形学习的算法和应用在过去的几年中已经取得了丰硕的成果,但是由于其数学理论基础较为复杂,以及多个学科之间交叉、融合,所以对高维数据中有意义的低维结构的研究依然有很多值得进一步探讨的问题,比如对于高维数据固有维数的估计虽然已经提出很多算法,但大都要求较大的样本集.References:[1] Sebastian HS, Lee DD. The manifold ways of perception.Science, 2000,290(12):2268−2269.[2] Roweis ST, Saul LK. Nonlinear dimensionality analysis by locally linear embedding. Science, 2000,290(12):2323−2326.[3] Tenenbaum JB, de Silva V, Langford JC. A global geometric framework for nonlinear dimensionality reduction. Science, 2000,290(12):2319−2323.[4] Donoho DL, Grimes C. When does ISOMAP recover the natural parameterization of families of articulated images? TechnicalReport, 2002-27, Department of Statistics, Stanford University, 2002.[5] Donoho DL, Grimes C. Hessian eigenmaps: New locally linear embedding techniques for high-dimensional data. Proc. of theNational Academy of Sciences, 2003,100(10):5591−5596.[6] Zhang CS, Wang J, Zhao NY, Zhang D. Reconstruction and analysis of multi-pose face images based on nonlinear dimensionalityreduction. Pattern Recognition, 2004,37(1):325−336.[7] Polito M, Perona P. Grouping and dimensionality reduction by locally linear embedding. Neural Inform Process Systems, 2001,1255−1262.[8] Lee MD. Determining the dimensionality of multidimensional scaling models for cognitive modeling. Journal of MathematicalPsychology, 2001,45(4):149−166.[9] Camastra F. Data dimensionality estimation methods: A survey. Pattern Recognition, 2003,36:2945−2954.[10] Liu XW, Srivastavab A, Wang DL. Intrinsic generalization analysis of low dimensional representations. Neural Networks, 2003,16:537−545.[11] Camastra F, Vinciarelli A. Estimating the intrinsic dimension of data with a fractal-based method. IEEE Trans. on Pattern Analysis,2002,24(10):1404−1407.[12] Pless R, Simon I. Embedding images in non-flat spaces. Technical Report, WU-CS-01-43, Washington University, 2001.。
高维数据分析与降维技术

高维数据分析与降维技术高维数据分析是近年来数据科学领域中的一个重要研究方向。
随着信息技术的快速发展,我们可以轻松获取到大量的数据。
然而,这些数据往往具有高维度的特征,给数据分析带来了许多困难。
高维数据不仅增加了计算和存储的复杂性,还可能导致过拟合等问题。
为了克服这些问题,降维技术成为了高维数据分析的重要手段。
1. 主成分分析(PCA)主成分分析是一种常用的降维技术,其基本思想是通过线性变换将原始数据映射到一组新的正交特征上。
这组新特征被称为主成分,主成分之间无相关性,并且按照方差从大到小排列。
主成分分析通过保留数据集中的主要信息,将高维数据映射到低维空间中,从而实现对数据的降维处理。
主成分分析在数据预处理、图像处理和模式识别等领域中广泛应用。
2. 线性判别分析(LDA)线性判别分析是一种具有监督性的降维技术,常用于模式分类和特征提取。
与主成分分析不同,线性判别分析考虑了类别信息。
它试图找到一个投影,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能分开。
线性判别分析旨在提高分类的准确性和可分性。
3. 流形学习(Manifold Learning)流形学习是一种非线性的降维技术,特别适用于具有复杂非线性结构的高维数据。
流形学习的基本思想是将高维数据嵌入到一个低维流形空间中,并保持数据之间的局部关系。
常见的流形学习算法包括局部线性嵌入(LLE)、等距映射(Isomap)和拉普拉斯特征映射(LE)。
这些算法通过学习数据的流形结构,实现对高维数据的降维和可视化。
4. 随机投影(Random Projection)随机投影是一种简单而有效的降维技术,其基本原理是将高维数据映射到低维空间中的随机子空间。
随机投影在保留数据的几何结构的同时,具有较低的计算复杂度。
尽管随机投影在理论上可能会引入一定的失真,但实际应用中通常能够满足降维的要求。
5. 核主成分分析(Kernel PCA)核主成分分析是主成分分析在非线性空间中的扩展,通过引入核函数将数据映射到高维特征空间中,然后在高维空间中进行PCA分析。
基于流形学习的数据降维与分类研究

基于流形学习的数据降维与分类研究现如今,随着社会进步,大数据时代的到来使得数据处理成为了一项关键的任务。
数据在各个领域中被广泛使用,例如金融、医疗、教育等,然而,数据量极大而且经常包含垃圾数据,这使得我们需要一种有效地处理和分析数据的方法。
为此,许多研究人员致力于发展不同的数据降维和分类方法,以充分利用大量的数据,其中一种新的方法是基于流形学习的数据降维和分类。
1. 流形学习流形学习是一种非线性数据降维和分类之间的技术,它能够相应的降低原始数据的维度,同时也可以帮助我们在更低的维度上对数据进行更好的分类。
流形学习的基本想法是通过将原始数据转换到一个较低的维度空间下,在保留数据大部分可分性的同时,还可以保留其原有的结构信息。
流形学习所使用的方法可以是各种非线性的变换方法,如核函数转换、局部线性嵌入和等距映射等。
2. 流形学习的应用流形学习可以广泛应用于许多领域,包括图像处理、语音识别、数据挖掘、计算机视觉等。
例如,在图像处理领域中,流形学习可以用于图像降噪和图像分类等问题。
在语音识别领域中,流形学习可以用于语音信号的特征提取和模式分类。
3. 数据降维数据降维是指将高维度数据降低到低维度空间中,并保留原始数据的问题。
在数据降维中,最常用的方法是PCA(主成分分析)和LDA(线性判别分析),但这些方法可能不适合非线性的数据。
流形学习则提供了一种非线性的方法,可以将高维数据压缩到低维度空间中,从而更好地发现数据的隐含结构。
4. 数据分类流形学习不仅可以用于数据降维,还可以用于数据分类。
通过将高维数据降维到低维空间中,我们可以更好地理解数据的本质,并在此基础上进行更好的分类。
例如,在医疗领域中,我们可以使用流形学习方法将高维医学数据降维到低维空间中,并使用分类器来对不同疾病进行分类。
5. 结论通过流形学习的应用,我们可以在更低维度空间中对数据进行更好的理解和分类,同时也可以降低计算成本和处理时间。
随着相关技术的发展和优化,我们相信基于流形学习的数据降维和分类将会在未来有更广泛的应用。
流形学习算法及其应用研究共3篇

流形学习算法及其应用研究共3篇流形学习算法及其应用研究1流形学习算法是一种机器学习算法,其目的是从高维数据中抽取出低维度的特征表示,以便进行分类、聚类等任务。
流形学习算法的基本思想是通过将高维数据变换为低维流形空间,从而保留数据的本质结构和信息。
近年来,流形学习算法得到了越来越多的关注和应用。
以下我们将介绍一些常用的流形学习算法及其应用。
一、常用的流形学习算法(一)局部线性嵌入(Locally Linear Embedding,简称LLE)LLE算法是一种无监督的流形学习算法,它把高维数据集映射到低维空间,保留了数据间的局部线性关系,即原始数据点集中的线性组合权重。
LLE算法的核心思想是假设所有数据样本都是从某个流形空间中采样得到的,并通过寻找最小化误差的方式来还原流形结构。
LLE算法有着较好的可解释性和良好的鲁棒性,同时可以有效地应用于图像处理、模式识别等领域。
(二)等距映射(Isomap)Isomap算法是一种经典的流形学习算法,它可以从高维数据中提取出低维流形空间,并且保留了数据间的地位关系。
它的基本思想是将高维数据转化为流形空间,从而保留了数据的全局性质。
等距映射算法可以应用于数据降维、探索数据关系等领域,并已经在生物学、计算机视觉等领域得到广泛应用。
(三)核主成分分析(Kernel Principal Component Analysis,简称KPCA)KPCA算法是一种非线性的流形学习算法,可以有效地处理非线性问题。
KPCA通过使用核函数来将数据映射到高维空间,然后应用PCA算法进行降维。
KPCA算法在图像识别、人脸识别、语音识别等领域应用广泛。
(四)流形正则化(Manifold Regularization)流形正则化算法是一种半监督学习算法,它可以有效地利用已经标记的数据和未标记的数据来进行分类或回归。
其基本思想是通过在标记数据和未标记数据之间构建连接关系,利用非线性流形学习算法对数据进行处理。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第10卷 第5期大连民族学院学报Vol .10,No .5 2008年9月Journal of D alian N ationalities UniversitySeptembe r 2008文章编号:1009-315X (2008)05-0441-03高维数据流形的低维嵌入问题研究吴晓婷1,马玉梅2(1.辽宁师范大学计算机与信息技术学院,辽宁大连116029;2.大连民族学院理学院,辽宁大连116605)摘 要:Is o m ap 是基于流形理论提出的一种非线性降维方法,用于恢复潜藏于高维空间低维子流形中数据的低维参数。
Is omap 方法的一个重要前提是假设数据空间与参数空间之间存在等距映射。
通过流形学习和对Iso map 方法的分析,证明了高维数据空间与参数空间之间存在一般意义下的等距映射,并引用一个基于Iso map 的实例说明Is o m ap 算法的有效性。
关键词:流形;等距映射;Is o m ap;测地线距离;数据降维中图分类号:TP18文献标志码:AThe Resea rch on the M ean i n gfu l L ow -D i m en siona l Em bed ofH igh -d i m en siona l Da ta M an i f oldW U X i a o -t i n g 1,M A Yu -m e i2(1.College of Compute r and Infor ma tion Technol ogy,L i aoning No r ma l University,Da lian Liaoning 116029,China;2.Coll ege of Sc ience,Da lian Na ti onalities University,Da lian L i aoning 116605,China)Ab stra ct :Is om ap is a non -linear di mensi onality reducti on m ethod based on the theory of man 2if old to r ecover a low -di m ensi onal para m ete rs lying on a l ow -di m ensional sub -m anifold in high -di m ensional s pace .The i mportant p r econditi on of Iso m ap is supposing that there is an i 2som etric mapp ing bet ween the data s pace and the para m ete r space .This paper pr oved the exist 2ence of is om etric m a pp ing bet ween high -di m ensi onal data space and the para m eter s pace .And we als o use some exa mp les based on I som ap t o expla in the effectiveness of I som ap.Key word s:m anifold;is om etric m apping;is om ap;geodesic distance;data di mensi ona l reduc 2tion1 概 述在不同距离、不同方向,或在不同姿态和光照强度下,同一个对象能够形成多种不同的图像。
一个对象所有图像的集合可以看作是以位置、尺度、姿态、光照等为参数的一个高维空间数据流形,其维数由引起图像变化的参数个数决定。
随着信息时代的到来,科研工作者在研究过程中不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布等,通过降维可以找出隐藏在高维数据中的低维结构。
本文旨在通过流形学习,分析Is om ap 的方法,并给出文献[1](对于一个参数化的图像族f θ∶R 2→R 等距映射存在性)的证明,即对于L 2上一族平移函数存在等距映射,应用实例说明Is om ap 算法的有效性。
1.1 流形的定义定义1 设M 是Hausdorff 空间,如果M 是局部欧氏的,即对每一点p ∈M ,都存在p 的一个开邻域U 和R m 中的一个开子集同胚,则称M 是一个m 维流形。
3收稿日期作者简介吴晓婷(5),女,内蒙古呼伦贝尔人,辽宁师范大学计算机与信息技术学院硕士研究生,主要从事模式识别研究。
:2007-09-01:198-442 大 连 民 族 学 院 学 报第10卷 流形是拓扑学中的概念,其表示一个局部为欧几里得的拓扑空间,即意味着对于空间上任一点都有一个邻域,在这个邻域中的拓扑与R m空间中的开单位圆相同。
也就是说,流形是一个局部可坐标化的拓扑空间,从拓扑空间的一个开集(邻域)到欧氏空间的开子集的同胚映射,使得每个局部可坐标化。
1.2 流形学习的产生及发展流形学习方法最早提出来是用于数据降维。
由于人们通常需要处理大量的高维数据,比如天气状况、星云图、人类的基因分布等,都要遇到数据降维的问题,即找出隐藏在高维的可观察数据空间里的一种有意义的低维结构,这个寻找的过程就称为流形学习(m anifold learning)。
近年来,流形学习领域产生了大量的研究成果。
2000年,Ro weis和Saul提出了LLE[2]算法。
此算法不仅能够有效地发现数据的非线性结构,同时还具有平移、旋转等不变特性。
但LLE算法要求所学习的流形只能是不闭合的且在局部是线性的,还要求样本在流形上是稠密采样的。
另外,该算法的参数选择不确定,对样本中的噪音很敏感。
同年,Tenenbaum等人提出了Is om ap[3]算法。
Is om ap算法首先使用最近邻图中的最短路径得到近似的测地线距离,然后输入到多维尺度分析(MDS)中处理,进而发现嵌入在高维空间的低维坐标。
最近2年,Is om ap方法在国内引起了广泛的兴趣。
赵连伟[4]等人在2005年完善了Is om ap的理论基础,给出了一般光滑流形与其低维参数空间等距映射的存在性证明,并给出一种有效的环状流形发现算法。
2 Iso map算法及等距映射存在性2.1 Is om ap的主要思想及算法步骤Is om ap算法的主要思想是使用流形上测地线距离代替不能表示内在流形结构的Euclidean 距离,然后应用MD S算法,进而发现潜入在高维空间的低维坐标。
所谓任意两点在流形上的测地线距离是两点之间沿着流形的最短路径。
如图1[5]的A中样本分布于s wiss-r oll上,两点间的欧氏距离(虚线)不能表征两点的实际距离,分布于流形面上的曲线是两点的测地线距离;B,C是Is om ap降维后两点和两条路径(测地线和短程拼接)的投影结果。
图1 Is oa mp基本思想 Is om ap算法的标准步骤有三步:(1)构建输入空间X中流形M上所有数据点x i ,i=1,2,……,N,xi,∈R D的邻接图G,距离定义为Euclidean距离dx(i,j),邻接关系定义为ε球或K最近邻。
(2)通过计算图G上两点间的最短路径dG (i,j)估计流形M上测地线距离dM(i,j),得到的矩阵D G={d G(i,j)}为图G上任意两点间的最短路径距离。
(3)应用MDS算法,构建d维Euclidean空间Y上的嵌入。
等距映射的存在性定义[] M为L上的子流形。
假设M上的测地线距离与参数空间Θ上的欧氏距离成比例,那么,就说(Θ,G)与(Θ,‖‖)是等距的,且Is om ap成立。
定理1[2] 假设有一个参数化的图像族fθ∶R2→R,它由一个普通原形的平移fθ(x)=f0(x-θ)定义,且f<L2并在L2上可微。
如果对于一个适当的常数c>0,fθ,fθ1间的测地线距离有如下形式:G(θ0,θ1)=c‖θ0-θ1‖,则等距存在且Is o2 m ap完全成立。
下面考虑一般意义下的等距映射。
设(X,d1), (Y,)是两个度量空间,T∶X→Y为等距映射是指(x,y)=(Tx,Ty)。
事实上定义中的等距是一种与距离成比例的关系。
进一步可以推出满足2.2212d2d1d22第5期吴晓婷,等:高维数据流形的低维嵌入问题研究443 定义2的空间存在一般意义下的等距映射。
定理2 M为L2上的子流形。
假设M上的测地线距离与参数空间Θ上的欧氏距离成比例,那么度量空间(Θ,G)与(Θ,‖‖)存在等距算子。
证明 如果存在常数c>0,使得G(θ,θ1)=c‖θ0-θ1‖。
令映射T(θ)=1cθ,由于G(θ,θ1)=c‖θ0-θ1‖,这样G(Tθ0,Tθ1)=c‖Tθ0-Tθ1‖=c‖T(θ0-θ1)‖=c‖1c(θ-θ1)‖=‖(θ-θ1)‖,即(Θ,G)与(Θ,‖‖)间存在等距映射。
3 Is oamp方法的应用Is om ap在高维医学数据处理中的一个应用是针对肺癌数据的一个降维实验[6]。
由PC A和Is om ap降维后的结果分别如图2、图3(图中:3、□、△、○、+分别表示小细胞肿瘤、大细胞肿瘤、鳞状细胞肿瘤、正常肺细胞和腺癌)。
图2 肺癌基因表达数据的PCA投影结果图3 肺癌基因表达数据的Is omap投影结果 从图2、图3中可以看出,P CA降维后,样本分布比较杂乱,而且有重叠;而Is om a p使用保持数据内部本质结构不变的测地线距离,应用Is o2 m ap投影后,病理学上属于不同类别的肺癌样本在空间中基本上形成各自的聚集。
可见,在Is o2 m ap投影结果中各类聚集性更好,从而也说明了Is om ap是一种有效的非线性降维方法。
4 结 语Is om ap方法是一种有效的非线性降维方法。
该算法的前提是假设高维数据流形与其低维参数空间之间存在等距映射。
尽管流形学习的算法和应用在过去的几年中已经取得了丰硕的成果,但由于其数学理论基础较为复杂,对高维数据中有意义的低维结构的研究仍然有很多值得进一步研究和探讨的问题。
参考文献:[1]TE NE NBA UM J B,DE S I L VA V,LA NGFORD J C.Agl obal geo m etric fra m ework for nonlinear di m ensi onalityreducti on[J].Science,2000,290(12):2319-2323. [2]DO NOH O D L,G R I M ES C.When d oes IS O MAP recov2er the natura l para m ete rizati on of fam ilies of a rticul a tedi m age s[R].Technical Report,Depart ment of Statis2tics,S t anf ord University,2002.[3]RO W EIS S T,S AUL L K.Nonlinea r di m ensi ona lity a2nalysis by l oca lly linear e m beddi ng[J].Science,2000,290(12):2323-2326.[4]赵连伟,罗四维,赵艳敞,等.高维数据流形的低维嵌入及嵌入维数研究[J].软件学报,2005,16(8):1423-1430.[5]Z HANG Z Y,ZH A H Y.P rincipalm anif o l ds and non-linea r d i m ensi onality reducti on via tang ent s pace align2 ment[J].SI A M Journal of Scientific Co mputi ng,2005,26(1):313-338.[6]翁时锋,张长水,张学工.非线性降维在高维医学数据处理中的应用[J].清华大学学报:自然科学版,2004,44(4):485-488.(责任编辑 邹永红)。