高维数据的低维表示综述

合集下载

高维数据降维算法综述与评估

高维数据降维算法综述与评估

高维数据降维算法综述与评估数据的维度是指在描述每个数据点的特征数量,对于现在越来越流行的大规模数据分析来说,数据的维度往往非常高。

例如,在机器学习领域中,每个数据点非常复杂,可能包含了几百上千个特征,那么就需要对高维数据进行降维处理。

在这篇文章中,我们将综述和评估几种常见的高维数据降维算法。

一、主成分分析(PCA)主成分分析(PCA)是一种最常用的线性降维技术,它可以将高维数据投影到一个低维空间中,并保留最大方差。

PCA的主要思想是通过找到方差最大的数据维度,然后再找到与之正交的方差次大的维度,以此类推,直至找到需要的维度。

PCA的优点在于它非常快,简单易懂,适用于大多数数据集。

但它的缺点在于,PCA只能发现主要的线性结构,不能处理非线性结构。

二、流形学习流形学习是一类非线性降维技术,它的主要思想是将高维数据投影到低维空间中,并保持数据在低维空间中的局部结构和相对距离。

常用的流形学习方法有等距映射(Isomap)、局部线性嵌入(LLE)和拉普拉斯特征映射(LE)。

等距映射(Isomap)使用了图论中的最短路径算法来测量数据之间的相似性,然后在低维空间中重构相似度。

局部线性嵌入(LLE)假设数据分布在一个局部线性结构上,然后在降维后的低维空间中重构数据的局部线性关系。

拉普拉斯特征映射(LE)则是将数据点和他们邻居之间的相似度作为权重来计算特征向量,然后用这些特征向量来降维数据。

流形学习的优点在于它可以处理非线性结构,并保留数据的局部结构,但它的缺点在于,它对于训练集的密度和噪声非常敏感,并且它的计算复杂度比较高。

三、独立成分分析(ICA)独立成分分析(ICA)是一种非线性降维技术,它的主要思想是找到独立成分,并将其用作新的维度。

在ICA中,我们假设数据由多个独立的成分线性组合而成。

ICA的优点在于它可以发现数据中的非高斯结构,并且对于噪声和异常值有一定的鲁棒性。

但它的缺点在于,它对于成分数量有一定的假设,并且在计算成分时比较耗时。

高维数据降维方法研究与比较

高维数据降维方法研究与比较

高维数据降维方法研究与比较降维是数据处理领域中的重要问题,特别是在高维数据分析中。

高维数据指具有大量维度的数据,由于其维度高,数据分析和可视化变得困难,因此需要采用降维方法将数据映射到低维空间中。

本文将研究和比较几种常用的高维数据降维方法。

一、主成分分析(PCA)主成分分析是一种经典的线性降维方法,通过找到数据中最大方差方向的一组正交基,将高维数据映射到低维空间。

PCA的优点是简单且易于理解,可以保留较高比例的原始数据方差。

然而,PCA在处理非线性数据时效果欠佳,且无法处理样本之间的非线性关系。

二、独立成分分析(ICA)独立成分分析是基于统计学的降维方法,通过寻找数据中的独立成分,将高维数据分解为相互独立的子空间。

ICA适用于非高斯分布的数据,可以发现数据中的隐藏信息。

然而,ICA对数据分布的假设较强,对噪声和异常值敏感。

三、流形学习(Manifold Learning)流形学习是一种非线性降维方法,基于流形假设,认为高维数据存在于低维流形上。

流形学习可以通过保持数据局部特征结构来实现降维,能够较好地处理非线性数据。

常见的流形学习算法包括局部线性嵌入(LLE)、等距映射(Isomap)和拉普拉斯特征映射(LE)。

流形学习的不足之处在于对参数选择敏感,计算复杂度较高。

四、自动编码器(Autoencoder)自动编码器是一种基于神经网络的无监督学习模型,通过训练编码器和解码器来学习高维数据的低维表示。

自动编码器可以学习数据的高阶特征,对非线性数据具有较好的适应性。

然而,自动编码器容易过拟合,并且在训练过程中需要大量的计算资源。

总结来说,不同的高维数据降维方法各有优劣。

PCA适用于线性数据降维,ICA适用于非高斯分布数据,流形学习适用于非线性数据,自动编码器则可以学习高阶特征。

在实际应用中,可以根据数据的特点选择合适的降维方法。

同时,也可以结合多种降维方法进行综合分析,以获取更好的降维效果。

降维方法的比较需要考虑多个方面,如降维效果、计算复杂度、对异常值和噪声的敏感性等。

生物信息常用降维方法-概述说明以及解释

生物信息常用降维方法-概述说明以及解释

生物信息常用降维方法-概述说明以及解释1.引言1.1 概述生物信息降维方法是一种重要的数据分析技术,它能够将高维的生物信息数据转化为低维表示,从而降低数据的复杂性和维度。

随着生物信息学研究的快速发展和大规模数据的产生,降维方法在生物信息学领域中得到了广泛的应用。

生物信息数据通常包含大量的基因表达、蛋白质结构和生物通路等多种类型的信息。

这些数据往往具有高维的特点,即每个样本都会有成千上万个变量,给数据分析和解释带来了巨大的挑战。

而降维方法能够通过保留数据的主要信息和特征,将高维数据映射到低维空间,从而减少数据的维度,简化数据结构,并且保持数据的重要特性。

在生物信息学研究中,常见的降维方法包括主成分分析(PCA)、线性判别分析(LDA)、独立成分分析(ICA)等。

这些方法在不同的情况下有着各自的优势和适用范围。

例如,PCA能够通过线性变换找到数据集中的主要方差方向,实现数据的降维和可视化;LDA则是一种监督学习的降维方法,它在分类问题上具有良好的效果;而ICA则是一种非线性的降维方法,可以用于发现数据中的独立成分和因素。

生物信息降维方法的应用案例也非常丰富多样。

例如,在基因表达数据分析中,研究人员可以利用降维方法来识别和分类不同类型的细胞和组织,发现潜在的基因表达模式和调控网络;在蛋白质结构预测中,降维方法可以在保持结构特征的前提下减少计算复杂性,提高预测的准确性和效率;此外,降维方法还可以应用于生物通路分析、药物筛选等多个生物信息学研究领域。

总而言之,生物信息降维方法是一种强大而实用的数据分析技术,它能够提供对高维数据的深入理解和全面解释,为生物学研究提供重要支持。

随着技术的不断进步和方法的不断发展,我们有理由相信,降维方法在生物信息学领域的应用将会越来越广泛,并且为生命科学的研究和进步带来更多的突破。

1.2 文章结构文章结构部分的内容可以编写如下:文章结构本文主要介绍了生物信息中常用的降维方法。

高维数据降维处理算法及应用分析

高维数据降维处理算法及应用分析

高维数据降维处理算法及应用分析高维数据是指数据维度非常高的数据,例如图像、视频、声音等。

随着科技的不断发展,大大小小的数据集变得越来越多,数据的维数也随之增长。

将高维数据降到低维,是解决高维数据分析问题的一种有效手段。

本文将系统地讲解高维数据降维处理算法及其应用分析。

一、什么是高维数据降维在社会中,我们会遇到各种数据,如人口数量、房价、空气温度等,其数据维度不会太高。

然而,在计算机领域,高维数据是指数据集的维度及其复杂度非常高,通常指超过3个维度的数据集,这类数据对于计算资源、存储空间等都是具有极高要求的。

降维是指将高维数据映射到低维空间,从而减少数据维数,方便数据存储和挖掘。

当数据量很大且维度很高时,降维处理是非常必要的。

二、高维数据降维算法1.主成分分析(PCA)主成分分析是一种常用的降维方法,它的基本思路是通过找到一些方向,将高维数据最大方差所在方向作为第一主成分,然后在与其垂直的方向上找到次大方差所在方向作为第二主成分,逐步降低维度。

通过这种方式,我们可以将原来的高维数据映射到低维空间中,以实现降维。

2.线性判别分析(LDA)线性判别分析与主成分分析有些类似,但它更加关注分类问题。

该算法的基本思路是通过找到一些维度,使得在降维后数据集中各类别之间的距离最大,而在每个类别内部的距离最小,这样就可以实现对数据的降维,同时保留最大的差异性。

3.局部线性嵌入(LLE)局部线性嵌入算法是一种非线性降维方法,可以用于处理非线性高维数据。

该算法的基本思路是寻找高维数据的局部线性结构,即在低维空间中表示高维数据的各个点可以通过邻域上的线性组合进行重构。

它不依赖于数据的分布,且对噪声数据有较好的鲁棒性。

4.多维尺度分析(MDS)多维尺度分析是一种基于距离测度的降维算法,旨在保留不同数据点之间的距离关系。

该算法的基本思路是将高维数据集中各个点之间的距离转化为低维空间中的欧氏距离,以便进行降维处理。

该算法对噪声数据具有较好的去除效果。

高维数据可视化方法综述

高维数据可视化方法综述

高维数据可视化方法综述高维数据在现代科学和工程领域中得到了广泛应用。

这些数据集往往包含大量的变量,使得对数据的可视化和分析变得非常具有挑战性。

在传统的二维和三维可视化方法难以应对的情况下,高维数据可视化方法应运而生。

本文将综述一些常见的高维数据可视化方法,包括降维方法、聚类方法和可视化技术等,并讨论它们的优缺点以及适用场景。

降维方法旨在将高维数据映射到低维空间,从而方便后续分析和可视化。

其中最常用的方法是主成分分析(PCA)。

PCA通过线性变换将原始数据映射到新的坐标系上,使得映射后的数据在新的坐标系中具有最大的方差。

这样可以大大减少数据的维度,并且保留了大部分的信息量。

然而,PCA只能处理线性相关的数据,对于非线性的数据表现不佳。

为了解决这个问题,许多非线性降维方法被提出,如等距映射(Isomap)和局部线性嵌入(LLE)。

这些方法能够在保持数据的局部结构的同时,将其映射到低维空间中。

尽管这些方法在处理非线性数据时表现较好,但是它们的计算复杂度较高,对大规模数据集的处理存在一定困难。

聚类方法是将高维数据划分为不同的类别或簇。

其中最常用的方法是k-means算法。

k-means算法根据每个数据点和其周围数据点的距离,将数据划分为k个簇。

每个簇的中心点被称为聚类中心,用来表示该簇的特征。

k-means算法简单且易于理解,但在对非球形簇进行划分时表现不佳。

为了解决这个问题,一些改进的聚类方法被提出,如谱聚类和DBSCAN算法。

这些方法通过引入图论和密度的概念,可以更好地处理复杂的数据形状和噪声点。

除了降维和聚类方法,还有一些特定的可视化技术可以用于高维数据的可视化。

其中最常用的方法是平行坐标图。

平行坐标图通过将每个变量绘制在竖直的平行线上,然后将数据点连接起来,形成一条折线。

通过观察折线的形状和趋势,可以快速地了解数据的特征和模式。

然而,当数据的维度较高时,平行坐标图会变得非常密集和复杂,使得数据的分析和理解变得困难。

高维数据分析的降维技术

高维数据分析的降维技术

高维数据分析的降维技术高维数据分析是指数据集中包含大量特征或维度的数据,这种数据具有复杂性和高度抽象性,给数据分析和挖掘带来了挑战。

在实际应用中,高维数据分析往往会导致维度灾难和计算复杂度增加的问题,因此在处理高维数据时,降维技术成为了一种必不可少的方法。

一、PCA(Principal Component Analysis)主成分分析主成分分析是一种常用的降维技术,其基本思想是通过线性变换将原始数据映射到一组互相正交的主成分上,实现数据的降维。

主成分分析能够保留大部分数据的信息,同时去除特征之间的相关性,简化模型的训练和预测过程。

二、LDA(Linear Discriminant Analysis)线性判别分析与主成分分析类似,线性判别分析也是一种经典的降维技术。

其主要思想是将数据投影到一个低维空间中,使得同类样本尽可能接近,不同类样本尽可能远离。

线性判别分析在分类和模式识别领域得到了广泛应用。

三、t-SNE(t-Distributed Stochastic Neighbor Embedding)随机邻域嵌入t-SNE是一种非线性降维技术,能够有效地可视化高维数据集。

通过在高维空间中计算数据点间的相似度,并在低维空间中保持相似性关系,t-SNE能够呈现出数据集的结构和聚类特征,有助于数据的理解和分析。

四、Autoencoder自编码器自编码器是一种通过无监督学习实现数据降维和特征提取的神经网络模型。

通过训练自编码器,可以学习到数据的低维表示,并还原原始数据,实现高维数据到低维表征的映射。

自编码器在图像、文本和信号处理领域有着广泛的应用。

五、特征选择和特征抽取除了上述经典的降维技术外,特征选择和特征抽取也是重要的降维手段。

特征选择是指从原始特征中选择最具代表性的子集,保留有用信息并减少噪声。

特征抽取是通过数学变换将原始特征转换为新特征,保持数据的主要结构和关系。

这两种方法在实际应用中都能够有效地提高模型的性能和泛化能力。

高维数据分析与降维技术

高维数据分析与降维技术

高维数据分析与降维技术高维数据分析是近年来数据科学领域中的一个重要研究方向。

随着信息技术的快速发展,我们可以轻松获取到大量的数据。

然而,这些数据往往具有高维度的特征,给数据分析带来了许多困难。

高维数据不仅增加了计算和存储的复杂性,还可能导致过拟合等问题。

为了克服这些问题,降维技术成为了高维数据分析的重要手段。

1. 主成分分析(PCA)主成分分析是一种常用的降维技术,其基本思想是通过线性变换将原始数据映射到一组新的正交特征上。

这组新特征被称为主成分,主成分之间无相关性,并且按照方差从大到小排列。

主成分分析通过保留数据集中的主要信息,将高维数据映射到低维空间中,从而实现对数据的降维处理。

主成分分析在数据预处理、图像处理和模式识别等领域中广泛应用。

2. 线性判别分析(LDA)线性判别分析是一种具有监督性的降维技术,常用于模式分类和特征提取。

与主成分分析不同,线性判别分析考虑了类别信息。

它试图找到一个投影,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能分开。

线性判别分析旨在提高分类的准确性和可分性。

3. 流形学习(Manifold Learning)流形学习是一种非线性的降维技术,特别适用于具有复杂非线性结构的高维数据。

流形学习的基本思想是将高维数据嵌入到一个低维流形空间中,并保持数据之间的局部关系。

常见的流形学习算法包括局部线性嵌入(LLE)、等距映射(Isomap)和拉普拉斯特征映射(LE)。

这些算法通过学习数据的流形结构,实现对高维数据的降维和可视化。

4. 随机投影(Random Projection)随机投影是一种简单而有效的降维技术,其基本原理是将高维数据映射到低维空间中的随机子空间。

随机投影在保留数据的几何结构的同时,具有较低的计算复杂度。

尽管随机投影在理论上可能会引入一定的失真,但实际应用中通常能够满足降维的要求。

5. 核主成分分析(Kernel PCA)核主成分分析是主成分分析在非线性空间中的扩展,通过引入核函数将数据映射到高维特征空间中,然后在高维空间中进行PCA分析。

高维数据降维方法

高维数据降维方法

高维数据降维方法高维数据降维是机器学习领域中非常重要的研究方向之一。

在现实应用中,往往是面对海量的、高纬的数据,这时候,通过降维的方法可以缩短计算时间,提高数据质量,因此降维成为了机器学习、数据挖掘、计算机视觉等很多领域中必不可少的一步。

那么,什么是高维数据呢?简单来说,高维数据是指数据的特征维度非常多,比如上千、上万维甚至更高维度。

在高维数据中,往往存在着冗余信息,即一些特征虽然在该数据集中存在,但其本身并不重要,甚至对于最终的分类或者回归结果可能没有直接的贡献。

如果不进行降维处理,这些冗余的特征会对学习算法的准确性和速度造成负面影响。

因此降维技术的研究和实践具有很高的实用价值。

一是基于矩阵分解的降维方法。

这类方法的基本思路是对数据集进行矩阵分解,将数据映射到一个低纬的空间中,以达到降低数据维数的目的。

主要有奇异值分解(SVD)、主成分分析(PCA)、因子分析(Factor Analysis)等方法。

奇异值分解(SVD)是常用的一种矩阵分解方法。

通过对原始数据矩阵进行SVD分解,可以得到一组正交基向量和一组奇异值,这样就将原本的高维数据映射到了一个低维子空间中,从而实现了降维的目的。

主成分分析(PCA)是一种基于统计学思想的降维方法。

其基本思路是将原始数据经过线性变换,得到新的一组变量(即主成分),这样就将原本的高维数据表示为了少数几个主成分的线性组合。

另一种基于流形学习的降维方法。

流形是指在高维空间中具有低维结构特征的一类局部欧几里得空间,比如球面、圆环、螺旋等。

流形学习的基本思路是将高维数据的低维流形结构保留下来,降低冗余的特征维数。

其代表性方法有t-SNE、Isomap、LLE等。

这些方法在解决高维数据问题中得到了很好的应用。

t-SNE是一种流形学习的降维方法。

它不仅可以减少高维数据的维数,还能够保留高维空间中的局部结构特征。

这样就可以方便地观察高维数据的低维表示结果。

Isomap是一种基于距离度量的流形学习方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高维数据的低维表示综述一、研究背景在科学研究中,我们经常要对数据进行处理。

而这些数据通常都位于维数较高的空间,例如,当我们处理200个256*256的图片序列时,通常我们将图片拉成一个向量,这样,我们得到了65536*200的数据,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。

所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。

降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。

(8)之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余: · 有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的· 有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系),可以找到一组新的不相关的变量。

(3)从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。

这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。

(12)数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。

所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。

(8)二、降维问题1.定义定义1.1降维问题的模型为(,)X F ,其中D 维数据空间集合{}1Nl l X x ==(一般为D R 的一个子集),映射F :F X Y →(),x y F x →=Y 是d 空间集合(一般是d R ,d D <<)的一个子集,我们称F 是数据集X (到Y )的降维。

若F 为X 的线性函数,则称F 为线性降维;否则,称为非线性降维。

定义1.2 称映射1F -1:F Y X -→1()y xF y -→为嵌入映射。

(8)2.分类针对降维问题的目的和待处理数据集合表象维数的多少,对其进行初步的、粗略的分类如下:·硬降维问题:数据维数从几千到几万甚至几十万的变化,此时需要对数据集进行“严厉”的降维,以至于达到便于处理的大小,如图像识别、分类问题以及语音识别问题等。

·软降维问题:此时数据集合的维数不是太高,降维的需求不是非常的迫切。

如社会科学、心理学以及多元统计分析领域皆属于此类。

·可视化问题:此时数据集合的绝对维数不是很高,但为了便于利用人们的直观洞察力,即为了可视化,我们将其降到2或3维。

虽然我们可以可视化更高维数的数据,但是它们通常难于理解,不能产生数据空间的合理形态。

若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类,静态降维问题和动态降维问题。

后者对于时间序列来讲是有用的,如视频序列、连续语音信号等的处理。

(4)3.方法介绍如何将高维数据表示在低维空间中,并由此发现其内在结构是高维信息处理研究的关键问题之一。

实际处理中,由于线性方法具有简单性、易解释性、可延展性等优点,使得线性降维在高维数据处理中是一个主要研究方向。

已有的线性维数约简方法,主要包括主成分分析(Principal Component Analysis ,PCA)[16]、独立成分分析(Independent Component Analysis ,ICA)、线性判别分析inear discriminant analysis(LDA) [17]、Fisher 判别分析(Fisher Discriminant Analysis ,FDA)、主曲线(Principal Curves)、投影寻踪(Projection Pursuit, PP)、多维尺度方法(Multidimensional Scaling,MDS)等。

这些方法实际是在不同优化准则之下,寻求最佳线性模型,这也是线性维数约简方法的共性。

(10)通过消除数据建模过程中的全局线性假设,Sammon提出了一种非线性映射,即Sammon映射(SM),该算法能够保持输入样本之间的相关距离;Hastie 提出了principal curves(PC),其定义为通过概率分布或数据中间的光滑曲线;Kohonen基于自组织神经网络提出了self-organizing map(SOM)用来保存数据空间的拓扑属性;Scholkopf等应用Mercer核将PCA扩展为Kernel PCA(KPCA),该算法在高维空间中计算主分量,而该高维空间由输入空间经某种非线性映射得到。

Mika等采用相同的思想来非线性扩展LDA,从而提出了kernel LDA (KLDA);然而,基于核的方法其难点在于如何选择一个合适的核函数,一个好的核函数可以使数据在特征空间上线性可分或者近似线性可分,但并不是所选核函数对于每一种数据都适用。

核函数的选择反映了人们对问题的先验知识,在实际的应用中往往是经验地选择某种核函数,比如径向基函数(Radial Basis Function,RBF)。

同时,在使用核函数时不必知道具体的特征空间,使得核函数方法缺乏物理直观性,这也是核函数方法的一个缺点。

(10)最近兴起的流形学习算法也是用来维数约减的非线性方法,并且依靠它们在探测嵌入在高维空间中低维流形的能力和灵活性而被广泛应用。

具有代表性的流形学习算法包括等距映射(Isometric Mapping,Isomap)、局部线性嵌入方法(Locally Linear Embedding,LLE)、Laplacian 特征映射(Laplacian Eigenmap,LE)、局部切空间排列方法( Local Tangent Space Alignment,LTSA)、Hessian等距映射(Hessian eigenmaps,HLLE)和最大方差展开(maximum variance unfolding,MVU)。

其中,LLE运用线性系数,来表达局部几何,该系数能够重建一个给定的样本点利用其近邻点,然后寻找一个低维空间,在该空间中这些线性系数仍然可以用来重建相应的点;ISOMAP作为MDS的变种,能够保存点对之间的全局的测地线距离;LE通过对一个描述了点对之间邻域关系的无向图的操作,来保持数据之间的近邻关系。

HLLE先通过估计邻域上的Hessian而构建一矩阵,然后在此矩阵上运用特征值分解而得到最终的低维坐标。

LTSA运用局部切信息作为局部几何的表达,然后将这些切信息在全局中排列从而得到最终的全局坐标。

MVU不是一个绝对的局部方法而是一个介于局部和全局之间的方法,因为MVU不仅保存近邻点之间的几何关系而且在它的目标函数中考虑了全局点对之间的距离。

除了基于谱分析的流形学习的算法,基于概率参数模型,Rowels 提出了global coordination(GC);Teh和Roweis开发了locally linear coordination(LLC);Brand提出了manifold charting(Charting)。

这些方法也属于流形学习的重要范畴。

然而,这些非线性的算法却不能够为样本提供一个外在的映射,也就是说,它们很难被应用于识别问题。

但是,一些基于谱分析的算法由于其具有特殊的特征分解机制而能够较为容易的扩展为线性算法,其线性化可以通过在解决优化的过程中施加线性逼近来实现。

Locality preserving projection(LPP)作为LE的线性化是其中最早提出的算法。

后来提出的还包括neighborhood preserving embedding(NPE),LLE的线性化扩展,和orthogonal neighborhood preserving projections(ONPP),LLE的正交线性化扩展。

这种线性化扩展使流形学习的思想更能够应用到现实世界中。

图1.1给出了以上所提提及的降维算法的分类图。

在谱方法的线性化扩展中,LPP可以被看作为基于图结构的最具代表性的算法,在接下来的几年中,又不断地有这种基于图的算法被提出,从而进一步完善了这种基于图的框架。

Cai等对LPP算法分别对监督设置和非监督设置两种情况作了系统的分析,并且将LDA用这种基于图的框架重新公式化。

Yan等提出了一种一般性的框架即“图嵌入”,来统一各种各样的降维算法。

基于此种框架,一种新的线性算法,marginal fisher analysis(MFA)将开发出来。

MFA不同于LPP 其只用一个图来描述数据的几何结构,该算法采用了两个图,其中一个为固有图(intrinsic graph),它用来刻画数据的类内紧凑性;而另一个图为惩罚图(penalty graph),用来描述数据类间的分离性。

因此,MFA比LPP更具有判别性。

Chen 等同时提出的local discriminant embedding(LDE)算法在本质上与MFA的思想是相同的。

(5)非线性降维方法与线性降维方法相比的一个显著特点是,分析中的局部性(数据集合经常满足的一个简单假设)。

原因在于对数据集合的内蕴结构而言,有下列特性:·由泰勒定理,任何可微函数在一点的充分小的邻域之内满足线性性。

形象的来讲,相当于认为曲面流形可由大小不一的局部线性块拼接而成;·数据流形经常是由许多可分割的子流形所组成;·数据流形的本征维数沿着流形不断的发生变化,只有局部性才能抓住其根本特性。

(4)三、常见降维方法(一)线性1.主成分分析(Principal Component Aanlysis PCA) [1]PCA将方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少。

它是在损失很少的信息的前提下把多个指标转化为几个综合指标的一种多元统计方法。

它具有概念简单,计算方便以及最优线性重构误差等优良的特性。

PCA是一种全局算法,它可以较好地揭示具有线性结构的高维数据集的全局分布。

然而对于嵌入在高维空间中具有非线性流形结构的数据,PCA 很难学习出隐含在数据集中的低维流形结构。

PCA 假设数据之间的关系是线性的。

它在保存原始高维数据协方差结构的基础上计算低维表达,也就是最大化总体方差。

它的目标函数可以写为:2121=arg max arg max ()arg max ()..PCAPCA PCA N mPCA i U i N T m T T PCA i PCA T PCA PCA PCA d U U i U y y U x x tr U S U s t U U I ==-=-==∑∑ 其中,1m i y y N =∑,1m i x x N=∑,且T S 为总体离散矩阵:i=1=()()T N T i i S x x x x --∑。

相关文档
最新文档