高维数据降维方法研究

合集下载

数据降维方法研究

数据降维方法研究一、内容简述本文主要探讨了数据降维方法的研究现状与发展趋势。

随着科技的进步和数据集的日益庞大，高维数据给数据处理和模型训练带来了诸多挑战。

为了降低计算复杂度、提高算法效率，并尽量保留数据的内在信息，数据降维技术应运而生。

数据降维方法可以分为有监督降维、无监督降维和半监督降维。

有监督降维利用已知标签数据进行训练，如主成分分析（PCA）和线性判别分析（LDA）。

无监督降维则不依赖于标签数据，常用的方法有主成分分析（PCA）、t分布邻域嵌入算法（tSNE）等。

而半监督降维则试图在有少量标签数据的情况下，挖掘潜在的结构，提高模型的泛化能力。

本文将对这些方法进行详细介绍和评述，并探讨它们在不同领域的应用及未来发展方向。

1. 数据降维的重要性随着大数据时代的到来，数据量的激增为各行各业带来了极大的数据处理挑战。

在此背景下，数据降维技术日益受到关注。

数据降维是在保留原始数据集的完整性和维度信息的基础上，通过特定的算法对高维数据进行降维处理，从而降低计算复杂度、提高数据分析效率。

本文将重点探讨数据降维的重要性，并分析其在实际应用中的重要性。

数据降维有助于提高数据挖掘的效率与精度。

面对海量数据，如果逐一进行分析，则需要耗费大量的时间和计算资源。

而通过降维，可以去除冗余和无关的信息，仅保留关键特征，从而简化数据分析过程，提升运算速度及准确性。

数据降维有助于降低计算复杂度。

高维数据在采集、存储和处理过程中往往面临较高的存储与计算负担。

采用合适的降维方法，可以大幅度减少数据的维度，使得数据更容易处理，降低计算难度与成本。

数据降维可以增强数据分析的灵活性。

在进行数据分析时，不同数据维度的选择对结果具有一定的影响。

通过对数据进行降维处理，可以在一定程度上解决变量选择困难的问题，提高分析方法的适用性和泛化能力。

数据降维在处理高维数据、提高数据利用效率、降低成本以及增强数据分析灵活性等方面具有重要意义。

在实际应用中，对数据降维技术的研究与应用显得尤为重要。

高维数据降维方法的研究进展与应用

高维数据降维方法的研究进展与应用高维数据降维是一项非常重要的数据预处理技术，其能够通过减少不必要的特征，提高数据的处理效率和准确性，因此在许多领域都得到了广泛的应用。

随着科技的不断进步，我们所创建的数据越来越多，数据的维度也愈加复杂，因此降维的技术也显得越发重要。

本文将会探讨高维数据降维方法的研究进展以及其在各个领域的应用。

一. 高维数据降维方法的研究进展目前高维数据降维的方法可以分为线性和非线性两大类。

1. 线性降维方法线性降维方法一般是通过保留数据中的最主要的方差，对数据进行精简。

其中比较常见的线性降维方法有PCA（主成分分析）和LDA（线性判别分析）两种。

PCA是一种经典的线性降维方法，可以通过尽可能多地保留原始数据的方差来实现数据降维，而LDA则是一种更为稳定和鲁棒的降维方法，它会考虑到数据的类别信息，将数据映射到一个新的低维度空间中。

2. 非线性降维方法非线性降维方法是通过将数据从高维度空间映射到低维空间中，从而实现数据降维。

其中常见的非线性降维方法有Isomap算法，LLE算法以及t-SNE算法。

Isomap算法通过保留数据之间的不同距离来实现数据的降维，LLE算法则是通过保留数据之间的局部关系来实现数据的降维，而t-SNE算法则是通过并行压缩和显式分离来实现数据的降维。

二.高维数据降维的应用高维数据降维方法在许多领域都得到了广泛的应用，下面将会介绍其中的几个应用案例。

1. 图像处理在图像处理中，由于图像的维度非常高，传统的方法无法很好地应对。

而通过使用高维数据降维方法，可以将图像转换为低维度空间中，从而方便更为准确的处理。

目前在图像处理中，常使用的降维方法有PCA和LLE等。

2. 机器学习在机器学习中，高维度空间数据往往会导致模型过拟合的现象，而此时使用高维数据降维方法，可以有效地提高模型的鲁棒性和准确性。

目前在机器学习中，常使用的降维方法有PCA、LDA、t-SNE等。

3. 网络安全在网络安全中，使用高维度数据进行攻防演练和检测是常见的方法。

高维数据降维的数值方法研究

高维数据降维的数值方法研究数据的维度指的是描述数据所需要的特征数量。

在现代科技发展的背景下，许多领域都面临着高维数据的挑战，如生物信息学、金融风险管理和图像处理等。

高维数据的存在给数据分析和处理带来了很大的困难，因此，研究高维数据的降维方法显得尤为重要。

本文将介绍几种常用的数值方法，并讨论其在高维数据降维中的应用。

一、主成分分析（PCA）主成分分析是一种经典的线性降维方法，其主要思想是通过将高维数据映射到一个低维空间中来实现降维。

主成分分析的关键在于找到数据中的主要变化方向，即主成分。

通过计算数据的协方差矩阵，可以得到一组正交的主成分，然后按照其方差大小对主成分进行排序。

选择方差较大的前几个主成分，就可以得到低维表示。

主成分分析广泛应用于数据压缩、特征提取和可视化等领域。

二、多维缩放（MDS）多维缩放是一种非线性降维方法，它将高维数据映射到一个低维空间中，旨在保持数据之间的距离关系。

多维缩放通过计算数据点之间的距离矩阵，并在低维空间中找到最优的表示，使得在高维空间中的距离尽可能地被保留。

多维缩放在数据可视化、相似性分析和模式识别等领域有广泛的应用。

三、局部线性嵌入（LLE）局部线性嵌入是一种非线性降维方法，其基本思想是在保持相邻数据点之间的局部线性关系的同时实现降维。

局部线性嵌入包括三个步骤：首先，构建数据的邻近图；然后，对于每个数据点，计算其与邻居之间的权重；最后，通过最小化重构误差，将数据映射到一个低维空间中。

局部线性嵌入适用于处理非线性数据并保持数据的局部结构。

四、核主成分分析（KPCA）核主成分分析是一种非线性降维方法，它通过使用核技巧将数据映射到一个高维特征空间中，并在该空间中进行主成分分析。

核主成分分析通过使用核函数测量数据之间的相似性，并通过计算核矩阵来替代原始数据的协方差矩阵。

这样可以将非线性关系转化为线性关系，从而实现降维。

核主成分分析在生物信息学、语音识别和图像处理等领域有广泛的应用。

高维数据降维方法

高维数据降维方法高维数据降维是机器学习领域中非常重要的研究方向之一。

在现实应用中，往往是面对海量的、高纬的数据，这时候，通过降维的方法可以缩短计算时间，提高数据质量，因此降维成为了机器学习、数据挖掘、计算机视觉等很多领域中必不可少的一步。

那么，什么是高维数据呢？简单来说，高维数据是指数据的特征维度非常多，比如上千、上万维甚至更高维度。

在高维数据中，往往存在着冗余信息，即一些特征虽然在该数据集中存在，但其本身并不重要，甚至对于最终的分类或者回归结果可能没有直接的贡献。

如果不进行降维处理，这些冗余的特征会对学习算法的准确性和速度造成负面影响。

因此降维技术的研究和实践具有很高的实用价值。

一是基于矩阵分解的降维方法。

这类方法的基本思路是对数据集进行矩阵分解，将数据映射到一个低纬的空间中，以达到降低数据维数的目的。

主要有奇异值分解(SVD)、主成分分析(PCA)、因子分析(Factor Analysis)等方法。

奇异值分解(SVD)是常用的一种矩阵分解方法。

通过对原始数据矩阵进行SVD分解，可以得到一组正交基向量和一组奇异值，这样就将原本的高维数据映射到了一个低维子空间中，从而实现了降维的目的。

主成分分析(PCA)是一种基于统计学思想的降维方法。

其基本思路是将原始数据经过线性变换，得到新的一组变量（即主成分），这样就将原本的高维数据表示为了少数几个主成分的线性组合。

另一种基于流形学习的降维方法。

流形是指在高维空间中具有低维结构特征的一类局部欧几里得空间，比如球面、圆环、螺旋等。

流形学习的基本思路是将高维数据的低维流形结构保留下来，降低冗余的特征维数。

其代表性方法有t-SNE、Isomap、LLE等。

这些方法在解决高维数据问题中得到了很好的应用。

t-SNE是一种流形学习的降维方法。

它不仅可以减少高维数据的维数，还能够保留高维空间中的局部结构特征。

这样就可以方便地观察高维数据的低维表示结果。

Isomap是一种基于距离度量的流形学习方法。

高维数据降维方法的研究与比较分析

高维数据降维方法的研究与比较分析高维数据降维是一个重要的数据分析问题，多维数据通常包含大量的冗余信息和噪声，而且在高维空间中的计算复杂度较高。

因此，降维方法可以帮助我们减少数据维度，提取数据中的重要信息，从而简化数据分析，加快计算速度，并且可以用可视化的方法更好地理解和分析高维数据。

本文将对一些常用的高维数据降维方法进行研究和比较分析。

首先介绍降维方法的基本原理和常见的评价指标，然后分别介绍主成分分析（PCA）、线性判别分析（LDA）、局部线性嵌入（LLE）、t分布随机邻域嵌入（t-SNE）和自编码器等方法，并分析它们的优缺点。

最后，我们通过实例对这些方法进行比较分析。

降维方法的基本原理是通过将高维数据映射到低维空间，保留数据的重要信息。

常见的评价指标包括保留的信息量、可视化效果和计算效率等。

信息量可以通过方差或者信息增益等指标衡量，可视化效果可以通过样本点在二维或者三维空间的分布来观察，计算效率可以通过时间复杂度和空间复杂度等指标来评估。

主成分分析（PCA）是最常用的降维方法之一，它通过线性变换将高维数据转换为低维数据，使得低维数据的方差最大化。

优点是简单易懂，计算高效，但它只考虑了样本间的协方差，忽略了类别信息。

线性判别分析（LDA）是一种有监督的降维方法，它在PCA的基础上考虑了类别信息，在保持低维空间数据的分离性的同时，最大化同类样本点的方差，最小化不同类样本点的方差。

优点是考虑了类别信息，但缺点是计算复杂度较高，对于非线性数据的分类效果不好。

局部线性嵌入（LLE）是一种非线性降维方法，它考虑了样本间的局部关系，通过保持样本的局部邻域结构来降维。

优点是对非线性数据有较好的降维效果，但缺点是计算复杂度较高，对异常值非常敏感。

t分布随机邻域嵌入（t-SNE）是一种用于可视化的降维方法，它通过最小化高维数据和低维数据间的Kullback-Leibler散度来保持样本间的相似性。

优点是可以从高维数据中提取出局部结构，但缺点是计算复杂度较高，对大规模数据不适用。

高维数据降维与特征提取的新方法研究

高维数据降维与特征提取的新方法研究一、引言随着科技的发展和信息时代的到来，大规模和高维数据的产生成为一种普遍现象。

然而，由于高维数据具有维度灾难和冗余性等问题，对这些数据进行处理常常面临挑战。

为了解决这些问题，研究者们提出了许多降维和特征提取的方法。

本文旨在探讨高维数据降维与特征提取的新方法，并分析其应用领域及优势。

二、高维数据降维方法研究1.主成分分析（PCA）主成分分析是一种常用的线性降维方法，通过找到数据的主要方差分布来实现数据压缩。

然而，PCA并不能很好地处理非线性数据。

因此，研究者们提出了许多改进的PCA方法，如核主成分分析（KPCA）和非负矩阵分解（NMF）。

2.局部线性嵌入（LLE）局部线性嵌入是一种非线性降维方法，它基于局部邻域进行数据重建。

通过在低维空间中保持数据之间的局部线性关系，LLE能够更好地捕捉数据的内在结构。

然而，在处理大规模数据时，LLE的计算复杂度较高。

3.自编码器（Autoencoder）自编码器是一种无监督学习的神经网络模型，它通过将输入数据编码为低维表示，然后再进行解码重构。

自编码器能够学习到数据的潜在表示，并通过调整编码器和解码器的权重来优化重构误差。

近年来，研究者们提出了很多变体的自编码器模型，如稀疏自编码器和去噪自编码器。

三、特征提取方法研究1.传统特征提取方法传统特征提取方法主要是通过设计特征提取器来提取数据的有意义、可区分的特征。

这些方法常用的特征包括形状特征、颜色特征和纹理特征等。

然而，传统特征提取方法往往需要人为设计特征提取器，且对于复杂数据的处理效果有限。

2.深度学习特征提取方法深度学习的出现为特征提取带来了新的突破。

深度学习模型，如卷积神经网络（CNN）和递归神经网络（RNN），能够自动学习到数据的抽象特征表示。

通过层层堆叠神经网络模型，深度学习可以处理高维数据，并提取出更加有意义的特征表示。

此外，研究者们还提出了带注意力机制的模型，如注意力机制网络（AMN），用于进一步提高特征提取的性能。

高维数据降维与特征提取的方法与算法研究

高维数据降维与特征提取的方法与算法研究高维数据是指数据集中包含大量特征或属性的情况，这种数据集常常会导致计算和分析的困难。

因此，降维和特征提取方法在高维数据处理中变得至关重要。

本文将探讨一些常见的高维数据降维与特征提取的方法与算法。

一、维度灾难引发的问题在高维数据中，数据点的数量会迅速减少。

当数据集的特征数量远远超过训练样本的数量时，会出现维度灾难。

这会导致许多统计问题，如过拟合、计算复杂度增加和特征冗余等。

因此，我们需要降维和特征提取的方法来解决这些问题。

二、主成分分析（PCA）主成分分析（Principal Component Analysis，PCA）是一种常用的降维方法，通过线性变换将原始数据投影到新的几个维度上。

这些新的维度被称为主成分，它们的特点是彼此不相关。

PCA的目标是最大化投影方差，因此保留了原始数据中的大部分信息。

逐步进行主成分分析时，首先计算数据的协方差矩阵，然后对该矩阵进行特征值分解，得到特征向量和特征值。

特征向量构成主成分，特征值用于表示主成分的重要性。

根据特征值的大小，我们可以选择要保留的主成分数量，从而实现降维。

三、线性判别分析（LDA）线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的降维方法，主要用于分类问题。

与PCA不同，LDA不仅考虑了方差，还考虑了类别与类别之间的区分度。

LDA通过最大化类别间的散射矩阵和最小化类别内的散射矩阵来实现降维。

散射矩阵可以用于计算投影矩阵，将原始数据映射到低维空间中。

LDA保留了类别之间的区分度，并提供了一种有效的特征提取方法。

四、非负矩阵分解（NMF）非负矩阵分解（Non-negative Matrix Factorization，NMF）是一种非线性的降维方法。

它将原始数据矩阵分解为两个非负矩阵的乘积。

NMF的优点是可以自动提取特征。

它假设原始数据矩阵可以由少数几个基本特征向量的组合表示。

高维数据的降维与聚类分析方法研究

高维数据的降维与聚类分析方法研究引言随着科技的快速发展，数据的规模和复杂性不断增加，尤其是在各个领域中产生的高维数据。

高维数据带来了挑战，因为维数的增加会导致数据分析和可视化变得困难。

为此，降维和聚类分析方法成为了解决高维数据问题的关键技术。

本文将介绍高维数据的降维与聚类分析方法的研究进展，并讨论其在实际应用中的价值和局限性。

一、降维分析方法1.主成分分析（PCA）主成分分析是一种常用的降维方法，它通过线性变换将高维数据映射到低维空间。

PCA能够识别数据中的主要特征，并去除数据中的冗余信息，从而得到更简洁的表示。

然而，PCA在处理非线性数据时存在一定的限制。

2.线性判别分析（LDA）线性判别分析也是一种常见的降维方法，它与PCA不同，LDA是一种有监督的降维方法，它通过最大化类间距离和最小化类内距离来选择能够最好区分不同类别的特征。

LDA可以在保持类别信息的同时降低维度，常用于模式识别和分类任务。

3.流形学习流形学习是一种基于数据流形结构的降维方法，它假设高维数据分布在低维流形上。

通过发现数据集中的隐含结构，流形学习可以将高维数据映射到低维空间，保持数据的局部性和流形特性。

常用的流形学习方法包括等距映射（Isomap）、局部线性嵌入（LLE）等。

4.自编码器自编码器是一种基于神经网络的非线性降维方法，它通过学习数据的紧凑表示来实现降维。

自编码器由两个部分组成：编码器和解码器。

编码器将输入数据映射到低维空间，解码器则将低维表示恢复到原始空间。

自编码器的训练目标是最小化重构误差，从而使得低维表示能够保持原始数据的重要特征。

二、聚类分析方法1.K-means聚类算法K-means是一种典型的基于距离的聚类算法，它将数据分成K个独立的簇，使得同一个簇内的样本间距离最小化。

K-means是一种迭代算法，它通过不断更新样本所属的簇来优化聚类结果。

然而，K-means对初始聚类中心的选择非常敏感，并且对离群点和噪声数据不敏感。

高维数据降维与特征选择方法研究

高维数据降维与特征选择方法研究随着信息时代的到来，高维数据已成为各个领域中的常见问题。

高维数据指的是数据集中包含大量的特征或维度，而样本数相对较少。

高维数据存在着诸多问题，例如计算复杂度高、过拟合、维度灾难等。

为了解决这些问题，研究人员提出了许多高维数据降维与特征选择的方法。

高维数据降维的目的是将高维数据映射到一个低维的子空间中，以便在保留尽可能多的信息的同时，降低计算复杂度。

下面将介绍几种常见的高维数据降维方法。

一种常见的降维方法是主成分分析（Principal Component Analysis，PCA）。

PCA通过线性变换将原始数据投影到新的坐标系中，使得投影数据的方差最大化。

它是一种无监督的降维方法，可以有效地减小数据的维度并保留尽可能多的信息。

另一种常见的降维方法是因子分析（Factor Analysis）。

因子分析也是一种无监督的降维方法，它假设高维数据的观测值由一组潜在因子所决定，并通过最大似然估计来估计这些因子。

除了无监督的降维方法，还有一些基于监督学习的降维方法。

例如，线性判别分析（Linear Discriminant Analysis，LDA）将高维数据映射到一个低维空间以便进行分类。

LDA考虑了类别信息，并寻找投影轴，使得同类样本之间的距离最小化，不同类样本之间的距离最大化。

此外，局部线性嵌入（Locally Linear Embedding，LLE）是一种非线性的降维方法。

LLE通过保持局部样本之间的线性关系来进行降维，它在保持流形结构的同时，将高维数据映射到低维空间。

除了降维方法，特征选择也是一种处理高维数据的常用策略。

特征选择的目的是从原始的特征集中选择出一部分最相关的特征，以提高分类性能或降低计算复杂度。

下面将介绍几种常见的特征选择方法。

过滤式特征选择方法是一种常见的特征选择方法，它通过对特征进行评分或排名来选择最相关的特征。

常见的过滤式特征选择方法有相关系数、信息增益、卡方检验等。

高维数据降维分析及可视化方法研究

高维数据降维分析及可视化方法研究随着科技的发展，越来越多的数据得到了记录，因此处理和分析这些数据变得越来越关键。

但是，随着数据的数量和维度增加，计算的复杂性不断增加，常规的分析方法很难解释和应用。

高维数据处理是解决这个问题的一个重要领域。

本文将介绍高维数据的降维分析和可视化方法。

一、高维数据简介高维数据是指数据的元素个数或特征维数比样本数大的情况。

例如，一个由10,000个单词组成且有100篇文章的词频矩阵，它是一个10,000维的数据集。

由于高维数据中样本数远远小于数据特征的数量，导致传统统计方法难以处理。

二、高维数据降维方法降维是一种减少数据维度的方法，可以提高数据处理过程的效率和准确性。

高维数据降维方法有两种：线性降维和非线性降维。

1. 线性降维线性降维方法通过将数据投影到低维空间中，以保留最重要的信息为主，从而降低数据的维度。

线性降维方法包括主成分分析（PCA）和线性判别分析（LDA）。

• 主成分分析（PCA）主成分分析是一种经常使用的线性降维方法，它通过找到主要的方向将高维数据映射到低维空间。

这些方向通常是数据之间的方差最大的方向。

通过矩阵的特征值分解，这些方向就可以被找到。

即寻找新的数据维度（向量）来代替原始数据。

• 线性判别分析（LDA）线性判别分析是一种有监督的技术，它试图找到一个投影方式，以便在保留数据最大信息的情况下区分不同类别的数据。

2. 非线性降维非线性降维可以通过将数据投影到一个非线性低维空间中，从而更好地保留数据的结构和特征，尤其是异构数据。

常见的非线性降维方法包括多维缩放（MDS）、非线性主成分分析（NLPCA）和流形学习。

• 多维缩放（MDS）多维缩放主要是在非线性情况下对数据进行降维。

它通过计算与原始数据之间的距离矩阵来表示数据之间的相似度，然后通过优化目标函数将它们投影到低维空间中。

• 非线性主成分分析（NLPCA）非线性主成分分析将主成分分析的思想扩展到非线性情况。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

·博士论坛·高维数据降维方法研究余肖生,周　宁(武汉大学信息资源研究中心,湖北武汉430072)摘　要:本文介绍了MDS 、Isomap 等三种主要的高维数据降维方法,同时对这些降维方法的作用进行了探讨。

关键词:高维数据;降维;MDS ;Isomap ;LLE中图分类号:G354 文献标识码:A 文章编号:1007-7634(2007)08-1248-04Research on Methods of Dimensionality Reduction in High -dimensional DataYU Xiao -s heng ,ZH OU Ning(Research Center for Information Resourc es of Wuhan University ,W uhan 430072,China )A bstract :In the paper the authors introduce three ke y methods of dimensionality r eduction in high -dimen -sional dataset ,such as MDS ,Isomap .At the same time the authors discuss applications of those methods .Key words :high -dimensional data ;dimensionality reduction ;MDS ;Isomap ;LLE收稿日期:2006-12-20基金项目:国家自科基金资助项目(70473068)作者简介:余肖生(1973-),男,湖北监利人,博士研究生,从事信息管理与电子商务研究;周　宁(1943-),男,湖北钟祥人,教授,博士生导师,从事信息组织与检索、信息系统工程、电子商务与电子政务研究.1　引言随着计算机技术、多媒体技术的发展,在实际应用中经常会碰到高维数据,如文档词频数据、交易数据及多媒体数据等。

随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用Lp 距离(当p =1时,Lp 距离称为Man -hattan 距离;当p =2时,Lp 距离称为Euclidean 距离)作为数据之间的相似性度量,在高维空间中很多情况下这种相似性的概念不复存在,这就给基于高维数据的知识挖掘带来了严峻的考验【1】。

而这些高维数据通常包含许多冗余,其本质维往往比原始的数据维要小得多,因此高维数据的处理问题可以归结为通过相关的降维方法减少一些不太相关的数据而降低它的维数,然后用低维数据的处理办法进行处理【2-3】。

高维数据成功处理的关键在于降维方法的选择,因此笔者拟先介绍三种主要降维方法,接着讨论高维数据降维方法的一些应用。

2　高维数据的主要降维方法高维数据的降维方法有多种,本文主要讨论有代表性的几种方法。

2.1　MDS (multidimensional scaling )方法MDS 是数据分析技术的集合,不仅在这个空间上忠实地表达数据之间联系,而且还要降低数据集的维数,以便人们对数据集的观察。

这种方法实质是一种加入矩阵转换的统计模式,它将多维信息通过矩阵运算转换到低维空间中,并保持原始信息之间的相互关系【4】。

每个对象或事件在多维空间上都可以通过一个点表示。

在这个空间上点与点之间的距离和对象与对象之间的相似性密切相关。

即两个相似的对象通过空间临近的两个点来表示,且两个不相似的对象第25卷第8期2007年8月情　报　科　学Vol .25,No .8August ,2007通过相距很远的两个点来表示。

这个空间通常是一个二维或三维欧氏空间,但也可能是高维的非欧空间。

根据MDS 是定性的还是定量的,MDS 可分为计量MDS (metric MDS )和非计量MDS (nonmetric MDS )。

计量MDS 方法的关键思想,将原先空间中的数据项采用投影的方法映射到欧氏空间中,再在欧氏空间内用符合点布局的点距来近似表示原先空间中这些数据项之间的距离。

例如:如果每个项目X K 先用一个二维的数据向量XK 来表示再投影到欧氏空间中,此时投射的目标是优化这个表示以至于此二维欧氏空间各项目之间的距离将尽可能接近那些原先距离。

如果用d (k ,l )表示点X K 与X L 之间距离,用d (k ,l )表示点X K 与XL 之间距离,则计量MDS 试图用d (k ,l )来近似地表示d (k ,l )。

如果误差用[d (k ,l )-d ′(k ,l )]2来表示,则取最小值的目标函数可写成:E M =∑k ≠l[d (k ,l )-d ′(k ,l )]2(1)欧氏距离的完美映射不一定总是最佳的目标,特别是当数据向量的组成部分按距离的大小顺序加以表示时。

没有距离的精确值,只有数据向量之间距离排序。

此时映射应该努力使二维输出空间距离的排名与原始空间距离排名相匹配。

通过引入一个单调递增函数f 来保证映射后的距离排名与原来的距离排名一致,非计量MDS 就采用了如下这样一个误差函数:E N =1∑k ≠l [d ′(k ,l )]2∑k ≠l[f (d (k ,l ))-d ′(k ,l )]2(2)对映射点Xk 的任何给定的结构,总能选择适当的函数f 使E N 最小。

由于处理顺序排列数据的需要,而常采用非计量MDS 。

通过选择适当的点和函数能使E M 、E N 取得最小值,这样在信息损失最小的情况下,降低了原始数据空间的维数。

2.2　Isomap 方法Isomap 方法是建立在经典MDS 基础上,结合PC A 和MDS 主要的算法特征,且试图保护数据的本质几何特征,就象在大地测量流形中获得所有对取值点之间的距离那样。

假设仅有输入空间的距离,问题的难点是估计在遥远的两点之间的大地测量距离。

对相邻的点来说,大地测量距离可由输入空间的距离近似地表示。

对遥远的点来说,大地测量距离可以近似地通过相邻的点之间的一连串的“短跳”相加来表示。

用边连结相邻的取值点而组成一张图,在这张图中找到最短路径,从而高效地计算出这些近似值【5-6】。

Isomap 方法实现主要有3个步骤。

第一步构建邻居图G ,即在输入空间X 基于一对点i ,j 之间距离的流形M ,确定哪些点是邻居。

有两种简单方法来确定,其一是在某一固定的半径ε范围内用一点连结其它所有点,其二是某一固定的半径ε范围内用一点连结它的所有的K 最近邻点。

这些邻居关系表示成数据点上的一张加权图G ,用dx (i ,j )表示相邻的点之间边的权重(如图1所示)。

图1　构建邻居图G 【5】第二步是计算最短路径,即Isomap 通过计算图G 中他们的最短路径距离d G (i ,j )来估算出流形M 上所有对点之间的大地测量距离d M (i ,j )。

发现最短路径的一简单算法如下: d X (i ,j )　当i ,j 相连时,开始:d G (i ,j )=∞ 当i ,j 不相连时。

然后,对K (=1,2,3,……,N )的每个值,用min {d G (i ,j ),d G (i ,k )+d G (k ,j )}来替代所有输入d G (i ,j )。

最终值D G ={d G (i ,j )}的矩阵包含图G 所有对点之间的最短距离。

第三步是构建d 维嵌入,即将CMDS (classical MDS )方法应用于图距矩阵D G ={d G (i ,j )},在d 维欧几里得空间Y 里,此空间Y 能最大限度地保持流形的估计的本质几何特征,建造这些数据的一个嵌入,如图2所示。

在Y 的坐标向量y i 中选择点来使误差函数减到最小E =‖τ(D G )-τ(D Y )‖L2(3)其中D Y 表示欧几里得距离{d Y (i ,j )=‖y i -y j ‖的矩阵,‖A ‖L 2表示L 2阵模∑i ,j A 2i ,j ,τ运算符将距离转化成内积,在形式上,保持了效率12498期高维数据降维方法研究图2　维嵌入【4】最优化的数据的几何特性。

通过设置矩阵τ(D G )的d 维单位向量的坐标y i 而得到公式(3)的全局最小值。

2.3LLE (locally linear embedding )方法LLE 方法可以归结为三步【6-8】:(1)寻找每个样本点的k 个近邻点;(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

具体的算法流程如图3所示。

图3　LLE 方法的步骤【7】算法的第一步是计算出每个样本点 X i 的k 个近邻点,把相对于所求样本点距离最近的k 个样本点规定为所求样本点的k 个近邻点。

k 是一个预先给定值。

距离的计算既可采用欧氏距离也可采用Dijkstra 距离。

Dijkstra 距离是一种测地距离,它能够保持样本点之间的曲面特性。

LLE 算法的第二步是计算出样本点的局部重建权值矩阵。

这里定义一个成本函数(cost function ),如(4)式所示,来测量重建误差:ε(W )=∑iX i -∑j W ij 2(4)即全部样本点和他们的重建之间的距离平方和。

W ij 表示第j 个数据点到第i 个重建点之间的权重。

为了计算权重W ij ,我们设置两限制条件而使成本函数取最小值:首先,那每个数据点 X i 仅从它的邻居那里被重建,如果 X j 不属于 X i 的邻居的集合,则W ij =0;其次,矩阵中每行的权重和为1:∑j W ij =1。

为了使重建误差最小化,权重W ij 服从一种重要的对称性,即对所有特定数据点来说,它们和它们邻居点之间经过旋转、重排、转换等变换后,它们之间的对称性是不变的。

由此可见重建权重能够描述每个邻居本质的几何特性。

因此可以认为原始数据空间内的局部几何特征同在流形局部块上的几何特征是完全等效的。

LLE 算法的最后一步是将所有的样本点 X i 映射到在流形中表示内部全局坐标的低维向量 Y j 上。

映射条件满足如下成本函数,如(5)式所示:(Y )=∑iY i -∑j W ij Y j 2(5)其中, (Y )为成本函数值, Y j 是 X i 的输出向量, Y j 是 Y i 的k 个近邻点,且要满足两个条件,即:∑ Y i =0(i =1,2,…,N )(6)(1 N )∑ Y i Y Ti =I (i =1,2,…,N )(7)其中I 是m ×m 单位矩阵。

要使成本函数值达到最小,则取 Y j 为M 的最小m 个非零特征值所对应的特征向量。

在处理过程中,将M 的特征值从小到大排列,第一个特征值几乎接近于零,那么舍去第一个特征值。