高维数据的低维化

合集下载

高维数据降维技术在统计学中的研究进展

高维数据降维技术在统计学中的研究进展

高维数据降维技术在统计学中的研究进展随着科技的发展和数据采集技术的进步,我们面临着越来越多的高维数据。

高维数据是指具有大量变量的数据集,这些变量可能是相互关联的,这给数据分析带来了巨大的挑战。

为了解决这个问题,统计学家们提出了高维数据降维技术,它能够将高维数据转化为低维数据,从而减少数据的复杂性,提取关键信息,为进一步的分析和建模提供便利。

一、降维技术的概述降维技术是指将高维数据映射到低维空间的过程。

在这个过程中,我们希望保留尽可能多的数据信息,同时减少数据的维度。

常用的降维技术包括主成分分析(PCA)、线性判别分析(LDA)和流形学习等。

主成分分析是一种常用的降维技术,它通过寻找数据中的主要方差方向来实现降维。

主成分分析能够将原始数据集投影到新的坐标系中,使得数据在新的坐标系下具有最大的方差。

这样做的好处是能够保留数据中的大部分信息,同时减少数据的维度。

线性判别分析是一种有监督的降维技术,它在分类问题中得到了广泛的应用。

线性判别分析的目标是找到一个投影方向,使得同一类别的样本尽可能接近,不同类别的样本尽可能分开。

通过这种方式,线性判别分析能够提取出最能区分不同类别的特征。

流形学习是一种非线性的降维技术,它通过学习数据的流形结构来实现降维。

流形学习能够将高维数据集映射到低维空间中,使得数据在低维空间中保持原始数据的局部结构。

这样做的好处是能够更好地保留数据的局部特征。

二、降维技术在统计学中的应用降维技术在统计学中有着广泛的应用。

首先,降维技术可以用于数据可视化。

在高维空间中,我们很难直观地理解数据的结构和关系。

通过降维技术,我们可以将数据映射到二维或三维空间中,从而更容易地观察和分析数据。

其次,降维技术可以用于特征选择。

在机器学习和统计建模中,特征选择是一个重要的步骤。

通过降维技术,我们可以从原始数据中提取出最具代表性的特征,去除冗余和噪声特征,从而提高模型的准确性和可解释性。

此外,降维技术还可以用于数据压缩。

高维数据降维算法的研究与优化

高维数据降维算法的研究与优化

高维数据降维算法的研究与优化一、引言随着科技的发展,越来越多的数据被采集并存储,这些数据往往具有高维特征,也就是说,每个样本都包含着众多的属性。

然而,高维数据的处理与分析往往具有挑战性,我们需要寻找一种方法将这些复杂的数据进行简化,这就是降维算法的出现背景。

降维算法可以将高维数据转化为低维数据,从而减少数据的复杂度,方便后续的处理和分析。

本文将介绍常用的高维数据降维算法及其优化方法,为读者提供一些有益的参考。

二、PCA降维算法PCA是一种最常用的降维算法之一,它通过线性变换将原始数据投影到一个新的低维空间中。

该算法的核心思想是找到能最大程度区分数据差异的投影方向,也就是方差最大的方向。

假设原始数据的协方差矩阵为C,则选择前k个最大的特征值对应的特征向量组成投影矩阵,再将原始数据和投影矩阵相乘,即可得到降维后的数据。

但是,PCA算法也存在一些不足之处。

由于它只考虑了方差最大的方向,因此可能会忽略掉数据中一些重要的信息。

此外,该算法要求数据呈线性分布,因此对于非线性数据,其效果会大打折扣。

三、LLE降维算法LLE也是一种常用的降维算法,它的核心思想是通过保持样本间的邻近关系来降维。

具体来说,它先寻找每个样本的k个最近邻,然后将每个样本表示为和它最近邻之间的线性组合,从而得到一个低维表达。

该算法的优点在于它能够保持原始数据的流形结构,对于非线性数据具有很好的效果。

然而,LLE算法也有缺点。

对于噪声数据和稀疏数据,该算法的效果会有所下降。

此外,在选择最近邻时,需要手动确定参数,这也会对算法的效果产生一定的影响。

四、t-SNE降维算法t-SNE是一种非线性降维算法,它通过保持相似样本之间的邻近关系,将高维数据映射到二维或三维空间中。

该算法的核心思想在于,它将高维空间中的距离转化为条件概率,然后计算低维空间中的条件概率,从而最小化两个空间中的KL散度。

t-SNE算法在可视化高维数据方面具有很好的效果,它能够在二维或三维坐标系中保持原始数据的空间分布。

高维数据降维处理算法及应用分析

高维数据降维处理算法及应用分析

高维数据降维处理算法及应用分析高维数据是指数据维度非常高的数据,例如图像、视频、声音等。

随着科技的不断发展,大大小小的数据集变得越来越多,数据的维数也随之增长。

将高维数据降到低维,是解决高维数据分析问题的一种有效手段。

本文将系统地讲解高维数据降维处理算法及其应用分析。

一、什么是高维数据降维在社会中,我们会遇到各种数据,如人口数量、房价、空气温度等,其数据维度不会太高。

然而,在计算机领域,高维数据是指数据集的维度及其复杂度非常高,通常指超过3个维度的数据集,这类数据对于计算资源、存储空间等都是具有极高要求的。

降维是指将高维数据映射到低维空间,从而减少数据维数,方便数据存储和挖掘。

当数据量很大且维度很高时,降维处理是非常必要的。

二、高维数据降维算法1.主成分分析(PCA)主成分分析是一种常用的降维方法,它的基本思路是通过找到一些方向,将高维数据最大方差所在方向作为第一主成分,然后在与其垂直的方向上找到次大方差所在方向作为第二主成分,逐步降低维度。

通过这种方式,我们可以将原来的高维数据映射到低维空间中,以实现降维。

2.线性判别分析(LDA)线性判别分析与主成分分析有些类似,但它更加关注分类问题。

该算法的基本思路是通过找到一些维度,使得在降维后数据集中各类别之间的距离最大,而在每个类别内部的距离最小,这样就可以实现对数据的降维,同时保留最大的差异性。

3.局部线性嵌入(LLE)局部线性嵌入算法是一种非线性降维方法,可以用于处理非线性高维数据。

该算法的基本思路是寻找高维数据的局部线性结构,即在低维空间中表示高维数据的各个点可以通过邻域上的线性组合进行重构。

它不依赖于数据的分布,且对噪声数据有较好的鲁棒性。

4.多维尺度分析(MDS)多维尺度分析是一种基于距离测度的降维算法,旨在保留不同数据点之间的距离关系。

该算法的基本思路是将高维数据集中各个点之间的距离转化为低维空间中的欧氏距离,以便进行降维处理。

该算法对噪声数据具有较好的去除效果。

高维数据分析的降维技术

高维数据分析的降维技术

高维数据分析的降维技术高维数据分析是指数据集中包含大量特征或维度的数据,这种数据具有复杂性和高度抽象性,给数据分析和挖掘带来了挑战。

在实际应用中,高维数据分析往往会导致维度灾难和计算复杂度增加的问题,因此在处理高维数据时,降维技术成为了一种必不可少的方法。

一、PCA(Principal Component Analysis)主成分分析主成分分析是一种常用的降维技术,其基本思想是通过线性变换将原始数据映射到一组互相正交的主成分上,实现数据的降维。

主成分分析能够保留大部分数据的信息,同时去除特征之间的相关性,简化模型的训练和预测过程。

二、LDA(Linear Discriminant Analysis)线性判别分析与主成分分析类似,线性判别分析也是一种经典的降维技术。

其主要思想是将数据投影到一个低维空间中,使得同类样本尽可能接近,不同类样本尽可能远离。

线性判别分析在分类和模式识别领域得到了广泛应用。

三、t-SNE(t-Distributed Stochastic Neighbor Embedding)随机邻域嵌入t-SNE是一种非线性降维技术,能够有效地可视化高维数据集。

通过在高维空间中计算数据点间的相似度,并在低维空间中保持相似性关系,t-SNE能够呈现出数据集的结构和聚类特征,有助于数据的理解和分析。

四、Autoencoder自编码器自编码器是一种通过无监督学习实现数据降维和特征提取的神经网络模型。

通过训练自编码器,可以学习到数据的低维表示,并还原原始数据,实现高维数据到低维表征的映射。

自编码器在图像、文本和信号处理领域有着广泛的应用。

五、特征选择和特征抽取除了上述经典的降维技术外,特征选择和特征抽取也是重要的降维手段。

特征选择是指从原始特征中选择最具代表性的子集,保留有用信息并减少噪声。

特征抽取是通过数学变换将原始特征转换为新特征,保持数据的主要结构和关系。

这两种方法在实际应用中都能够有效地提高模型的性能和泛化能力。

高维数据的降维技巧与策略

高维数据的降维技巧与策略

高维数据的降维技巧与策略随着信息时代的到来,数据量呈指数级增长,高维数据已经成为日常工作中常见的挑战。

高维数据给数据分析和机器学习带来了许多问题,其中之一就是维度灾难。

高维数据不仅增加了计算的复杂性,还容易导致过拟合等问题。

为了解决这些问题,降维技术应运而生。

本文将介绍高维数据的降维技巧与策略,帮助读者更好地理解和应用降维技术。

一、降维技术概述降维技术是指将高维数据映射到低维空间的过程,旨在保留数据的主要特征和结构。

降维技术可以分为线性降维和非线性降维两大类。

线性降维技术包括主成分分析(PCA)、线性判别分析(LDA)等,主要适用于数据呈线性关系的情况;非线性降维技术包括t-SNE、LLE等,适用于非线性数据。

选择合适的降维技术取决于数据的特点和需求。

二、主成分分析(PCA)主成分分析是一种常用的线性降维技术,通过将高维数据映射到低维空间,保留数据的主要信息。

PCA的核心思想是找到数据中方差最大的方向作为主成分,然后按照方差递减的顺序选择其他主成分。

通过PCA可以降低数据的维度,减少冗余信息,提高计算效率。

在实际应用中,PCA可以用于数据可视化、特征提取等领域。

通过PCA可以将高维数据可视化到二维或三维空间,帮助人们更直观地理解数据的结构和关系。

此外,PCA还可以用于特征提取,提取数据中最具代表性的特征,减少特征维度,提高模型的泛化能力。

三、线性判别分析(LDA)线性判别分析是一种监督学习的降维技术,旨在找到能最好区分不同类别的特征。

与PCA不同,LDA考虑了数据的类别信息,通过最大化类间距离和最小化类内距离的方式进行降维。

LDA在分类和模式识别领域有着广泛的应用,可以提高分类器的性能。

LDA的核心思想是将数据投影到一个新的低维空间,使得不同类别的数据点尽可能分开,同一类别的数据点尽可能靠近。

通过LDA可以有效地降低数据的维度,提高分类的准确性和泛化能力。

四、t-SNEt-SNE是一种非线性降维技术,适用于高维数据的可视化。

数据降维的方法

数据降维的方法

数据降维的方法
数据降维的方法
数据降维是指将原有维数的数据,通过某种算法,转换到更低维数的数据,以达到某种目的。

数据降维的方法有多种,下面简要介绍一下几种常用的降维方法。

1. 主成分分析法:
主成分分析法是一种不改变原始数据分布的有效数据降维方法,是一种无监督学习方法。

它的基本思想是,在维数很高的时候,将原始的高维的数据映射到一个低维的空间中,使得原始数据尽可能的保留其内在的结构,同时又降低维数。

2. 降维投影:
降维投影是把原始数据集的更高维(比如三维)映射到更低维(比如二维)的过程,在映射过程中,尽可能地保留原始数据的结构。

这种方法主要是从空间上考虑,把原始数据从多维空间映射到低维空间,使得数据之间的相关性、结构等能尽可能的保留。

3. 局部线性嵌入:
局部线性嵌入是一种有监督的特征提取算法,它有效地将原有维数较高的数据映射到低维空间中,同时又能保留原有的关联结构,主要用于非线性问题。

4. 降维编码:
降维编码是指将原始数据投影到一个更低维空间中,使用某种编码规则对原始数据进行编码,以达到降维的目的。

总之,数据降维是一种常用的方法,用来简化复杂数据的处理。

它节省了计算量和存储空间,同时又能保留原来数据的结构,十分有用。

高维数据降维方法研究及应用

高维数据降维方法研究及应用

高维数据降维方法研究及应用随着信息技术的发展,数据分析和挖掘在各个领域和行业中被广泛应用,给人们带来了巨大的商业价值和社会效益。

但是面对海量的数据,如何快速准确地发掘其中的规律,成为了一个亟待解决的问题。

高维数据作为一种常见的数据形式,其处理与分析面临着诸多挑战。

为了有效利用高维数据,需使用一些高维数据降维方法,将维度降低,从而简化运算,提高数据分析的效率和准确性。

一、高维数据的特点高维数据是指指标较多,样本数较少,即数据维数超过3维,一般来说其维度超过10维。

高维数据的处理和分析需要充分考虑其特点,主要包括以下几个方面:1. 维数灾难:高维数据由于其维度较高,其样本稀疏性及复杂性是大大增加的,这对于算法的操作和效率提出了更高的要求。

2. 数据稀疏性:在高维数据中,往往只有少量特征对所研究的对象具有重要影响,而大部分特征可能是冗余的。

这就要求我们在降维的时候要注意保留重要的特征。

3. 过拟合:在高维数据中,过多的特征会导致模型过于复杂,容易出现过拟合的情况。

二、高维数据降维方法高维数据的降维方法主要分为线性降维和非线性降维两种,以下是两种降维方法的详细介绍。

1. 线性降维线性降维方法是指将高维数据通过矩阵变换映射到低维空间中,变换后的低维数据尽量能够保留原始数据的特征,来达到简化运算的目的。

常用的线性降维方法有主成分分析(PCA)、广义矩阵分析(GMA)和因子分析等。

(1)主成分分析(PCA)主成分分析(PCA)是一种常用的线性降维方法,通过线性变换将高维数据映射到低维空间中。

PCA的基本思想是将原始数据投影到新的坐标轴上,使得投影后数据的方差最大化。

这个思想可以用矩阵的特征值分解来实现。

(2)广义矩阵分析(GMA)广义矩阵分析(GMA)是一种将PCA扩展到非正交变换的方法,通过正交变换和非正交变换共同完成降维操作。

GMA方法既可以采用正向方法求解,也可以采用反向方法求解。

(3)因子分析因子分析是一种多元统计数据分析方法,主要用于研究变量间的关系。

简述降维法

简述降维法

降维法1. 引言降维法是在数据分析和机器学习领域中常用的一种技术,用于将高维数据转化为低维数据,从而降低数据的复杂性,便于后续的分析和处理。

在实际应用中,降维法可以帮助我们发现数据中的隐藏模式和结构,提高数据分析的效果和准确性。

本文将介绍降维法的原理和常用方法,以及它们在实际应用中的一些注意事项。

2. 降维原理在介绍降维法的具体方法之前,我们先来了解一下降维的原理。

高维数据通常包含大量冗余信息和噪声,这使得数据分析和处理变得复杂且计算开销较大。

而低维数据则包含了原始数据的关键信息,可以用较少的特征来表达。

因此,通过降维可以减少数据的复杂性,去除冗余信息和噪声,提高数据的表达能力和可解释性。

降维的关键问题就是如何选择合适的特征子集,使得低维数据能够尽可能地保留原始数据的信息。

不同的降维方法通过不同的策略来进行特征选择和变换,达到降维的目的。

下面我们将介绍几种常用的降维方法。

3. 主成分分析(PCA)主成分分析(Principal Component Analysis,简称PCA)是一种经典的降维方法。

它通过线性变换将高维数据投影到一个低维空间中,使得投影后的数据保留尽可能多的原始数据的方差。

PCA的基本思想是找到数据中方差最大的方向作为第一主成分,然后找出与第一主成分不相关且方差次大的方向作为第二主成分,依此类推。

PCA的具体算法步骤如下: 1. 对原始数据进行中心化处理,即将每个特征的均值减去去掉后的样本平均值。

2. 计算协方差矩阵。

3. 对协方差矩阵进行特征值分解,得到特征值和特征向量。

4. 按照特征值从大到小的顺序选择前k个特征向量,组成投影矩阵。

5. 将原始数据投影到低维空间中。

PCA的优点是简单易理解且计算效率高,但它假设数据的低维表示是线性的,对于非线性的数据结构表达可能效果较差。

4. 线性判别分析(LDA)线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的降维方法,特别适用于分类问题。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

高光谱成像数据的低维表示摘要:随着大数据时代的到来,高维数据的分析越来越困难。

而基于高光谱成像技术的人类情感识别所要分析的数据量的维度也是越来越大,因此,也诞生了很多降维方法。

通过降维,可以非常容易地发现数据的极小维度表示,降低后期大数据分析的复杂度。

通过采用这些方法进行数据降维,可以找出数据内在的相互关系,非常有利于数据分布规律的分析。

关键词:降维;高光谱成像技术;主成分分析;线性判别法;局部线性嵌入;非负矩阵分解Lower Dimensionality of High-Dimension DataWith the large volume of data coming,high dimensional data is very difficult to be analyzed.Then the dimension of data on emotion recognition by hyperspectral imaging is larger and larger. So several ways are introduced to reduce the data dimensionality.They will show the low dimensional structure of high dimensional data, and can reduce the complexity of data analysis. After, the intrinsic connection between the data can be got easily,and is helpful to research the distributing rules.Keywords: Dimension Reduction; Hyperspectral Imaging; Principal Component Analysis; Linear Discriminant Analysis; Locally Linear Embedding; Non-negative Matrix Factorization一、研究背景从采用各种身体信号(面部表情、语音、身体姿势)到采用生理信号识别人类情感,从利用单一特征作为情感识别系统的输入,到融合多通道信号特征来识别人类情感,科研工作者一直在试图获取更丰富,更有效的人类情感特征用于情感的识别。

光谱成像技术可远程无接触地获取所需生理情感信号,是未来情感识别的发展方向之一[1][2]。

高光谱成像技术能够在可见光和红外光谱范围内的100-1000 个连续窄波段上成像,所成的图像具有3 个维度—2 个空间维度和1 个波长维度。

传统的成像技术只在3 个宽波段上成像(红、绿、蓝),每个波段的带宽在100nm 数量级上,而高光谱成像在上百至上千个波段上成像,每个波段的带宽可小于1nm,且成像波段不局限在可见光范围内。

其数据量也相应以指数的量级增加,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。

所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。

数据降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。

之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余:a)有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的;b)有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系);c)可以找到一组新的不相关的变量;从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。

这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。

数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。

所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。

二、降维问题1.定义定义1.1降维问题的模型为(,)X F ,其中D 维数据空间集合{}1N l l X x ==(一般为D R 的一个子集),映射F:F X Y → (),x y F x →= Y 是d 空间集合(一般是d R ,d D <<)的一个子集,我们称F 是数据集X (到Y )的降维。

若F 为X 的线性函数,则称F 为线性降维;否则,称为非线性降维。

定义1.2 称映射1F -1:F Y X -→ 1()y xF y -→为嵌入映射。

2.分类针对降维问题的目的和待处理数据集合表象维数的多少,对其进行初步的、粗略的分类如下:1. 硬降维问题:数据维数从几千到几万甚至几十万的变化,此时需要对数据集进行“严厉”的降维,以至于达到便于处理的大小,如图像识别、分类问题以及语音识别问题等。

2. 软降维问题:此时数据集合的维数不是太高,降维的需求不是非常的迫切。

如社会科学、心理学以及多元统计分析领域皆属于此类。

3. 可视化问题:此时数据集合的绝对维数不是很高,但为了便于利用人们的直观洞察力,即为了可视化,我们将其降到2或3维。

虽然我们可以可视化更高维数的数据,但是它们通常难于理解,不能产生数据空间的合理形态。

若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类,静态降维问题和动态降维问题。

后者对于时间序列来讲是有用的,如视频序列、连续语音信号等的处理。

3.降维方法实际处理中,由于线性方法具有简单性、易解释性、可延展性等优点,使得线性降维在高维数据处理中是一个主要研究方向。

已有的线性维数约简方法,主要包括主成分分析(Principal Component Analysis,PCA)、独立成分分析(Independent Component Analysis,ICA)、线性判别分析linear discriminant analysis(LDA)、Fisher 判别分析(Fisher Discriminant Analysis,FDA)、主曲线(Principal Curves)、投影寻踪(Projection Pursuit, PP)、多维尺度方法(Multidimensional Scaling,MDS)等。

这些方法实际是在不同优化准则之下,寻求最佳线性模型,这也是线性维数约简方法的共性。

通过消除数据建模过程中的全局线性假设,Sammon提出了一种非线性映射,即Sammon映射(SM),该算法能够保持输入样本之间的相关距离;Mika等采用相同的思想来非线性扩展LDA,从而提出了kernel LDA(KLDA);然而,基于核的方法其难点在于如何选择一个合适的核函数,一个好的核函数可以使数据在特征空间上线性可分或者近似线性可分,但并不是所选核函数对于每一种数据都适用。

核函数的选择反映了人们对问题的先验知识,在实际的应用中往往是经验地选择某种核函数,比如径向基函数(Radial Basis Function,RBF)。

同时,在使用核函数时不必知道具体的特征空间,使得核函数方法缺乏物理直观性,这也是核函数方法的一个缺点。

非线性降维方法与线性降维方法相比的一个显著特点是分析中的局部性(数据集合经常满足的一个简单假设)。

原因在于对数据集合的内蕴结构而言,有下列特性:1.由泰勒定理,任何可微函数在一点的充分小的邻域之内满足线性。

形象的来讲,相当于认为曲面流形可由大小不一的局部线性块拼接而成;2.数据流形经常是由许多可分割的子流形所组成;3.数据流形的本征维数沿着流形不断的发生变化,只有局部性才能抓住其根本特性。

三、用于研究高光谱数据的降维方法(一)线性方法1. 主成分分析(Principal Component Analysis ,PCA)在文献[3]中,PCA 将方差的大小作为衡量信息量多少的标准,认为方差越大提供的信息越多,反之提供的信息就越少。

它是在损失很少的信息的前提下把多个指标转化为几个综合指标的一种多元统计方法。

它具有概念简单,计算方便以及最优线性重构误差等优良的特性。

文献[4]对PCA 及SVD 的应用作了研究,它表明这种全局算法可以较好地揭示具有线性结构的高维数据集的全局分布。

PCA 假设数据之间的关系是线性的。

它在保存原始高维数据协方差结构的基础上计算低维表达,也就是最大化总体方差。

它的目标函数可以写为:2121=arg max arg max ()arg max ()..PCAPCA PCA N m PCA i U i N T m T T PCA i PCA T PCA PCA PCA d U U i U y y U x x tr U S U s t U U I ==-=-==∑∑ 其中,1m i y y N =∑,1m i x x N =∑,且T S 为总体离散矩阵:i=1=()()T N T i i S x x x x --∑。

对转换矩阵做尺度约束d =T PCA PCA U U I ,其中d I 为d d ⨯单位矩阵。

则目标函数可以写为:arg max ()PCAT PCA T PCA U tr U S U ,..T PCA PCA d s t U U I = 上式问题可以转化为T S 的标准的特征值问题:PCA 的最优转换矩阵为T S 的d 个最大的特征值所对应的d 个m 维特征向量。

2.线性判别法(Linear Discriminant Analysis, LDA)其基本思想是投影,首先找出特征向量,把这些数据投影到一个低维的方向,使得投影后不同的组之间尽可能的分开,而同一组内的样本比较靠拢,然后在新空间中对样本进行分类。

通过最小化类内离散矩阵W S 的秩而最大化类间离散矩阵B S 的秩,来寻找一个子空间来区分不同的类别。

W S 和B S 分别定义如下:()()()()i=11=()()iN C i i i i T W j j j S x m x m =--∑∑()()1()()C i i T B i i S N m m m m ==--∑其中,i N 是第i 个类中样本的个数;()i j x 是第i 个样本中第j 个样本。

()i m 为第i 个类的质心;m 用来表示所有样本的质心,C 为样本的类别数。

LDA 则有以下的优化准则:arg max ()()T LDA B LDA T LDA W LDA tr U S U tr U S U ..T LDA LDA d s tU U I = 上述的优化可以转化为求解一个广义的特征分解问题:B W S S αλα=且最优的解为d 个特征向量其对应于d 个最大的非零特征值。

相关文档
最新文档