数据降维方法分析与研究_吴晓婷

合集下载

机器学习案例三:数据降维与相关性分析(皮尔逊(Pearson),二维相关性分析(TDC),。。。

机器学习案例三:数据降维与相关性分析(皮尔逊(Pearson),二维相关性分析(TDC),。。。

机器学习案例三:数据降维与相关性分析(⽪尔逊(Pearson),⼆维相关性分析(TDC),。

在使⽤机器学习模型对数据进⾏训练的时候,需要考虑数据量和数据维度,在很多情况下并不是需要⼤量的数据和⼤量的数据维度,这样会造成机器学习模型运⾏慢,且消耗硬件设备。

除此之外,在数据维度较⼤的情况下,还存在”维度灾难“的问题。

在本篇博客⾥不对数据质量的判定,以及数据的增删做详细的介绍,只介绍对于数据的降维⽅法。

在开展特征⼯程时,数据的降维⽅法思想上有两种,⼀种是例如主成分分析⽅法(PCA)破坏数据原有的结构从⽽提取数据的主要特征,另⼀种是对数据进⾏相关性分析,按照⼀定的法则来对数据的属性进⾏取舍达到降维的⽬的。

在实际的⼯程问题中,由仪器设备采集到的数据具有很重要的意义,如果不是万不得已在进⾏建模的时候不建议破坏数据原有的结构,因为采集到的数据本⾝就具有很重要的物理意义与研究价值,提取出主要特征后会破坏原有数据的信息。

因此在篇中介绍在实际的⼯程应⽤中使⽤相关性分析⽅法进⾏数据的降维。

相关性分析⽅法主要考量的是两组数据之间的相关性,以⼀种指标来判定,看看数据中的哪些属性与⽬标数据的相关性较强,从⽽做出保留,哪些较弱,进⾏剔除。

相关性分析⽅法也分为线性相关性分析与⾮线性相关性分析两种,分别应⽤于不同的场合。

⼀、线性相关性分析 1.数据可视化⽅法: 数据可视化⽅法在某些情况下可以简单且直观的判定数据之间的相关性,但是⽆法很好的展现出数据之间的关系。

2.⽪尔逊相关性分析(Pearsion)(还有斯⽪尔曼,原理与⽪尔逊接近) ⽪尔逊相关性分析的数学公式如下: 求两变量x和y之间的相关性: 对于结果的分析与判断: 相关系数的绝对值越⼤,相关性越强:相关系数越接近于1或-1,相关性越强,相关系数越接近于0,相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度: 相关系数 0.8-1.0 极强相关 0.6-0.8 强相关 0.4-0.6 中等程度相关 0.2-0.4 弱相关 0.0-0.2 极弱相关或⽆相关 对于x,y之间的相关系数r : 当r⼤于0⼩于1时表⽰x和y正相关关系 当r⼤于-1⼩于0时表⽰x和y负相关关系 当r=1时表⽰x和y完全正相关,r=-1表⽰x和y完全负相关 当r=0时表⽰x和y不相关 以上的分析是针对理论环境下,在实际的⼯程应⽤中也有学者发现且表明当相关性⼤于 0.2即代表存在相关性。

高维数据降维方法研究与比较

高维数据降维方法研究与比较

高维数据降维方法研究与比较降维是数据处理领域中的重要问题,特别是在高维数据分析中。

高维数据指具有大量维度的数据,由于其维度高,数据分析和可视化变得困难,因此需要采用降维方法将数据映射到低维空间中。

本文将研究和比较几种常用的高维数据降维方法。

一、主成分分析(PCA)主成分分析是一种经典的线性降维方法,通过找到数据中最大方差方向的一组正交基,将高维数据映射到低维空间。

PCA的优点是简单且易于理解,可以保留较高比例的原始数据方差。

然而,PCA在处理非线性数据时效果欠佳,且无法处理样本之间的非线性关系。

二、独立成分分析(ICA)独立成分分析是基于统计学的降维方法,通过寻找数据中的独立成分,将高维数据分解为相互独立的子空间。

ICA适用于非高斯分布的数据,可以发现数据中的隐藏信息。

然而,ICA对数据分布的假设较强,对噪声和异常值敏感。

三、流形学习(Manifold Learning)流形学习是一种非线性降维方法,基于流形假设,认为高维数据存在于低维流形上。

流形学习可以通过保持数据局部特征结构来实现降维,能够较好地处理非线性数据。

常见的流形学习算法包括局部线性嵌入(LLE)、等距映射(Isomap)和拉普拉斯特征映射(LE)。

流形学习的不足之处在于对参数选择敏感,计算复杂度较高。

四、自动编码器(Autoencoder)自动编码器是一种基于神经网络的无监督学习模型,通过训练编码器和解码器来学习高维数据的低维表示。

自动编码器可以学习数据的高阶特征,对非线性数据具有较好的适应性。

然而,自动编码器容易过拟合,并且在训练过程中需要大量的计算资源。

总结来说,不同的高维数据降维方法各有优劣。

PCA适用于线性数据降维,ICA适用于非高斯分布数据,流形学习适用于非线性数据,自动编码器则可以学习高阶特征。

在实际应用中,可以根据数据的特点选择合适的降维方法。

同时,也可以结合多种降维方法进行综合分析,以获取更好的降维效果。

降维方法的比较需要考虑多个方面,如降维效果、计算复杂度、对异常值和噪声的敏感性等。

数据降维方法研究

数据降维方法研究

数据降维方法研究一、内容简述本文主要探讨了数据降维方法的研究现状与发展趋势。

随着科技的进步和数据集的日益庞大,高维数据给数据处理和模型训练带来了诸多挑战。

为了降低计算复杂度、提高算法效率,并尽量保留数据的内在信息,数据降维技术应运而生。

数据降维方法可以分为有监督降维、无监督降维和半监督降维。

有监督降维利用已知标签数据进行训练,如主成分分析(PCA)和线性判别分析(LDA)。

无监督降维则不依赖于标签数据,常用的方法有主成分分析(PCA)、t分布邻域嵌入算法(tSNE)等。

而半监督降维则试图在有少量标签数据的情况下,挖掘潜在的结构,提高模型的泛化能力。

本文将对这些方法进行详细介绍和评述,并探讨它们在不同领域的应用及未来发展方向。

1. 数据降维的重要性随着大数据时代的到来,数据量的激增为各行各业带来了极大的数据处理挑战。

在此背景下,数据降维技术日益受到关注。

数据降维是在保留原始数据集的完整性和维度信息的基础上,通过特定的算法对高维数据进行降维处理,从而降低计算复杂度、提高数据分析效率。

本文将重点探讨数据降维的重要性,并分析其在实际应用中的重要性。

数据降维有助于提高数据挖掘的效率与精度。

面对海量数据,如果逐一进行分析,则需要耗费大量的时间和计算资源。

而通过降维,可以去除冗余和无关的信息,仅保留关键特征,从而简化数据分析过程,提升运算速度及准确性。

数据降维有助于降低计算复杂度。

高维数据在采集、存储和处理过程中往往面临较高的存储与计算负担。

采用合适的降维方法,可以大幅度减少数据的维度,使得数据更容易处理,降低计算难度与成本。

数据降维可以增强数据分析的灵活性。

在进行数据分析时,不同数据维度的选择对结果具有一定的影响。

通过对数据进行降维处理,可以在一定程度上解决变量选择困难的问题,提高分析方法的适用性和泛化能力。

数据降维在处理高维数据、提高数据利用效率、降低成本以及增强数据分析灵活性等方面具有重要意义。

在实际应用中,对数据降维技术的研究与应用显得尤为重要。

数据分析中的数据压缩与降维方法

数据分析中的数据压缩与降维方法

数据分析中的数据压缩与降维方法随着大数据时代的到来,数据分析变得越来越重要。

然而,大量的数据也给数据分析带来了一些挑战,其中之一就是数据的维度过高。

高维数据不仅会增加计算复杂度,还会导致维度灾难等问题。

为了解决这些问题,数据压缩与降维方法被广泛应用于数据分析领域。

数据压缩是指通过一系列的技术手段,将原始数据表示为更紧凑的形式,以减少数据存储和传输的开销。

常见的数据压缩方法包括无损压缩和有损压缩。

无损压缩方法可以保证压缩后的数据与原始数据完全一致,常用的无损压缩算法有哈夫曼编码、Lempel-Ziv-Welch (LZW) 算法等。

有损压缩方法则可以在一定程度上牺牲数据的精确性,从而实现更高的压缩比。

常见的有损压缩方法有JPEG、MP3等。

在数据分析中,根据数据的特点和需求,可以选择适合的压缩方法。

除了数据压缩,降维也是解决高维数据问题的一种常用方法。

降维是指将高维数据映射到低维空间,以减少数据的维度。

降维可以帮助我们更好地理解数据,发现数据中的模式和规律。

常见的降维方法包括主成分分析 (PCA)、线性判别分析(LDA)、t-SNE等。

主成分分析是一种无监督学习方法,通过线性变换将原始数据映射到新的坐标系,使得映射后的数据具有最大的方差。

线性判别分析则是一种有监督学习方法,通过线性变换将原始数据映射到低维空间,使得不同类别的数据在新的坐标系下有最大的类间距离和最小的类内距离。

t-SNE是一种非线性降维方法,它可以在保持数据局部结构的同时,有效地降低数据的维度。

除了上述方法,还有一些其他的数据压缩与降维方法。

例如,奇异值分解(SVD) 是一种常用的矩阵分解方法,可以将一个矩阵分解为三个矩阵的乘积,从而实现数据的降维。

非负矩阵分解 (NMF) 则是一种特殊的矩阵分解方法,它要求分解出的矩阵元素都是非负的,适用于非负数据的降维。

此外,还有一些基于字典学习、稀疏编码等方法的数据压缩与降维技术。

在实际应用中,选择合适的数据压缩与降维方法需要考虑多个因素。

高维数据降维方法的研究进展与应用

高维数据降维方法的研究进展与应用

高维数据降维方法的研究进展与应用高维数据降维是一项非常重要的数据预处理技术,其能够通过减少不必要的特征,提高数据的处理效率和准确性,因此在许多领域都得到了广泛的应用。

随着科技的不断进步,我们所创建的数据越来越多,数据的维度也愈加复杂,因此降维的技术也显得越发重要。

本文将会探讨高维数据降维方法的研究进展以及其在各个领域的应用。

一. 高维数据降维方法的研究进展目前高维数据降维的方法可以分为线性和非线性两大类。

1. 线性降维方法线性降维方法一般是通过保留数据中的最主要的方差,对数据进行精简。

其中比较常见的线性降维方法有PCA(主成分分析)和LDA(线性判别分析)两种。

PCA是一种经典的线性降维方法,可以通过尽可能多地保留原始数据的方差来实现数据降维,而LDA则是一种更为稳定和鲁棒的降维方法,它会考虑到数据的类别信息,将数据映射到一个新的低维度空间中。

2. 非线性降维方法非线性降维方法是通过将数据从高维度空间映射到低维空间中,从而实现数据降维。

其中常见的非线性降维方法有Isomap算法,LLE算法以及t-SNE算法。

Isomap算法通过保留数据之间的不同距离来实现数据的降维,LLE算法则是通过保留数据之间的局部关系来实现数据的降维,而t-SNE算法则是通过并行压缩和显式分离来实现数据的降维。

二.高维数据降维的应用高维数据降维方法在许多领域都得到了广泛的应用,下面将会介绍其中的几个应用案例。

1. 图像处理在图像处理中,由于图像的维度非常高,传统的方法无法很好地应对。

而通过使用高维数据降维方法,可以将图像转换为低维度空间中,从而方便更为准确的处理。

目前在图像处理中,常使用的降维方法有PCA和LLE等。

2. 机器学习在机器学习中,高维度空间数据往往会导致模型过拟合的现象,而此时使用高维数据降维方法,可以有效地提高模型的鲁棒性和准确性。

目前在机器学习中,常使用的降维方法有PCA、LDA、t-SNE等。

3. 网络安全在网络安全中,使用高维度数据进行攻防演练和检测是常见的方法。

数据降维的常用方法

数据降维的常用方法

数据降维的常用方法
以下是 7 条关于数据降维的常用方法:
1. 主成分分析啊!这就像把一堆杂乱的拼图碎片整理出最关键的几块。

比如说,在分析一堆人的各种身体数据时,通过主成分分析,就能找出最能代表这些人特征的那几个关键指标,是不是超厉害!
2. 因子分析也不错呀!可以把复杂的关系变得简单明了。

就好比整理一个杂乱无章的房间,通过因子分析找到几个重要的类别,让房间瞬间清爽起来。

比如分析各种商品的销售数据,找出主要的影响因子。

3. 奇异值分解可别小瞧!它就像是在一座大宝藏中找到最闪亮的那些宝贝。

想象一下在大量的文档数据中,用奇异值分解提取出最核心的主题信息,哇,太酷了!
4. t-SNE 也值得一提呢!这就如同在茫茫人海中精准找到那些和你最
相似的人。

比如在分析图像特征时,t-SNE 能让相似的图像聚集在一起,多神奇!
5. 局部线性嵌入也很牛呀!它就像为数据开辟了一条捷径。

就好比在迷宫中找到最快到达终点的那条路一样。

像处理复杂的地理数据时,局部线性嵌入能发现隐藏的结构呢。

6. 拉普拉斯特征映射也好用呢!像是给数据穿上了一件合适的衣服,让它更合身。

比如在处理声音信号时,通过它来找到关键的特征。

7. 等距特征映射也不能忘啊!这简直就是给数据开了一道魔法之门。

想象一下在海量的交易数据中,它能迅速找到关键的模式,是不是很惊人!
总之,这些方法都各有各的神奇之处,掌握了它们,就能在数据的海洋中畅游啦!。

高维数据降维方法的研究与比较分析

高维数据降维方法的研究与比较分析

高维数据降维方法的研究与比较分析高维数据降维是一个重要的数据分析问题,多维数据通常包含大量的冗余信息和噪声,而且在高维空间中的计算复杂度较高。

因此,降维方法可以帮助我们减少数据维度,提取数据中的重要信息,从而简化数据分析,加快计算速度,并且可以用可视化的方法更好地理解和分析高维数据。

本文将对一些常用的高维数据降维方法进行研究和比较分析。

首先介绍降维方法的基本原理和常见的评价指标,然后分别介绍主成分分析(PCA)、线性判别分析(LDA)、局部线性嵌入(LLE)、t分布随机邻域嵌入(t-SNE)和自编码器等方法,并分析它们的优缺点。

最后,我们通过实例对这些方法进行比较分析。

降维方法的基本原理是通过将高维数据映射到低维空间,保留数据的重要信息。

常见的评价指标包括保留的信息量、可视化效果和计算效率等。

信息量可以通过方差或者信息增益等指标衡量,可视化效果可以通过样本点在二维或者三维空间的分布来观察,计算效率可以通过时间复杂度和空间复杂度等指标来评估。

主成分分析(PCA)是最常用的降维方法之一,它通过线性变换将高维数据转换为低维数据,使得低维数据的方差最大化。

优点是简单易懂,计算高效,但它只考虑了样本间的协方差,忽略了类别信息。

线性判别分析(LDA)是一种有监督的降维方法,它在PCA的基础上考虑了类别信息,在保持低维空间数据的分离性的同时,最大化同类样本点的方差,最小化不同类样本点的方差。

优点是考虑了类别信息,但缺点是计算复杂度较高,对于非线性数据的分类效果不好。

局部线性嵌入(LLE)是一种非线性降维方法,它考虑了样本间的局部关系,通过保持样本的局部邻域结构来降维。

优点是对非线性数据有较好的降维效果,但缺点是计算复杂度较高,对异常值非常敏感。

t分布随机邻域嵌入(t-SNE)是一种用于可视化的降维方法,它通过最小化高维数据和低维数据间的Kullback-Leibler散度来保持样本间的相似性。

优点是可以从高维数据中提取出局部结构,但缺点是计算复杂度较高,对大规模数据不适用。

数据分析中常用的降维方法有哪些

数据分析中常用的降维方法有哪些

数据分析中常用的降维方法有哪些对大数据分析感兴趣的小伙伴们是否了解数据分析中常用的降维方法都有哪些呢?本篇文章小编和大家分享一下数据分析领域中最为人称道的七种降维方法,对大数据开发技术感兴趣的小伙伴或者是想要参加大数据培训进入大数据领域的小伙伴就随小编一起来看一下吧。

近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。

于此同时,这也推动了数据降维处理的应用。

实际上,数据量有时过犹不及。

有时在数据分析应用中大量的数据反而会产生更坏的性能。

我们今天以2009 KDD Challenge 大数据集来预测客户流失量为例来探讨一下,大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢。

因此,下面我们一下来了解一下数据分析中常用的降维方法。

缺失值比率(Missing Values Ratio)该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。

因此,可以将数据列缺失值大于某个阈值的列去掉。

阈值越高,降维方法更为积极,即降维越少。

低方差滤波(Low Variance Filter)与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。

因此,所有的数据列方差小的列被移除。

需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做归一化处理。

高相关滤波(High Correlation Filter)高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。

这样,使用相似列中的一列就可以满足机器学习模型。

对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。

相关系数大于某个阈值的两列只保留一列。

同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。

随机森林/组合树(Random Forests)组合决策树通常又被成为随机森林,它在进行特征选择与构建有效的分类器时非常有用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2008211226;修回日期:2009201224 基金项目:国家自然科学基金资助项目(60372071);中国科学院自动化研究所复杂系统与智能科学重点实验室开放课题基金资助项目(20070101);辽宁省教育厅高等学校科学研究基金资助项目(2004C031) 作者简介:吴晓婷(19852),女(蒙古族),内蒙古呼伦贝尔人,硕士研究生,主要研究方向为数据降维、模式识别等(xiaoting wu85@hot m ail .com );闫德勤(19622),男,博士,主要研究方向为模式识别、数字水印和数据挖掘等.数据降维方法分析与研究3吴晓婷,闫德勤(辽宁师范大学计算机与信息技术学院,辽宁大连116081)摘 要:全面总结现有的数据降维方法,对具有代表性的降维方法进行了系统分类,详细地阐述了典型的降维方法,并从算法的时间复杂度和优缺点两方面对这些算法进行了深入的分析和比较。

最后提出了数据降维中仍待解决的问题。

关键词:数据降维;主成分分析;局部线性嵌入;等度规映射;计算复杂度中图分类号:TP301 文献标志码:A 文章编号:100123695(2009)0822832204doi:10.3969/j .jssn .100123695.2009.08.008Analysis and research on method of data dimensi onality reducti onWU Xiao 2ting,Y AN De 2qin(School of Co m puter &Infor m ation Technology,L iaoning N or m al U niversity,D alian L iaoning 116081,China )Abstract:This paper gave a comp rehensive su mmarizati on of existing di m ensi onality reducti on methods,as well as made aclassificati on t o the rep resentative methods systematically and described s ome typ ical methods in detail.Further more,it deep ly analyzed and compared these methods by their computati onal comp lexity and their advantages and disadvantages .Finally,it p r oposed the crucial p r oble m s which needed t o be res olved in future work in data di m ensi onality reducti on .Key words:data di m ensi onality reducti on;p rinci pal component analysis (PCA );l ocally linear e mbedding (LLE );is ometric mapp ing;computati onal comp lexity 近年来,数据降维在许多领域起着越来越重要的作用。

通过数据降维可以减轻维数灾难和高维空间中其他不相关属性,从而促进高维数据的分类、可视化及压缩。

所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。

数据降维的数学描述如下:a )X ={x i }N i =1是D 维空间中的一个样本集,Y ={y i }Ni =1是d (d <<D )维空间中的一个数据集;b )降维映射,M :X →Y,x →y =M (x ),称y 为x 的低维表示。

目前已经提出了许多降维方法[1~6],主要包括主成分分析(PCA )、多维尺度分析(multidi m ensi onal scaling,MDS )以及近年来提出的基于流形学习的算法,如Is omap 、局部线性嵌入(LLE )、拉普拉斯特征映射(Lap lacian Eigen map s )等。

对现有的降维方法,可以从不同角度进行分类。

从待处理的数据的性质角度考虑可分为线性和非线性的;从算法执行的过程可分为基于特征值求解的方法和迭代方法;从几何结构的保留角度考虑可分为全局方法和局部方法。

本文依据降维方法间的主要区别,将现有的降维方法进行了系统的分类,如图1所示,并对几种典型的线性和非线性降维方法进行了详细的阐述,最后对这些降维方法进行了系统的分析比较。

 典型的降维方法1 线性降维方法1)PC APCA [1]是通过对原始变量的相关矩阵或协方差矩阵内部结构的研究,将多个变量转换为少数几个综合变量即主成分,从而达到降维目的的一种线性降维方法。

这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。

数据降维线性方法PCA LDA非线性方法保留局部性质基于重建权值:LLE邻接图Laplacian:Lap lacian Eigenmap s基于切空间Hessian LLELTS A保留全局性质基于距离保持基于欧式距离:MDS基于测地线距离:Is omap基于分散距离:diffusion map s基于核:核PCA基于神经网络:多层自动编码图1 现有降维方法分类 设X =(X 1,X 2,…,X n )T 是一个n 维随机变量,C =1/(n -1)∑ni =1(X i -X ))(X i -X )T为样本协方差矩阵。

假设存在如下线性变换:Y 1=a 11X 1+a 21X 2+…+a N 1X N =a T1X Y 2=a 12X1+a 22X 2+…+a N 2X N =a T 2X…Y N =a 1N X 1+a 2N X 2+…+a NN X N =a T N X(1)若用Y 1代替原来的n 个变量,则要求Y 1尽可能多地反映原来n 个变量的信息。

而方差var (Y 1)越大则表示Y 1包含的信息越多,因此要求最大化var (Y 1),同时限定a T1a 1=1以消第26卷第8期2009年8月 计算机应用研究App licati on Research of Computers Vol .26No .8Aug .2009除方差最大值的不确定性。

根据上述条件易求得var (Y 1)=a T1C a 1,因此,求解方差var (Y 1)最大问题可转换为在约束a T1a 1=1下求以下最优问题:max a T1C a 1s .t .a T 1a 1=1(2)通过拉格朗日乘子法求解,有C a 1=λa 1。

设λ=λ1为C 的最大特征值,则相应的特征向量a 1即为所求。

如果Y 1不能代表n 个变量的绝大部分信息,则可以用同样的方法求得Y 2甚至Y 3、Y 4等。

一般地,求X 的第i 个主成分可通过求C 的第i 大特征值对应的特征向量得到。

为了使它们所含信息互不重叠,通常要求它们相互独立,即cov (Y i ,Y j )=a T i C a j =0(i ≠j )。

通过上述方法就可以找到线性变换(式(1))的一组线性基,从而找到原始变量的一组综合变量(主成分)来代替原始变量。

在实际应用中通常不会使用所有n 个主成分,而选取m(m <<n )个主成分。

m 的选取根据前m 个主成分的累计贡献率∑mi =1λi /∑nj =1λj 来选取。

2)LDAFisher 在1936年提出著名的Fisher 准则,对于二类(分别称为正类和负类)问题,希望投影后得到的y =w Tx 能够使得J (w )最大:J (w )=‖m 1-m 2‖2/(σ21-σ22)(3)其中:m 1、m 2分别是正、负样本在投影方向上的均值;σ1、σ2是正、负样本在投影方向上方差。

可将其推广到多类问题,此时希望找到的优化方向是使得在低维空间中同类数据尽量靠近,而非同类数据尽量分离,从而保留丰富的辨别信息,使投影后的数据具有最大的可分性。

此时,Fisher 准则可修正为W op t =arg max w|w T S B w |/|w T S ωw |(4)其中:S B 、S ω分别是类间分散和类内分散,定义为S ω=∑cp c cov X c -X c,S B =cov X -X-S ω(5)其中:p c 是类标c 的预先类;cov X c -X c 表示分配给类c ∈C (C 为可能的类的集合)的零均值数据点x i 的协方差矩阵,且cov X -X 是零均值数据X 的协方差矩阵。

最大化过程可以通过计算S -1ωS B (在必要条件d <|C |下)的d 个主特征向量完成。

求出特征向量后,原始数据X 在这些特征向量上的投影系数就是其低维嵌入坐标。

1 非线性降维方法1)核主成分分析(KPC A )核方法是一系列非线性数据处理技术的总称,它们的共同特征是这些数据处理方法均用到了核映射。

近几年,使用核函数[6]对线性方法的重建提出一些成功方法,如支持向量机回归、核PCA 、核Fisher 分析等。

核PCA 是线性PCA 的推广,主要思想是把输入数据x 经由一个非线性映射Φ(x )映射到特征空间F,然后在特征空间F 上执行线性PCA 。

基本原理如下:设给定高维数据观测集X ={x 1,x 2,…,x N },x i ∈R D。

通过非线性映射函数x →Φ(x )∈F (F 称为特征空间),将每个数据点x 映射到一个高维的特征空间。

对原始空间中任意两个数据点x i 、x j 在F 空间中的距离用它们的内积Φ(x i )Φ(x j )表示,定义核函数k (x i ,x j )=Φ(x i )Φ(x j )。

假设∑Ni =1Φ(x i )=0,则在特征空间F 上映射数据的协方差矩阵为C =(1/N )∑Ni =1Φi ΦTi ,Φi =Φ(x i )。

求C 的特征值λ(λ≥0)和特征向量v:C v =λv(6)即有Φk C v =λΦk v (k =1,2,…,N )。

因为v 是在{Φi }生成的空间中,所以v 可以表示为v =∑iαi Φi(7)将式(7)带入式(6),有λ∑Ni =1αi (Φk Φi )=(1/N )∑Ni =1αi (Φk ∑Nj =1Φj )(Φj Φi )即Kα=λα(8)其中:K i ,j =Φi Φj 为核矩阵,λ=N λ。

对式(8)求解可获得要求的特征值和特征向量。

相关文档
最新文档