第4讲特征降维

合集下载

特征选择与降维在数据挖掘中的应用

特征选择与降维在数据挖掘中的应用随着数据量的不断增加，数据挖掘已经成为各个领域的热门技术。

而在数据挖掘的过程中，特征选择与降维是非常重要的技术手段。

它可以在保持模型效果不变或者几乎不变的情况下，降低特征数量和数据维度，提高模型学习速度、减少运算成本和减小过拟合发生的概率。

下文将从特征选择和降维的定义、方法和应用三个方面来探讨特征选择和降维在数据挖掘中的应用。

一. 特征选择和降维的定义特征选择（feature selection）指从原始特征中挑选出最有用的特征子集，并用其代替原始特征集，以提高学习算法的性能。

特征选择可以减少模型的复杂性，提高学习效果和模型解释性。

根据特征选择的原理，特征选择方法可以分为三类：过滤式、包裹式和嵌入式。

其中，过滤式方法在特征选择和模型学习之间引入一个特征选择的环节，在模型学习之前预先进行一次特征选择。

包裹式方法直接把特征选择和模型学习框在一起，直接考虑模型性能作为特征选择评价指标。

嵌入式方法把特征选择和模型训练融合在一起，把特征选择嵌入到模型训练的过程中。

降维（dimensionality reduction）也可以看作是特征选择的一种方式，它是指通过保留数据中最有信息的部分，减少数据维度的过程。

降维可以减少数据存储空间和计算成本，同时也可以提高模型的学习效果和泛化能力。

根据降维的原理，降维方法可以分为两类：基于线性变换的降维方法和基于非线性的降维方法。

其中，基于线性变换的降维方法主要包括主成分分析（Principal Component Analysis，PCA）、线性判别分析（Linear Discriminant Analysis，LDA）等。

基于非线性的降维方法主要包括流形学习（Manifold Learning）等。

二. 特征选择和降维的方法1. 过滤式方法过滤式方法主要从两方面来考虑特征子集的优劣：一是从特征子集的内部因素考虑，如特征之间的互相关系；二是从特征子集的外部因素来考虑，如特征子集对模型预测性能的影响。

拉普拉斯特征映射降维le

拉普拉斯特征映射降维le拉普拉斯特征映射降维：探索数据的奇妙之旅前几天，我参加了一个数据处理的研讨会，会上大家热火朝天地讨论着各种数据处理技术，其中就提到了拉普拉斯特征映射降维。

这可让我瞬间来了精神，也勾起了我想要跟大家好好聊聊这个有趣话题的欲望。

咱们先来看看拉普拉斯特征映射降维到底有哪些主要特征。

第一个特征是“基于图的构建”。

这就好比我们在搭建一个人际关系网，把数据点当作人，数据点之间的关系当作人与人之间的联系。

它是通过计算数据点之间的相似度来构建这个图的。

比如说，在处理图像数据时，如果两个像素点的颜色、亮度等特征很相似，那它们之间的联系就会更紧密。

这个特征的作用可不小，它能很好地保留数据的局部结构，让降维后的结果更符合我们对数据的直观理解。

就像我们看一张照片，即使经过处理，人物的大致轮廓和关键特征还是能清晰展现。

不过，它也有缺点，要是数据量太大，构建这个图的计算量就会让人头疼。

再来说说“保持流形结构”这个特征。

想象一下，数据就像在一个弯曲的表面上分布，而拉普拉斯特征映射降维就是要尽量保持这个弯曲的形状。

在实际应用中，比如对复杂的高维函数进行降维，它能很好地捕捉到函数的内在结构。

但它的局限性在于，如果数据的分布非常不规则，可能就没办法很好地发挥作用啦。

拉普拉斯特征映射降维对事物性质和使用体验的影响那可多了去了。

比如说，在处理大规模数据时，它能把高维的数据压缩到低维，大大减少了计算时间和存储空间，这感觉就像是给我们的电脑“减负”了。

但有时候，如果降维过度，可能会丢失一些重要的细节信息，就像把一幅精美的画简化得太过了，失去了原本的韵味。

那它有没有安全性和潜在问题呢？还真有！在某些情况下，如果数据中存在噪声或者异常值，可能会影响图的构建，导致降维结果不准确。

就好像我们在盖房子的时候，地基没打好，房子就可能歪歪斜斜。

总结一下，拉普拉斯特征映射降维是个很有意思的数据处理方法，有它的优势和不足。

对于想要使用这个方法的朋友们，我有几个小建议。

机器学习技术如何处理高维稀疏数据

机器学习技术如何处理高维稀疏数据机器学习是一种通过训练算法和模型来使机器自动学习并提升性能的技术。

在实际应用中，我们通常会面临处理大量数据的问题。

而在许多现实场景中，这些数据往往具有高维稀疏的特征，也就是说，它们拥有大量特征，但每个样本中只有少数特征有非零值。

如何处理这类数据成为了机器学习中的重要问题。

高维稀疏数据的处理在机器学习中具有一定的挑战性，因为这类问题会导致维度灾难和过拟合等问题。

维度灾难指的是当维度增大或特征数量增多时，训练集中的样本变得非常稀疏，导致模型在训练时困难加大，容易过拟合。

针对高维稀疏数据，机器学习技术有几种常见的处理方法。

第一种方法是特征选择。

在高维稀疏数据中，往往只有少数特征对于问题的解决具有重要性，因此通过选择重要特征可以减少维度，并且提高模型的性能和运行效率。

特征选择算法可以基于统计方法如卡方检验、信息增益等进行特征评估，进而选择对目标变量有较大影响的特征。

此外，还可以使用L1正则化方法，通过稀疏化系数将部分特征的权重调整到零，从而实现特征选择。

第二种方法是特征降维。

降维可以将原始高维稀疏数据映射到一个低维空间中，从而减少维度的同时保留关键信息。

常见的降维方法有主成分分析（PCA）和线性判别分析（LDA）。

PCA通过计算协方差矩阵，并找到数据方差最大的投影方向，将原始数据映射到低维空间，从而获得较低维度的特征集合。

而LDA则是通过最大化类之间的散度和最小化类内的散度来选择特征子空间，从而获取最佳的判别性能。

第三种方法是使用特定的模型或算法。

传统的机器学习算法在处理高维稀疏数据时可能会受到限制，因此需要采用一些特定的模型或算法来处理。

例如，支持向量机（SVM）是一种有效处理高维稀疏数据的方法，它通过定义一个超平面来实现对数据的分类，可以有效地处理高维特征。

此外，决策树、随机森林和梯度提升树等集成学习方法也可以用于处理高维稀疏数据，通过组合多个弱模型来提高整体的预测性能。

机器学习中的降维与特征提取

机器学习中的降维与特征提取机器学习是一种利用统计学方法来使计算机自动学习的技术。

在大数据时代，机器学习技术正在得到越来越广泛的应用。

机器学习中的一个重要问题就是如何处理高维度、大规模的数据。

这时，降维与特征提取就成为了机器学习中非常重要的技术。

一、背景介绍在机器学习中，每个样本都有很多的特征，这些特征可能是一个人的身高、体重、年龄等等，也有可能是一篇文章的关键词、词频等等。

这样，我们就可以用 $n$ 维向量来表示每个样本，其中 $n$ 是特征的个数。

但是，当 $n$ 很大时，样本间的距离就会变得非常稀疏，而且计算复杂度也会变得非常高。

所以，我们需要一种方法来减少特征的数量，或者缩小特征的范围，让样本的表示变得更加紧凑和高效。

二、降维技术降维是指将高维数据（即 $n$ 维、$n > 3$ 的数据）映射到低维数据（即 $m$ 维、$m < n$ 的数据）的过程。

这样就能够降低数据的维度，减小计算量，并提高模型的泛化能力。

在降维的过程中，我们可以使用线性降维方法和非线性降维方法，下面我们分别来介绍。

线性降维方法：线性降维方法主要包括主成分分析（PCA）和线性判别分析（LDA）。

其中，PCA 是一种常用的线性降维技术，它通过对数据进行线性变换，将原始数据映射到一个新的空间上，并选择一些主成分来保留尽可能多的信息。

在这个新的低维空间中，数据的方差最大，因此，能够保留更多的数据信息。

LDA 是一种有监督的线性降维方法，它将不同类别的数据在低维空间中尽可能分开，以实现分类的目的。

非线性降维方法：非线性降维方法主要包括核主成分分析（KPCA）和局部线性嵌入（LLE）。

KPCA 是一种非线性降维方法，它使用一个映射函数来将高维数据映射到一个低维的空间中。

这个映射函数是由一个核函数来定义的，核函数在低维空间中的内积等价于高维空间中的内积，而这个内积可以通过求解特征值问题来计算。

而LLE 是一种基于局部邻域的非线性降维方法，它利用了数据的局部特性，并寻找一个低维数据的表示方式，以保持高维空间中每个点的邻域拓扑关系。

数据挖掘篇——特征工程之特征降维

数据挖掘篇——特征⼯程之特征降维在业界⼴泛流传着⼀句话：数据和特征决定了机器学习的上限，⽽模型和算法只是逼近这个上限⽽已。

由此可见，数据和特征是多么的重要，⽽在数据⼤多数场景下，数据已经就绪，不同⼈对于同样的数据处理得到的特征却千差万别，最终得到的建模效果也是⾼低⽴现。

从数据到特征这就要从特征⼯程说起了...0. 特征⼯程⾸先介绍下，特征⼯程是什么：利⽤数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

特征⼯程是⼀个较⼤领域，它通常包括特征构建、特征提取和特征选择这三个⼦模块，重要性排序：特征构建>特征提取>特征选择。

先来介绍⼏个术语：特征构建：从原始数据中构建出特征，有时也称作特征预处理，包括缺失值处理、异常值处理、⽆量纲化（标准化/归⼀化）、哑编码等。

特征提取：将原特征转换为⼀组具有明显物理意义或统计意义或核的新特征。

特征选择：从特征集合中挑选⼀组最具统计意义的特征⼦集。

其中本⽂主要总结下可统⼀⽤于特征降维的特征提取和特征选择技术⽅法，特征构建涉及技术点较少，下回再分解。

1. 特征降维WHAT：将⾼维空间的特征通过删减或变换转为低维空间特征WHY：降低时间/空间复杂度、降低提取特征开销、降噪、提升鲁棒性、增强可解释性、便于可视化；HOW：主要有两种⽅式，即特征选择和特征提取。

1.1 特征选择（⼦集筛选）：特征选择⽅法主要分为三种：Filter：过滤式；按权重排序，不涉及到学习器，排序规则⼀般有⽅差法、相关系数法、互信息法、卡⽅检验法、缺失值⽐例法（注意受范围影响的⽅法需先归⼀化）。

⽅差法：计算各个特征的⽅差，然后根据阈值，选择⽅差⼤于阈值的特征。

可使⽤sklearn.feature_selection库的VarianceThreshold类来实现。

缺失值⽐例法：计算各个特征的缺失值⽐例，将缺失值⽐例较⼤的特征过滤掉。

相关系数法：计算特征与输出值的相关系数以及相关系数的 P值（常见的有：⽪尔森相关系数⽤于数值特征的线性检验，秩相关系数⽤于类别特征的单调性检验）。

文本分类中的特征降维方法综述

文本分类中的特征降维方法综述文本分类中的特征降维方法综述文本分类是自然语言处理中最常用的一项技术，它包括常用的文本分类、聚类、情感分析等。

文本分类的目的是将文本数据按其语义特征分类，以便进行更有效的检索、分析和研究。

文本分类的关键是提取有效的特征，有效的特征可以帮助算法更好的学习文本的内容，从而提高文本分类的准确性。

目前文本分类中，除了传统的词袋模型以外，还使用了许多特征降维方法来提取有效的文本特征，其中包括主题模型、词嵌入技术、卷积神经网络等技术。

主题模型是一种潜在的文本特征提取技术。

主题模型可以捕捉文本中的语义和主题关系，并将文本抽象成一组分布式特征，从而贡献了语义分析的性能。

LDA(Latent Dirichlet Allocation)是一种常用的主题模型，它可以描述文档中词汇的主题分布，并且可以使用该模型对文本进行分类。

另外，还有许多其他的主题模型，如pLSA(Probabilistic Latent Semantic Analysis)、hLDA(Hierarchical Latent Dirichlet Allocation)和LSA(Latent Semantic Analysis)。

词嵌入技术用来表示语义之间的关系，可以把文本映射到一个稠密的向量空间。

词嵌入技术可以用来降低文本特征的维度，并可以提取出文本中深层次的语义特征。

它通过分析语料库中的语义关系，建立起不同词汇之间的语义相似性，从而可以把文本数据转换成一组稠密的词向量，这些词向量可以作为文本分类时的有效特征。

常用的词嵌入技术包括word2vec、GloVe和fastText等。

卷积神经网络是一种能够发现文本中深层次结构的机器学习技术。

它可以提取文本中的语义特征，以便将文本类别信息转换为一组更有意义的特征表示。

卷积神经网络的主要优点是，可以自动从文本中提取出有效的特征，可以使用不同的卷积核提取不同特征，而且能够从文本中捕捉到深层次的特征，从而提高文本分类的效果。

监督学习中的特征选择和降维技术(Ⅱ)

监督学习中的特征选择和降维技术在机器学习中，监督学习是一种重要的学习方式，它通过学习输入与输出之间的映射关系，来训练模型实现预测和分类等任务。

然而，由于数据维度高、特征冗余等问题，监督学习中常常需要进行特征选择和降维处理，以提高模型的性能和效率。

一、特征选择特征选择是指从原始特征中选择出最具代表性的特征，以降低数据维度、提高模型性能的过程。

在监督学习中，特征选择是非常重要的一环，它可以减少模型的计算复杂度，提高模型的泛化能力，并且有助于发现数据中的规律和特征间的关联性。

在实际应用中，特征选择的方法有很多种，比较常用的包括过滤式、包裹式和嵌入式特征选择方法。

过滤式特征选择是一种简单而有效的特征选择方法，它通过计算特征与标签之间的相关性，来选择最具代表性的特征。

常用的过滤式特征选择方法有相关系数、方差分析、互信息等。

与过滤式特征选择方法相比，包裹式特征选择方法更加精确，它直接基于模型性能来评价特征的重要性，但是计算开销较大。

嵌入式特征选择方法则是将特征选择与模型训练过程相结合，通过正则化等手段来实现特征选择。

二、降维技术除了特征选择外，降维技术也是监督学习中常用的一种处理方法。

降维技术主要通过将高维数据映射到低维空间，来减少数据的冗余和噪声，提高模型的计算效率和泛化能力。

在监督学习中，常用的降维技术包括主成分分析（PCA）、线性判别分析（LDA）、t-SNE等。

其中，主成分分析是一种常用的线性降维技术，它通过找到数据中最主要的方向，将原始特征映射到新的低维空间。

主成分分析能够最大程度地保留原始数据的信息，是一种较为常用且有效的降维技术。

而线性判别分析则是一种与分类任务密切相关的降维技术，它通过最大化类间距离、最小化类内距离的方式，将样本映射到低维空间中，以便更好地进行分类。

除了线性降维技术外，t-SNE是一种非线性降维技术，它能够更好地保持原始数据的局部特征和相似性，常用于可视化高维数据和聚类分析等任务。

数据科学中的特征选择与降维技术综述

数据科学中的特征选择与降维技术综述特征选择与降维技术在数据科学领域具有重要意义。

特征选择是指从原始特征集中选择合适的特征子集，以提高模型的性能和降低计算成本。

降维技术是指通过一些数学变换方法，将高维数据映射到低维空间中，以便更好地理解数据的结构和特性。

本文将对特征选择与降维技术进行综述，包括其基本概念、常用方法和应用领域等方面进行深入探讨。

一、特征选择的基本概念特征选择是数据预处理的一个重要环节，其目的是从原始特征中选择出对预测目标有重要影响的特征，以降低模型的复杂性和提高预测性能。

特征选择的基本概念包括以下几个方面：1.特征重要性评估：评估每个特征对预测目标的重要性，可以通过统计方法、机器学习方法或领域知识等来进行评估。

2.特征选择方法：常见的特征选择方法包括过滤式、包裹式和嵌入式方法，它们分别基于特征的统计性质、模型预测性能和特征与模型的交互关系来进行特征选择。

3.特征选择的目标：特征选择的目标包括降低计算成本、提高模型的预测性能、增强模型的解释性等。

二、特征选择的常用方法特征选择的常用方法包括过滤式、包裹式和嵌入式方法，每种方法都有其独特的特点和适用场景。

下面我们将对这些方法进行详细介绍：1.过滤式方法：过滤式方法是一种基于特征间关系进行筛选的方法，常用的过滤式方法包括方差筛选、相关系数筛选、互信息筛选等。

这些方法主要是根据特征的统计性质进行筛选，计算简单但忽略了特征与模型的交互关系。

2.包裹式方法：包裹式方法是一种基于模型性能的特征选择方法，常用的包裹式方法包括递归特征消除、正向搜索、反向搜索等。

这些方法在特征选择过程中采用了具体的预测模型，可以更好地反映特征和模型的交互关系，但计算成本较高。

3.嵌入式方法：嵌入式方法是一种将特征选择与模型训练结合在一起的方法，常用的嵌入式方法包括L1正则化、决策树特征重要性等。

这些方法在模型训练过程中同时进行特征选择，可以有效地提高模型的预测性能和降低计算成本。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

( 2) (1) k ，x l ）
（x
(2) ( 2) k ，x l ）
对于随机性的统计分类，如果样本集是给定的，则无论其中各类样本如何划分，类内类间距离都是相等的，也就是说，类内类间距离本身和分类错误率不相关，不能直接用于类别可分性测度。虽然类内类间距离本身不能用作类别可分性测度，但对其进行分解处理后，可以得到与类别可分性相关的测度指标。如采用均方欧氏距离来度量两个特征向量之间的距离，则有
ni为i中的样本数，nj为 j中的样本数，Pi，Pj是各类的先验概率。
例：
第 3 页自动化学院模式识别与智能系统研究所高琪 gaoqi@
《模式识别》讲义 2014 版：第四讲特征降维
1 Jd ( x ) 2

2 2
1 Pi Pj ni n j i 1 j 1
d
当特征独立时具有可加性，即 J（ ij x1 , x2 , , xd )
J
k 1
ij
( xk )
J ij 0，当i j时具有标量（Scalar）测度特性： J ij 0，当i j时 J J ji ij
对特征数量具单调性，即：
J（ ij x1 , x 2 , , x d ) J （ ij x1 , x 2 , , x d , x d＋1 )
2、特征提取 Feature Extraction
特征提取是通过某种变换，将原始特征从高维空间映射到低维空间。 A：X→Y； A 称为特征提取器，通常是某种正交变换（Orthogonal Transformation）。
图 2 特征提取
对于各种可能的特征提取器，需要选择最优的一种，也就是降维后分类最有效的一种，通常设定一个准则函数 J(A)，使得取到最优特征提取时，准则函数值取到最大值，即 J(A*)=max J(A)。
(i) 设一个分类问题共有c类，令xk ，xl( j ) 分别为i 类及 j 类中的D维 (i ) 特征向量，（xk ，xl( j )）为这两个向量间的距离，则各类中各特征
向量之间的距离的平均值，称为类内类间距离： Jd ( x )
c 1 c 1 ni j ) P i P j （xk(i )，xl( j ） 2 i 1 j 1 ni n j k 1 l 1 n
c
c
ni
nj (i ) ( j) k ，xl ）（xBiblioteka k 1 l 1 ni nj
c 2, P1 0.6, P2 0.4, n1 3, n2 2 J d ( x) 1 2

Pi
i 1 j 1
Pj
3
1 ni n j
3
（x
k 1 l 1
(i ) ( j) k ，x l ）
原始特征集合 S 中包含 D 个特征，目标特征集合 F 中包含 d 个特征。同样，对于各种可能的特征选择方案，需要选择最优的一种，也就是降维后分类最有效的一种，通常设定一个准则函数 J(F)，使得取到最优特征选择时，准则函数值取到最大值，即 J(F*)=max J(F)。
4、准则函数的选取
（1）准则函数的选取原则在设定了准则函数后，求取最优的特征提取或特征选择可以看作一个泛函求极值的问题，因此，准则函数的选取是特征提取或特征选择算法的关键。
* * Sw W T S wW , Sb W T SbW
*
*
对于 J2 准则，进行特征提取后，准则函数值为：
* * J 2 tr S w Sb tr[(W T S wW ) -1W T S bW ]

1

求最优的特征提取，就是求最优的变换阵 W，使得准则函数值在此变换下能取得最大值。将准则函数对 W 求偏导，并令其为 0，解出的 W 就是可使得准则函数 J2 取得最大值的变换阵。结论为：将矩阵 S w Sb 的特征值（Eigenvalues）按大小排序： λ1 λ2 ... λD 则前 d 个特征值对应的特征向量（Eigenvectors） 1 , 2 ,..., d 可构成最优变换阵 W*，即
T （（ xk( i )， xl( j )）＝（ xk( i )－ xl( j )） xk(i )－ xl( j )）
用 mi 表示第 i类样本集的均值向量 : mi
1 ni
ni
x
k 1
(i ) k c
用 m表示所有各类样本集的总均值向量： m Pm i i
i 1
则
T 1 T (i ) J d ( x ) P i xk m i xk( i ) mi mi m mi m i 1 ni k 1 ni c c T 1 1 T Pi xk( i ) m i xk(i ) mi Pi mi m mi m ni k 1 ni i 1 i 1
二、使用类内类间距离进行特征提取
1、准则函数的构造
类内类间距离可表示为：Jd=Jw+Jb＝tr（Sw＋Sb ) 其中 Jw 是类内平均距离，Jb 是类间平均距离。对于一个给定的样本集，Jd 是固定不变的。而通过特征提取后，新获得的特征使得样本集可以划分为不同的类，最佳的特征提取应当是使得各类之间的可分性最好，也就是 Jb 最大，Jw 最小。因此，可以直接采用 Jb 作为特征提取的准则函数，称为 J1 准则。但直接使用 J1 准则难以得到可行的特征提取算法，考虑到类内离散度矩阵 Sw 和类间离散度矩阵 Sb 是对称矩阵，迹和行列式值在正交变换下具有不变性，常构造以下几种特征提取准则函数：
3、特征选择 Feature Selection
特征选择是从高维特征中挑选出一些最有效的特征，以达到降低特征空间维数的目的。
S : {x1 , x2 ,......, xD } F : { y1 , y2 ,......, yd } yi S , i 1,2,..., d ; d D
J 2 tr Sw －1 Sb ，J 3 ln[
Sb Sw
]，J 4
Sw Sb tr ( Sb ) ，J 5 tr ( Sw ) Sw
2、基于 J2 准则的特征提取算法
第 5 页自动化学院模式识别与智能系统研究所高琪 gaoqi@
《模式识别》讲义 2014 版：第四讲特征降维
《模式识别》讲义 2014 版：第四讲特征降维
第四讲特征降维
一、基本概念
1、特征降维 Dimensionality Reduction
图 1 特征降维的内容
在模式识别系统中，确定分类和学习过程所使用的特征是非常重要的一个环节，获得对分类最有效的特征，同时尽最大可能减少特征维数，是特征降维的主要任务。特征降维可以分成特征生成和特征降维两个步骤。（1）特征生成 Generating Features 对于一个模式识别任务，经过模式采集和预处理得到的模式信息不一定能直接用于模式分类，需要从中经过数据处理和转换得到对具体分类任务有效的特征。例如对于模式采集到的图像信息，其原始数据为像素点的颜色值矩阵，而对于不同的模式识别任务和模式识别算法，可以提取出不同类型的特征：轮廓特征 Outline：图像中物体的边缘轮廓颜色特征 Color Distribution：图像中颜色分布和均值纹理特征 Texture：图像各个部位的主体纹理数学特征 Mathematics：各像素点相关性等其他物理意义不明显的数学特征（2）特征降维 Reducing Dimensions 在获得了原始特征后，需要进行特征降维。降维的目的一方面是为了删除冗余信息，减少模式识别算法的计算量；另一方面是为了提高特征对分类的有效性，避免信息干扰。如果不经过这一降维过程，可能出现“维数灾难 (Curse of Dimensionality)” ，无法进行有效的模式识别分类。例如：在文本分类中，如果采用原始的词频统计数据作为分类特征，则有多少个不同的词就有多少维特征，一篇长文的特征维度会超过数千维，基本无法进行计算。由于各个维度的特征对于分类的贡献不一，在降低特征维度时，需要采用适
类别可分性测度是紧致性（Compactness）的量化，通常情况下，紧致性越好的类别划分，其类别可分性测度值也会越大。常用的类别可分析测度有基于类内类间距离和概率距离两种。（2）类内类间距离 Within-class & Between-class Distance 对于一个已知的样本集，类内类间距离的数学定义为：
c
ni
令类内离散度矩阵（ Within-class Scatter Matrix ） Sw 和类间离散度矩阵（Between-class Scatter Matrix）Sb 分别为：
1 Sw Pi ni i 1
c i 1
c
x
k 1
ni
(i ) k
(i) mi xk mi
当两类完全可分时，若 p(x|ω1) ≠0，则 p(x|ω2)＝0；当两类完全不可分时：对任意 x，都有 p(x|ω1) ＝ p(x|ω2)；一般情况下，两类会介于完全可分和完全不可分之间。依据以上度量方式，可定义类别可分性的概率距离准则：
若任何函数J p () g[ p ( x | 1), p ( x | 2), P1 , P2 ]dx 满足以下条件： a、J p 0； b、当两类完全可分时J p 取得最大值； c、当两类完全不可分是J p为0 ；则可作为两类之间可分性的概率距离度量。
第 1 页自动化学院模式识别与智能系统研究所高琪 gaoqi@
《模式识别》讲义 2014 版：第四讲特征降维
当的算法，最大可能地保留对分类有效的信息。特征降维的主要方法包括特征提取和特征选择。前者从高维特征空间映射得到低维特征空间，新的特征和旧的特征并不相同；而后者是从高维特征中选择一部分特征组成低维特征空间，并不改变每个维度上的特征。