特征选择与特征提取

合集下载

特征提取与特征选择的区别与联系(四)

特征提取与特征选择是机器学习和模式识别领域的两个重要概念，它们在数据分析和模型构建中扮演着至关重要的角色。

在本文中，我将探讨特征提取与特征选择的区别和联系，以及它们在实际应用中的作用。

特征提取是指从原始数据中提取对于解决问题有用的信息的过程。

在机器学习或模式识别任务中，通常需要从大量的原始数据中提取出最能够反映数据特点的特征，这些特征可以是数值型、文本型、图像型等。

特征提取的目的是将原始数据转化为更加易于处理和分析的形式，同时保留数据的重要信息。

常见的特征提取方法包括主成分分析（PCA）、独立成分分析（ICA）、小波变换等。

与特征提取不同，特征选择是指从原始特征中选择出最具有代表性、对模型构建有帮助的特征的过程。

在实际应用中，原始数据可能包含大量的特征，但并不是所有的特征都对于解决问题有用，有些特征可能是噪声或冗余的。

因此，通过特征选择可以剔除这些无用的特征，提高模型的准确性和泛化能力。

常见的特征选择方法包括过滤式特征选择、包裹式特征选择和嵌入式特征选择等。

特征提取和特征选择之间有着一定的联系。

特征提取可以看作是一种特征选择的方式，它不仅可以提取原始数据中的重要信息，还可以通过降维的方式来减少特征的数量。

而特征选择则是在原始特征的基础上进行筛选，保留最具有代表性的特征。

在实际应用中，常常会将特征提取和特征选择结合起来，以达到更好的效果。

特征提取与特征选择在实际应用中有着广泛的应用。

以图像识别为例，通过对图像进行特征提取和特征选择，可以将图像中的信息转化为机器可以理解和处理的形式，从而实现图像的自动识别和分类。

在自然语言处理领域，通过对文本进行特征提取和特征选择，可以从中提取出关键词、短语等信息，用于文本分类、情感分析等任务。

总的来说，特征提取和特征选择是机器学习和模式识别中至关重要的步骤，它们可以帮助我们从海量的数据中提取出最有用的信息，为模型构建提供有力的支持。

同时，特征提取和特征选择也是一门值得深入研究的学科，在不断的实践中不断完善和发展。

特征基本知识点总结

特征基本知识点总结随着人工智能和大数据技术的发展，特征工程在机器学习和数据挖掘领域中扮演着越来越重要的角色。

特征工程是指对原始数据进行预处理，提取有效的特征来帮助机器学习算法更好地理解数据和进行预测。

在实际应用中，良好的特征工程往往能够为模型的性能带来显著的提升。

因此，掌握特征工程的基本知识点对于从事机器学习和数据分析工作的人员来说是非常重要的。

本文将从特征选择、特征提取、特征变换和特征构建四个方面，对特征工程的基本知识点进行总结。

一、特征选择特征选择是指从原始数据中选择出最具有代表性和信息量丰富的特征，以提高模型的泛化能力和降低模型的复杂度。

特征选择的方法主要有过滤式、包裹式和嵌入式三种。

1. 过滤式特征选择过滤式特征选择是在训练模型之前，利用一些统计指标或者信息论方法对特征进行排序，然后选择排名靠前的特征作为模型的输入。

常用的方法有方差选择法、相关系数法、互信息法等。

- 方差选择法：将方差较小的特征去除，因为方差较小的特征往往意味着这个特征的取值变化不大，对模型的预测能力没有太大贡献。

- 相关系数法：计算特征与目标变量之间的相关系数，选取相关系数较大的特征。

相关系数越大，意味着特征与目标变量之间的线性关系越密切，对模型的预测能力越有贡献。

- 互信息法：计算特征与目标变量之间的互信息量，选取互信息量较大的特征。

互信息量衡量了两个变量之间的非线性相关性，对于发现复杂的模式和规律非常有效。

2. 包裹式特征选择包裹式特征选择是将特征选择看作是一个优化问题，即在特征子集中搜索出一个最优的特征组合，使得模型在训练数据上的性能达到最优。

常用的方法有递归特征消除法、基于模型的选择法等。

- 递归特征消除法：通过不断地删除权重系数较小的特征，从而找到一个最优的特征子集。

该方法在训练模型时会递归地进行特征删除和训练模型，因此计算成本较高，但可以得到更好的特征子集。

- 基于模型的选择法：利用一个基于模型的评估准则来选取特征，如特征重要性评分、特征权重系数等。

特征的提取和选择

特征的提取和选择
特征提取和选择是机器学习中非常重要的环节，它既可以减少计算量，又可以提高模型的性能。

选择较好的特征可以让模型更加简单，更加容易
和快速的训练出最佳参数，从而使得模型更加精确、效果更好。

一般来说，特征提取和选择有以下几步：
1.特征提取。

特征提取关注的是利用现有特征生成新的特征。

它可以
是特征融合（如结合多个特征生成更强大的特征），也可以是特征变换
（如离散特征变换成连续特征）。

2.无关特征删除。

把没有帮助的特征删除，有助于减少模型的运行时间，提高模型的效果。

3.有关特征选择。

把与目标值有很强关联的特征选择出来，这些特征
被称为有关特征，它们可以帮助模型训练出更好的结果。

4.特征降维。

为了减少特征之间的相关性，减少计算量，与有关特征
相关性比较低的特征可以被删除。

5.特征加权。

调整特征的权重，使得有关特征拥有更大的影响力，从
而帮助模型更好的进行预测。

通过这种特征提取和选择的过程，可以把训练集中拥有相关性比较高
的有用特征保留下来，把没用的特征抛弃，有效的提高模型的性能。

第五讲特征提取和特征选择

第五讲特征提取和特征选择
**特征提取和特征选择**
特征提取和特征选择是机器学习的重要组成部分，它们既可以提高机
器学习算法的性能、训练速度，也可以帮助研究者了解数据。

特征提取和
特征选择的目的是最大限度地挖掘数据中的有用信息，并创建出一组有意
义的特征，以便进一步的分析和模型建立。

特征提取是指从原始数据中提取出具有含义的特征，一般情况下，特
征提取过程中会涉及到一定的数据预处理、特征提取算法和特征可视化等
步骤。

常见的特征提取方法有主成分分析（PCA）、独立成分分析（ICA）、因子分析（FA）、降维分析（DA）、线性判别分析（LDA）等。

特征选择是从特征矩阵中选择最有效的特征，可以提高模型的准确率，减少模型的运行时间，同时可以更加深入地了解数据。

常见的特征选择方
法有过滤法（Filter）、包裹法（Wrapper）和嵌入法（Embedded）。

特征提取和特征选择非常重要，可以在机器学习的各个阶段发挥重要
作用，比如，可以在训练数据集合的构建阶段快速提取有效特征，以减少
数据集的维度；可以在模型训练阶段和测试阶段选择最优特征，以提高模
型性能，减少运算负担；还可以在结果分析和结论阶段。

特征提取与特征选择的区别与联系(七)

特征提取与特征选择的区别与联系特征提取和特征选择是机器学习和模式识别领域中常用的两种特征处理方法。

它们都是在原始特征空间中对特征进行加工和处理，以便更好地应用于后续的分类、聚类或回归任务。

虽然它们都是对特征进行处理，但是它们的目的和方法却有很大的不同。

下面我们将详细探讨特征提取与特征选择的区别与联系。

特征提取是指从原始特征中抽取出新的特征表示。

在实际应用中，原始特征往往具有冗余和噪声，通过特征提取可以将原始特征进行变换，得到更具有辨识度和可分性的特征表示。

常见的特征提取方法包括主成分分析（PCA）、线性判别分析（LDA）、独立成分分析（ICA）等。

这些方法通过线性或非线性的变换，将原始特征映射到一个新的特征空间中，以便更好地进行后续的分类或聚类任务。

特征选择则是从原始特征中选择出子集，以降低维度、提高模型的泛化能力和减少计算复杂度。

特征选择方法包括过滤式、包裹式和嵌入式三种。

过滤式方法通过对特征进行打分或排序，然后选择得分高的特征作为子集；包裹式方法则是将特征选择看作一个搜索问题，针对具体的学习算法进行搜索；嵌入式方法则是将特征选择融入到学习器的训练过程中。

这些方法都是通过评估特征子集的质量，选择对模型性能影响最大的特征子集。

特征提取和特征选择在目的和方法上存在着很大的不同。

特征提取的目的是通过变换原始特征，得到更具有可分性和辨识度的新特征表示，从而提高模型的性能；而特征选择的目的则是通过选择出对模型性能影响最大的特征子集，降低维度、提高泛化能力和减少计算复杂度。

从方法上看，特征提取是通过线性或非线性的变换，将原始特征映射到一个新的特征空间中；而特征选择则是在原始特征空间中进行子集选择，保留对模型性能影响最大的特征子集。

特征提取和特征选择虽然在目的和方法上有很大的不同，但是它们之间也存在着联系。

首先，特征提取可以看作是一种特殊的特征选择，它通过对原始特征进行变换和映射，得到一个新的特征表示，实质上也是在选择对模型性能影响最大的特征子集。

特征提取与特征选择的区别与联系

特征提取与特征选择的区别与联系在机器学习和数据挖掘领域，特征提取和特征选择是两个重要的概念。

它们在数据预处理和模型构建中起着至关重要的作用。

本文将探讨特征提取与特征选择的区别与联系，并从理论和实践角度进行深入分析。

1. 特征提取的定义与意义首先，我们来看看特征提取的定义与意义。

特征提取是指从原始数据中提取出具有代表性的特征，以便进行后续的数据分析和建模。

在实际应用中，原始数据往往包含大量的冗余信息和噪声，特征提取的目的就是通过某种算法或方法，对原始数据进行转换或映射，得到更加有用和有效的特征表示。

这样可以提高模型的准确性和泛化能力，同时减少计算复杂度和存储空间的消耗。

特征提取的方法有很多种，比如主成分分析（PCA）、独立成分分析（ICA）、线性判别分析（LDA）等。

这些方法都是通过对原始数据进行变换，得到新的特征表示，从而达到降维、去噪或增强特征的目的。

2. 特征选择的定义与意义接下来，我们再来看看特征选择的定义与意义。

特征选择是指从原始特征中选择出最具有代表性和重要性的特征子集，以用于后续的建模和预测。

在实际应用中，原始特征往往包含很多冗余和无关的信息，特征选择的目的就是找出对目标变量影响最大的特征，从而简化模型、提高预测性能和可解释性。

特征选择的方法有很多种，比如过滤式、包裹式和嵌入式等。

过滤式方法是直接对特征进行评估和排序，选择最高分的特征子集；包裹式方法是把特征选择看作一个搜索问题，通过试验不同的特征子集来找到最佳组合；嵌入式方法则是在模型训练过程中，通过正则化或增加惩罚项的方式来选择特征。

3. 特征提取与特征选择的区别特征提取与特征选择虽然都是对原始数据或特征进行处理，但它们在目的和方法上有着明显的区别。

首先，特征提取是通过某种变换或映射，得到新的特征表示，目的是降维、去噪或增强特征；而特征选择是从原始特征中选择出最具有代表性和重要性的特征子集，目的是简化模型、提高预测性能和可解释性。

特征提取与特征选择的区别与联系(Ⅲ)

特征提取和特征选择是机器学习和数据挖掘领域中常用的两个概念。

虽然它们都是为了从原始数据中提取出有用的特征以便进行进一步的分析和建模，但是它们之间有着明显的区别和联系。

首先我们来看看特征提取，特征提取是指从原始数据中提取出一些能够代表数据特征的特征。

这些特征可以是原始数据中的某些属性，也可以是对原始数据进行某种变换得到的新的特征。

特征提取的目的是将原始数据转化为更容易被机器学习算法处理的形式，同时保持数据的最重要的特征。

特征提取的方法有很多种，比如说主成分分析（PCA）、线性判别分析（LDA）、小波变换等。

这些方法可以将高维度的数据降维到低维度，从而减小了数据的复杂度，提高了机器学习的效率。

特征提取的过程可以看成是对数据的一种抽象和概括，它的目的是提取出对于目标任务最有用的信息。

而特征选择则是在特征提取的基础上进行的一个步骤。

特征选择是指从已有的特征中选择出对目标任务最有用的特征。

在特征提取的过程中，可能会产生大量的特征，有些特征可能对于目标任务没有太大的作用，甚至会影响到机器学习算法的性能。

因此需要进行特征选择，选择出对目标任务最有用的特征，去除那些冗余或者无关的特征。

特征选择的方法也有很多种，比如说过滤式特征选择、包裹式特征选择、嵌入式特征选择等。

过滤式特征选择是指通过对特征进行评估，选择出对目标任务最有用的特征，比如说使用相关系数或者信息增益进行特征评估。

包裹式特征选择是指在特征子集上训练出一个机器学习模型，通过模型的性能来评估特征的重要性。

嵌入式特征选择则是指在模型训练的过程中自动选择出对目标任务最有用的特征，比如说使用正则化方法。

特征提取和特征选择在实际应用中经常会同时进行，它们之间有着很大的联系。

特征提取会产生大量的特征，在特征选择的过程中，有时候也需要对特征进行一些变换和组合。

比如说，在包裹式特征选择的过程中，需要对特征子集进行训练，可能需要将特征进行某种组合，而这个过程有点类似于特征提取。

模式识别7-特征选择和提取

为一般来说，原来的n个数据各自在不同程度上反映
了识别对象的某些特征，简单地删去某些特征可能会
丢失较多的有用信息。
• 如果将原来的特征做正交变换，获得的每个数据都是
原来n个数据的线性组合，然后从新的数据中选出少
数几个，使其尽可能多地反映各类模式之间的差异，
而这些特征间又尽可能相互独立，则比单纯的选择方
➢遗传算法
单独最优特征组合
特征
选择
计算各特征单独使用时的可分性判据J并加
以排队，取前d个作为选择结果
不一定是最优结果
当可分性判据对各特征具有(广义)可加性，
该方法可以选出一组最优的特征来，例：
➢各类具有正态分布
➢各特征统计独立
➢可分性判据基于Mahalanobis距离
d
J ij ( x1 , x2 ,..., xd ) J ij ( xk ) J D (x) (μi μ j )T 1(μi μ j )
k 1
顺序前进法
特征
选择
自下而上搜索方法。
每次从未入选的特征中选择一个特征，使得
它与已入选的特征组合在一起时所得的J值
为最大，直至特征数增加到d为止。
该方法考虑了所选特征与已入选特征之间的
相关性。
顺序后退法
特征
选择
该方法根据特征子集的分类表现来选择特征
搜索特征子集：从全体特征开始，每次剔除
➢ 当特征独立时有可加性：
k 1
➢ 单调性：
J ij ( x1 , x2 ,..., xd ) J ij ( x1 , x2 ,..., xd , xd 1 )
常见类别可分离性判据：基于距离、概率分布、熵
函数

人工智能开发技术中的特征选择与特征提取技巧

人工智能开发技术中的特征选择与特征提取技巧在人工智能开发技术的领域中，特征选择和特征提取是两个关键的环节，能够对数据进行处理和优化，从而提高机器学习算法的准确性和性能。

特征选择的目标是从原始特征中选择最具有代表性和区分性的子集，而特征提取则是将原始特征进行转换和组合，得到新的特征空间。

本文将介绍人工智能开发技术中的特征选择和特征提取技巧，并探讨它们在不同应用领域中的应用。

一、特征选择技巧特征选择在机器学习中有着重要的地位，它能够提高模型的泛化能力和训练的效率。

在进行特征选择时，需要考虑以下几个方面：1. 相关性分析：通过计算特征与目标变量之间的相关性，判断特征对目标变量的贡献程度。

常用的方法有皮尔逊相关系数和互信息等。

相关系数越大，则特征对目标变量的相关性越强，应优先选择。

2. 嵌入式方法：在特征选择的训练过程中，将特征选择过程嵌入到机器学习算法中。

常用的方法有L1正则化和决策树等。

L1正则化能够使得某些特征的系数为0，从而实现特征选择的效果。

3. 过滤式方法：在特征选择之前，通过统计量或某种评价函数对特征进行排序，选择排名靠前的特征。

常用的过滤式方法有相关系数法、卡方检验和相关矩阵等。

二、特征提取技巧特征提取是将原始特征进行转换和组合，从而得到新的特征空间。

特征提取的目标是减少特征空间的维度，同时保留原始数据的关键信息。

在进行特征提取时，需要考虑以下几个方面：1. 主成分分析（PCA）：PCA是一种经典的降维方法，通过线性变换将原始特征投影到新的低维子空间中。

这样可以保留原始数据的主要信息，并且降低特征空间的维度。

2. 独立成分分析（ICA）：ICA是一种盲源分离方法，通过寻找数据中的独立成分，将原始特征进行线性组合。

这样可以从原始数据中分离出相互独立的特征。

3. 非负矩阵分解（NMF）：NMF是一种非线性的降维方法，通过将原始特征分解为非负的基向量和系数矩阵。

这样可以得到原始数据的非负线性表示，从而获得更加有意义和准确的特征表示。

第10章_特征提取与选择

备选的分类特征变量。
8
一、特征提取（3）
（2）最小噪声分离
最小噪声分离变换通过对信号与噪声的分离，所获得的分量是按
信噪比由高到低排序的，使信息更加集中在有限的特征集中，一
些微弱的信息则在去噪转化中被增强，从而使光谱特征向类特征
向量汇集，增强了分类信息。
目标：与主成分变换类似，最小噪声分离变换之后也是通常选择
独立成分分析采用基于信号高阶统计特性的分析方法，经分解出的各信
号分量之间不仅是正交的，而且信号在各分量上是相互独立的（即一个
分量对应于一种信号），对于遥感图像来说即每一分量主要反应了某一
种地物类型的信息。
目标：由于地物类型的多样性以及遥感波段数设置的有限性，所以独立
成分分析算法只能使得分离得到的每个分量图像里尽可能地集中某一种
2
背景知识（2）
特征的类型
（1）原始特征：能直接反映物体之间差异的原始属性。
（2）衍生特征：把某些或者所有原始属性通过变换生成新的特征变量
，从而增强地物之间的可分性，这种通过变换方式得到新特征变
量的过程就是特征提取。
遥感影像的特征类型
（1）原始特征：光谱信息
（2）衍生特征：全局性的光谱特征统计变量和局部性的空间特征（特征
归一化差值植被指数（ Normalized Different Vegetation Index，NDVI ）：
NDVI
bnir br
bnir br
式中，bnir为近红外波段的反射率，br为红光波段的反射率，对于Landsat
8 OLI影像来说，bnir为第5波段，br为第4波段。
12
一、特征提取（7）
地物的信息。该方法比较适合某一地类在各个波段中的信息都比较弱的

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

模式类别的可分性判据在讨论特征选择和特征压缩之前，我们先要确定一个选择和提取的原则。

对一个原始特征来说，特征选择的方案很多，从N 维特征种选择出M 个特征共有()!!!MNN C M N M =-中选法，其中哪一种方案最佳，则需要有一个原则来进行指导。

同样，特征的压缩实际上是要找到M 个N 元函数，N 元函数的数量是不可数的，这也要有一个原则来指导找出M 个最佳的N 元函数。

我们进行特征选择和特征提取的最终目的还是要进行识别，因此应该是以对识别最有利原则，这样的原则我们称为是类别的可分性判据。

用这样的可分性判据可以度量当前特征维数下类别样本的可分性。

可分性越大，对识别越有利，可分性越小，对识别越不利。

人们对的特征的可分性判据研究很多，然而到目前为止还没有取得一个完全满意的结果，没有哪一个判据能够完全度量出类别的可分性。

下面介绍几种常用的判据，我们需要根据实际问题，从中选择出一种。

一般来说，我们希望可分性判据满足以下几个条件：1. 与识别的错误率由直接的联系，当判据取最大值时，识别的错误率最小；2. 当特征独立时有可加性，即：()()121,,,Nij Nij k k J x x x J x ==∑ijJ 是第i 类和第j 类的可分性判据，ij J 越大，两类的可分程度越大，()12,,,N x x x 为N 维特征； 3. 应具有某种距离的特点：0ij J >，当i j ≠时； 0ij J =，当i j =时；ij ji J J =；4. 单调性，加入新的特征后，判据不减小：()()12121,,,,,,,ij N ij N N J x x x J x x x x +≤ 。

但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件，只能满足一个或几个条件。

基于矩阵形式的可分性判据 1. 类内散度矩阵设有M 个类别，1,,M ΩΩ ，i Ω类样本集()()(){}12,,,ii i i N X X X ，i Ω类的散度矩阵定义为：()()()()()()()11iN Ti i i i i w k k k iS N ==--∑X mX m总的类内散度矩阵为：()()()()()()()()()1111iN MMTi i i i i w iwikki i k i S P SP N ====Ω=Ω--∑∑∑XmXm2. 类间散度矩阵第i 个类别和第j 个类别之间的散度矩阵定义为：()()()()()()()Tij i j i j BS =--mmmm总的类间散度矩阵可以定义为：()()()()()()()()()()()11111122M MM Mij ijijB ijBiii j i j S P P S P P =====ΩΩ=ΩΩ--∑∑∑∑m m m m令：m 为总体均值，()()1Mi i i P ==Ω∑m m ，则有：()()()()()1MTi i B i i S P ==Ω--∑mmmm3. 总体散度矩阵总体散度矩阵可以定义为：()()11NTT ll l S N==--∑Xm X m其中N 为总的样本数，1Mii NN ==∑。

可以证明：TW BSS S =+。

可以看出三个散度矩阵均为实对称矩阵。

上面我们所定义的判据：()d J X =()()()tr tr d T WB J S S S ==+X 。

tr表示取一个矩阵的迹，也就是主对角线元素之和，N 维方阵A 的迹为：()1tr Niii a =A =∑同样我们可以利用三个散度矩阵定义出一系列的可分性判据：()11tr W B J S S -=2B WS J S =()()3tr tr B WS J S =其中Α表示方阵Α的行列式的值，比较常用的判据是1J 。

基于几何距离的可分性判据计算起来比较简单，只要我们已知各个类别的训练样本集，就可以计算出三个散度矩阵，同时也就可以计算出各种可分性判据。

特征选择所谓特征选择，就是从一组数量为N 的特征中选择出一组数量为M的最优特征，（NM>）这里有两个问题要解决，1、选择一种可分性判据作为最优特征选择的标准；2、找到一个好的算法，来选择出这组最优特征。

下面我们就来介绍几种特征选择的算法。

一个最简单的思路是：我们假设N 个特征之间相互独立，并且使用的可分性判据满足可加性：()()1Ni i J J x ==∑X ，这时候我们只要把N 个特征每个单独使用时的可分性判据()i J x 计算出来，然后从大到小排序：()()()12N J x J x J x >>> ，选择出前M 个特征就是一组最优的特征。

然而问题往往没有这么简单，这种特征独立性假设多数情况下并不成立，并且可分性判据也不一定满足可加性。

另外一个简单的思路是(穷举法)：对从N 中选择出M 个特征的所有组合情况都计算其可分性判据，然后选择出其中的最大者作为解决方案。

当N 的数值比较小时，这种方法一定是可行的，然而当N 比较大时，这个组合数会非常大，比如100N =，10M =时，组合数的数量级是310，当20N=，10M=时，组合数为184756。

将所有的组合都计算一遍显然是不现实的。

因此我们需要有一个搜索算法来进行特征选择。

次优搜索算法1. 顺序前进法（Sequential Forward Selection, SFS ）每次从未入选的特征中选择一个特征，使得它与已入选的特征组合到一起所得到的可分性判据最大，直到特征数增加到M 为止。

用k X 表示在第k 步时的特征集合，搜索算法如下： 1) 开始时，0X =∅，从N 个特征中选择一个()i J x 最大的特征，加入已选特征集，{}1i X x =；2) 在第k 步，k X 中包含已经选择的k 个特征，对未入选的Nk-个特征计算，{}()k j J X x ，其中1,2,,j N k =- ，并且按照由大到小排序，将可分性判据最大的特征l x 加入k X ，{}1k k l X X x += ；3) 直到所选的特征数等于M 为止。

2. 顺序后退法 (Sequential Backward Selection, SBS)同顺序前进法的过程刚好相反，最开始时取{}01,,N X x x = ，每次从中剔除一个特征，使得剩余的特征可分性判据最大。

3. 增l 减r 法（l r -法）前两种方法可以进一步改进，比如每次不是加入1个特征，而是加入l 个特征；或者每次不是剔除一个特征，而是剔除r 个特征。

这样的效果要比每次加1或减1的效果好，但是计算量要增大。

另外一种改进方法是将SFS 和SBS 结合，先使用SFS 算法逐个选入l 个最佳特征，然后使用SBS 算法逐个剔除r 个最差特征，l r >，再使用SFS 算法增加l 个特征，再使用SBS 剔除r 个特征，…，直到选出M 个特征为止。

特征提取特征抽取的方法很多，下面我们以其中的一种—基于离散K-L 变换(DKLT)的特征抽取，其它方法与此类似。

设原始特征为N 为矢量()12,,,TN x x x =X ，均值矢量[]E =m X ，相关矩阵T E ⎡⎤=⎣⎦XR XX ，协方差矩阵()()TE ⎡⎤=--⎣⎦XC X m X m 。

我们可以对X作如下的标准正交变换，将其变为矢量()12,,,TNy y y =Y :12T T T N⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦TT T Y =T X X TY的每个分量：Tii y =T X，其中T 为一个N N ⨯的标准正交矩阵，iT 为其第i 个列矢量，1,0,T i j i j i j=⎧=⎨≠⎩T T 。

也就是说Y 的每个分量是X 每一个分量的线性组合。

同样X 可以表示为：()()112121NTN i ii Ny y y y -=⎡⎤⎢⎥⎢⎥====⎢⎥⎢⎥⎢⎥⎣⎦∑X TY T Y T T T T我们要进行特征提取，也就是要用Y 的M 项来代替X ，这种代替必然带来误差，下面我们来对这个误差进行估计：令：1ˆMi ii y ==∑X T ，1MN≤<，引入的均方误差为：()()()2211N NTTii i i M i M eM E E y E y y =+=+⎡⎤⎡⎤⎡⎤=--==⎣⎦⎣⎦⎢⎥⎣⎦∑∑X XX X11N NTTTii i ii M i M E =+=+⎡⎤==⎣⎦∑∑X T XX T T R T这又变成一个优化问题，我们希望寻找到一个标准正交矩阵T ，使得()2e M 最小，因此可以去这样的准则函数：()111NNT Tii i i i i M i M J λ=+=+=--∑∑X T R T T T第一项保证均方误差最小，第二项保证T 为标准正交矩阵，i λ为一待定常数。

()i i iJ λ∂=-=∂X R I T 0T ，1,,i M N=+即：i i i λ=X R T T ，很明显i λ为相关矩阵X R 的特征值，i T 为对应于iλ的特征矢量，由于X R 是一个实对称矩阵，所以12,,.N T T T 相互正交，T 为一个正交矩阵。

均方无差：()2111NNNTT ii ii i ii M i M i M eM λλ=+=+=+===∑∑∑X T R T T T根据矩阵论，有这样的结论：一个N N ⨯的正定实对称矩阵有N 个特征值和特征矢量，这些特征矢量之间是正交的。

相关矩阵X R 就是一个实对称矩阵，当训练样本足够多时，也可以满足正定性，根据上式我们知道，当要从N 维特征中提取出M 维特征时，我们只需要统计出特征相关矩阵X R ，然后计算其特征值和特征矢量，选择对应特征值最大的前M 个特征矢量作成一个N M ⨯特征变换矩阵T ，就可以完成特征提取。

步骤如下：1、利用训练样本集合估计出相关矩阵TE ⎡⎤=⎣⎦XR XX ；2、计算X R 的特征值，并由大到小排序：12Nλλλ≥≥≥ ，以及相应的特征矢量：12,,,N T T T ；3、选择前M 个特征矢量作成一个变换矩阵[]12M=T T T T；4、在训练和识别时，每一个输入的N 维特征矢量X 可以转换为M维的新特征矢量：T Y =T X 。

这种方法是利用相关矩阵X R 进行变换，同样也可以利用协方差矩阵X C 进行变换，还可以利用样本的散度矩阵W S ，B S ，T S 或者1WB -S S 进行变换。

过程都是一样的，需要计算特征值和特征向量，选择最大的M 个特征值对应的特征矢量作出变换矩阵。