机器学习之特征选择

合集下载

机器学习技术的特征选择方法

机器学习技术的特征选择方法机器学习技术已经广泛应用于各个领域，从自然语言处理到图像识别，从金融风险评估到医学诊断。

在机器学习任务中，特征选择是一个关键的步骤，它对模型的性能和计算效率起着至关重要的作用。

特征选择是指从原始数据中选择出最具有代表性和相关性的特征，用于构建预测模型。

本文将介绍几种常用的特征选择方法，并讨论它们的优缺点。

1. 过滤式特征选择方法：过滤式特征选择方法独立于任何具体的机器学习算法，它通过对特征进行评估和排序，选择出最具有区分度和相关性的特征。

常用的过滤式方法包括卡方检验、互信息和相关系数等。

卡方检验基于特征与标签之间的独立性假设，它可以通过计算特征与标签之间的卡方值来衡量特征的重要性。

互信息衡量了特征与标签之间的相互依赖性，它可以捕捉到非线性和复杂关系。

相关系数测量了特征与标签之间的线性相关性。

这些方法可以快速筛选出具有高区分度和相关性的特征，但它们忽略了特征之间的相互关系和重要性。

2. 包裹式特征选择方法：包裹式特征选择方法依赖于具体的机器学习算法，它将特征选择问题转化为一个优化问题，通过搜索最佳的特征子集来最大化或最小化评估指标。

常用的包裹式方法有递归特征消除和遗传算法等。

递归特征消除是一种递归的过程，它通过不断剔除最不重要的特征，直到达到指定的特征数目或达到最佳模型的性能。

遗传算法模拟自然选择和遗传的过程，通过随机生成和变异的方式搜索最佳的特征子集。

包裹式方法能够考虑特征之间的相互关系和重要性，但计算开销较大，对特征数目和算法选择敏感。

3. 嵌入式特征选择方法：嵌入式特征选择方法将特征选择问题与模型训练过程融合在一起，通过正则化等技术，将特征选择和模型优化问题统一起来。

常用的嵌入式方法有Lasso回归和决策树等。

Lasso回归通过加入L1正则化项，使得一部分特征的系数变为0，从而实现特征选择的效果。

决策树通过特征的重要性来选择和排序特征，剪枝过程中可以去掉不重要的特征。

机器学习中的特征选择方法

机器学习中的特征选择方法特征选择是机器学习中的一个重要问题，其目的是从原始数据中选择出最有用的特征，以达到降低数据维度、提高模型精度和降低模型复杂度的目的。

在实际应用中，特征选择是非常重要的，它可以帮助我们避免过拟合、提高模型的可解释性和减少计算量。

因此，在本文中，我们将会介绍几种主要的特征选择方法，并探讨它们的优劣和适用场景。

一、过滤式特征选择方法过滤式特征选择方法是在训练模型之前，对原始数据进行特征选择。

它的主要思想是通过一些评价准则，根据特征与目标数据之间的相关性，选出最具有代表性的特征。

常用的评价准则有卡方检验、互信息和相关系数等。

1. 卡方检验卡方检验是最早和最广泛使用的特征选择方法之一。

它的基本思想是，以特征和目标变量之间的独立性为假设，通过计算特征和目标变量之间的卡方值来衡量它们之间的关联程度。

当卡方值越大，意味着特征和目标变量之间的关联程度越高，特征则越重要。

2. 互信息互信息是一个用于衡量两个概率分布之间相似性的指标。

它的基本思想是，通过计算特征和目标变量之间的互信息来衡量它们之间的联系，当它们的互信息越大，则意味着它们之间的联系更紧密，特征则更重要。

3. 相关系数相关系数是用来度量两个随机变量之间相关关系的一个指标。

常用的相关系数有 Pearson 相关系数、Spearman 相关系数和Kendall 相关系数等。

其中，Pearson 相关系数适合用于度量线性关系，而 Spearman 相关系数和 Kendall 相关系数适合用于度量非线性关系。

过滤式特征选择方法的优势在于，它可以快速、简单地选择出高质量的特征，对于维度较高的数据集，特别是离散型特征，选择过滤式特征选择方法是一个不错的选择。

然而，过滤式特征选择方法存在的一个问题是，它无法考虑特征与模型的交互作用，因此可能导致一些相关性较低但重要的特征被误删。

二、包裹式特征选择方法包裹式特征选择方法是在训练模型过程中，将特征看作是一个搜索空间，在不断尝试不同的特征子集的过程中，选出最佳特征子集。

机器学习的特征选择方法

机器学习的特征选择方法机器学习是一种通过让计算机自动学习并改善算法性能的方法。

在机器学习过程中，特征选择是非常重要的步骤之一。

特征选择旨在选择最具信息量和预测能力的特征，以减少数据维度，并提高机器学习算法的性能和效率。

特征选择的目标是从原始数据中选择一组最相关和最能代表数据特征的子集。

这一步可以排除无关或冗余的特征，避免噪声数据对模型的影响，并提高模型的泛化能力。

以下是几种常用的机器学习特征选择方法：1. 过滤式特征选择方法：过滤式方法独立于任何机器学习算法，通过评估特征与目标变量之间的关系进行特征选择。

常用的过滤式方法包括皮尔逊相关系数和方差阈值等。

皮尔逊相关系数衡量特征与目标变量之间的线性相关性，相关性越高的特征被保留下来。

方差阈值方法则通过筛选方差低于阈值的特征来降低数据维度。

2. 包裹式特征选择方法：包裹式方法将特征选择视为最优化问题，在特征子集上运行机器学习算法，根据算法性能评估选择最优特征子集。

包裹式方法通常时间消耗较大，但往往能选择出对特定机器学习算法性能最有影响力的特征。

常见的包裹式方法有递归特征消除和基于遗传算法的特征选择。

3. 嵌入式特征选择方法：嵌入式方法在机器学习算法的训练过程中自动选择特征。

这些算法能够根据特征的重要性来选择最相关的特征子集。

嵌入式方法将特征选择与模型训练过程合并在一起，节省了额外计算特征选择的时间。

常用的嵌入式方法有L1正则化和决策树模型等。

除了这些常用的特征选择方法，还有一些其他的方法，如主成分分析（PCA）和因子分析（FA）。

PCA通过线性变换将原始特征投影到新的维度上，以捕捉到最大的数据方差。

FA则通过找到最相关的潜在因子来降低数据维度。

在选择特征选择方法时，应根据具体的数据集和问题来确定最适合的方法。

有时候需要尝试不同的特征选择方法，并比较它们对机器学习算法性能的影响。

同时，特征选择也可以与特征提取和降维等方法结合使用，以进一步提高机器学习模型的性能。

几种常用的特征选择方法

几种常用的特征选择方法特征选择是机器学习中非常重要的一个环节，通过选择合适的特征子集，可以提高模型的准确性、降低过拟合的风险，并减少计算成本。

以下是几种常用的特征选择方法：1. 过滤式特征选择(Filter feature selection)：过滤式特征选择方法独立于机器学习算法，将特征子集选择作为单独的预处理步骤。

常见的过滤式方法有基于相关性的选择、方差选择和互信息选择等。

- 基于相关性的选择：计算每个特征与目标变量之间的相关性，选取相关性较高的特征。

例如，皮尔逊相关系数可以用于评估线性相关性，而Spearman相关系数可用于评估非线性相关性。

-方差选择：计算特征的方差，并选择方差较高的特征。

方差较高的特征在总体上具有更多的信息。

-互信息选择：计算每个特征与目标变量之间的互信息，选取互信息较高的特征。

互信息是度量两个变量之间相关性的一种方法。

2. 包裹式特征选择(Wrapper feature selection)：包裹式方法将特征选择作为机器学习算法的一部分，通过评估模型的性能来选择特征。

常见的包裹式方法有递归特征消除(RFE)和遗传算法等。

-递归特征消除：通过反复训练模型并消除不重要的特征来选择特征。

该方法从所有特征开始，每次迭代都使用模型评估特征的重要性，并剔除最不重要的特征，直到选择指定数量的特征。

-遗传算法：通过模拟生物进化过程，使用交叉和变异操作来最佳的特征子集。

该方法可以通过评估特征子集的适应度来选择特征，适应度一般通过模型的性能进行度量。

3. 嵌入式特征选择(Embedded feature selection)：嵌入式方法将特征选择与机器学习算法的训练过程相结合，通过优化算法自动选择特征。

常见的嵌入式方法有L1正则化(L1 regularization)和决策树算法等。

-L1正则化：L1正则化可以使得训练模型的系数稀疏化，从而实现特征选择。

L1正则化会增加模型的稀疏性，使得部分系数为0，从而对应的特征被选择。

机器学习中的特征选择

机器学习中的特征选择特征选择（Feature Selection）是机器学习中非常重要的一步，它的目标是通过从原始数据中选择一组最具代表性的特征来改善模型性能和泛化能力。

特征选择可以减少模型复杂度、提高模型的解释能力、降低过拟合风险等。

特征选择的方法可以分为三大类：Filter、Wrapper和Embedded。

Filter方法是通过特征与目标变量之间的相关性来进行选择。

常用的方法包括相关系数、互信息、方差和卡方检验等。

相关系数是一种衡量两个变量之间线性相关程度的指标，它的取值范围在-1到1之间，正值表示正相关，负值表示负相关，绝对值越大表示相关性越强。

互信息是一种衡量两个变量之间非线性相关程度的指标，它的取值范围在0到正无穷之间，值越大表示相关性越强。

方差是一种衡量变量离散程度的指标，方差越大表示变量包含的信息量越多。

卡方检验是一种用于判断两个变量是否独立的统计检验方法，它的原理是计算变量之间的卡方值，如果卡方值大于一定阈值，则拒绝变量独立的假设。

Wrapper方法是通过迭代选择子集特征来进行选择。

常用的方法包括递归特征消除（Recursive Feature Elimination，RFE）、遗传算法等。

RFE是一种基于模型的特征选择方法，它通过递归地训练模型并剔除对模型性能影响较小的特征来选择最佳特征子集。

遗传算法是一种基于进化论的优化算法，在特征选择中，它通过模拟自然选择的过程来选择最佳特征子集。

遗传算法中的个体表示一个特征子集，通过交叉、变异等操作来不断演化和改进特征子集，最终得到最佳特征子集。

Embedded方法是将特征选择嵌入到模型训练中进行选择。

常用的方法包括L1正则化和树模型。

L1正则化是一种加入L1范数约束的正则化方法，通过最小化带有L1范数惩罚的损失函数来选择特征，L1范数惩罚会使得部分特征的系数变为零，从而实现特征选择的效果。

树模型则是通过特征的重要性来选择，树模型中的每个节点都会选择一个最佳的特征进行划分，因此可以通过度量特征在树模型中的重要性来进行选择。

机器学习中的特征选择方法研究综述

机器学习中的特征选择方法研究综述简介：在机器学习领域，特征选择是一项重要的任务，旨在从原始数据中选择出对于解决问题最具有代表性和预测能力的特征子集。

特征选择方法能够改善模型性能、减少计算复杂性并提高模型解释性。

本文将综述机器学习中常用的特征选择方法，并对其优点、缺点和应用范围进行评估和讨论。

特征选择方法的分类：特征选择方法可以分为三大类：过滤式、包裹式和嵌入式方法。

1. 过滤式方法：过滤式方法独立于任何学习算法，通过对特征进行评估和排序，然后根据排名选择最佳特征子集。

常用的过滤式方法包括相关系数、互信息、卡方检验等。

(1) 相关系数：相关系数是评估特征与目标变量之间线性关系强弱的一种方法。

常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。

优点是简单且易于计算，但仅能检测线性关系，对于非线性关系效果较差。

(2) 互信息：互信息是评估特征与目标变量之间信息量共享程度的一种方法。

互信息能够发现非线性关系，但对于高维数据计算复杂度较高。

(3) 卡方检验：卡方检验适用于特征与目标变量均为分类变量的情况。

它衡量了特征与目标变量之间的依赖性。

然而，在特征之间存在相关性时，卡方检验容易选择冗余特征。

过滤式方法适用于数据集维度较高的情况，计算速度快，但无法考虑特征间的相互影响。

2. 包裹式方法：包裹式方法直接使用学习算法对特征子集进行评估，通常使用启发式搜索算法（如遗传算法、蚁群算法等）来找到最佳特征子集。

包裹式方法的优点是考虑了特征间的相互作用，但计算复杂度高，易受算法选择和数据噪声的影响。

(1) 遗传算法：遗传算法是一种模拟生物进化过程的优化算法。

在特征选择中，遗传算法通过使用编码表示特征子集，通过选择、交叉和变异等操作来搜索最佳特征子集。

遗传算法能够有效避免包裹式方法中特征间的相互影响，但计算复杂度高。

(2) 蚁群算法：蚁群算法是一种基于模拟蚁群觅食行为的优化算法。

在特征选择中，蚁群算法通过模拟蚂蚁在搜索空间中的移动来寻找最佳特征子集。

机器学习模型的特征选择方法比较与影响因素分析

机器学习模型的特征选择方法比较与影响因素分析在机器学习领域，特征选择是指从原始数据中选出对模型建立和预测能力有贡献的特征子集的过程。

特征选择的目的是减少特征空间的维度，提高模型的泛化能力和解释性。

有许多不同的特征选择方法可供选择，并且在选择方法时需要考虑多种因素。

一、特征选择方法比较1. 过滤法（Filter method）：过滤法是一种简单且高效的特征选择方法。

它通过计算某个特征与目标变量之间的相关性来筛选特征。

常用的过滤法有皮尔逊相关系数、卡方检验和信息增益等。

过滤法不会受到特征学习算法的影响，适用于数据集规模大的情况。

然而，它没有考虑特征之间的相互关联，可能会选择冗余特征。

2. 包装法（Wrapper method）：包装法通过将特征选择过程包装在特定的学习算法中来选择特征子集。

它会使用某个学习算法对每个特征子集进行评估，并选择产生最佳性能的特征子集。

常用的包装法有递归特征消除（Recursive FeatureElimination, RFE）和遗传算法等。

包装法能够考虑特征之间的关联性和互动作用，但计算开销较大，对数据集大小和学习算法的选择敏感。

3. 嵌入法（Embedded method）：嵌入法将特征选择过程嵌入在学习算法的训练中，例如LASSO和岭回归等。

在模型的训练过程中，嵌入法会同时进行特征选择和参数优化，使得选择到的特征与模型的性能相互关联。

嵌入法能够充分利用模型的信息，但对训练数据要求较高，不适用于特征空间大的情况。

以上三种特征选择方法各有优缺点，选择方法时需要根据具体情况进行权衡和比较。

如果数据集有大量冗余特征，过滤法可以作为首选方法。

对于较小的数据集，包装法和嵌入法可能更适合，因为它们能够充分考虑特征之间的关联性和互动作用。

然而，注意到越复杂的特征选择方法可能会导致计算开销的增加，因此在选择方法时还应考虑对计算资源的要求。

二、特征选择的影响因素分析1. 特征与目标变量的相关性：特征与目标变量之间的相关性是一个重要的评估指标。

机器学习中的特征选择是什么？

机器学习中的特征选择是什么？随着大数据时代的到来，机器学习越来越被广泛应用。

在机器学习算法中，特征选择是一个重要的环节。

什么是特征选择？特征选择是从原始数据中选择合适的特征子集，以提高分类或回归的性能、降低模型复杂性和提高模型解释性的过程。

下面我们来详细讲解一下机器学习中的特征选择。

一、特征选择的目的是什么？特征选择的目的是找到最优特征子集，使得模型具有最好的泛化性能、最小的过拟合和最好的解释性。

当数据集具有多个特征时，机器学习模型往往会受到维数灾难的影响。

特征选择可以删减掉冗余、噪声等不重要的特征，从而降低维度，提高模型的准确性和可解释性。

二、特征选择的方法有哪些？特征选择方法可分为三类：过滤式、包裹式和嵌入式。

过滤式方法通过统计量或机器学习方法来评估每个特征和分类或回归的相关性，选择排名前n个的特征。

包裹式方法是在特征子集上训练机器学习模型，并充分利用模型信息来选择最佳的特征子集。

嵌入式方法是将特征选择融入到机器学习模型的训练过程中，通过正则化项或其他方法来约束特征的权值，从而选择出重要的特征。

三、特征选择技术的应用有哪些？特征选择技术在机器学习中有着广泛的应用，例如在文本分类、图像分类、信用评级、金融风险控制等领域。

例如，在文本分类中，通过删除关键词外的其余词，即进行特征选择，可以减少噪音和冗余，提高分类的准确性；在图像分类中，通过矩阵分解等技术，可以选择具有强区别性及抗噪声的像素位置作为特征，从而提高分类的准确性。

四、特征选择技术的优劣势分析特征选择技术可以大大提高模型的准确性和可解释性，同时可以降低维度，减少计算量和存储空间。

但是，特征选择也有一些局限性，例如在数据集较小或特征极少的情况下，特征选择可能并不明显；另外，不同的特征选择技术可能对不同的数据集有不同的效果，需要根据具体情况选择合适的方法。

结语：总之，特征选择是机器学习中非常重要的一环，能够提高模型的准确性和可解释性，并且缓解维度灾难。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

特征选择的子集产生过程
(4) 增L去R选择算法 ( LRS , Plus-L Minus-R Selection )
该算法有两种形式:
<1> 算法从空集开始，每轮先加入L个特征，然后从中去除R 个特征，使得评价函数值最优。( L > R )
<2> 算法从全集开始，每轮先去除R个特征，然后加入L个特征，使得评价函数值最优。( L < R ) 算法评价：增L去R选择算法结合了序列前向选择与序列后向选择思想， L与R的选择是算法的关键。
算法评价：缺点是只能加入特征而不能去除特征。例如：特征A完全依赖于特征B与C，可以认为如果加入了特征B与C则A 就是多余的。假设序列前向选择算法首先将A加入特征集，然后又将B与C加入，那么特征子集中就包含了多余的特征A。
特征选择的子集产生过程
(2)序列后向选择( SBS , Sequential Backward Selection )
(3) 遗传算法( GA, Genetic Algorithms )
算法描述：首先随机产生一批特征子集，并用评价函数给这些特征子集评分，然后通过交叉、突变等操作繁殖出下一代的特征子集，并且评分越高的特征子集被选中参加繁殖的概率越高。这样经过N代的繁殖和优胜劣汰后，种群中就可能产生了评价函数值最高的特征子集。随机算法的共同缺点：依赖于随机因素，有实验结果难以重现。
算法描述：使用序列前向选择(SFS)从空集开始，同时使用序列后向选择(SBS)从全集开始搜索，当两者搜索到一个相同的特征子集C时停止搜索。
双向搜索的出发点是2��/2 < �� 。如下图所示，O点代表搜索起点，A点代表搜索目标。灰色的圆代表单向搜索可能的搜索范围，绿色的2个圆表示某次双向搜索的搜索范围，容易证明绿色的面积必定要比灰色的要小。
算法评价：枚举了所有的特征组合，属于穷举搜索，时间复杂度是O(2n)，实用性不高。
(2)分支限界搜索( Branch and Bound )
算法描述：在穷举搜索的基础上加入分支限界。例如：若断定某些分支不可能搜索出比当前找到的最优解更优的解，则可以剪掉这些分支。
特征选择的子集产生过程
(3) 定向搜索 (Beam Search )
特征选择的子集产生过程
2FS , Sequential Forward Selection )
算法描述：特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J( X)最优。简单说就是，每次都选择一个使得评价函数的取值达到最优的特征加入，其实就是一种简单的贪心算法。
�� =1
�� − ��
2
(1)
当样本特征很多，而样本数相对较少时，式(1)很容易陷入过拟合，为了缓解过拟合问题，可对式(1)引入正则化项，若使用L1范数正则化，则有 �� = ��
为什么L1易获得稀疏解？（解释一） L1 正则化时，X=0点为不可导点，导函数不存在，此时只要正则化项的系数λ大于原先费用函数在 0 点处的导数的绝对值，左右导函数异号，x = 0 就会变成一个极小值点。
嵌入式选择与L1正则化
为什么L1易获得稀疏解？（解释二）
嵌入式选择与L1正则化
注意到��取得稀疏解意味着初试的d个特征中仅有对应着��的非零向量的特征才会出现在最终模型中，于是，求解L1范数正则化的结果是得到了仅才用一部分初始特征值的模型，换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程与学习器训练过程融为一体，同时完成。 L1正则化问题求解可使用近端梯度下降（Proximal Gradient Descent,简称PGD）
算法描述：从特征全集O开始，每次从特征集O中剔除一个特征x，使得剔除特征x后评价函数值达到最优。算法评价：序列后向选择与序列前向选择正好相反，它的缺点是特征只能去除不能加入。
另外，SFS与SBS都属于贪心算法，容易陷入局部最优值。
特征选择的子集产生过程
(3) 双向搜索( BDS , Bidirectional Search )
嵌入式选择与L1正则化
在过滤式和包裹式特征选择方法中，特征选择过程与学习器训练过程有明显的分别；于此不同，嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择。最典型的例子就是带剪枝的决策树。
嵌入式选择与L1正则化
�� =1
�� − ��
2
+ λ||��||1
(2)
式(2)称为LASSO（Least Absolute Shrinkage and Selection Operator 最小绝对收缩算子）
嵌入式选择与L1正则化
特征选择的子集评价
( 2) 距离 (Distance Metrics )
运用距离度量进行特征选择是基于这样的假设：好的特征子集应该使得属于同一类的样本距离尽可能小，属于不同类的样本之间的距离尽可能远。
常用的距离度量（相似性度量）包括欧氏距离、标准化欧氏距离、马氏距离等。 (3) 信息增益( Information Gain ) 假设存在特征子集A和特征子集B，分类变量为C，若IG( C|A ) > IG( C|B ) ，则认为选用特征子集A的分类结果比B好，因此倾向于选用特征子集A。
算法评价：可作为SFS与SBS的补充，用于跳出局部最优值。
(2) 模拟退火算法( SA, Simulated Annealing )
算法评价：模拟退火一定程度克服了序列搜索算法容易陷入局部最优值的缺点，但是若最优解的区域太小（如所谓的 “高尔夫球洞”地形），则模拟退火难以求解。
特征选择的子集产生过程
特征选择的子集评价
通过子集搜索产生的特征子集需要用评价尺度来进行评价，常见的评价方法如下： (1) 相关性( Correlation)
运用相关性来度量特征子集的好坏是基于这样一个假设：好的特征子集所包含的特征应该是与分类的相关度较高（相关度高），而特征之间相关度较低的（亢余度低）。可以使用线性相关系数(correlation coefficient) 来衡量向量之间线性相关度。
特征选择
Feature Selection
重庆大学余俊良
特征选择
• 什么是特征选择
– 特征选择 ( Feature Selection )也称特征子集选择 ( Feature Subset Selection , FSS ) ，或属性选择( Attribute Selection ) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。
产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(Complete)，启发式搜索(Heuristic)，随机搜索(Random) 3 大类
特征选择的子集产生过程
1.完全搜索
完全搜索分为穷举搜索(Exhaustive)与非穷举搜索(NonExhaustive)两类。 (1) 广度优先搜索( Breadth First Search ) 算法描述：广度优先遍历特征子空间。
特征选择的常用方法
将特征子集搜索与子集评价相结合，即可得到特征选择方法，例如将前向搜索与信息熵相结合，这显然与决策树算法非常相似。事实上，决策树可用于特征选择，树结点的划分属性所组成的集合就是选择出的特征子集。常见的特征选择方法大致可分为三类：过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。
�� =1
�� − ��
2
+ λ||��||1
(2)
嵌入式选择与L1正则化
L1范数和L2范数正则化都有助于降低过拟合风险，但前者还会带来一个额外的好处：它比后者更易于获得“稀疏”解，即它求得的��会有更少的非零分量. �� = ��
给定数据集D={(��1,��1), (��2, ��2),…(��,��)}，其中 �� ∈ �� , �� ∈ �� ，考虑最简单的线性回国模型，以平方误差为损失函数，则优化目标为 �� = ��
特征选择的子集评价
(4)一致性( Consistency )
若样本1与样本2属于不同的分类，但在特征A、 B上的取值完全一样，那么特征子集{A，B}不应该选作最终的特征集。 (5)分类器错误率 (Classifier error rate )
使用特定的分类器，用给定的特征子集对样本集进行分类，用分类的精度来衡量特征子集的好坏。
包裹式选择
一般而言，由于包裹式特征选择方法直接针对给定学习器进行优化，因此从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好，但另一方面，由于在特征选择过程中需多次训练学习器，因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。
前面介绍的评价尺度中，相关性、距离、信息增益、一致性属于过滤式，而分类器错误率属于包裹式。
算法描述：首先选择N个得分最高的特征作为特征子集，将其加入一个限制最大长度的优先队列，每次从队列中取出得分最高的子集，然后穷举向该子集加入1个特征后产生的所有特征集，将这些特征集加入队列。 (4) 最优优先搜索 ( Best First Search ) 算法描述：与定向搜索类似，唯一的不同点是不限制优先队列的长度。