特征选择算法综述20160702

合集下载

特征选择方法综述

特征选择方法综述
特征选择是机器学习领域的一大热点，它是指从原始数据中筛选出最能代表数据特征的数据子集，而且提取的特征信息对数据分析有一定的帮助，特征选择也可以使生成的模型更加精确和稳定。

本文将对特征选择方法进行综述，分析它们的优势和劣势，并比较它们在机器学习中的适用性。

首先，让我们来看看常见的特征选择方法，包括过滤式、包裹式和嵌入式方法。

过滤式方法是针对特征本身的特性对变量进行筛选的一种方法，其优势在于运算速度快，可以有效地减少特征维度，但是它不能有效地提取特征信息等。

包裹式方法是将特征选择与模型训练结合到一起，利用模型得分来筛选特征，其优势在于能够提取出信息素材，但也存在很多难以克服的问题，比如运行时间相对较长、模型依赖性强等。

嵌入式方法更多地依赖于模型自身来确定变量的重要性，其优势在于模型可以自动学习特征的有用性，加快速度，但只能在非线性模型中有效地使用。

此外，特征选择还可以通过比较不同的方法来改善模型的准确性。

例如，可以通过贪心搜索算法（GSA）来自动筛选最有效的特征，以
实现更好的预测结果。

同时，基于统计学的特征选择方法也可以有效地帮助我们提取特征，有助于建立更好的模型。

最后，从现有的特征选择方法中，可以看出它们各有优势，也各有劣势。

对于线性模型，过滤式方法是首选，但对于非线性模型，嵌入式和包裹式方法可能更有效。

另外，可以通过比较贪心搜索算法和
基于统计学的方法来自动筛选特征，这有助于提高模型的准确性。

总之，特征选择是机器学习领域的重要研究内容，可以有效地在原始数据中提取有用特征，缩小特征维度，提高模型准确性，更好地利用数据和资源，为机器学习带来更好的结果。

基于算法的分类器设计中的特征选择方法综述

基于算法的分类器设计中的特征选择方法综述特征选择在算法设计中起着至关重要的作用，决定了分类器的准确性和性能。

本文将对基于算法的分类器设计中的特征选择方法进行综述。

首先，介绍特征选择的概念和作用；其次，列举一些常用的特征选择方法；最后，讨论特征选择方法的优缺点和应用场景。

一、特征选择的概念和作用特征选择是从原始特征集中选择出最具有代表性和区分度的特征，以提高分类器的准确性和效率。

在数据分析和机器学习中，通常会遇到高维数据，即特征数量远大于样本数量的情况。

这时，特征选择可以帮助我们减少数据维度、消除冗余特征，从而提高模型的泛化能力和解释性。

特征选择的作用主要有以下几个方面：1. 减少计算量：通过减少特征数量，可以大大减少分类器训练和预测的计算复杂度，加快算法的速度。

2. 提高分类器准确性：选择最具有区分度和代表性的特征，有助于减少噪音对分类结果的影响，提高分类器的准确性。

3. 改善模型解释性：选择具有实际意义和解释性的特征，有助于理解分类器的决策过程和结果。

4. 降低过拟合风险：去除冗余特征和噪音特征可以减少模型对训练数据的过拟合风险，提高模型的泛化能力。

二、常用的特征选择方法1. 过滤式方法过滤式方法独立于具体的分类器算法，通过计算特征的评价指标，对特征进行排序和选择。

常用的评价指标包括信息增益、互信息、相关系数等。

过滤式方法计算简单，适用于大规模数据集。

但是，过滤式方法忽略了特征和分类器之间的相互关系，可能选择出与分类任务无关或冗余的特征。

2. 包裹式方法包裹式方法使用具体的分类器算法作为特征选择的评价准则，通过搜索特征子集并对子集进行评估。

常用的搜索算法包括贪心搜索、遗传算法等。

包裹式方法考虑了特征和分类器之间的相互关系，能够选择最优的特征子集。

但是，包裹式方法计算复杂度高，对计算资源要求较高。

3. 嵌入式方法嵌入式方法将特征选择与分类器训练过程融合在一起，通过正则化项或惩罚项选择特征。

常用的嵌入式方法有L1正则化、决策树剪枝等。

特征选择算法综述及进展研究

特征选择算法综述及进展研究-概述说明以及解释1.引言1.1 概述特征选择是机器学习和数据挖掘领域中一个重要的任务，其目的是从给定的特征集合中选择出最具代表性和有效性的特征子集。

特征选择的主要目标是降低特征空间的维度，提高模型的性能和可解释性，并减少计算的复杂性。

在实际应用中，特征选择可以帮助我们识别出对目标变量有显著影响的特征，排除掉冗余和噪声特征，从而提高模型的泛化能力。

特征选择算法可以分为过滤式、包裹式和嵌入式三种类型。

过滤式特征选择算法独立于任何具体的学习算法，通过对特征进行评估和排序来选择特征。

包裹式特征选择算法直接使用特定学习算法，将特征选择问题转化为子集搜索问题，并根据特定评价准则选择最佳特征子集。

嵌入式特征选择算法将特征选择嵌入到具体的学习算法中，通过联合学习特征选择和模型参数学习过程来选择特征。

近年来，特征选择算法的研究取得了许多进展。

新兴特征选择算法提出了许多新的思路和方法，例如基于稀疏表示、稀疏自编码和稀疏重构的特征选择算法。

同时，深度学习技术的兴起为特征选择带来了全新的视角。

深度学习在特征选择中的应用成为了研究的一个热点，并取得了一些令人瞩目的成果。

此外，多目标特征选择算法和特征选择与特征提取的结合也成为了特征选择领域的研究重点。

尽管特征选择算法取得了一些令人鼓舞的成果，但仍然存在一些问题和挑战。

首先，对于高维数据集，传统的特征选择算法往往面临着计算复杂性和存储空间的限制。

其次，在处理非线性关系和复杂数据结构时，特征选择算法的性能可能不佳。

此外，如何在特征选择过程中处理类别不平衡和缺失值等常见问题也是一个值得关注的挑战。

未来的研究方向主要包括但不限于以下几个方面：首先，需要进一步提高特征选择算法的效率和可扩展性，以应对越来越大规模的数据集。

其次，深度学习在特征选择中的应用仍有很大的发展空间，需要进一步探索和改进深度学习模型的特征选择能力。

此外，多目标特征选择以及特征选择与特征提取的结合也是未来的研究方向之一。

特征选择常用算法综述

特征选择常⽤算法综述特征选择的⼀般过程：1.⽣成⼦集：搜索特征⼦集，为评价函数提供特征⼦集2.评价函数：评价特征⼦集的好坏3.停⽌准则：与评价函数相关，⼀般是阈值，评价函数达到⼀定标准后就可停⽌搜索4.验证过程：在验证数据集上验证选出来的特征⼦集的有效性1.⽣成⼦集搜索算法有完全搜索、启发式搜索、随机搜索三⼤类。

（1）完全搜索<1>宽搜(Breadth First Search)：时间复杂度⾼，不实⽤<2>分⽀界限搜索(Branch and Bound)：其实就是宽搜加上深度的限制<3>定向搜索(Beam Search)：其实算是启发式的⼀种，对宽搜加上每次展开结点数的限制以节省时间空间，对于展开那⼏个结点由启发式函数确定<4>最优优先算法(Best First Search)：也是有启发式函数，对宽搜取最优结点进⾏展开（2）启发式搜索<1>序列前向选择（SFS , Sequential Forward Selection）特征⼦集X从空集开始，每次选择能使得评价函数J(X)最优的⼀个特征x加⼊，其实就是贪⼼算法，缺点是只加不减<2>序列后向选择(SBS , Sequential Backward Selection)和SFS相反，从特征全集开始，每次选择使评价函数J(X)最优的特征x剔除，也是贪⼼，缺点是只减不增<3>双向搜索(BDS , Bidirectional Search)SFS和SBS同时开始，当两者搜索到同⼀个特征⼦集时停⽌。

<4>增L去R选择算法（LRS , Plus-l Minus-R Selection）形式⼀：从空集开始，每次加L个特征，去除R个特征，使得J最优形式⼆：从全集开始，每次去除R个特征，加⼊L个特征，使J最优。

<5>序列浮动选择(Sequential Floating Selection)该算法由增L去R发展，不同之处在于L和R是会变化的，它结合了序列前后向选择、增L去R的特点并弥补了缺点。

特征选择算法综述及进展研究

特征选择算法综述及进展研究特征选择是机器学习领域中的一个重要问题，其目的是从原数据集中选择出最具区分性的特征，以提高分类或回归的准确率、降低运算成本。

目前，特征选择算法已被广泛应用于图像识别、数据挖掘以及模式识别等领域。

本文主要介绍特征选择算法的进展研究。

一、特征选择算法的分类特征选择算法的分类方法有多种，其中，较为常见的分类方法包括：1.过滤式与包裹式过滤式特征选择是一种优先对特征进行预处理的方法，其主要思想是首先进行特征选择，然后使用被选中的特征进行数据建模。

在过滤式特征选择中，特征的选择与数据建模是分离的步骤。

因此，它能够快速地处理大量数据，但不能保证最优的结果。

包裹式特征选择在建模之前，需要从特征向量中选择一个子集。

这个子集参与模型的构建和评估。

由于它们直接与评估指标相关，因此包裹式特征选择能够产生更优秀的结果，但是计算量比较大。

2.嵌入式目前，特征选择算法的研究在不断地推进，一些新的算法逐渐被提出。

在特征选择算法的研究中，最常用的方法是基于统计学的特征选择和遗传算法优化的特征选择。

以下是一些特征选择算法的主要进展：1.基于卷积神经网络的特征选择卷积神经网络是一种先进的神经网络模型，它被广泛应用于图像识别和语音识别等领域。

在特征选择中，卷积神经网络可以通过卷积操作来处理数据，以提取有效的特征。

通过设定不同的滤波器，卷积神经网络可以自动地提取不同尺度、不同方向、不同特征的信息。

在卷积神经网络的基础上，已经有一些研究工作使用卷积神经网络来进行特征选择。

2.基于重要性权重的特征选择基于重要性权重的特征选择将各个特征根据其重要性进行排序，选取最优的特征子集。

目前，较为常用的重要性权重算法包括决策树、随机森林和支持向量机等。

在这些算法中，特征的重要性评估是通过衡量特征对模型预测的贡献来进行的。

这些算法可以根据其重要性对特征进行排序，从而选择最优的特征子集。

神经网络是一种广泛应用于分类、回归和聚类等领域的模型，它可以自动地学习输入与输出之间的映射关系。

特征选择算法综述及进展研究

特征选择算法综述及进展研究特征选择算法是机器学习和数据挖掘领域中的重要技术之一，它通过从原始数据中选择最相关的特征来降低模型的复杂度、提高模型的性能和减少过拟合的风险。

在真实世界的数据中，往往存在大量的冗余特征，特征选择算法的作用就是从这些冗余特征中筛选出对于预测目标最为关键的特征，从而提高建模的准确性和效率。

近年来，特征选择算法得到了广泛的关注和研究，在不同领域都有着广泛的应用，因此对特征选择算法的综述及进展研究具有重要的意义。

一、特征选择算法的分类特征选择算法主要可以分为过滤式、包裹式和嵌入式三种类型。

过滤式特征选择是在特征选择和建模之间加入一个中间环节，通过对特征进行评估和排序，并选择出最优的特征子集；包裹式特征选择则是在建模的过程中，通过交叉验证等技术来评估特征子集的性能，并不断优化特征子集；嵌入式特征选择则是将特征选择过程嵌入到模型训练的过程中，通过正则化或剪枝等技术来选择最优的特征子集。

二、特征选择算法的常见方法（一）过滤式特征选择算法1. 信息增益信息增益是一种经典的特征选择方法，它利用信息熵来评估特征对目标变量的影响程度，通过计算特征与目标变量之间的互信息来进行特征选择。

2. 方差选择方差选择是一种简单直观的特征选择方法，它通过计算每个特征的方差来评估特征的重要性，方差较小的特征往往对目标变量的影响较小，可以进行筛选。

（二）包裹式特征选择算法1. 递归特征消除递归特征消除是一种常用的包裹式特征选择方法，它通过反复地训练模型并消除对预测性能影响较小的特征来进行特征选择。

2. 基于遗传算法的特征选择基于遗传算法的特征选择方法通过模拟生物进化的过程进行特征选择，利用交叉和变异等操作来不断优化特征子集。

（三）嵌入式特征选择算法1. Lasso回归Lasso回归是一种常用的嵌入式特征选择方法，它利用L1正则化来惩罚模型的复杂度，从而实现对特征的选择和模型的训练。

2. 基于树的特征选择基于树的特征选择方法通过构建决策树或随机森林等模型来进行特征选择，利用树模型的特征重要性来评估特征的重要性。

特征选择算法综述及进展研究

特征选择算法综述及进展研究【摘要】本文综述了特征选择算法的研究现状和发展趋势。

在介绍了特征选择算法研究的背景、意义和目的。

在详细分析了特征选择算法的三种主要类型：过滤式、包裹式和嵌入式，并对现有算法进行了比较分析。

在展望了特征选择算法的发展趋势，提出了面临的挑战与机遇，并指出了未来研究方向。

本文通过综合分析不同特征选择算法的优缺点，为相关研究提供了参考和启示，也为进一步的研究提出了新的思路和方向。

【关键词】关键词：特征选择算法、过滤式、包裹式、嵌入式、比较分析、发展趋势、挑战与机遇、未来研究方向1. 引言1.1 研究背景特征选择算法在机器学习领域中扮演着至关重要的角色，它可以帮助我们从庞大的特征集合中选择出最具代表性和相关性的特征，从而提高模型的性能和泛化能力。

随着数据规模不断增大和特征维度不断增加，特征选择算法的研究也变得愈发重要。

在过去的几年里，特征选择算法已经取得了一些重要的进展，例如基于过滤、包裹和嵌入式的特征选择方法，这些方法在不同情境下都表现出了一定的优势和局限性。

随着机器学习领域的不断发展和变化，特征选择算法的研究也面临着一些挑战，比如如何处理高维稀疏数据、如何处理不平衡数据等问题。

本文旨在对特征选择算法进行综述和进展研究，探讨其在机器学习领域中的重要性和应用前景。

通过对现有特征选择算法的比较分析，可以更好地了解各种方法的优缺点，为未来的研究和应用提供参考。

已经为我们提供了一个重要的起点，让我们深入探讨特征选择算法的定义和分类，以期为特征选择算法的发展趋势和未来研究方向奠定基础。

1.2 研究意义特征选择是机器学习和数据挖掘领域中非常重要的问题之一，其在数据预处理中起着至关重要的作用。

特征选择算法可以帮助我们去除冗余特征和噪声，提高模型的性能和泛化能力，同时降低模型的复杂度和运行时间。

在实际应用中，数据往往包含大量的特征，而其中许多特征可能是无关的或冗余的，这就导致了“维度灾难”的问题。

大数据挖掘中的特征选择方法综述

大数据挖掘中的特征选择方法综述特征选择是大数据挖掘过程中的一个重要环节，它通过从数据集中选择相关特征，帮助挖掘出有意义的信息和模式。

在这篇文章中，我将综述大数据挖掘中常用的特征选择方法。

一、过滤式特征选择方法：过滤式特征选择方法主要通过计算特征与目标变量之间的相关性进行特征选择。

常用的方法包括卡方检验、相关系数、信息增益等。

卡方检验可以用于判断特征与分类变量之间是否存在显著性关系，相关系数可以衡量特征与目标变量之间的线性关系程度，信息增益则是衡量特征对分类任务的贡献度。

二、包裹式特征选择方法：包裹式特征选择方法则是利用机器学习算法来进行特征选择。

这种方法通过训练一个机器学习模型，以特征子集的性能作为模型评估准则，并通过搜索算法寻找最佳的特征子集。

常用的算法包括递归特征消除、遗传算法等。

三、嵌入式特征选择方法：嵌入式特征选择方法将特征选择过程与机器学习模型训练过程相结合。

在模型训练的过程中，自动选择与目标变量相关的特征。

例如，L1正则化逻辑回归、决策树、支持向量机等都可以实现嵌入式特征选择。

四、基于信息熵的特征选择方法：信息熵是度量特征集合纯度的一种指标，基于信息熵的特征选择方法主要根据各个特征的信息熵来评估特征的重要性。

常用的方法包括信息增益比、基尼指数等。

五、基于统计学的特征选择方法：基于统计学的特征选择方法通过统计学原理来选择特征。

例如，t检验可以用于判断两个样本之间的显著性差异，方差分析（ANOVA）可以用于多个样本之间的显著性差异判断。

六、基于稳定性的特征选择方法：基于稳定性的特征选择方法主要通过随机子采样或交叉验证来评估特征的重要性。

例如，随机森林、稳定性选择等都是基于稳定性的特征选择方法。

综上所述，大数据挖掘中的特征选择方法包括过滤式、包裹式、嵌入式、基于信息熵、基于统计学和基于稳定性的方法。

在实际应用中，选择合适的特征选择方法需要根据具体的任务需求、数据特征以及计算资源等因素进行综合考虑。

特征选择方法综述

特征选择方法综述随着科学技术的发展，特征选择在机器学习领域的重要性越来越突出。

特征选择是指在特定学习环境中从原始特征中选择出最有用的特征，以提高学习算法性能并加快学习过程。

特征选择方法可分为两类：过滤型和包装型特征选择方法。

过滤型特征选择方法是一种无监督的特征选择方法，它可以通过评估每个特征的独立性、相关性或者特征本身的重要性来筛选最有用的特征。

而包装型特征选择方法则是一种有监督的特征选择方法，它可以通过使用评估模型的性能来确定最佳的特征集合。

二、滤型特征选择方法过滤型特征选择方法是从原始特征中无监督地选择最有用的特征，通过评估每个特征的独立性、相关性或者特征本身的重要性，筛选出有用的特征。

过滤型特征选择方法可以分为统计方法、层次聚类方法和递归特征消除法。

1、统计方法统计方法是一种基于统计指标的特征选择方法，通过对特征之间的统计指标进行比较，比如Pearson系数、Gini指数等，从而筛选出最有用的特征。

2、层次聚类方法层次聚类方法是一种以聚类为基础的特征选择方法，它通过聚类算法将特征分组，使得在每个分组中的相似性最大化。

然后，通过算法对不同组的相似性进行比较，最终筛选出最有用的特征。

3、递归特征消除法递归特征消除法是一种基于评估模型性能的特征选择方法，它通过不断消除最不重要的特征来确定最有用的特征。

它的步骤是，首先，选择原始特征的一个子集，然后计算该子集的模型性能；然后，识别模型中最不重要的特征，并从子集中删除该特征；最后，重复这个过程，直到确定最有用的特征为止。

三、装型特征选择方法包装型特征选择方法是一种有监督的特征选择方法，它可以通过使用评估模型的性能来确定最佳的特征集合。

包装型特征选择方法常用的有迭代策略、测试集方法和区分能力法，这三种方法都是在特定的数据集上，从原始特征中有监督的筛选特征的方法。

1、迭代策略迭代策略是一种基于学习算法的特征选择方法，它通过在学习算法上迭代，不断修改和优化模型，来筛选出最佳的特征集合。

特征选择算法综述及进展研究

特征选择算法综述及进展研究特征选择算法是机器学习领域中的一项重要技术，它可以从大量的特征中挑选出最相关的特征，降低了模型的复杂度和训练成本，提高了模型的泛化能力和可解释性。

特征选择算法不仅广泛应用于数据分析、模式识别、图像处理等领域，也受到自然语言处理、推荐系统、生物信息学等领域的关注。

本文首先介绍了特征选择的基本概念和作用，然后对主要的特征选择算法进行了综述和分析，并讨论了各种算法的优缺点及适用范围，最后探讨了特征选择算法的研究进展和未来发展方向。

一、特征选择的基本概念和作用特征选择是指从原始数据中选择一些最相关的特征，用来建立模型并进行预测和分类。

特征选择的目标是降低模型的复杂度、提高训练效率、避免过拟合、增强模型的可解释性和泛化能力。

特征选择通常包括以下几个步骤：1、特征构造或提取：根据原始数据的特点和需求，从中提取或构造出各种特征，如统计特征、频率特征、空间特征等。

2、特征预处理：对提取的特征进行标准化、缩放、归一化等处理，使得各个特征在不同的数量级下具有可比性。

3、特征选择：从预处理后的特征集合中选择最相关或最具代表性的特征，丢弃无关或重复的特征。

4、特征降维：进一步减少特征的数量，降低模型的复杂度和训练成本，同时尽量保留原特征集合的信息量。

特征选择算法通常可以分为三类：过滤型、包裹型和嵌入型。

过滤型算法是指独立于学习器，通过一些统计方法或规则来筛选特征；包裹型算法是指将特征选择嵌入到学习器中，通过反复训练学习器来选择最优特征；嵌入型算法是指将特征选择作为学习器的一部分，通过约束优化或正则化等方法来选择最优特征。

1、过滤型算法过滤型算法是根据特征与类别之间的关联程度，利用某种特征评价准则对特征集合进行筛选。

常见的特征评价准则包括信息增益、信息熵、方差分析、相关系数等。

过滤型算法的优点是计算简单，适用于大规模数据和高维特征，但缺点是缺乏考虑模型的优化目标和局部特征关系。

常用的过滤型算法有 Relief、Chi-squared、Fisher、Mutual Information等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

特征选择方法综述控制与决策2012.2问题的提出特征选择框架基于搜索策略划分特征选择方法基于评价准则划分特征选择方法结论一、问题的提出特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程，是模式识别的关键问题之一。

对于模式识别系统，一个好的学习样本是训练分类器的关键，样本中是否含有不相关或冗余信息直接影响着分类器的性能。

因此研究有效的特征选择方法至关重要。

特征选择算法的目的在于选择全体特征的一个较少特征集合，用以对原始数据进行有效表达按照特征关系度量划分，可分为依赖基尼指数、欧氏距离、信息熵。

、特征选择框架由于子集搜索是一个比较费时的步骤，一些学者基于相关和冗余分析，给出了下面一种特征选择框架，避免了子集搜索，可以高效快速地寻找最优子集。

从特征选择的基本框架看出，特征选择方法中有4 个基本步骤：候选特征子集的生成（搜索策略）、评价准则、停止准则和验证方法。

目前对特征选择方法的研究主要集中于搜索策略和评价准则。

因而，本文从搜索策略和评价准则两个角度对特征选择方法进行分类。

三、基于搜索策略划分特征选择方法基本的搜索策略按照特征子集的形成过程，形成的特征选择方法如下：图3 基于搜索策略划分特征选择方法其中，全局搜索如分支定界法，存在问题：1）很难确定优化特征子集的数目；2）满足单调性的可分性判据难以设计；3）处理高维多类问题时，算法的时间复杂度较高。

随机搜索法如模拟退火、遗传算法、禁忌搜索算法等，存在问题：1）具有较高的不确定性，只有当总循环次数较大时，才可能找到较好的结果。

2）在随机搜索策略中，可能需对一些参数进行设置，参数选择的合适与否对最终结果的好坏起着很大的作用。

启发式搜索如SFS、SBS、SFFS、SFBS等，存在问题：1）虽然效率高，但是它以牺牲全局最优为代价。

每种搜索策略都有各自的优缺点，在实际应用过程中，根据具体环境和准则函数来寻找一个最佳的平衡点。

例如，特征数较少，可采用全局最优搜索策略；若不要求全局最优，但要求计算速度快，可采用启发式策略；若需要高性能的子集，而不介意计算时间，则可采用随机搜索策略。

四、基于评价准则划分特征选择方法图4 基于评价准则划分特征选择方法（一）考虑单个特征对分类的贡献，特征选择方法依据其与分类器的关系分为：Filter 方法、Wrapper 方法和Embedded方法３类。

封装式算法作为一种经典的特征选择算法类型采用学习算法进行特征选择，其选择过程复杂耗时，目前多与过滤式特征选择算法结合，辅助特征选择；嵌入式算法则分多步骤采用不同选择方式，算法繁琐，其代表算法是基于稀疏多项式逻辑回归模型理论的SBMLR算法等；过滤式算法不需其他学习算法，主要考察特征间计量关系，方法简单，时间复杂度相对较低，代表算法包括：基于特征权重的Relief F 、Fisher 、SPEC以及基于互信息的MRMR算法等。

(1)Filter 方法：通过分析特征子集内部的信息来衡量特征子集的好坏，不依赖于分类器。

Filter 实质上属于一种无导师学习算法。

常用：基于特征权重的Relief F、Fisher 、SPEC以及基于互信息的MRMR算法Filter 特征选择方法一般使用评价准则来增强特征与类的相关性，削减特征之间的相关性。

将评价函数分成4 类：1)距离度量。

距离度量通常也认为是分离性、差异性或者辨识能力的度量。

最为常用的一些重要距离测度：欧氏距离、S阶Minkowski 测度、Chebychev 距离、平方距离等。

2)信息度量。

信息度量通常采用信息增益(IG) 或互信息(MI) 衡量。

信息增益：有无这个特征对分类问题的影响的大小。

互信息：描述两个随机变量之间相互依存关系的强弱。

泛化的信息度量函数标准：其中，C：类别；f：候选特征；S：已选特征；g(C,f,S)：C，f，S之间的信息量；? ：调控系数；δ：惩罚因子① BIF (best individual feature) 是一种最简单最直接的特征选择方法。

评价函数：类别的相关性，最小化特征之间的冗余。

I()：互信息降序排序前k 个优缺点：这种方法简单快速，适合于高维数据。

没有考虑到所选特征间的相关性，会带来较大的冗余。

② MIFS (mutual information feature selection) ：互信息特征选择。

使用候选特征 f 与β：调节系数。

β在[0.5,1] 时，算法性能较好。

③ mRMR (minimal-redundancy and maximal-relevance) 方法。

思想：最大化特征子集和④ FCBF (fast correlation-based filter) 。

基于相互关系度量给出的一种算法。

对于线性随机变量，用相关系数分析特征与类别、特征间的相互关系。

对于非线性随机变量，采用对称不确定性(SU)来度量，对于两个非线性随机变量X 和Y，它们的相互关系表示为：H()：信息熵基本思想：根据所定义的C-相关(特征与类别的相互关系)和F-相关(特征之间的相互关系)，从原始特征集合中去除C-相关值小于给定阈值的特征，再对剩余的特征进行冗余分析。

⑤ CMIM (conditional mutual information maximization) 。

利用条件互信息来评价特征的重要性程度，即在已知已选特征集S的情况下通过候选特征f 与类别C 的依赖程度来确定f 的重要性，其中条件互信息I(C; f | S)值越大，f 能提供的新信息越多。

3)依赖性度量。

有许多统计相关系数被用来表达特征相对于类别可分离性间的重要性程度。

如：Pearson 相关系数、概率误差、Fisher 分数、先行可判定分析、最小平方回归误差、平方关联系数、t-test 、F-Statistic 等。

Hilbert-Schmidt 依赖性准则(HSIC) 可作为一个评价准则度量特征与类别的相关性。

核心思想是一个好的特征应该最大化这个相关性。

t: 所选特征个数上限；F：特征集合；S：已选特征集合；J(S)：评价准则从式中可知需要解决两个问题：一是评价准则J(S)的选择；二是算法的选择。

4)一致性度量给定两个样本, 若他们特征值均相同, 但所属类别不同, 则称它们是不一致的; 否则, 是一致的。

试图保留原始特征的辨识能力, 找到与全集有同样区分类别能力的最小子集。

典型算法有Focus、LVF 等。

Filter 方法选择合适的准则函数将会得到较好的分类结果。

优点：可以很快地排除很大数量的非关键性的噪声特征, 缩小优化特征子集搜索的规模,计算效率高,通用性好,可用作特征的预筛选器。

缺点：它并不能保证选择出一个优化特征子集, 尤其是当特征和分类器息息相关时。

因而, 即使能找到一个满足条件的优化子集,它的规模也会比较庞大,会包含一些明显的噪声特征。

2 ）Wrapper 法：评价函数是一个分类器，采用特定特征子集对样本集进行分类，根据分类的结果来衡量该特征子集的好坏。

Wrapper 实质上是一种有导师学习算法。

训练集测试集优点：准确率高缺点：1）为选择出性能最好的特征子集，Wrapper 算法需要的计算量巨大；2 ）该方法所选择的特征子集依赖于具体学习机；3 ）容易产生“过适应”问题，推广性能较差（3）Embedded方法。

将特征选择集成在学习机训练过程中，通过优化一个目标函数在训练分类器的过程中实现特征选择。

优点：相对于Wrapper 方法，不用将训练数据集分成训练集和测试集两部分，避免了为评估每一个特征子集对学习机所进行的从头开始的训练，可以快速地得到最佳特征子集，是一种高效的特征选择方法。

缺点：构造一个合适的函数优化模型是该方法的难点。

通常，将Filter 方法的高效与Wrapper 方法的高准确率进行结合，可得到更优的特征子集。

混合特征选择过程一般由两个阶段组成：1）使用Filter 方法初步剔除大部分无关或噪声特征,只保留少量特征, 从而有效地减小后续搜索过程的规模。

2）将剩余的特征连同样本数据作为输入参数传递给Wrapper 选择方法, 以进一步优化选择重要的特征。

（二）依据特征之间的联合作用对分类的贡献，分为：CFS （Correltion based Feature Selector ）、CFSPabs（CFSb ased on the absolute of Perons 's correlation coefficient）、DFS （Discernibility of Feature Subset s）。

（1）CFS：基于关联特征的特征选择。

CFS计算整个特征子集的类间区分能力实现特征选择，使得被选特征子集中的特征之间尽可能不相关，而与类标高度相关。

Ms：度量了包含ｋ个特征的特征子集S 的类别辨识能力。

：特征f（f ）与类别C 的相关系数的均值：特征之间相关系数的均值分子：特征子集S的类预测能力分母：特征子集S中特征的冗余程度适合于二分类（2）CFSPabs：基于皮尔森相关系数的绝对值的相关特征选择。

3）DFS：特征子集区分度量。

:当前i 个特征的特征子集在整个数据集上的均值向量:当前i 个特征的特征子集在第ｊ类数据集上的均值向量：第ｊ类中第k 个样本对应当前i 个特征的特征值向量分子：ｌ个类别中各类别对应包含当前ｉ个特征的特征子集的样本中心向量与整个样本集对应当前ｉ个特征的中心向量的距离平方和，其值越大，类间越疏分母：各个类别对应包含当前ｉ个特征的特征子集的类内方差。

方差越小，类内越聚五、结论现有特征选择研究主要着眼于选择最优特征子集所需要的两个主要步骤：特征子集搜索策略和特征子集性能评价准则。

将Filter方法和Wrapper 方法两者结合，根据特定的环境选择所需要的度量准则和分类器是一个值得研究的方向。