常见地特征选择或特征降维方法

合集下载

常见的特征选择或特征降维方法

URL:/14072.html特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。

好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能：1.减少特征数量、降维，使模型泛化能力更强，减少过拟合2.增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。

通常情况下，选择一种自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。

在许多机器学习的书里，很难找到关于特征选择的容，因为特征选择要解决的问题往往被视为机器学习的一种副作用，一般不会单独拿出来讨论。

本文将介绍几种常用的特征选择方法，它们各自的优缺点和问题。

1 去掉取值变化小的特征Removing features with low variance这应该是最简单的特征选择方法了：假设某种特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。

如果100%都是1，那这个特征就没意义了。

当特征值都是离散型变量的时候这种方法才能用，如果是连续型变量，就需要将连续变量离散化之后才能用，而且实际当中，一般不太会有95%以上都取某个值的特征存在，所以这种方法虽然简单但是不太好用。

可以把它作为特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择Univariate feature selection单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。

对于回归和分类问题可以采用卡方检验等方式对特征进行测试。

这种方法比较简单，易于运行，易于理解，通常对于理解数据有较好的效果（但对特征优化、提高泛化能力来说不一定有效）；这种方法有许多改进的版本、变种。

数据处理中的特征选择和降维技术(十)

数据处理中的特征选择和降维技术随着信息时代的来临，大量的数据被生产和存储，数据处理成为现代科学和技术发展的关键环节。

然而，眼下最大的问题是如何从这些庞大的数据集中提取出有用的信息。

特征选择和降维技术作为数据处理的重要组成部分，起到了关键的作用。

一、特征选择在数据处理中的重要性特征选择是指通过选择最具代表性的特征来减少数据集的维度。

在大规模的数据集中，往往存在许多无用或冗余的特征，而这些特征会大大增加计算的复杂度。

如果没有进行特征选择，处理大规模数据时会面临许多问题，如过拟合、维度灾难等。

特征选择的目的是找到最具有区分性和代表性的特征，以降低计算复杂度，提高模型的准确性和泛化能力。

在实际应用中，特征选择可以显著地提高分类、聚类和回归等任务的准确性。

同时，特征选择还有助于提高模型的可解释性和解释能力，提高数据分析的效率。

二、特征选择的方法和技术特征选择的方法和技术有很多种，可以根据不同的应用场景采用不同的方法。

以下介绍几种常用的特征选择方法：1. 过滤法过滤法是一种简单而高效的特征选择方法，它基于特征与目标之间的关联度来进行选择。

常见的过滤法包括相关系数法、卡方检验法和互信息法等。

这些方法通常忽略了特征之间的相互关系，只考虑特征与目标之间的单一关联性。

2. 包裹法包裹法是一种更加高级和精细的特征选择方法，它将特征选择作为一个优化问题来解决。

包裹法通常需要使用特定的算法来搜索最佳特征子集，如遗传算法、蚁群算法等。

由于包裹法考虑了特征之间的相互作用，所以它往往能够找到更好的特征子集。

3. 嵌入法嵌入法是一种将特征选择与模型训练过程相结合的方法。

常见的嵌入法包括基于惩罚项的方法，如Lasso和Ridge回归等。

嵌入法可以在模型训练过程中自动选择特征，让模型更加适应数据集的特点。

三、降维技术在数据处理中的应用除了特征选择，降维技术也是数据处理中不可或缺的一部分。

降维是指将高维数据映射到低维空间中的过程，既能减少计算复杂度，又能保留尽可能多的有用信息。

特征选择和特征提取

特征选择和特征提取特征选择（Feature Selection）和特征提取（Feature Extraction）是机器学习领域中常用的特征降维方法。

在数据预处理阶段，通过选择或提取与目标变量相关且有代表性的特征，可以有效提高模型的性能和泛化能力。

特征选择指的是从原始特征集合中选择一部分最相关的特征子集，剔除无关或冗余的特征，以减少计算成本和模型复杂度。

它可以分为三种类型的方法：过滤方法（Filter Method）、包裹方法（Wrapper Method）和嵌入方法（Embedded Method）。

过滤方法是利用统计或信息论的方法来评估特征与目标变量之间的相关程度，然后根据得分来选择特征。

常见的过滤方法包括互信息（Mutual Information）、方差选择（Variance Selection）和相关系数选择（Correlation Selection）等。

包裹方法是在特征子集上训练模型，通过观察模型性能的变化来评估特征子集的优劣，并选择性能最好的特征子集。

包裹方法的代表性算法有递归特征消除（Recursive Feature Elimination）和遗传算法（Genetic Algorithm）等。

嵌入方法则是将特征选择融入到模型的训练过程中，通过训练模型时的正则化项或特定优化目标来选择特征。

常见的嵌入方法有L1正则化（L1 Regularization）和决策树的特征重要性（Feature Importance of Decision Trees）等。

主成分分析是一种无监督学习方法，通过线性变换将原始特征投影到一组正交的主成分上，使得投影后的特征具有最大的方差。

主成分分析可以降低特征的维度，并保留原始特征的主要信息。

线性判别分析是一种有监督学习方法，通过线性变换找到一个投影方式，使得在投影空间中不同类别的样本更容易区分。

线性判别分析可以有效地提取类别间的差异和类别内的相似性。

因子分析则是一种概率模型，通过考虑变量之间的相关性而提取潜在的共享特征。

特征选择的3种方法

特征选择的3种⽅法
当数据维数⽐较⼤时，就需要进⾏降维，特征选择是降维的⼀种主要⽅式，⼜包括3种⽅法：Filter、Wrapper和Enbedding。

1. Filter
过滤器⽅法，这种⽅法⾸先选定特征，再来进⾏学习。

根据每⼀个属性的⼀些指标（如⽅差等），来确定这个属性的重要程度，然后对所有属性按照重要程度排序，从⾼到低的选择属性。

选定了属性以后，再来进⾏训练。

⽐如Fisher Score、Laplacian Score等。

这种⽅法其实不⼤好，因为决定特征选择效果的不是单个的属性，⽽是属性的集合，⽐如属性A、B、C，单个来看效果不好，但是它们组合起来效果有可能不错。

2. Wrapper
包裹器⽅法，这种⽅法把选定的特征集⽤分类器进⾏训练，⽤训练效果（如准确率等）来作为特征集的评价。

⽐如将启发式搜索、GA等。

这种⽅法和分类器相结合，⽐较直观，和Filter相⽐也更加合理。

缺点是计算开销较⼤。

3. Embedding
嵌⼊式⽅法，即把特征选择的过程作为学习过程的⼀部分，在学习的过程中进⾏特征选择，最典型的如决策树算法。

特征处理方法

特征处理方法特征处理是机器学习中的重要步骤，它有助于提高模型的性能和泛化能力。

以下是几种常见的特征处理方法：1. 特征缩放：将特征的值缩放到一个统一的区间内，以避免某些特征对模型的影响过大。

常见的缩放方法包括最小-最大缩放和标准化。

2. 特征选择：选择最有意义的特征，忽略那些不重要的特征。

这样可以减少模型的复杂性，并且可以提高训练速度和减少过拟合的可能性。

特征选择的方法包括过滤法、包装法和嵌入式方法。

3. 特征编码：对于非数值特征，需要进行编码。

常见的编码方法包括独热编码、标签编码和多项式编码等。

4. 特征转换：将原始特征转换为新的特征，以更好地反映数据的内在规律和模式。

常见的转换方法包括主成分分析(PCA)、线性判别分析(LDA)等。

5. 特征生成：基于已有的特征生成新的特征，以增加模型的表达能力。

例如，使用傅里叶变换将时域信号转换为频域信号，或者使用深度学习中的自动编码器生成新的特征。

6. 特征归一化：将特征的分布归一化到统一的标准，例如将特征的值缩放到[0,1]或[-1,1]的区间内。

这样可以使得不同特征之间的比较更加公正和合理。

7. 特征降维：当特征维度较高时，会导致模型复杂度增加，过拟合问题严重，因此需要进行特征降维。

常见的降维方法包括主成分分析(PCA)、线性判别分析(LDA)等。

8. 缺失值处理：对于含有缺失值的特征，需要进行适当的处理。

常见的方法包括填充缺失值、删除含有缺失值的样本或使用其他方法如决策树等预测缺失值。

在进行特征处理时，应根据具体情况选择合适的方法，并进行交叉验证以评估其对模型性能的影响。

常见的特征选择或特征降维方法

URL:/14072.html特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。

好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能：1. 减少特征数量、降维，使模型泛化能力更强，减少过拟合2. 增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。

通常情况下，选择一种自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。

在许多机器学习的书里，很难找到关于特征选择的内容，因为特征选择要解决的问题往往被视为机器学习的一种副作用，一般不会单独拿出来讨论。

本文将介绍几种常用的特征选择方法，它们各自的优缺点和问题。

1 去掉取值变化小的特征 Removing features with low variance这应该是最简单的特征选择方法了：假设某种特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。

如果100%都是1，那这个特征就没意义了。

可以把它作为特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择 Univariate feature selection单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。

对于回归和分类问题可以采用卡方检验等方式对特征进行测试。

如何进行数据分析的特征选择与降维

如何进行数据分析的特征选择与降维数据分析是当今社会中非常重要的一项技术，它可以帮助我们从大量的数据中提取有用的信息和知识。

而在数据分析过程中，特征选择与降维是非常关键的一步，它可以帮助我们减少数据的维度，提高模型的性能和效率。

本文将介绍如何进行数据分析的特征选择与降维。

首先，特征选择是指从原始数据中选择出最具有代表性和相关性的特征，以便用于后续的建模和分析。

在进行特征选择时，我们可以使用各种方法，如过滤法、包装法和嵌入法等。

其中，过滤法是最常用的一种方法，它通过计算特征与目标变量之间的相关性来选择特征。

具体而言，我们可以使用相关系数、卡方检验和互信息等指标来衡量特征与目标变量之间的相关性，然后选择相关性较高的特征。

另外，包装法是一种基于模型的特征选择方法，它通过训练模型来评估特征的重要性。

具体而言，我们可以使用递归特征消除（Recursive Feature Elimination，RFE）和基于惩罚项的方法（如LASSO和Ridge回归）来选择特征。

递归特征消除是一种迭代的过程，它通过反复训练模型并剔除最不重要的特征来选择特征。

而基于惩罚项的方法则是通过添加惩罚项来约束模型的复杂度，从而选择重要的特征。

除了特征选择外，降维也是数据分析中常用的一种方法。

降维可以帮助我们减少数据的维度，提高模型的性能和效率。

在进行降维时，我们可以使用主成分分析（Principal Component Analysis，PCA）和线性判别分析（Linear Discriminant Analysis，LDA）等方法。

主成分分析是一种无监督的降维方法，它通过线性变换将原始数据映射到一个新的低维空间中，使得映射后的数据具有最大的方差。

而线性判别分析则是一种有监督的降维方法，它通过线性变换将原始数据映射到一个新的低维空间中，使得映射后的数据具有最大的类间距离和最小的类内距离。

在进行特征选择和降维时，我们需要考虑一些因素。

统计学中的降维方法与特征选择

统计学中的降维方法与特征选择在统计学中，降维方法和特征选择是两个重要的概念。

它们都是为了解决高维数据分析中的问题而提出的。

降维方法旨在将高维数据转换为低维空间，以便更好地理解和分析数据。

特征选择则是从原始数据中选择最相关的特征，以便减少数据的维度和复杂性。

本文将介绍降维方法和特征选择的基本概念，并探讨它们在实际应用中的价值和挑战。

一、降维方法降维方法是一种将高维数据转换为低维空间的技术。

在实际应用中，高维数据往往存在着冗余和噪声，这给数据分析带来了困难。

降维方法可以通过保留数据中最重要的信息，减少数据的维度和复杂性，从而简化数据分析过程。

常见的降维方法包括主成分分析（PCA）、线性判别分析（LDA）和因子分析等。

主成分分析是一种通过线性变换将原始数据转换为一组无关的主成分的方法。

它通过计算数据的协方差矩阵和特征值分解来实现。

线性判别分析则是一种通过线性变换将数据投影到低维空间中的方法，以便更好地区分不同类别的数据。

因子分析是一种通过寻找潜在变量来描述数据的方法，它可以帮助我们理解数据背后的潜在结构和关系。

降维方法在各个领域都有广泛的应用。

在图像处理中，降维方法可以帮助我们提取图像的主要特征，以便进行图像分类和识别。

在生物信息学中，降维方法可以帮助我们发现基因表达数据中的重要基因，以及它们之间的关系。

在金融领域中，降维方法可以帮助我们识别重要的金融指标，以便进行风险评估和投资决策。

然而，降维方法也面临着一些挑战。

首先，降维过程中可能会丢失一些重要的信息。

虽然降维可以减少数据的维度和复杂性，但也可能导致数据的丢失和失真。

其次，降维方法的选择和参数设置也是一个复杂的问题。

不同的降维方法适用于不同的数据类型和分析目标，选择合适的方法和参数是一个关键的挑战。

二、特征选择特征选择是一种从原始数据中选择最相关的特征的方法。

在高维数据中，往往存在着大量的冗余和噪声特征，这给数据分析带来了困难。

特征选择可以通过选择最相关的特征，减少数据的维度和复杂性，从而提高数据分析的效率和准确性。

掌握机器学习的特征选择和降维方法

掌握机器学习的特征选择和降维方法特征选择和降维是机器学习中非常重要的两个步骤。

在处理大规模数据集和高维数据时，选择合适的特征和降低维度可以提高模型的效率和准确性。

本文将介绍机器学习中常用的特征选择和降维方法，以及它们的应用。

一、特征选择方法特征选择是从原始特征集中选择出对目标变量有关系的最重要的特征。

常用的特征选择方法包括过滤式、包裹式和嵌入式三种。

1.过滤式特征选择过滤式特征选择独立于机器学习算法，通过统计方法或者特征相关度评估来选择特征。

常用的方法有皮尔逊相关系数、卡方检验、互信息和方差分析等。

这些方法能够评估特征与目标变量之间的相关性，从而选择出与目标变量相关性较高的特征。

2.包裹式特征选择包裹式特征选择使用实际的机器学习算法来评估特征的好坏。

它通过反复训练机器学习模型，并根据特征子集的性能进行评估和选择。

常用的包裹式特征选择方法有基于遗传算法的方法和递归特征消除等。

这些方法能够更准确地选择出对于机器学习算法性能影响较大的特征。

3.嵌入式特征选择嵌入式特征选择将特征选择融入到机器学习算法中，直接通过算法本身来选择特征。

经典的嵌入式特征选择方法有L1正则化和决策树算法等。

这些方法能够通过特征权重或者特征重要性指标来选择特征。

二、降维方法降维是将原始数据映射到一个低维空间中，减少数据的维度。

降维的目标是保留尽量多的数据信息，同时减少数据的复杂度和计算开销。

常用的降维方法包括主成分分析（PCA）、线性判别分析（LDA）和因子分析等。

1.主成分分析（PCA）主成分分析是一种常用的无监督降维技术，通过线性变换将原始特征映射到新的低维子空间中。

它能够最大化数据方差，实现降维的同时保留较多的数据信息。

主成分分析在图像处理、模式识别和数据可视化等领域有着广泛的应用。

2.线性判别分析（LDA）线性判别分析是一种有监督降维方法，它同时考虑了数据映射到低维空间后的类别可分性和类内紧凑性。

线性判别分析在模式识别和人脸识别等领域有着重要的应用。

稀疏表示方法在机器学习中的特征选择与降维技巧

稀疏表示方法在机器学习中的特征选择与降维技巧机器学习中的特征选择和降维技巧是处理高维数据的重要方法。

稀疏表示方法作为一种有效的特征选择和降维技巧，近年来受到了广泛关注和应用。

本文将详细介绍稀疏表示方法在机器学习中的原理、优点以及具体应用场景。

一、稀疏表示方法的原理稀疏表示方法是一种基于稀疏表示学习的机器学习技术，主要通过线性组合的方式来表示数据。

其核心思想是将原始数据表示为尽可能少的基向量的线性组合，从而达到降维和特征选择的目的。

稀疏表示方法通常通过最小化数据表示的稀疏性来选择最优的特征子集。

其数学模型可以表达为如下优化问题：min ||x||_0s.t. y = Ax其中，x表示线性组合系数，y表示原始数据，A表示基向量矩阵，||x||_0表示向量x的L0范数（即非零元素的个数）。

二、稀疏表示方法的优点稀疏表示方法在特征选择和降维中具有如下优点：1. 高效性：稀疏表示方法通过优化问题的求解，能够以较高的效率选择最优的特征子集。

2. 特征提取：稀疏表示方法可以自动提取数据的特征，并且得到的稀疏表示具有较好的鲁棒性和可解释性。

3. 数据可视化：稀疏表示方法可以通过降维技巧将高维数据映射到低维空间，并可使用可视化方法展示数据的特征。

三、稀疏表示方法的应用场景稀疏表示方法在机器学习中具有广泛的应用场景，包括但不限于以下几个方面：1. 特征选择：稀疏表示方法能够根据数据的稀疏性选择最优的特征子集，用于数据分类、聚类等任务。

2. 图像处理：稀疏表示方法可以用于图像压缩、去噪和恢复等任务，通过选择最相关的基向量实现对图像的重构。

3. 生物医学：稀疏表示方法可以应用于生物医学数据的特征选择和降维，帮助医生准确判断疾病。

4. 信号处理：稀疏表示方法能够对信号进行降维和特征选择，有助于提取信号中的关键信息。

除了以上应用场景，稀疏表示方法还可以在自然语言处理、音频处理等领域发挥重要作用。

四、总结稀疏表示方法是一种有效的特征选择和降维技巧，在机器学习领域具有重要的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

URL:/14072.html特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。

好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。

通常情况下，选择一种自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。

在许多机器学习的书里，很难找到关于特征选择的容，因为特征选择要解决的问题往往被视为机器学习的一种副作用，一般不会单独拿出来讨论。

本文将介绍几种常用的特征选择方法，它们各自的优缺点和问题。

1 去掉取值变化小的特征 Removing features with low variance这应该是最简单的特征选择方法了：假设某种特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。

如果100%都是1，那这个特征就没意义了。

可以把它作为特征选择的预处理，先去掉那些取值变化小的特征，然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择 Univariate feature selection单变量特征选择能够对每一个特征进行测试，衡量该特征和响应变量之间的关系，根据得分扔掉不好的特征。

对于回归和分类问题可以采用卡方检验等方式对特征进行测试。

2.1 Pearson相关系数 Pearson Correlation皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关(这个变量下降，那个就会上升)，+1表示完全的正相关，0表示没有线性相关。

Pearson Correlation速度快、易于计算，经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。

Pearson相关系数的一个明显缺陷是，作为特征排序机制，他只对线性关系敏感。

如果关系是非线性的，即便两个变量具有一一对应的关系，Pearson相关性也可能会接近0。

2.2 互信息和最大信息系数Mutual information and maximalinformation coefficient (MIC)以上就是经典的互信息公式了。

想把互信息直接用于特征选择其实不是太方便：1、它不属于度量方式，也没有办法归一化，在不同数据及上的结果无法做比较；2、对于连续变量的计算不是很方便（X和Y都是集合，x，y都是离散的取值），通常变量需要先离散化，而互信息的结果对离散化的方式很敏感。

最大信息系数克服了这两个问题。

它首先寻找一种最优的离散化方式，然后把互信息取值转换成一种度量方式，取值区间在[0，1]。

minepy 提供了MIC功能。

2.3 距离相关系数 (Distance correlation)距离相关系数是为了克服Pearson相关系数的弱点而生的。

在x和x^2这个例子中，即便Pearson相关系数是0，我们也不能断定这两个变量是独立的（有可能是非线性相关）；但如果距离相关系数是0，那么我们就可以说这两个变量是独立的。

尽管有MIC和距离相关系数在了，但当变量之间的关系接近线性相关的时候，Pearson相关系数仍然是不可替代的。

第一、Pearson相关系数计算速度快，这在处理大规模数据的时候很重要。

第二、Pearson相关系数的取值区间是[-1，1]，而MIC和距离相关系数都是[0，1]。

这个特点使得Pearson相关系数能够表征更丰富的关系，符号表示关系的正负，绝对值能够表示强度。

当然，Pearson相关性有效的前提是两个变量的变化关系是单调的。

2.4 基于学习模型的特征排序 (Model based ranking)这种方法的思路是直接使用你要用的机器学习算法，针对每个单独的特征和响应变量建立预测模型。

其实Pearson相关系数等价于线性回归里的标准化回归系数。

假如某个特征和响应变量之间的关系是非线性的，可以用基于树的方法（决策树、随机森林）、或者扩展的线性模型等。

基于树的方法比较易于使用，因为他们对非线性关系的建模比较好，并且不需要太多的调试。

但要注意过拟合问题，因此树的深度最好不要太大，再就是运用交叉验证。

3 线性模型和正则化单变量特征选择方法独立的衡量每个特征与响应变量之间的关系，另一种主流的特征选择方法是基于机器学习模型的方法。

有些机器学习方法本身就具有对特征进行打分的机制，或者很容易将其运用到特征选择任务中，例如回归模型，SVM，决策树，随机森林等等。

说句题外话，这种方法好像在一些地方叫做wrapper类型，大概意思是说，特征排序模型和机器学习模型是耦盒在一起的，对应的非wrapper类型的特征选择方法叫做filter类型。

下面将介绍如何用回归模型的系数来选择特征。

越是重要的特征在模型中对应的系数就会越大，而跟输出变量越是无关的特征对应的系数就会越接近于0。

在噪音不多的数据上，或者是数据量远远大于特征数的数据上，如果特征之间相对来说是比较独立的，那么即便是运用最简单的线性回归模型也一样能取得非常好的效果。

在这个例子当中，尽管数据中存在一些噪音，但这种特征选择模型仍然能够很好的体现出数据的底层结构。

当然这也是因为例子中的这个问题非常适合用线性模型来解：特征和响应变量之间全都是线性关系，并且特征之间均是独立的。

3.1 正则化模型正则化就是把额外的约束或者惩罚项加到已有模型（损失函数）上，以防止过拟合并提高泛化能力。

损失函数由原来的E(X,Y)变为E(X,Y)+alpha||w||，w是模型系数组成的向量（有些地方也叫参数parameter，coefficients），||·||一般是L1或者L2数，alpha是一个可调的参数，控制着正则化的强度。

当用在线性模型上时，L1正则化和L2正则化也称为Lasso和Ridge。

3.2 L1正则化/LassoL1正则化将系数w的l1数作为惩罚项加到损失函数上，由于正则项非零，这就迫使那些弱的特征所对应的系数变成0。

因此L1正则化往往会使学到的模型很稀疏（系数w经常为0），这个特性使得L1正则化成为一种很好的特征选择方法。

Scikit-learn为线性回归提供了Lasso，为分类提供了L1逻辑回归。

下面的例子在波士顿房价数据上运行了Lasso，其中参数alpha是通过grid search进行优化的。

可以看到，很多特征的系数都是0。

如果继续增加alpha的值，得到的模型就会越来越稀疏，即越来越多的特征系数会变成0。

然而，L1正则化像非正则化线性模型一样也是不稳定的，如果特征集合中具有相关联的特征，当数据发生细微变化时也有可能导致很大的模型差异。

3.3 L2正则化/Ridge regressionL2正则化将系数向量的L2数添加到了损失函数中。

由于L2惩罚项中系数是二次方的，这使得L2和L1有着诸多差异，最明显的一点就是，L2正则化会让系数的取值变得平均。

对于关联特征，这意味着他们能够获得更相近的对应系数。

还是以Y=X1+X2为例，假设X1和X2具有很强的关联，如果用L1正则化，不论学到的模型是Y=X1+X2还是Y=2X1，惩罚都是一样的，都是2alpha。

但是对于L2来说，第一个模型的惩罚项是2alpha，但第二个模型的是4*alpha。

可以看出，系数之和为常数时，各系数相等时惩罚是最小的，所以才有了L2会让各个系数趋于相同的特点。

可以看出，L2正则化对于特征选择来说一种稳定的模型，不像L1正则化那样，系数会因为细微的数据变化而波动。

所以L2正则化和L1正则化提供的价值是不同的，L2正则化对于特征理解来说更加有用：表示能力强的特征对应的系数是非零。

回过头来看看3个互相关联的特征的例子，分别以10个不同的种子随机初始化运行10次，来观察L1和L2正则化的稳定性。

4 随机森林随机森林具有准确率高、鲁棒性好、易于使用等优点，这使得它成为了目前最流行的机器学习算法之一。

随机森林提供了两种特征选择的方法：mean decrease impurity和mean decrease accuracy。

4.1 平均不纯度减少 mean decrease impurity随机森林由多个决策树构成。

决策树中的每一个节点都是关于某个特征的条件，为的是将数据集按照不同的响应变量一分为二。

利用不纯度可的时候，可以计算出每个特征减少了多少树的不纯度。

对于一个决策树森林来说，可以算出每个特征平均减少了多少不纯度，并把它平均减少的不纯度作为特征选择的值。

4.2 平均精确率减少 Mean decrease accuracy另一种常用的特征选择方法就是直接度量每个特征对模型精确率的影响。

主要思路是打乱每个特征的特征值顺序，并且度量顺序变动对模型的精确率的影响。

很明显，对于不重要的变量来说，打乱顺序对模型的精确率影响不会太大，但是对于重要的变量来说，打乱顺序就会降低模型的精确率。

5 两种顶层特征选择算法之所以叫做顶层，是因为他们都是建立在基于模型的特征选择方法基础之上的，例如回归和SVM，在不同的子集上建立模型，然后汇总最终确定特征得分。

5.1 稳定性选择 Stability selection稳定性选择是一种基于二次抽样和选择算法相结合较新的方法，选择算法可以是回归、SVM或其他类似的方法。

它的主要思想是在不同的数据子集和特征子集上运行特征选择算法，不断的重复，最终汇总特征选择结果，比如可以统计某个特征被认为是重要特征的频率（被选为重要特征的次数除以它所在的子集被测试的次数）。

理想情况下，重要特征的得分会接近100%。

稍微弱一点的特征得分会是非0的数，而最无用的特征得分将会接近于0。

5.2 递归特征消除 Recursive feature elimination (RFE)递归特征消除的主要思想是反复的构建模型（如SVM或者回归模型）然后选出最好的（或者最差的）的特征（可以根据系数来选），把选出来的特征放到一遍，然后在剩余的特征上重复这个过程，直到所有特征都遍历了。

这个过程中特征被消除的次序就是特征的排序。

因此，这是一种寻找最优特征子集的贪心算法。