机器学习-机器学习基本方法

合集下载

机器学习(完整版课件)

• 聚类模型评估指标：轮廓系数、CalinskiHarabasz指数等。
模型评估与选择
交叉验证
通过多次划分训练集和验证集来评估模型的性能。
网格搜索
对不同的超参数组合进行穷举搜索，以找到最优的模型参数。
随机搜索
在指定的超参数范围内进行随机采样，以找到较好的模型参数。
03
监督学习
线性回归与逻辑回归
励。
马尔可夫决策过程
强化学习任务通常建模为马尔可夫决策过程（MDP），包括状态、动作、转移概率和奖励等要素。
值函数与策略函数
强化学习通过估计值函数（状态值函数或动作值函数）来评估不同行为的好坏，并根据策略函数来选择动作。
Q-learning与Sarsa算法
01
Q-learning算法
Q-learning是一种基于值迭代的强化学习算法，通过不断更新Q值表来
线性回归
一种通过最小化预测值与真实值之间的均方误差来拟合数据的统计方法。它假设因变量和自变量之间存在线性关系，并通过梯度下降等优化算法求解模型参数。
逻辑回归
一种用于解决二分类问题的广义线性模型。它使用sigmoid 函数将线性回归的输出映射到[0,1]区间，表示样本属于正类的概率。逻辑回归通过最大似然估计求解模型参数，并使用交叉熵作为损失函数。
• 嵌入法：在模型训练过程中进行特征选择。
特征选择与特征提取
根据领域知识提取有效特征。
自定义特征提取
卷积神经网络等。
图像特征提取
词袋模型、TF-IDF等。
文本特征提取
模型评估与选择
分类模型评估指标
准确率、精确率、召回率、F1分数等。
回归模型评估指标
均方误差、均方根误差、平均绝对误差等。

机器学习有哪些算法

机器学习有哪些算法机器学习是一种人工智能的分支，它通过让计算机系统自动学习和改进，从而提高其性能。

在机器学习中，有许多不同的算法可以用来训练模型并进行预测。

下面将介绍一些常见的机器学习算法。

1.监督学习算法监督学习是一种机器学习方法，其中模型从标记的训练数据中学习。

常见的监督学习算法包括：- 线性回归：用于预测连续值的算法，通过拟合数据点之间的线性关系来进行预测。

- 逻辑回归：用于预测二元分类问题的算法，通过将输入数据映射到一个概率范围内来进行预测。

- 决策树：用于预测分类和回归问题的算法，通过树状结构来表示决策规则。

- 支持向量机：用于分类和回归问题的算法，通过找到最佳的超平面来分隔不同类别的数据点。

2.无监督学习算法无监督学习是一种机器学习方法，其中模型从未标记的数据中学习。

常见的无监督学习算法包括：- K均值聚类：用于将数据点分成不同的簇的算法，通过最小化簇内的方差来确定簇的中心。

- 主成分分析：用于降维和数据可视化的算法，通过找到数据中的主要成分来减少数据的维度。

- 关联规则学习：用于发现数据中的关联规则的算法，通过分析数据中的频繁项集来找到规则。

3.强化学习算法强化学习是一种机器学习方法，其中模型通过与环境互动来学习。

常见的强化学习算法包括：- Q学习：用于解决马尔可夫决策过程的算法，通过学习最优策略来最大化长期奖励。

- 深度强化学习：结合深度学习和强化学习的算法，通过深度神经网络来学习价值函数。

总的来说，机器学习算法可以分为监督学习、无监督学习和强化学习三大类。

不同的算法适用于不同的问题和数据集，选择合适的算法对于模型的性能至关重要。

随着机器学习技术的不断发展，我们可以期待更多更高效的算法的出现，从而推动人工智能的发展。

机器学习(PPT92页)

2. 2 激活转移函数
激活转移函数 f（Activation transfer function）简称激活函数，它是一个神经元及神经网络的核心之一。神经网络解决问题的能力与功效除了与网络结构有关外，在很大程度上取决于网络激活函数。
线性函数、非线性斜面函数、阈值函数、 S形函数
人工神经网络
• 人工神经网络是对人类神经系统的一种模拟。尽管
然后,考察所得的每一个子类, 看其中的实例的结论是否完全相同。如果完全相同, 则以这个相同的结论作为相应分枝路径末端的叶子节点; 否则, 选取一个非父节点的属性, 按这个属性的不同取值对该子集进行分类, 并以该属性作为节点, 以这个属性的诸取值作为节点的分枝, 继续进行画树。如此继续,直到所分的子集全都满足: 实例结论完全相同, 而得到所有的叶子节点为止。这样, 一棵决策树就被生成。下面我们进一步举例说明。
S1= {(3,C), (4,B), (7,C), (8,B), (11,B), (12,B)} S2={(1,C), (2,C), (5,A), (6,A), (9,A), (10,A)} 于是, 我们得到以性别作为根节点的部分决策树 (见图4(a))。
考察S1和S2，可以看出，在这两个子集中，各实例的保险类别也不完全相同。这就是说，还需要对S1 和S2进行分类。对于子集S1，我们按“年龄段”将其分类；同样，对于子集S2，也按“年龄段”对其进行分类（注意：对于子集S2，也可按属性“婚状”分类）。分别得到子集S11, S12, S13和S21, S22, S23。于是，我们进一步得到含有两层节点的部分决策树（如
表1 汽车驾驶保险类别划分实例集
可以看出,该实例集中共有12个实例,实例中的性别、年龄段和婚状为3个属性, 保险类别就是相应的决策项。为表述方便起见, 我们将这个实例集简记为

机器学习方法

机器学习方法机器学习方法指的是使用计算机算法和统计模型来让机器或系统能够从数据中自动学习并改进性能的方法。

随着大数据时代的到来，机器学习方法在各个领域都得到了广泛的应用。

本文将介绍机器学习的基本概念、常用算法以及应用案例。

一、机器学习的基本概念机器学习是人工智能的一个分支，它致力于研究计算机如何模拟或实现人类的学习能力。

机器学习的核心任务是利用数据来训练模型，通过学习和优化算法，使模型能够在未知数据上具有良好的泛化能力。

在机器学习中，常见的概念包括训练集、测试集、特征、标签、模型和损失函数。

训练集是用于训练模型的数据集，测试集用于评估模型在未知数据上的性能。

特征是指用来描述数据的属性或特性，标签是需要预测或分类的目标变量。

模型则是用来对输入进行预测或分类的函数或算法。

机器学习的目标是使模型在训练集上的预测结果与真实标签尽可能接近，通过优化损失函数来实现模型的训练。

二、常用的机器学习算法1. 监督学习算法监督学习是一种利用带有标签的训练数据来训练模型的机器学习方法。

常见的监督学习算法包括线性回归、逻辑回归、决策树、支持向量机和神经网络。

这些算法可以用于回归问题（如预测销售额）和分类问题（如垃圾邮件过滤）。

2. 无监督学习算法无监督学习是一种通过对无标签的训练数据进行聚类或降维来学习数据结构的机器学习方法。

常见的无监督学习算法有聚类算法（如K-means算法）和降维算法（如主成分分析）。

3. 强化学习算法强化学习是一种通过与环境进行交互来学习如何做出最优决策的机器学习方法。

强化学习的核心是智能体、环境和奖励信号。

常见的强化学习算法包括Q-learning和深度强化学习算法。

三、机器学习方法的应用案例1. 图像识别与分类机器学习在图像识别与分类领域有着广泛的应用。

通过使用卷积神经网络等算法，可以让计算机自动识别和分类图像。

这在人脸识别、车牌识别和物体检测等方面具有重要的应用价值。

2. 自然语言处理机器学习方法在自然语言处理领域也得到了广泛的应用。

机器学习入门教程

机器学习入门教程机器学习是一门让计算机具备智能的领域，在今天的互联网和人工智能时代，机器学习已经越来越受到关注和重视。

因此，作为初学者，学习机器学习是非常重要的。

在本文中，将为大家提供一份机器学习入门教程，帮助初学者快速入门，掌握机器学习基础。

第一部分：了解机器学习在开始学习机器学习之前，我们需要了解机器学习的基本概念。

机器学习是通过学习数据，从数据中提取规律和模式，进而做出预测和决策的过程。

举个例子，我们可以用机器学习的方法来训练一台计算机，使其能够识别和分类数字图像。

在这个过程中，计算机学习了不同数字图像的特征，找到它们之间的相似性和差异性，并且能够自动分类新的数字图像。

机器学习是人工智能的一个重要分支，它的目标是使计算机具备智能。

机器学习的方法可以应用在许多领域，比如自然语言处理、图像识别、智能推荐等等。

目前，机器学习在商业和科学领域都得到了广泛的应用，并被认为是一个很有前途的领域。

第二部分：机器学习的基本模型了解了机器学习的基本概念之后，我们需要了解机器学习的基本模型。

机器学习的模型通常分为以下几类：监督学习、非监督学习和强化学习。

在监督学习中，我们需要为计算机提供一组带有标签的数据，计算机通过学习这些数据，并利用学到的规律对新的数据进行分类或预测。

常见的监督学习算法包括回归分析、决策树、朴素贝叶斯、支持向量机等。

在非监督学习中，我们不提供标签信息，计算机需要自己找出数据中的规律和模式。

常见的非监督学习算法包括聚类分析、主成分分析、关联规则挖掘等。

在强化学习中，计算机需要通过学习一种行为策略，并根据环境的反馈来调整行为策略。

强化学习常用于机器人控制、游戏等领域。

第三部分：机器学习的基本步骤了解了机器学习的基本模型之后，我们需要了解机器学习的基本步骤。

机器学习的基本步骤包括数据预处理、特征提取、模型选择、训练和评估。

数据预处理是机器学习中非常关键的一步，它可以减少数据中的噪声和异常值，提高模型的准确性。

机器学习方法有哪些

机器学习方法有哪些数学基础有无数激情满满大步向前，誓要在机器学习领域有一番作为的同学，在看到公式的一刻突然就觉得自己狗带了。

是啊，机器学习之所以相对于其他开发工作，更有门槛的根本原因就是数学。

每一个算法，要在训练集上最大程度拟合同时又保证泛化能力，需要不断分析结果和数据，调优参数，这需要我们对数据分布和模型底层的数学原理有一定的理解。

所幸的是如果只是想合理应用机器学习，而不是做相关方向高精尖的research，需要的数学知识啃一啃还是基本能理解下来的。

至于更高深的部分，恩，博主非常愿意承认自己是『数学渣』。

基本所有常见机器学习算法需要的数学基础，都集中在微积分、线性代数和概率与统计当中。

下面我们先过一过知识重点，文章的后部分会介绍一些帮助学习和巩固这些知识的资料。

微积分微分的计算及其几何、物理含义，是机器学习中大多数算法的求解过程的核心。

比如算法中运用到梯度下降法、牛顿法等。

如果对其几何意义有充分的理解，就能理解“梯度下降是用平面来逼近局部，牛顿法是用曲面逼近局部”，能够更好地理解运用这样的方法。

凸优化和条件最优化的相关知识在算法中的应用随处可见，如果能有系统的学习将使得你对算法的认识达到一个新高度。

线性代数大多数机器学习的算法要应用起来，依赖于高效的计算，这种场景下，程序员GG们习惯的多层for循环通常就行不通了，而大多数的循环操作可转化成矩阵之间的乘法运算，这就和线性代数有莫大的关系了向量的内积运算更是随处可见。

矩阵乘法与分解在机器学习的主成分分析(PCA)和奇异值分解(SVD)等部分呈现刷屏状地出现。

概率与统计从广义来说，机器学习在做的很多事情，和统计层面数据分析和发掘隐藏的模式，是非常类似的。

极大似然思想、贝叶斯模型是理论基础，朴素贝叶斯(Na?veBayes)、语言模型(N-gram)、隐马尔科夫(HMM)、隐变量混合概率模型是他们的高级形态。

常见分布如高斯分布是混合高斯模型(GMM)等的基础。

17个机器学习的常用算法！

17个机器学习的常用算法！1. 监督式学习：在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。

在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。

监督式学习的常见应用场景如分类问题和回归问题。

常见算法有逻辑回归（Logistic Regression）和反向传递神经网络（Back Propagation Neural Network）2. 非监督式学习：在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。

常见的应用场景包括关联规则的学习以及聚类等。

常见算法包括Apriori算法以及k-Means算法。

3. 半监督式学习：在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。

应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。

如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。

4. 强化学习：在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。

常见的应用场景包括动态系统以及机器人控制等。

常见算法包括Q-Learning以及时间差学习（Temporal difference learning）在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。

在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。

机器学习的学习方法

机器学习的学习方法
机器学习的学习方法通常包括以下几个步骤：
1. 掌握数学基础：理解概率论、线性代数和微积分等数学知识，这些是机器学习的基础。

2. 学习统计学：掌握统计学的基本概念和方法，理解数据分布、假设检验、参数估计等统计概念，这对于理解机器学习算法非常重要。

3. 学习编程基础：掌握至少一种编程语言（如Python），学习编程基本概念和技巧，能够处理数据、编写简单的算法和模型。

4. 了解机器学习的基本概念：学习机器学习的基本概念，包括监督学习、无监督学习、强化学习等，以及常用的机器学习算法，如线性回归、逻辑回归、决策树、支持向量机、神经网络等。

5. 学习常见的机器学习框架和工具：学习使用常见的机器学习框架和工具，如Scikit-learn、TensorFlow、PyTorch等，这些工具可以帮助你更方便地实现和应用机器学习算法。

6. 实践项目：在学习的过程中，进行一些实践项目，将理论知识应用到实际问题中，这样可以加深对机器学习算法的理解和掌握。

7. 深入学习和研究：随着对机器学习的掌握，可以进一步深入学习和研究相关领域的前沿知识，如深度学习、自然语言处理、计算机视觉等。

除了上述的学习方法，还可以参与在线课程、参加研讨会、阅读相关的学术论文和书籍等扩大知识面，加速学习的进程。

同时，不断实践、思考和讨论也是提高机器学习能力的重要方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 统计分析分为描述性统计和推断性统计，描述性统计是通过对样本进行整理、分析并就数据的分布情况获取有意义的信息，从而得到结论。推断统计又分为参数估计和假设检验，参数估计是对样本整体中某个数值进行估计，如推断总体平均数等，而假设检验是通过对所做的推断验证，从而进择行才方案
统议计程基础
统议计程基础
• 估计参数的目的，是希望用较少的参数去描述数据的总体分布，前提是要了解样本总体分布（如正态分布），这样就只需要估计其中参数的值。如果无法确认总体分布，那就要采用非参数估计的方法
• 参数估计是统计推断的种基本形式，分为点估计和区间估计两部分。其中有多种方法，除了最基本的最小二乘法和极大似然法、贝叶斯估计、极大后验估计，还有矩估计、一致最小方差无偏估计、最小风险估计、最小二乘法、最小风险法和极小化极大熵法等
• 一些常见非线性模型
– 阶跃函数 – 分段函数 – 样条曲线 – 广义加性模型
高维数据降维
议主程成分分析
• 主成分分析是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的方差最大，以此使用较少的维度，同时保留较多原数据的维度
• 尽可能如果把所有的点都映射到一起，那么几乎所有的区分信息都丢失了，而如果映射后方差尽可能的大，那么数据点则会分散开来，特征更加明显。 PCA是丢失原始数据信息最少的一种线性降维方法，最接近原始数据
• 高维数据降维
– 主成分分析 – 线性判别分析 – 局部线性嵌入
章节结构
• 特征工程
– 特征构造 – 特征选择 – 特征提取
• 模型训练
– 模型训练常见术语 – 训练数据收集
• 可视化分析
– 可视化分析的作用 – 可视化分析方法 – 可视化分析常用工具 – 常见的可视化图表 – 可视化分析面临的挑战
• 均值、标准差、方差、协方差
– 均值描述的是样本集合的平均值 – 标准差描述是样本集合的各个样本点到均值的距离分布，描述的是样本集的分散程度 – 在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验证的过程，就
会发现模型在训练集上的表现并不固定，会出现波动，这些波动越大，它的方差就越大 – 协方差主要用来度量两个随机变量关系，如果结果为正值，则说明两者是正相关的；结果为
• PCA算法目标是求出样本数据的协方差矩阵的特征值和特征向量，而协方差矩阵的特征向量的方向就是PCA需要投影的方向。使样本数据向低维投影后，能尽可能表征原始的数据。协方差矩阵可以用散布矩阵代替，协方差矩阵乘以（n-1）就是散布矩阵，n为样本的数量。协方差矩阵和散布矩阵都是对称矩阵，主对角线是各个随机变量（各个维度）的方差
机器学习第2章机器学习基本方法
章Байду номын сангаас介绍
• 本章主要介绍机器学习的基础知识，包括常用概念和统计分析基础知识 • 目标是理解掌握机器学习的主要原理 • 主要涵盖以下内容，统计分析、高维数据降维、特征工程、模型训练等
章节结构
• 统计分析
– 统计基础 – 常见概率分布 – 参数估计 – 假设检验 – 线性回归 – Logistics回归 – 判别分析 – 非线性模型
• 特征子集选择的方法属于筛选器（iter）方法，它主要例重于单个特征跟目标变量的相关性。优点是计算时间上较商效，对于过拟合问题也具有较高的鲁棒性。缺点就是倾向于选择冗余的特征，因为他们不当虑特征之间的相关性有可能某个特征的分类能力很差，但是它和某些其它特征组合起来会得到不错的效果
议特程征选择
议特程征构造
• 特征构建指的是从原始数据中构建新的特征，在实际应用中需要手工构建。首先研究真实的数据样本，思考问题的形式和数据结构，如何更好地应用到预测模型中
• 特征构建需要很强的洞察力和分析能力，要求能够从原始数据中找出一些具有物理意义的特征。如果原始数据是表格数据，一般使用混合属性或者组合属性来创建新的特征，或是分解、切分原有的特征来创建新的特征
议主程成分分析
• 生成的两个类别class1_sample和class2_sample的样本数据维度为3维，即样本数据的特征数量为3个，将其置于3维空间中展示
议主程成分分析
• 计算40个点在3个维度上的平均向量
议主程成分分析
• 二维空间分布
议线性程判别分析
• 线性判别分析LDA）是一种有监督的线性降维算法。与PCA不同，LDA是为了使降维后的数据点尽可能地容易被区分
统计分析
• 统计学是研究如何搜集资料、整理资料和进行量化分析、推断的一门科学，在科学计算、工业和金融等领域有着重要应用，统计分析是机器学习的基本方法
• 与统计分析相关的基本概念有以下几个
– 总体：根据定目的确定的所要研究事物的全体 – 样本：从总体中随机抽取的若干个体构成的集合 – 推断：以样本所包含的信息为基础对总体的某些特征作出判断、预测和估计 – 推断可靠性：对推断结果从概率上的确认，作为决策的重要依据
议局部程线性嵌入
• 局部线性嵌入（LLE）是一种非线性降维算法，它能够使降维后的数据较好地保持原有流形结构，每一个数据点都可以由其近邻点的线性加权组合构造得到
• 局部线性嵌入寻求数据的低维投影，保留本地邻域内的距离。它可以被认为是一系列局部主成分分析，被全局比较以找到最佳的非线性嵌入
• 算法的主要步骤分为三步
• 线性回归的类型包括简单线性回归和多元线性回归
• 简单线性回归使用一个自变量，通过拟合最佳线性关系来预测因变量 • 多元线性回归使用多个独立变量，通过拟合最佳线性关系来预测因变量
议线程性回归
议Lo程gistics回归
议判程别分析
议判程别分析
• QDA和LDA之间的关系主要取决于方差和偏差的取舍，即模型的预测值和真实值之间的差异可以分解为方差和偏差这两个此消彼长的量的综合。通俗来说，高方差低误差的模型意味着过于灵敏，当需要预测的真实函数并没有变化，而只是使用了不同的样本，就能够使预测值产生较大的变化。反之，高误差低方差意味着过于迟钝，即使真实的函数发生变化，依然不会使预测值改变。因此在其中如何取舍，就成了一个很重要的问题
• 做特征子集选取的方法还有封装器（wrapper）和集成方法（Embeded） • 封装器方法实质上是一个分类器，封装器用选取的特征子集对样本集进行
分类，分类的精度作为衡量特征子集好坏的标准，经过比较选出最好的特征子集。常用的有逐步回归（Stepwise regression）、向前选择（Forward selection）和向后选择（Backward selection）。它的优点是考虑了特征与特征之间的关联性，缺点是当观测数据较少时容易过拟合，当特征数量较多时，计算时间会较长 • 对于集成方法，它是学习器自身自主选择特征，如使用Regularization 做特征选择，或者使用决策树思想，例如应用随机森林和Gradient boosting做特征选择，本质上都是基于决策树的特征选择，只是细节上有些区别
统议计程基础
统议计程基础
• 正则化与交叉验证
– L0正则化 – L1正则化 – L2正则化 – HoldOut检验 – 简单交叉检验 – K折交叉检验 – 留一交叉检验
议常见程概率分布
议参程数估计
• 参数估计是用样本统计量去估计总体的参数，即根据样本数据选择统计量去推断总体的分布或数字特征
议假程设检验
议假程设检验
议线程性回归
• 线性回归是种通过拟合自变量与因变量之间最佳线性关系，来预测目标变量的方法
• 回归过程是给出一个样本集，用函数拟合这个样本集，使样本集与拟合函数间的误差最小
• 回归分析包括以下内容
– 确定输入变量与目标变量间的回归模型，即变量间相关关系的数学表达式 – 根据样本估计并检验回归模型及未知参数 – 从众多的输入变量中，判断哪些变量对目标变量的影响是显著的 – 根据输入变量的已知值来估计目标变量的平均值并给出预测精度
– 首先寻找每个样本点的k个近邻点 – 然后，由每个样本点的近邻点计算出该样本点的局部重建权值矩阵 – 最后，由该样本点的局部重建权值矩阵和近邻点计算出该样本点的输出值
• LLE在有些情况下也并不适用，例如数据分布在整个封闭的球面上，LLE则不能将它映射到二维空间，且不能保持原有的数据流形。因此在处理数据时，需要确保数据不是分布在用合的球面或者椭球面上
负值，说明两者是负相关的；如果为0，就是统计上的“相互独立”
• 超参数
– 超参数是机器学习算法的调优参数，常应用于估计模型参数的过程中，由用户直接指定，可以使用启发式方法来设置，并能依据给定的预测问题而调整
– 超参数与模型参数不同，模型参数是学习算法拟合训练数据获得的参数，即这些参数是作为模型本司身的参数而存在的
议线性程判别分析
议线性程判别分析
• 应用LDA技术对鸢尾花(Iris)的样本数据进行分析，鸢尾花数据集是20世纪30 年代的经典数据集，它由Fisher收集整理，数据集包含150个数据集，分为3 类，每类50个数据，每个数据包含4个属性。可通过花萼长度、花萼宽度、花瓣长度和花瓣宽度4个属性预测鸢尾花卉属于山鸢尾（Iris Setosa）、杂色鸢尾（Iris Versicolour）、维吉尼亚鸢尾（Iris Virginica）中的哪种类别，将类别文字转化为数字类别
议局部程线性嵌入
• 用LLE对“瑞士卷”数据集进行降维
特征工程
• 特征工程就是一个从原始数据提取特征的过程，这些特征可以很好地描述这些数据，并且利用它们建立的模型在未知数据上的性能可以达到最优，最大限度减少“垃圾进，垃圾出”。特征提取得越有效，意味着构建的模型性能越出色
• 特征工程主要包括特征构造（Feature construction）、特征选择（Feature Selection）、特征提取（ Feature Extraction）