数据挖掘十大经典算法_总结版

合集下载

数据挖掘领域十大经典算法以及适用领域

数据挖掘领域⼗⼤经典算法以及适⽤领域1.AdaboostAdaboost算法是⼀种提升⽅法，将多个弱分类器，组合成强分类器。

AdaBoost，是英⽂”Adaptive Boosting“（⾃适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。

它的⾃适应在于：前⼀个弱分类器分错的样本的权值（样本对应的权值）会得到加强，权值更新后的样本再次被⽤来训练下⼀个新的弱分类器。

在每轮训练中，⽤总体（样本总体）训练新的弱分类器，产⽣新的样本权值、该弱分类器的话语权，⼀直迭代直到达到预定的错误率或达到指定的最⼤迭代次数。

总体——样本——个体三者间的关系需要搞清除总体N。

样本：｛ni｝i从1到M。

个体：如n1=（1,2），样本n1中有两个个体。

算法原理（1）初始化训练数据（每个样本）的权值分布：如果有N个样本，则每⼀个训练的样本点最开始时都被赋予相同的权重：1/N。

（2）训练弱分类器。

具体训练过程中，如果某个样本已经被准确地分类，那么在构造下⼀个训练集中，它的权重就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提⾼。

同时，得到弱分类器对应的话语权。

然后，更新权值后的样本集被⽤于训练下⼀个分类器，整个训练过程如此迭代地进⾏下去。

（3）将各个训练得到的弱分类器组合成强分类器。

各个弱分类器的训练过程结束后，分类误差率⼩的弱分类器的话语权较⼤，其在最终的分类函数中起着较⼤的决定作⽤，⽽分类误差率⼤的弱分类器的话语权较⼩，其在最终的分类函数中起着较⼩的决定作⽤。

换⾔之，误差率低的弱分类器在最终分类器中占的⽐例较⼤，反之较⼩。

优点（1）精度很⾼的分类器（2）提供的是框架，可以使⽤各种⽅法构建弱分类器（3）简单，不需要做特征筛选（4）不⽤担⼼过度拟合实际应⽤（1）⽤于⼆分类或多分类（2）特征选择（3）分类⼈物的baseline2.C4.5C4.5是决策树算法的⼀种。

决策树算法作为⼀种分类算法，⽬标就是将具有p维特征的n个样本分到c个类别中去。

数据挖掘10大经典算法

数据挖掘10大经典算法
1. K-均值聚类算法：将数据集分成k个簇，使得同簇的样本之间的距离最小化。

2. 支持向量机算法：通过定义分类超平面来实现分类任务，使得超平面到两类样本的最小距离最大化。

3. 决策树算法：通过一系列的决策规则对样本进行分类或预测。

4. 朴素贝叶斯算法：基于贝叶斯定理，通过计算样本的概率来进行分类或预测。

5. 随机森林算法：通过构建多个决策树，然后集成这些决策树的结果来进行分类或预测。

6. AdaBoost算法：通过序列化训练和集成多个弱分类器，来实现更准确的分类。

7. 主成分分析算法：通过线性变换将高维数据转化为低维数据，同时保留原始数据的主要信息。

8. Apriori算法：用于挖掘关联规则的算法，通过发现频繁项集来确定项集之间的关联性。

9. 线性回归算法：通过拟合数据集中的线性模型，并预测因变量的值。

10. 基于规则的分类算法：通过对事先定义的规则进行匹配和判断，来进行分类任务。

数据挖掘十大经典算法

数据挖掘十大经典算法数据挖掘是一种通过计算机科学的方法，从大量数据中挖掘出有用的信息和知识的过程。

在这个过程中，数据挖掘算法扮演着非常重要的角色，它们能够帮助我们从数据中抽取出精华，更好地理解和利用数据。

下面是十大经典数据挖掘算法。

1. K-Means算法：K-Means算法是一种聚类算法，可以将数据集分成K个不同的类别。

这种算法的基本思想是将数据分成若干个类别，使得同一类别内的数据点的距离比其他类别内的数据点的距离更短。

2. Apriori算法：Apriori算法是一种关联规则挖掘算法，可以用来发现最常见的数据项之间的关联性。

这种算法基于频繁项集的概念，通过计算数据中频繁项集的支持度和置信度来挖掘关联规则。

3. 决策树算法：决策树算法是一种基于树结构的分类算法，可以将数据集分成若干个不同的类别。

这种算法的基本思想是通过递归地将数据集划分成不同的子集，直到子集中所有数据都属于同一类别为止。

4. SVM算法：SVM算法是一种基于统计学习理论的分类算法，可以用于解决非线性问题。

这种算法的基本思想是将数据集映射到高维空间中，然后在高维空间中建立超平面，将不同类别的数据分开。

5. 神经网络算法：神经网络算法是一种模拟人脑神经系统的分类算法，可以用来处理非线性问题。

这种算法的基本思想是通过构建一个多层的神经网络，将输入数据映射到输出数据。

6. 贝叶斯分类算法：贝叶斯分类算法是一种基于贝叶斯定理的分类算法，可以用来预测数据的类别。

这种算法的基本思想是根据已知数据的先验概率和新数据的特征，计算这个数据属于不同类别的概率，然后选择概率最大的类别作为预测结果。

7. 随机森林算法：随机森林算法是一种基于决策树的集成算法，可以用来处理大量的数据和高维数据。

这种算法的基本思想是通过随机选取特征和样本，构建多个决策树，然后将多个决策树的结果汇总，得到最终的分类结果。

8. Adaboost算法：Adaboost算法是一种基于加权的集成算法，可以用来提高分类算法的准确率。

数据挖掘领域的十大经典算法原理及应用

数据挖掘领域的十大经典算法原理及应用数据挖掘是指从大量的数据中发现关联规则、分类模型、聚类模型等有用的信息的过程。

以下是数据挖掘领域的十大经典算法原理及应用：1. 决策树算法（Decision Tree）决策树是一种基于树形结构的分类模型，它通过构建树来将输入数据集划分为不同的类别。

决策树算法在金融风险评估、医疗诊断等领域有广泛应用。

2. 支持向量机算法（Support Vector Machine，SVM）支持向量机是一种二分类模型，其目标是在高维空间中找到一个最优的超平面，将不同类别的样本分离开来。

SVM在图像识别、文本分类等领域有广泛应用。

3. 神经网络算法（Neural Network）神经网络模拟人脑的工作原理，通过连接众多的神经元来完成学习和预测任务。

神经网络在图像处理、自然语言处理等领域有广泛应用。

4. 朴素贝叶斯算法（Naive Bayes）朴素贝叶斯算法是一种基于贝叶斯定理的统计分类方法，它假设所有特征之间相互独立，并通过计算后验概率来进行分类。

朴素贝叶斯在垃圾邮件过滤、文本分类等领域有广泛应用。

5. K均值聚类算法（K-means Clustering）K均值聚类是一种无监督学习算法，它通过将样本分成K个簇来实现数据的聚类。

K均值聚类在市场细分、客户群体分析等领域有广泛应用。

6. Apriori算法Apriori算法是一种频繁项集挖掘算法，它可以找出数据集中项之间的关联关系。

Apriori算法在购物篮分析、推荐系统等领域有广泛应用。

7. PageRank算法PageRank算法是一种用于网页排序的算法，它通过计算网页之间的链接关系来确定网页的重要性。

PageRank算法在引擎领域有广泛应用。

8. 随机森林算法（Random Forest）随机森林是一种集成学习算法，它通过构建多个决策树，并通过投票方式来进行分类或回归。

随机森林在金融风险评估、信用评分等领域有广泛应用。

9. AdaBoost算法AdaBoost是一种迭代的强学习算法，它通过调整样本权重来训练多个弱分类器，并通过加权投票方式来进行分类。

数据挖掘领域中的10大算法

数据挖掘领域中的10大算法在当今数字化社会中，数据挖掘已经成为了广泛应用的一种技术手段。

它可以从海量数据中提取出人们所需要的信息，帮助人们做出更加科学的决策和规划。

随着技术的发展，数据挖掘的应用领域也越来越广泛，其中的算法也日益丰富多彩。

今天，我们就来介绍一下数据挖掘领域中的10大算法。

一、C4.5算法C4.5算法是一种基于决策树的分类算法。

它通过对数据的分析和建模，可以从中得出一系列决策规则。

C4.5算法被广泛应用于分类和预测领域，尤其在电子商务和金融领域中应用较为广泛。

二、朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类算法。

它通过概率论来描述事物之间的关系，从而实现对数据的分类和预测。

朴素贝叶斯算法在数据挖掘领域中被广泛应用，尤其在文本分类和垃圾邮件过滤等方面应用非常广泛。

三、Apriori算法Apriori算法是一种基于频繁项集的关联规则挖掘算法。

它通过扫描数据集来查找频繁项集，并基于频繁项集构造出关联规则。

Apriori算法在电子商务和市场营销领域中被广泛应用，可以帮助人们了解顾客的购买决策，进行目标市场的选定等工作。

四、K-Means算法K-Means算法是一种基于聚类的数据挖掘算法。

它通过将数据划分为多个簇，使得同一簇内的数据彼此相似，不同簇内的数据彼此不同。

K-Means算法被广泛应用于数据分析和聚类分析等领域。

五、支持向量机算法支持向量机算法是一种基于分类和回归分析的算法。

它通过构造超平面来将数据划分为不同类别，从而实现对数据的识别和分类。

支持向量机算法在数据挖掘领域中被广泛应用，例如图像识别和文本分类等方面。

六、随机森林算法随机森林算法是一种基于决策树的集成学习算法。

它通过将多个决策树组合在一起，从而实现对数据的分类和预测。

随机森林算法在数据挖掘领域中被广泛应用，例如金融风险评估和医学诊断等方面。

七、多层感知器算法多层感知器算法是一种基于神经网络的分类算法。

它通过模拟人脑的神经网络来实现对数据的分类和预测。

数据挖掘十大经典算法总结

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。 KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。因此可以采用权值的方法（和该样本距离小的邻居权值大）来改进。该算法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。
AdaBoost
AdaBoost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用 AdaBoost分类器可以排除一些不必要的训练数据特征，并将关键放在关键的训练数据上面。
目前，对AdaBoost算法的研究以及应用大多集中于分类问题，同时近年也出现了一些在回归问题上的应用。就其应用AdaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题，回归问题。它用全部的训练样本进行学习。

数据挖掘十大经典算法

数据挖掘十大经典算法数据挖掘是通过分析大量数据来发现隐藏的模式和关联，提供商业决策支持的过程。

在数据挖掘中，算法起着至关重要的作用，因为它们能够帮助我们从数据中提取有用的信息。

以下是十大经典的数据挖掘算法：1.决策树算法：决策树是一种基于分层选择的预测模型，它使用树状图的结构来表示决策规则。

决策树算法适用于分类和回归问题，并且可以解释性强。

常用的决策树算法有ID3、C4.5和CART。

2.朴素贝叶斯算法：朴素贝叶斯是一种基于概率的分类算法，它假设特征之间是相互独立的。

朴素贝叶斯算法简单有效，适用于大规模数据集和高维数据。

3.支持向量机（SVM）算法：SVM是一种针对分类和回归问题的监督学习算法，它通过构建一个最优的超平面来实现分类。

SVM在处理非线性问题时使用核函数进行转换，具有较强的泛化能力。

4.K近邻算法：K近邻是一种基于实例的分类算法，它通过找到与目标实例最接近的K个邻居来确定目标实例的类别。

K近邻算法简单易懂，但对于大规模数据集的计算成本较高。

5.聚类算法：聚类是一种无监督学习算法，它将相似的实例聚集在一起形成簇。

常用的聚类算法有K均值聚类、层次聚类和DBSCAN等。

6.主成分分析（PCA）算法：PCA是一种常用的降维算法，它通过线性变换将原始数据转换为具有更少维度的新数据。

PCA能够保留原始数据的大部分信息，并且可以降低计算的复杂性。

7. 关联规则算法：关联规则用于发现项集之间的关联关系，常用于市场篮子分析和推荐系统。

Apriori算法是一个经典的关联规则算法。

8.神经网络算法：神经网络是一种模仿人脑神经元通信方式的机器学习算法，它能够学习和适应数据。

神经网络适用于各种问题的处理，但对于参数选择和计算量较大。

9.随机森林算法：随机森林是一种基于决策树的集成学习算法，它通过建立多个决策树来提高预测的准确性。

随机森林具有较强的鲁棒性和泛化能力。

10.改进的遗传算法：遗传算法是一种模拟生物进化过程的优化算法，在数据挖掘中常用于最优解。

数据挖掘十大算法

数据挖掘十大算法1. 决策树：决策树是一种流行的数据挖掘算法，它基于特征和决策来构建预测模型。

它可以被用来对分类和回归问题进行分析，其中，输入特征将被转换为一颗树状结构，用于做预测。

2. 贝叶斯网络：贝叶斯网络是一种基于贝叶斯概率理论的有向无回路图，用于处理有关推理和学习问题。

它由变量和边缘概率组成，其中边缘概率表示变量之间的相互关系。

3. K-means聚类：K-means聚类是一种迭代聚类算法，用于将数据集中的样本分成K个不同的簇。

它通过找出使得簇内的平方误差最小的K个聚类中心来实现。

4. Apriori算法：Apriori算法是一种关联规则算法，用于发现频繁项集和关联规则。

它可以帮助我们发现在一个数据集中频繁出现的项集，从而可以对数据集中的每个项集进行分析，从而得出有用的信息。

5. 朴素贝叶斯：朴素贝叶斯是一种基于概率的分类算法，它是根据贝叶斯定理和特征之间的独立性假设而构建的。

它假设特征之间相互独立，因此可以迅速计算出各个类别的概率。

6. 关联分析：关联分析是一种用于发现项集之间关联规则的数据挖掘算法。

它可以找出数据集中存在的有趣关系，从而帮助我们发现有用的结论。

7. 神经网络：神经网络是一种模仿人类大脑运作方式的计算模型，它可以解决复杂的分类和回归问题。

它将原始数据映射到多个隐藏层，从而有效地提取数据中的特征，并对数据进行分类或预测。

8. 支持向量机：支持向量机是一种基于拉格朗日乘子法的机器学习技术，用于分类和回归。

它通过构建一个最优的超平面来将数据分成两个类别，并且能够很好的处理高维数据。

9. 隐马尔可夫模型：隐马尔可夫模型是一种概率模型，它对序列中隐藏的状态变化进行建模。

它可以被用来预测一个序列中下一个元素的可能性，从而帮助我们做出更好的决策。

10.AdaBoost：AdaBoost是一种迭代算法，它可以将多个弱分类器组合成一个强分类器。

它通过对前一轮的分类错误样本进行加权，从而提高下一轮分类的准确率。

数据挖掘十大经典算法

数据挖掘十大经典算法一、 C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。

其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

1、机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。

树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

2、从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

3、决策树学习也是数据挖掘中一个普通的方法。

在这里，每个决策树都表述了一种树型结构，他由他的分支来对该类型的对象依靠属性进行分类。

每个决策树可以依靠对源数据库的分割进行数据测试。

这个过程可以递归式的对树进行修剪。

当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。

另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。

决策树是如何工作的？1、决策树一般都是自上而下的来生成的。

2、选择分割的方法有好几种，但是目的都是一致的：对目标类尝试进行最佳的分割。

3、从根到叶子节点都有一条路径，这条路径就是一条―规则4、决策树可以是二叉的，也可以是多叉的。

对每个节点的衡量：1) 通过该节点的记录数2) 如果是叶子节点的话，分类的路径3) 对叶子节点正确分类的比例。

有些规则的效果可以比其他的一些规则要好。

由于ID3算法在实际应用中存在一些问题，于是Quilan提出了C4.5算法，严格上说C4.5只能是ID3的一个改进算法。

数据挖掘的10大算法

数据挖掘的10大算法数据挖掘的10大算法1-决策树算法●简介：决策树是一种基于树结构的预测模型，通过分析数据集中的特征和目标变量之间的关系，来进行分类或回归分析。

●实现步骤：根据数据集中的特征和目标变量，构建一个树结构，在每个节点上根据某个特征的取值将数据集划分为子集，然后根据某个准则选择最佳的特征进行划分，继续构建子树，直到满足停止条件。

●应用场景：决策树算法常用于金融风险评估、医疗诊断、客户行为分析等领域。

2-K均值算法●简介：K均值算法是一种聚类分析的方法，通过将数据集中的样本划分为K个簇，使得簇内的样本相似度最大化，簇间的相似度最小化。

●实现步骤：随机选择K个样本作为簇的中心点，然后对每个样本计算与各簇中心的距离，将样本划分到距离最近的簇中，更新簇的中心点，重复以上过程直到簇的中心点不再改变。

●应用场景：K均值算法常用于客户分群、文本聚类、图像分割等领域。

3-支持向量机算法●简介：支持向量机是一种二分类模型，通过构造一个超平面来将不同类别的样本分开，同时最大化样本与超平面之间的间隔。

●实现步骤：选择合适的核函数，转化样本特征空间，构造目标函数并进行优化，最终得到一个能够将样本正确分类的超平面。

●应用场景：支持向量机算法常用于图像识别、文本分类、异常检测等领域。

4-朴素贝叶斯算法●简介：朴素贝叶斯算法是一种基于贝叶斯理论的分类算法，通过计算样本的后验概率来进行分类。

●实现步骤：基于训练数据集计算类别的先验概率和条件概率，然后根据贝叶斯公式计算样本属于各个类别的后验概率，选择后验概率最大的类别作为预测结果。

●应用场景：朴素贝叶斯算法常用于垃圾邮件过滤、情感分析、文本分类等领域。

5-神经网络算法●简介：神经网络是一种模拟人脑神经元网络结构的算法，通过构造多层神经元网络，通过学习调整网络中的权重和偏置，从而实现对数据的分类或回归分析。

●实现步骤：选择合适的网络结构和激活函数，通过前向传播计算网络的输出，通过反向传播更新网络中的参数，不断迭代直到网络收敛。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

非监督算法 *K人为指定。（未必能得到最优解）
《数据挖掘领域十大经典算法初探》
SVM Support vector machines 它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越s大，分类器的总误差越小。
《数据挖掘领域十大经典算法初探》
Page Rank PageRank是Google算法的重要内容。 2001年9月被授予美国专利，专利人是Google创始人之一拉里•佩奇（Larry Page）。 PageRank根据网站的外部链接和内部链接的数量和质量，衡量网站的价值。 PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。 PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。 HITS
《数据挖掘领域十大经典算法初探》
C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, CART -------------------------Rough Sets（18）
《数据挖掘领域十大经典算法初探》 C4.5
《数据挖掘领域十大经典算法初探》
数据挖掘领域十大经典算法初July二零一一年一月十五日
参考文献：国际权威的学术组织ICDM，于06年12月年评选出的数据挖掘领域的十大经典算法： C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.
《数据挖掘领域十大经典算法初探》
kNN: k-nearest neighbor classification K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。 KNN有三个主要的核心元素：标记对象集合，对象之间的相似性度量或者距离度量，最近邻居个数K。非监督。
《数据挖掘领域十大经典算法初探》
K-Means k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割(k < n >它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。
它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。
《数据挖掘领域十大经典算法初探》
Naive Bayes Naive Bayes 朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。
《数据挖掘领域十大经典算法初探》
The The Apriori algorithm Apriori Apriori算法基本思想：统计多种商品一次购买中共同 algorithm 出现的频次，将不同的搭配转换为不同的规则。其核心是基于两阶段频集思想的递推算法。用上一次扫描数据库的结果产生本次的候选项目集，从而提升效率。
《数据挖掘领域十大经典算法初探》
EM 在统计计算中，最大期望（EM，Expectation– Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。
C4.5，是机器学习算法中的一个分类决策树算法，ID3 的改进算法。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。 C4.5相比于ID3改进的地方有： 1、用信息增益率来选择属性。区别就在于一个是信息增益，一个是信息增益率。因此，C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。 2、在树构造过程中进行剪枝，在构造决策树的时候，那些挂着几个元素的节点，不考虑最好，不然容易导致 overfitting。 3、对非离散数据也能处理。 4、能够对不完整数据进行处理。
《数据挖掘领域十大经典算法初探》
CART: 分类与回归树 CART, Classification and Regression Trees。在分类树下面有两个关键的思想：第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。
《数据挖掘领域十大经典算法初探》
AdaBoost Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器融合起来，作为最后的决策分类器。