大数据十大经典算法讲解

合集下载

数据挖掘领域十大经典算法以及适用领域

数据挖掘领域⼗⼤经典算法以及适⽤领域1.AdaboostAdaboost算法是⼀种提升⽅法，将多个弱分类器，组合成强分类器。

AdaBoost，是英⽂”Adaptive Boosting“（⾃适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。

它的⾃适应在于：前⼀个弱分类器分错的样本的权值（样本对应的权值）会得到加强，权值更新后的样本再次被⽤来训练下⼀个新的弱分类器。

在每轮训练中，⽤总体（样本总体）训练新的弱分类器，产⽣新的样本权值、该弱分类器的话语权，⼀直迭代直到达到预定的错误率或达到指定的最⼤迭代次数。

总体——样本——个体三者间的关系需要搞清除总体N。

样本：｛ni｝i从1到M。

个体：如n1=（1,2），样本n1中有两个个体。

算法原理（1）初始化训练数据（每个样本）的权值分布：如果有N个样本，则每⼀个训练的样本点最开始时都被赋予相同的权重：1/N。

（2）训练弱分类器。

具体训练过程中，如果某个样本已经被准确地分类，那么在构造下⼀个训练集中，它的权重就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提⾼。

同时，得到弱分类器对应的话语权。

然后，更新权值后的样本集被⽤于训练下⼀个分类器，整个训练过程如此迭代地进⾏下去。

（3）将各个训练得到的弱分类器组合成强分类器。

各个弱分类器的训练过程结束后，分类误差率⼩的弱分类器的话语权较⼤，其在最终的分类函数中起着较⼤的决定作⽤，⽽分类误差率⼤的弱分类器的话语权较⼩，其在最终的分类函数中起着较⼩的决定作⽤。

换⾔之，误差率低的弱分类器在最终分类器中占的⽐例较⼤，反之较⼩。

优点（1）精度很⾼的分类器（2）提供的是框架，可以使⽤各种⽅法构建弱分类器（3）简单，不需要做特征筛选（4）不⽤担⼼过度拟合实际应⽤（1）⽤于⼆分类或多分类（2）特征选择（3）分类⼈物的baseline2.C4.5C4.5是决策树算法的⼀种。

决策树算法作为⼀种分类算法，⽬标就是将具有p维特征的n个样本分到c个类别中去。

大数据十大经典算法SVM-讲解PPT

大数据十大经典算法svm-讲解
contents
目录
• 引言 • SVM基本原理 • SVM模型构建与优化 • SVM在大数据处理中的应用 • SVM算法实现与编程实践 • SVM算法性能评估与改进 • 总结与展望
01 引言
算法概述
SVM（Support Vector Machine，支持向量机）是一种监督学习模型，用于数据分类和回归分析。
性能评估方法
01
准确率评估
通过计算模型在测试集上的准确率来评估SVM算法的性能，准确率越
高，说明模型分类效果越好。
02
混淆矩阵评估
通过构建混淆矩阵，可以计算出精确率、召回率、F1值等指标，更全面
地评估SVM算法的性能。
03
ROC曲线和AUC值评估
通过绘制ROC曲线并计算AUC值，可以评估SVM算法在不同阈值下的
核函数是SVM的重要组成部分，可将数据映射到更高维的空间，使得原本线性不可分的数据变得线性可分。常见的核函数有线性核、多项式核、高斯核等。
SVM的性能受参数影响较大，如惩罚因子C、核函数参数等。通过交叉验证、网格搜索等方法可实现SVM参数的自动调优，提高模型性能。
SVM在文本分类、图像识别、生物信息学等领域有广泛应用。通过具体案例，可深入了解 SVM的实际应用效果。
SVM算法实现步骤
模型选择
选择合适的SVM模型，如CSVM、ν-SVM或One-class SVM等。
模型训练
使用准备好的数据集对SVM模型进行训练，得到支持向量和决策边界。
数据准备
准备用于训练的数据集，包括特征提取和标签分配。
参数设置
设置SVM模型的参数，如惩罚系数C、核函数类型及其参数等。

大数据十大经典算法kNN讲解

可解释性差
KNN算法的分类结果只依赖于最近邻的样本，缺乏可解释性。
无法处理高维数据
随着维度的增加，数据点之间的距离计算变得复杂，KNN算法在高维空间中的性能会受到影响。
对参数选择敏感
KNN算法中需要选择合适的K值，不同的K值可能会影响分类结果。
04
KNN算法的改进与优化
基于距离度量的优化
与神经网络算法的比较
神经网络算法
神经网络算法是一种监督学习算法，通过训练神经元之间的权重来学习数据的内在规律。神经网络算法在处理大数据集时需要大量的计算资源和时间，因为它的训练过程涉及到复杂的迭代和优化。
KNN算法
KNN算法的训练过程相对简单，不需要进行复杂的迭代和优化。此外，KNN算法对于数据的分布和规模不敏感，因此在处理不同规模和分布的数据集时具有较好的鲁棒性。
对数据分布不敏感
KNN算法对数据的分布不敏感，因此对于非线性问题也有较好的分类效果。
简单直观
KNN算法原理简单，实现直观，易于理解。
分类准确度高
基于实例的学习通常比基于规则或判别式的学习更为准确。
对异常值不敏感
由于KNN基于实例的学习方式，异常值对分类结果影响较小。
缺点
计算量大
KNN算法需要计算样本与所有数据点之间的距离，因此在大规模数据集上计算量较大。
欧氏距离
适用于数据特征呈正态分布的情况，但在非线性可分数据上表现不佳。
余弦相似度
适用于高维稀疏数据，能够处理非线性可分问题。
曼哈顿距离
适用于网格结构的数据，但在高维数据上计算量大。
皮尔逊相关系数
适用于衡量两组数据之间的线性关系。
K值选择策略的优化

十大经典大数据算法

十大经典大数据算法大数据算法是指应用于大规模数据集的算法，旨在从这些数据中提取有价值的信息和洞察力。

下面是十大经典大数据算法的介绍：1. MapReduce算法：MapReduce是一种用于处理大规模数据集的编程模型，它将任务分成多个子任务并在分布式计算环境中并行执行。

这种算法在Google的大数据处理框架Hadoop中得到广泛应用。

2. PageRank算法：PageRank是一种用于评估网页重要性的算法，通过分析网页之间的链接关系来确定网页的排名。

它在谷歌搜索引擎的排名算法中起到了重要作用。

3. Apriori算法：Apriori算法用于挖掘关联规则，通过发现数据集中的频繁项集来识别项目之间的关联。

该算法在市场篮子分析和推荐系统中有广泛应用。

4. k-means算法：k-means算法是一种聚类算法，用于将数据集划分为k个不重叠的簇。

该算法在数据挖掘和图像分析中常用于聚类分析。

5. 随机森林算法：随机森林是一种集成学习算法，通过构建多个决策树并对它们的结果进行投票来进行分类或回归。

该算法在数据挖掘和机器学习中常用于分类和预测问题。

6. SVM算法：支持向量机（SVM）是一种监督学习算法，用于进行分类和回归分析。

它通过构建一个最优的超平面来将不同类别的样本分开。

7. LDA算法：潜在狄利克雷分配（LDA）是一种用于主题建模的生成模型，用于从文本数据中发现隐藏的主题结构。

该算法在自然语言处理和信息检索中有广泛应用。

8. 特征选择算法：特征选择是一种用于从数据集中选择最相关特征的方法。

常用的特征选择算法包括信息增益、卡方检验和互信息等。

9. 随机梯度下降算法：随机梯度下降是一种用于优化模型参数的迭代优化算法。

该算法通过计算损失函数的梯度来更新模型参数，从而最小化损失函数。

10. 奇异值分解算法：奇异值分解（SVD）是一种矩阵分解方法，用于降低数据维度和提取数据的主要特征。

该算法在推荐系统和图像处理中常用于降维和特征提取。

大数据常用的算法

大数据常用的算法标题：大数据常用的算法引言概述：随着大数据时代的到来，大数据算法成为处理海量数据的重要工具。

本文将介绍大数据常用的算法，帮助读者更好地了解大数据处理的方法和技术。

一、聚类算法1.1 K均值算法：是一种常用的聚类算法，通过迭代计算数据点之间的距离，将数据点划分为K个簇。

1.2 DBSCAN算法：基于密度的聚类算法，能够发现任意形状的簇，并对噪声数据点进行过滤。

1.3 层次聚类算法：通过构建树状结构的聚类，将数据点逐层聚合，形成层次化的簇结构。

二、分类算法2.1 决策树算法：通过构建树状结构的决策规则，将数据点划分为不同的类别。

2.2 逻辑回归算法：用于处理二分类问题，通过逻辑函数对数据进行分类。

2.3 随机森林算法：基于多个决策树的集成学习算法，提高了分类准确度和泛化能力。

三、关联规则挖掘算法3.1 Apriori算法：用于发现频繁项集和关联规则，帮助分析数据中的关联性。

3.2 FP-growth算法：基于频繁模式树的挖掘算法，能够高效地挖掘大规模数据集中的频繁项集。

3.3 Eclat算法：基于垂直数据表示的关联规则挖掘算法，适用于稠密数据集。

四、回归算法4.1 线性回归算法：通过线性模型对数据进行拟合，预测连续性变量的取值。

4.2 支持向量机回归算法：基于支持向量机理论的回归算法，能够处理非线性回归问题。

4.3 岭回归算法：通过加入正则化项，解决多重共线性问题，提高回归模型的泛化能力。

五、降维算法5.1 主成分分析算法：通过线性变换将高维数据转化为低维数据，保留数据的主要信息。

5.2 t-SNE算法：用于可视化高维数据，通过保持数据点之间的相对距离，将数据映射到二维或三维空间。

5.3 自编码器算法：通过神经网络模型学习数据的压缩表示，实现高维数据的降维和重构。

结论：大数据算法在数据处理和分析中发挥着重要作用，不同的算法适用于不同的场景和问题。

通过了解和应用这些常用算法，可以更好地处理和利用大数据资源，实现数据驱动的决策和创新。

大数据常用的算法

大数据常用的算法在大数据时代，处理海量数据的需求日益增长。

为了更高效地处理和分析这些数据，大数据算法应运而生。

本文将介绍几种常用的大数据算法，包括朴素贝叶斯算法、K均值算法、随机森林算法和支持向量机算法。

一、朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类算法。

它假设样本特征之间相互独立，通过计算给定特征下某个类别的概率来进行分类。

朴素贝叶斯算法在文本分类、垃圾邮件过滤等领域有广泛应用。

例如，我们可以使用朴素贝叶斯算法来判断一封邮件是否为垃圾邮件。

通过对邮件中的词语进行统计，计算出给定某些词语的情况下，该邮件为垃圾邮件的概率。

根据概率大小，我们可以将邮件分类为垃圾邮件或者非垃圾邮件。

二、K均值算法K均值算法是一种聚类算法，用于将数据集划分为K个不同的簇。

它通过计算数据点与簇中心的距离，并将数据点分配给距离最近的簇来实现聚类。

K均值算法在图象分割、客户细分等领域有广泛应用。

例如，我们可以使用K均值算法将一组学生按照成绩划分为不同的等级。

通过计算每一个学生与不同等级的平均成绩之间的距离，将学生分配到最近的等级中。

三、随机森林算法随机森林算法是一种集成学习算法，通过构建多个决策树来进行分类或者回归。

每一个决策树的结果投票决定最终的分类结果。

随机森林算法在图象识别、金融风控等领域有广泛应用。

例如，我们可以使用随机森林算法来预测一辆二手车的价格。

通过构建多个决策树，每一个决策树根据不同的特征对车辆进行分类，最终通过投票得出预测的价格区间。

四、支持向量机算法支持向量机算法是一种二分类算法，通过构建超平面将数据点划分为两个类别。

它通过最大化两个类别之间的间隔来实现分类。

支持向量机算法在文本分类、图象识别等领域有广泛应用。

例如，我们可以使用支持向量机算法来判断一封邮件是否为垃圾邮件。

通过将邮件中的特征转化为向量表示，构建超平面将垃圾邮件和非垃圾邮件分开。

综上所述，朴素贝叶斯算法、K均值算法、随机森林算法和支持向量机算法是大数据处理中常用的算法。

大数据常用的算法

大数据常用的算法一、介绍在大数据时代，海量的数据需要被高效地处理和分析，而大数据算法就是为了解决这个问题而诞生的。

大数据算法可以帮助我们从海量数据中提取有用的信息和知识，以支持决策和预测。

本文将介绍几种常用的大数据算法，包括关联规则挖掘、聚类分析、分类算法和推荐系统算法。

二、关联规则挖掘关联规则挖掘是一种用于发现数据集中的频繁项集和关联规则的算法。

它可以帮助我们发现数据集中的潜在关联关系，以便做出相应的决策。

常用的关联规则挖掘算法包括Apriori算法和FP-Growth算法。

Apriori算法通过迭代的方式生成候选项集，并使用支持度和置信度进行剪枝，最终得到频繁项集和关联规则。

FP-Growth算法则通过构建FP树来高效地发现频繁项集和关联规则。

三、聚类分析聚类分析是一种将数据集中的对象划分为不同的组或类别的算法。

聚类分析可以帮助我们发现数据集中的内在结构和模式，以便进行更深入的分析。

常用的聚类分析算法包括K-means算法和层次聚类算法。

K-means算法通过迭代的方式将数据点划分为K个簇，使得簇内的数据点相似度最大化，簇间的数据点相似度最小化。

层次聚类算法则通过不断合并最相似的簇来构建聚类树，最终得到聚类结果。

四、分类算法分类算法是一种将数据点分配到不同类别的算法。

分类算法可以帮助我们对未知数据进行预测和分类。

常用的分类算法包括决策树算法、朴素贝叶斯算法和支持向量机算法。

决策树算法通过构建一棵树来进行分类，每个节点表示一个特征，每个分支表示一个特征值，叶子节点表示一个类别。

朴素贝叶斯算法则基于贝叶斯定理进行分类，假设特征之间相互独立。

支持向量机算法则通过构建超平面来进行分类，使得不同类别的数据点之间的间隔最大化。

五、推荐系统算法推荐系统算法是一种根据用户的历史行为和偏好来推荐个性化内容的算法。

推荐系统算法可以帮助我们提供个性化的推荐，提高用户的满意度和体验。

常用的推荐系统算法包括基于内容的推荐算法、协同过滤算法和深度学习算法。

大数据十大经典算法讲解优品文档

约束条件
➢我们把所有样本点中间隔最小的那一点的间隔定为1，也就意味着集合中的其他点间 H2：<w隔,x>+都b =不-1；会小于1，于是不难得到有不等式：yi[<w,xi>+b]≥1 (i=1,2,…,l)总成立。
令：Z1=X1, Z2=X12, Z3=X2, Z4=X22, Z5=X1X2 核函数应用广泛的原因：几何间隔与样本的误分次数间的关系：误分次数 <= (2R/δ)^2，其中δ是样本集合到分类面的间隔，R=max || xi ||,i=1,.
大数据十大经典算法讲解
分类
➢ 概念：
➢ 通过构造一个分类函数或分类器的方法，该方法能把数据库中的数据项映射到给定类别中的某一个，从而可以用于预测未知数据。
➢ 数据：
➢ 线性可分 ➢ 线性不可分
什么是SVM
➢ 全名：Support Vector Machine（支持向量机）
➢ 支持向量：支持或支撑平面上把两类类别划分开来的超平面的向量点。
我们注意到：
非线性分类
若令 Φ(x1) = [√2η1 , η12, √2η2 , η22, √2η1η2 , 1]T 则：
那么区别在于什么地方呢？
1. 一个是将低维空间数据映射到高维空间中，然后再根据内积的公式进行计算； 2. 另一个则直接在原来的低维空间中进行计算，而不需要显式地写出映射后的结果。 3. 当样本空间处于高维度时，第一种方法将引发维度灾难，第二种方法仍然能够从容处理
➢核函数
➢ 松弛变量
线性分类
➢1
线性分类
➢1
线性分类
问题
1. 如何求得最优的g(x)？ 2. 最优的标准是什么？ 3. g(x)=wx+b中的w和b如何确定？

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

K值的选择以及坏点的剔除
讨论k值、剔除坏点的意义何在？下面以一个例子来说明k值的重要性。
有一组关于湿度和温度的数据想把它划分为冬天和夏天两部分。（k=2）
气象学家打了个盹不小心把（100℃,1000%）和（101℃,1100%）加入了数据，并不幸选取（100℃,1000%）作为其中一个初始点
算法改进后的实效
ａ的的可ｎ运Ｋ以ｓ行Ｍ看算效ｅ出法率ａ：要ｎ基远ｓ于远算Ｍ高法ａ于ｐ传Ｒ统ｅ的ｄＫｕＭｃｅｅ
Q&A
Min of three due to the EuclidDistance
Kmeans算法详解（4）
步骤四：迭代计算中心点
Kmeans算法详解（5）
步骤五：收敛
Kmeans算法流程
1.从数据中随机抽取k个点作为初始聚类的中心，由这个中心代表各个聚类 2.计算数据中所有的点到这k个点的距离，将点归到离其最近的聚类里 3.调整聚类中心，即将聚类的中心移动到聚类的几何中心（即平均值）处，也就是 k-means中的mean的含义 4.重复第2步直到聚类的中心不再移动，此时算法收敛最后kmeans算法时间、空间复杂度是：时间复杂度：上限为O(tKmn)，下限为Ω （Kmn）其中，t为迭代次数，K为簇的数目，m为记录数，n为维数空间复杂度：O((m+K)n)，其中，K为簇的数目，m为记录数，n为维数
带canopy预处理的kmeans 算法的优点
canopy可以自动帮我我们确定k值。 • 有多少canopy，k值就选取多少。
Canopy可以帮我们去除“坏点”。
• 去除离群的canopy
带canopy预处理的kmeans 算法的新挑战
Canopy预处理这么好，我们以后就用它好了！我看不见得，它虽然解决 kmeans当中的一些问题，但其自身也引进了新的问题： t1、t2的选取。
Combine函数设计
Ｃｏｍｂｉｎｅ函数的设计Ｃｏｍｂｉｎｅ函数的输入为〈ｋｅｙ′，ｖａｌｕｅ′〉对，即Ｍａｐ函数的输出．首先，从ｖａｌｕｅ中解析出各个向量，然后将解析出的向量相加并记录集合中向量的个数．输出是〈ｋｅｙ１′，ｖａｌｕｅ１′〉对，其中：ｋｅｙ１′是聚簇的标识符；ｖａｌｕｅ１′是以上集合中所有的向量相加所得的向量及集合中向量的数目
我们主要研究的三个方面因素。
初始中心点的划分
讨论初始中心点意义何在？下面的例子一目了然吧？
初始中心点
收敛后
你懂的 …
如何衡量Kmeans算法的精确度？
在进一步阐述初始中心点选择之前，我们应该先确定度量 kmeans的算法精确度的方法。一种度量聚类效果的标准是： SSE(Sum of Square Error，误差平方和) SSE越小表示数据点越接近于它们的质心，聚类效果也就越好。因为对误差取了平方所以更重视那些远离中心的点。一种可以肯定降低SSE的方法是增加簇的个数。但这违背了聚类的目标。因为聚类是在保持目标簇不变的情况下提高聚类的质量。现在思路明了了我们首先以缩小SSE为目标改进算法。
大数据下kmeans算法的并行策略
单挑OR群殴？！
VS
大数据下kmeans算法的并行策略
面对海量数据时，传统的聚类算法存在着单位时间内处理量小、面对大量的数据时处理时间较长、难以达到预期效果的缺陷以上算法都是假设数据都是在内存中存储的，随着数据集的增大，基于内存的ＫＭｅａｎｓ就难以适应．ＭａｐＲｅｄｕｃｅ是一个为并行处理大量数据而设计的编程模型。 Kmeans算法都是假设数据都是在内存中存储的，随着数据集的增大，基于内存的ＫＭｅａｎｓ就难以适应．ＭａｐＲｅｄｕｃｅ是一个为并行处理大量数据而设计的编程模型，它将工作划分为独立任务组成的集合。
一个运行结果
一个实验
所有实验都是在实验室搭建的Ｈａｄｏｏｐ平台上运行的．平台有５台机器，都是四核ＩｎｔｅｌＣｏｒｅｉ３处理器，４ＧＢ内存．Ｈａｄｏｏｐ版本０．２０．２，ｊａｖａ版本１．６．２５．每台机器之间用千兆以太网卡，通过交换机连接．实验所用的数据是人工数据，维度是４８维．为了测试算法的性能，实验中构造了分别含有10^4，10^5,10^6，2*10^6 条记录的数据来进行测试．由于ＫＭｅａｎｓ算法中有随机初始化中心点的操作，因此对每一组实验重复执行２５次，取其平均执行时间作为最终实验结果
2
与分类区别：分类与聚类最大的区别在于分类的目标事先已知，聚类也被称为无监督机器学习
3
聚类手段：传统聚类算法 ①划分法 ②层次方法 ③基于密度方法 ④基于网络方法 ⑤基于模型方法
什么是Kmeans算法？
Q1：K是什么？A1：k是聚类算法当中类的个数。
Q2：means是什么？A2：means是均值算法。
Summary：Kmeans是用均值算法把数据分成K个类的算法！
Kmeans算法详解（1）
步骤一：取得k个初始初始中心点
Kmeans算法详解（2）
步骤二：把每个点划分进相应的簇
Min of three due to the EuclidDistance
Kmeans算法详解（3）
步骤三：重新计算中心点
于是得到两个很不靠谱的聚类结果。
为什么会出错？
究竟哪里错了！！！上面的例子当中出错的原因很明显。凭直觉我们很容易知道不可能有这样的天气— —它的气温是100℃，湿度是1100%。可见坏点对 kmeans的影响之大。另一方面，季节有春夏秋冬之分，而我们强行的把它们分为夏冬两个类也是不太合理的。如果分为四个类我们也许可以“中和”掉坏点的影响。
Map-reduce的过程简介
Map函数设计
１Ｍａｐ函数的设计ＭａｐＲｅｄｕｃｅ框架中Ｍａｐ函数的输入为〈ｋｅｙ，ｖａｌｕｅ〉对，其中：ｋｅｙ为输入数据记录的偏移量；ｖａｌｕｅ为当前样本的各维坐标值组成的向量．首先计算该向量到各个聚簇中心点的距离，然后选择最小的距离的聚簇作为该样本所属的簇，之后输出〈ｋｅｙ ′ ，ｖａｌｕｅ ′〉，其中ｋｅｙ ′是距最近的聚簇的标识符，ｖａｌｕｅ′为表示该样本的向量．
决定性因素
Input & centroids
①数据的采集和抽象 ②初始的中心选择
MaxIterations & Convergence
①最大迭代次数 ②收敛值
factors？
Selected k
① k值的选定
Meassures
①度量距离的手段
主要讨论
初始中心点输入的数据及K值的选择距离度量
The algorithm of Kmeans
小组成员：徐佳、张俊飞、刘志伟、孔祥玉
主要内容：
聚类算法简介
Kmeans算法详解 Kmeans算法的缺陷及若干改进 Kmeans的单机实现与分布式实现策略 Kmeans实战
聚类算法简介
1
聚类的目标：将一组向量分成若干组，组内数据是相似的，而组间数据是有较明显差异。
带canopy预处理的kmeans 算法
（1）将数据集向量化得到一个list后放入内存，选择两个距离阈值：T1和T2。（2）从list中任取一点P，用低计算成本方法快速计算点P与所有Canopy之间的距离（如果当前不存在Canopy，则把点P作为一个Canopy），如果点P 与某个Canopy距离在T1以内，则将点 P加入到这个Canopy；（3）如果点P曾经与某个Canopy的距离在T2以内，则需要把点P从list中删除，这一步是认为点P此时与这个 Canopy已经够近了，因此它不可以再做其它Canopy的中心了；（4）重复步骤2、3，直到list为空结束
改进的算法——二分 Kmeans算法
为了克服k均值算法收敛于局部的问题，提出了二分k 均值算法。该算法首先将所有的点作为一个簇，然后将该簇一分为二。之后选择其中一个簇继续划分，选择哪个簇进行划分取决于对其划分是否可以最大程度降低SSE值。伪代码如下：将所有的点看成一个簇当簇数目小于k时对于每一个簇计算总误差在给定的簇上面进行K均值聚类(K=2) 计算将该簇一分为二后的总误差选择使得误差最小的那个簇进行划分操作
全局最小值
二分kmeans真的能使SSE达到全局最小值吗？从前面的讲解可以看到二分 kmeans算法的思想有点类似于贪心思想。但是我们会发现贪心的过程中有不确定的因素比如：二分一个聚类时选取的两个中间点是随机的，这会对我们的策略造成影响。那么如此一来二分 kmeans算法会不会达到全局最优解呢？答案是：会！尽管你可能惊诧于下面的说法，但全局最小值的定义却是：可能的最好结果。
Reduce函数设计
Ｒｅｄｕｃｅ函数的输入是〈ｋｅｙ２，ｖａｌｕｅ２〉键值对，其中：ｋｅｙ２为聚簇的标识符；ｖａｌｕｅ２为ｍａｐ节点处理的聚簇中含有的样本的个数及用向量表示的聚簇的中心点ｖｅｃｔｏｒｔｅｍｐ．输出为〈ｋｅｙ２′，ｖａｌｕｅ２′〉对，其中：ｋｅｙ′为聚簇的标识符；ｖａｌｕｅ′为新的聚簇中心．Ｒｅｄｕｃｅ函数首先从函数的输入中解析出属于同一个聚簇的样本的个数及各个ｍａｐ节点传过来的ｖｅｃｔｏｒｔｅｍｐ，然后将个数及各个ｖｅｃｔｏｒｔｅｍｐ相加，之后将所得到的向量除以个数得到新的中心点坐标。
二分Kmeans算法的效果
既然是改进算法就要体现改进算法的优越性。为此控制变量，在相同的实验环境下， ①取相同的k值取。 ②选取相同的的距离度量标准（欧氏距离）
③在相同的数据集下进行测试。
一组实验结果
一组不好的初始点产生的 Kmeans算法结果二分kmeans产生的结果
要强调的是尽管只是这一组实验不得以得出二分kmeans的优越性，但是经过大量实验得出的结论却是在大多数情况下二分kmΒιβλιοθήκη ans确实优于朴素的kmeans算法。