机器学习kmeans聚类算法与应用

合集下载

机器学习技术中的无监督学习算法解析

机器学习技术中的无监督学习算法解析无监督学习算法是机器学习领域中的一大重要分支，通过在数据集中寻找模式和结构进行学习，从而发现数据中的隐藏属性和关系。

与监督学习算法不同，无监督学习算法不需要已标记的训练数据，而是通过自动探索数据中的模式和结构来学习。

本文将介绍几种常见的无监督学习算法以及它们在机器学习中的应用。

1. 聚类算法聚类算法是无监督学习中最常见的算法之一，它通过将数据集划分为不同的组或者簇，使得同一簇内的数据类似，不同簇之间的数据差异较大。

聚类算法的目标是发现数据的内在结构以及相似性，从而实现对数据的分组。

其中，最著名的聚类算法是K-means算法。

K-means算法是一种迭代的聚类算法，它首先随机选择K个初始中心点，然后将数据点分配到最近的中心点所属的簇中。

接着根据簇中的数据点更新中心点的位置，并重复这个过程直到算法收敛。

K-means算法的优点是简单而高效，但也存在一些问题，比如对初始中心点的选择敏感，容易收敛到局部最优解。

2. 关联规则学习关联规则学习是一种用于发现数据中频繁出现的关联关系的无监督学习算法。

它通过挖掘数据集中的频繁项集和关联规则，揭示数据之间的相关性。

关联规则学习经常应用于市场分析、购物篮分析等领域。

Apriori算法是关联规则学习中的一种经典算法。

它采用逐层搜索的方式，从频繁1项集开始，生成更高阶的频繁项集，直到没有可以生成的频繁项集为止。

Apriori算法通过设置最小支持度和最小置信度来筛选出具有统计意义的频繁项集和关联规则。

3. 主成分分析主成分分析（PCA）是一种常用的降维技术，用于从高维数据中提取出主要的特征。

它通过线性变换将原始数据投影到低维空间中，使得投影后的数据保留了最大的变异性。

PCA最常见的应用是数据可视化和特征提取。

PCA的实现过程包括以下几个步骤：首先计算数据的协方差矩阵，然后通过特征值分解找到最大的特征值和对应的特征向量，最后根据选择的主成分数目将数据进行投影。

Python中的聚类分析方法和应用

Python中的聚类分析方法和应用聚类分析是一种数据挖掘技术，在数据分析、机器学习、人工智能等领域都有广泛的应用。

它的基本思想是将相似的样本归为同一类，不同的样本归为不同的类，从而实现对数据的分类和整理。

Python作为一种强大的编程语言，也提供了多种聚类分析算法的实现，以下是聚类分析在Python中的应用及其方法。

一、K-Means算法K-Means算法是一种经典的聚类算法，常用于分析数量较大的数据集。

K-Means算法通过不断迭代的方式，将数据集中的每一个样本归为k个簇中的某一个。

它的基本流程如下：首先从数据集中随机选取k个样本作为簇的中心点，然后计算数据集中其他样本与这k个簇中心点的距离，并将距离最近的样本分配给它所对应的簇。

接着重新计算每个簇的中心点，并重复这个过程，直到目标函数收敛或达到指定的迭代次数。

在Python中，K-Means算法的实现非常简单，主要依托于scikit-learn库。

引入sklearn.cluster包，并使用KMeans类即可。

以下是一个简单的Python代码示例：```from sklearn.cluster import KMeansimport numpy as npdata = np.random.rand(1000, 2)kmeans = KMeans(n_clusters=3, random_state=0).fit(data) labels = bels_centers = kmeans.cluster_centers_```其中，随机生成1000个二维数据作为数据集，然后使用KMeans 类进行聚类，将数据集划分为3个簇。

最后，通过labels和centers 变量获取分类信息和中心点坐标。

二、层次聚类算法层次聚类算法是另一种经典的聚类算法，在Python中同样得到了广泛的应用。

层次聚类算法又被称为自底向上聚类（bottom-up clustering）或自上而下聚类（top-down clustering），它的基本思想是不断合并距离最近的样本，直到所有的样本都被归为一类为止。

kmeans 算法

kmeans 算法K-Means算法，也称为K均值聚类算法，是一种无监督机器学习方法，用于将数据集分成K个簇群。

该算法的核心思想是将数据点划分为不同的簇群，使得同一簇群内的点相似度尽可能高，而不同簇群之间的相似度尽可能低。

该算法可用于许多领域，如计算机视觉、医学图像处理、自然语言处理等。

1.工作原理K-Means算法的工作原理如下：1. 首先，从数据集中随机选择K个点作为初始簇群的中心点。

2. 接下来，计算每个数据点与K个中心点之间的距离，并将它们归入距离最近的簇群中。

这个过程称为“分配”。

3. 在所有数据点都被分配到簇群后，重新计算每个簇群的中心点，即将簇群中所有数据点的坐标取平均值得出新的中心点。

这个过程称为“更新”。

4. 重复执行2-3步骤，直到簇群不再发生变化或达到最大迭代次数为止。

2.优缺点1. 简单易懂，实现方便。

2. 可用于处理大量数据集。

1. 随机初始化可能导致算法无法找到全局最优解。

2. 结果受到初始中心点的影响。

3. 对离群值敏感，可能导致簇群数量不足或簇群数量偏多。

4. 对于非球形簇群，K-Means算法的效果可能较差。

3.应用场景K-Means算法可以广泛应用于许多领域，如：1. 机器学习和数据挖掘：用于聚类分析和领域分类。

2. 计算机视觉：用于图像分割和物体识别。

3. 自然语言处理：用于文本聚类和词向量空间的子空间聚类。

4. 财务分析：用于分析财务数据，比如信用评分和市场分析。

5. 医学图像处理：用于医学影像分析和分类。

总之，K-Means算法是一种简单有效的聚类算法，可用于处理大量数据集、连续型数据、图像和文本等多种形式数据。

但在实际应用中，需要根据具体情况选择合适的簇群数量和初始中心点，在保证算法正确性和有效性的同时，减少误差和提高效率。

机器学习中的聚类与分类算法

机器学习中的聚类与分类算法机器学习是指通过计算机算法，让计算机从数据中学习和发现规律，从而实现自主决策和预测能力的一门学科。

在机器学习中，聚类和分类是两种常见的算法方法。

本文将介绍聚类和分类的算法原理、应用场景以及它们在机器学习中的作用。

一、聚类算法聚类算法是一种无监督学习方法，它通过对数据集中的样本进行相似性度量，将相似的样本划分到同一类别中。

聚类算法的目标是最大化类内的相似性，同时最小化类间的相似性。

1. K-means算法K-means算法是一种经典的聚类算法，通过迭代的方式将数据点分为K个簇。

具体步骤如下：（1）随机选择K个中心点作为初始簇心；（2）计算每个数据点与簇心的距离，并将其归属到距离最近的簇中；（3）重新计算每个簇的簇心；（4）重复步骤2和步骤3，直到簇心不再发生变化或者达到迭代次数的上限。

2. 层次聚类算法层次聚类算法将数据点按照层次结构进行聚类，可分为自底向上和自顶向下两种方式。

（1）自底向上：开始时将每个数据点作为一个簇，然后将相似性最高的两个簇合并成一个簇，直到只剩下一个簇。

（2）自顶向下：开始时将所有数据点作为一个簇，然后逐步分裂成多个簇，直到每个簇只包含一个数据点。

二、分类算法分类算法是一种监督学习方法，它通过已有的带有标签的数据集训练一个模型，根据模型对未知数据进行分类。

分类算法的目标是根据已有的数据与标签之间的关系建立一个分类模型，用于预测未知数据的分类。

1. 决策树算法决策树算法是一种以树形结构表示决策规则的分类模型。

它通过逐步选择与数据集特征相对最优的划分点，并根据特征值将数据集划分为不同的子集。

决策树的构建过程类似于将数据集分成多个子问题进行解决的过程。

2. 支持向量机算法支持向量机算法是一种通过将数据映射到高维空间，然后在高维空间中寻找最优超平面的分类方法。

支持向量机在分类问题中以最大化间隔来划分不同类别的数据，从而提高分类性能。

三、聚类与分类的应用场景1. 聚类的应用场景聚类广泛应用于用户分群、图像分割、异常检测等领域。

kmeans 聚类算法

kmeans 聚类算法Kmeans聚类算法Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法最初由J. MacQueen于1967年提出，而后由S. Lloyd和L. Forgy独立提出。

目前，Kmeans算法已经成为了机器学习领域中最常用的聚类算法之一。

Kmeans算法的基本思想是将数据集划分为k个不同的簇，每个簇具有相似的特征。

簇的数量k是由用户指定的，算法会根据数据集的特征自动将数据集分成k个簇。

Kmeans算法通过迭代的方式来更新每个簇的中心点，以此来不断优化簇的划分。

Kmeans算法的步骤Kmeans算法的步骤可以概括为以下几个步骤：1. 随机选择k个点作为中心点；2. 将每个数据点与离它最近的中心点关联，形成k个簇；3. 对于每个簇，重新计算中心点；4. 重复2-3步骤，直到簇不再变化或达到最大迭代次数。

Kmeans算法的优缺点Kmeans算法的优点包括：1. 算法简单易实现；2. 能够处理大规模数据集；3. 可以处理多维数据。

Kmeans算法的缺点包括：1. 需要用户指定簇的数量；2. 对于不规则形状的簇，效果不佳；3. 对于包含噪声的数据集，效果不佳。

Kmeans算法的应用Kmeans算法在机器学习和数据挖掘中有着广泛的应用。

以下是Kmeans算法的一些应用：1. 图像分割：将图像分为多个不同的区域；2. 文本聚类：将文本数据划分为多个主题；3. 市场分析：将消费者分为不同的群体，以便进行更好的市场分析；4. 生物学研究：将生物数据分为不同的分类。

总结Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法的步骤包括随机选择中心点、形成簇、重新计算中心点等。

Kmeans算法的优缺点分别是算法简单易实现、需要用户指定簇的数量、对于不规则形状的簇效果不佳等。

Kmeans算法在图像分割、文本聚类、市场分析和生物学研究等领域有着广泛的应用。

计算机系统中的聚类与分类算法分析

计算机系统中的聚类与分类算法分析计算机系统中的聚类与分类算法是机器学习应用中最常见的两种算法，它们可以对数据进行分类和聚类操作，从而帮助我们更好的理解数据及其内在规律。

这篇文章将对这两种算法进行详细分析，并结合具体的应用案例进行解释。

一、聚类算法聚类算法是将数据分成几类或者簇，每个簇内的元素都具有相似的特征，而不同簇内的元素则特征不同或相似度低。

聚类算法可以帮助我们对大量数据进行分组，并发现数据内在的联系和规律。

下面是几种常见的聚类算法：1. K-Means聚类算法K-Means算法是一种迭代聚类方法，它将数据分成k个簇，每个簇由距其质心最近的数据点组成。

这个算法通过不断迭代来优化每个质心的位置，从而得到最终的聚类结果。

K-Means算法的优点是简单易懂、易于实现，但是它的结果可能会受初始质心的选择影响，并且结果不一定最优。

2. 层次聚类算法层次聚类算法将数据初始时看作单独的小簇，然后将它们合并为越来越大的簇，直到所有数据都在同一个大簇内。

层次聚类算法可以按照自上而下或者自下而上的顺序进行，得到的结果可能不同。

在聚类的过程中，我们可以通过构建树状结构来更好的理解聚类的结果。

3. DBSCAN聚类算法DBSCAN算法通过对空间密度进行建模，将数据点分组为若干个密度可达的簇。

该算法的优点是可以自适应地确定簇的数量，并能够处理噪声和异常值。

二、分类算法分类算法是对数据进行标记和过滤，将数据分为若干个类别。

分类算法的应用非常广泛，可以用于文本分类、图像分类、语音识别等领域。

下面是几种常见的分类算法：1. 决策树算法决策树算法是一种基于树形结构的分类方法，它将样本分为若干类，每个类都由一个决策树节点所表示。

该算法的优点是具有可解释性和可视化性好，可以帮助人们更好地理解分类的过程。

但是决策树算法的结果可能会被特征选择和预剪枝的影响所带来的误差。

2. SVM算法支持向量机（SVM）算法通过对数据进行分类超平面的构建来实现分类。

k-means聚类算法研究及应用

k-means聚类算法研究及应用
K-means聚类算法研究及应用
一、简介
K-means聚类算法是一种非监督学习算法，它是一种广泛应用在模式分类和无监督式学习的数据挖掘技术。

它使用了基于距离的聚类算法，以相似性作为衡量子簇类别的标准，任务是将样本(属性)空间中的数据分为K个不同的类，使聚类的误差平方和最小化：通常假设样本由簇中心所处的子空间所构建，每个子空间由一个簇中心控制，因此K-means算法常常被形象地称为“均值聚类”算法。

二、原理
K-means聚类算法是一种迭代算法，它的基本思想是：首先，随机选取若干个“簇中心”，然后将其他的数据点根据其与“簇中心”的距离，归到最近的“簇中心”所代表的簇中。

然后根据新聚集的簇，重新更新这些“簇中心”；如此不断迭代，最终计算得到一组稳定的“簇中心”，这组“簇中心”所代表的簇就是最后的结果了。

三、应用
1、生物信息学：K-means聚类算法用于基因芯片和定量PCR，以及蛋白质表达数据。

2、计算机视觉：K-means用于图像分割,聚类，像素重新分配等。

3、自然语言处理：K-means用于文本聚类，文档分类，文本挖掘等方面。

4、机器学习：K-means用于各种拟合问题，比如参数估计，探索异常
值等等。

四、总结
K-means聚类算法是一种简单高效的聚类算法，它可以有效地将数据空间分割成几个簇，属于非监督学习算法，它的核心在于划分数据空间，对数据的模式分类和无监督式学习有较好的应用，如生物信息学、计
算机视觉、自然语言处理、机器学习等领域。

列举常用聚类算法

列举常用聚类算法聚类算法是一种将数据集中的相似数据分组的方法。

它是无监督学习的一种应用，可以在没有标签或类别信息的情况下对数据进行分类。

在机器学习和数据挖掘中，聚类算法被广泛应用于数据分析、图像处理、模式识别等领域。

本文将列举常用的聚类算法。

一、K均值聚类算法（K-means Clustering）K均值聚类算法是一种基于距离度量的聚类方法，它将数据集划分为K 个簇，每个簇包含距离其它簇最近的点。

该算法首先随机选择K个点作为初始质心，然后将每个点分配到与其距离最近的质心所在的簇中，并计算每个簇内所有点的平均值作为新的质心。

重复以上过程直到质心不再改变或达到预定迭代次数。

二、层次聚类算法（Hierarchical Clustering）层次聚类算法是一种自下而上或自上而下逐步合并或拆分簇来建立层次结构的方法。

该算法有两种实现方式：凝聚层次聚类和分裂层次聚类。

凝聚层次聚类从每个数据点开始，将它们逐步合并成越来越大的簇，直到所有点都被合并为一个簇。

分裂层次聚类从整个数据集开始，将其逐步拆分成越来越小的簇，直到每个簇只包含一个点。

三、DBSCAN聚类算法（Density-Based Spatial Clustering of Applications with Noise）DBSCAN聚类算法是一种基于密度的聚类方法，它可以识别任意形状的簇，并能够自动排除离群值。

该算法首先选择一个未访问的核心点作为起始点，并找到其可达范围内的所有点，并将它们加入同一簇中。

然后继续寻找未访问的核心点，并重复以上过程直到所有核心点都被访问完毕。

四、谱聚类算法（Spectral Clustering）谱聚类算法是一种基于图论和线性代数的聚类方法，它将数据集看作是一个图，在图上进行划分。

该算法首先构建一个相似度矩阵或邻接矩阵，并通过特征值分解或奇异值分解来获取特征向量和特征值。

然后将特征向量作为新的数据集，使用K均值或层次聚类等方法对其进行聚类。

kmean计算聚类中心点

kmean计算聚类中心点K-means是一种常用的聚类算法，用于将数据集分成多个类别，并找出每个类别的聚类中心点。

在本文中，我们将讨论K-means算法的原理、应用和优缺点。

一、K-means算法原理K-means算法是一种迭代的聚类算法，其基本步骤如下：1. 初始化：随机选择K个数据点作为初始聚类中心点。

2. 分类：将数据集中的每个数据点分配到与其最近的聚类中心点所属的类别。

3. 更新：根据每个类别中的数据点，重新计算聚类中心点的位置。

4. 重复步骤2和步骤3，直到聚类中心点的位置不再改变，或者达到预定的迭代次数。

二、K-means算法应用K-means算法在数据挖掘和机器学习领域被广泛应用，例如：1. 客户细分：根据客户的消费行为和偏好，将客户分成不同的群体，以便进行个性化的营销策略。

2. 图像压缩：通过将相似的像素点归为一类，用聚类中心点来代替这些像素点，从而实现图像的压缩。

3. 文本分类：将文本数据根据语义和主题进行分类，以便进行信息检索、情感分析等应用。

4. 基因表达谱聚类：将基因表达谱数据分成不同的基因簇，以便研究基因的功能和相互作用。

三、K-means算法优缺点K-means算法具有以下优点：1. 简单而高效：K-means算法的原理和实现都相对简单，计算效率较高。

2. 可解释性强：K-means算法的结果易于理解和解释，每个聚类中心点代表一个类别。

3. 可扩展性好：K-means算法适用于大规模的数据集，并且可以通过并行化和分布式计算来加速处理。

然而，K-means算法也存在一些缺点：1. 对初始聚类中心点敏感：初始聚类中心点的选择可能导致不同的聚类结果，需要多次运行算法来选择最佳结果。

2. 需要预先指定聚类数量：K-means算法需要事先确定聚类的数量K，而这个值可能不容易确定。

3. 对离群点敏感：离群点的存在可能会对聚类的结果产生较大的影响，导致聚类中心点偏离实际的数据分布。

k-means聚类算法实验总结 -回复

k-means聚类算法实验总结-回复K-means聚类算法是一种常用的无监督学习算法，广泛应用于数据挖掘、图像分割、文本分类等领域。

本文将基于我对K-means聚类算法的实验总结，分步详细介绍这一算法的原理、实验设置、实验结果及其分析。

希望通过本文的总结，读者能够对K-means算法有一个更全面的了解。

一、算法原理K-means聚类算法的原理比较简单，其基本步骤如下：1. 初始化k个聚类中心，可以是随机选择样本或根据经验预设；2. 对于每个样本，计算其与各个聚类中心的距离，并将其划分到距离最近的聚类中心所属的类别；3. 调整聚类中心的位置，将各个类别内的样本点的均值作为新的聚类中心，重复步骤2，直到聚类中心的位置不再变化或达到预设的最大迭代次数。

二、实验设置为了验证K-means聚类算法的性能，我选择了UCI机器学习库中的Iris 数据集作为实验数据集。

该数据集包含150个样本，每个样本有4个属性。

为了方便可视化，将数据集中的前两个属性作为横纵坐标，将样本点分布在二维平面上。

在实验中，我使用Python编程语言实现了K-means聚类算法，并使用matplotlib库绘制了聚类结果的散点图。

实验中设置聚类的类别数k为3，迭代次数上限为100。

三、实验结果及分析执行K-means聚类算法后，得到了如下图所示的聚类结果：[图1 聚类结果图]根据聚类结果可以看出，三个类别的样本点被分别用不同的颜色表示，并且通过散点图可以很直观地看到各个样本点与聚类中心的距离。

为了更客观地评估K-means的聚类性能，我采用了两项指标：聚类准确率和轮廓系数。

聚类准确率是将聚类结果与原始类别进行对比，计算分类正确的样本数量占总样本数量的比例。

通过计算实验结果，我得到了聚类准确率为85.33。

轮廓系数是一种评价聚类结果的衡量指标，其数值范围在-1到1之间，越接近于1表示聚类越紧密、样本点越相似，越接近于-1表示聚类越分散、样本点越不相似。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习算法day02_Kmeans聚类算法及应用课程大纲Kmeans聚类算法原理Kmeans聚类算法概述Kmeans聚类算法图示Kmeans聚类算法要点Kmeans聚类算法案例需求用Numpy手动实现用Scikili机器学习算法库实现Kmeans聚类算法补充算法缺点改良思路课程目标：1、理解Kmeans聚类算法的核心思想2、理解Kmeans聚类算法的代码实现3、掌握Kmeans聚类算法的应用步骤：数据处理、建模、运算和结果判定1. Kmeans聚类算法原理1.1 概述K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。

该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

1.2 算法图示假设我们的n个样本点分布在图中所示的二维空间。

从数据点的大致形状可以看出它们大致聚为三个cluster，其中两个紧凑一些，剩下那个松散一些，如图所示：我们的目的是为这些数据分组，以便能区分出属于不同的簇的数据，给它们标上不同的颜色，如图：1.3 算法要点1.3.1 核心思想通过迭代寻找k个类簇的一种划分方案，使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小。

k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

k-means算法的基础是最小误差平方和准则,其代价函数是：式中，μc(i)表示第i个聚类的均值。

各类簇内的样本越相似，其与该类均值间的误差平方越小，对所有类所得到的误差平方求和，即可验证分为k类时，各聚类是否是最优的。

上式的代价函数无法用解析的方法最小化，只能有迭代的方法。

1.3.2 算法步骤图解下图展示了对n个样本点进行K-means聚类的效果，这里k取2。

1.3.3 算法实现步骤k-means算法是将样本聚类成k个簇（cluster），其中k是用户给定的，其求解过程非常直观简单，具体算法描述如下：1)随机选取k个聚类质心点2)重复下面过程直到收敛{对于每一个样例i，计算其应该属于的类：对于每一个类j，重新计算该类的质心：}其伪代码如下：********************************************************************创建k个点作为初始的质心点（随机选择）当任意一个点的簇分配结果发生改变时对数据集中的每一个数据点对每一个质心计算质心与数据点的距离将数据点分配到距离最近的簇对每一个簇，计算簇中所有点的均值，并将均值作为质心2. Kmeans分类算法Python实战2.1 需求对给定的数据集进行聚类本案例采用二维数据集，共80个样本，有4个类。

样例如下：testSet.txt1.658985 4.285136-3.453687 3.4243214.838138 -1.151539-5.379713 -3.3621040.972564 2.924086-3.567919 1.5316110.450614 -3.302219-3.487105 -1.7244322.668759 1.594842-3.156485 3.1911373.165506 -3.999838-2.786837 -3.0993544.208187 2.984927-2.123337 2.9433660.704199 -0.479481-0.392370 -3.9637042.831667 1.574018-0.790153 3.3431442.943496 -3.3570752.2 python代码实现2.2.1 利用numpy手动实现from numpy import *#加载数据def loadDataSet(fileName):dataMat = []fr = open(fileName)for line in fr.readlines():curLine = line.strip().split('\t')fltLine = map(float, curLine) #变成float类型dataMat.append(fltLine)return dataMat# 计算欧几里得距离def distEclud(vecA, vecB):return sqrt(sum(power(vecA - vecB, 2)))#构建聚簇中心def randCent(dataSet, k):n = shape(dataSet)[1]centroids = mat(zeros((k,n)))for j in range(n):minJ = min(dataSet[:,j])maxJ = max(dataSet[:,j])rangeJ = float(maxJ - minJ)centroids[:,j] = minJ + rangeJ * random.rand(k, 1)return centroids#k-means 聚类算法def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):m = shape(dataSet)[0]clusterAssment = mat(zeros((m,2))) #用于存放该样本属于哪类及质心距离centroids = createCent(dataSet, k)clusterChanged = Truewhile clusterChanged:clusterChanged = False;for i in range(m):minDist = inf; minIndex = -1;for j in range(k):distJI = distMeans(centroids[j,:], dataSet[i,:])if distJI < minDist:minDist = distJI; minIndex = jif clusterAssment[i,0] != minIndex: clusterChanged = True;clusterAssment[i,:] = minIndex,minDist**2print centroidsfor cent in range(k):ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]] # 去第一列等于cent的所有列centroids[cent,:] = mean(ptsInClust, axis = 0)return centroids, clusterAssment2.2.2 利用scikili库实现Scikit-Learn是基于python的机器学习模块，基于BSD开源许可证。

scikit-learn的基本功能主要被分为六个部分，分类，回归，聚类，数据降维，模型选择，数据预处理。

包括SVM，决策树，GBDT，KNN，KMEANS等等Kmeans在scikit包中即已有实现，只要将数据按照算法要求处理好，传入相应参数，即可直接调用其kmeans函数进行聚类################################################## kmeans: k-means cluster#################################################from numpy import *import timeimport matplotlib.pyplot as plt## step 1:加载数据print "step 1: load data..."dataSet = []fileIn = open('E:/Python/ml-data/kmeans/testSet.txt')for line in fileIn.readlines():lineArr = line.strip().split('\t')dataSet.append([float(lineArr[0]), float(lineArr[1])])## step 2: 聚类print "step 2: clustering..."dataSet = mat(dataSet)k = 4centroids, clusterAssment = kmeans(dataSet, k)## step 3:显示结果print "step 3: show the result..."showCluster(dataSet, k, centroids, clusterAssment)2.2.3 运行结果不同的类用不同的颜色来表示，其中的大菱形是对应类的均值质心点。

3、Kmeans算法补充3.1 kmeans算法缺点k-means算法比较简单，但也有几个比较大的缺点：（1）k值的选择是用户指定的，不同的k得到的结果会有挺大的不同，如下图所示，左边是k=3的结果，这个就太稀疏了，蓝色的那个簇其实是可以再划分成两个簇的。

而右图是k=5的结果，可以看到红色菱形和蓝色菱形这两个簇应该是可以合并成一个簇的：（2）对k个初始质心的选择比较敏感，容易陷入局部最小值。

例如，我们上面的算法运行的时候，有可能会得到不同的结果，如下面这两种情况。

K-means也是收敛了，只是收敛到了局部最小值：（3）存在局限性，如下面这种非球状的数据分布就搞不定了：（4）数据集比较大的时候，收敛会比较慢。

3.2 改良思路k-means老早就出现在江湖了。

所以以上的这些不足也已有了对应方法进行了某种程度上的改良。

例如：✓问题（1）对k的选择可以先用一些算法分析数据的分布，如重心和密度等，然后选择合适的k✓问题（2），有人提出了另一个成为二分k均值（bisecting k-means）算法，它对初始的k个质心的选择就不太敏感。