机器学习聚类算法实现

合集下载

机器学习：Python实现聚类算法（二）之AP算法

机器学习：Python实现聚类算法（⼆）之AP算法1.算法简介AP(Affinity Propagation)通常被翻译为近邻传播算法或者亲和⼒传播算法，是在2007年的Science杂志上提出的⼀种新的聚类算法。

AP 算法的基本思想是将全部数据点都当作潜在的聚类中⼼(称之为exemplar)，然后数据点两两之间连线构成⼀个⽹络(相似度矩阵)，再通过⽹络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中⼼。

2.相关概念(假如有数据点i和数据点j)（图1）（图2）（图3）1）相似度：点j作为点i的聚类中⼼的能⼒，记为S(i,j)。

⼀般使⽤负的欧式距离，所以S(i,j)越⼤，表⽰两个点距离越近，相似度也就越⾼。

使⽤负的欧式距离，相似度是对称的，如果采⽤其他算法，相似度可能就不是对称的。

2）相似度矩阵：N个点之间两两计算相似度，这些相似度就组成了相似度矩阵。

如图1所⽰的黄⾊区域，就是⼀个5*5的相似度矩阵(N=5) 3) preference：指点i作为聚类中⼼的参考度(不能为0)，取值为S对⾓线的值(图1红⾊标注部分)，此值越⼤，最为聚类中⼼的可能性就越⼤。

但是对⾓线的值为0，所以需要重新设置对⾓线的值，既可以根据实际情况设置不同的值，也可以设置成同⼀值。

⼀般设置为S相似度值的中值。

(有的说设置成S的最⼩值产⽣的聚类最少，但是在下⾯的算法中设置成中值产⽣的聚类是最少的)4）Responsibility(吸引度):指点k适合作为数据点i的聚类中⼼的程度，记为r(i,k)。

如图2红⾊箭头所⽰，表⽰点i给点k发送信息，是⼀个点i 选点k的过程。

5）Availability(归属度):指点i选择点k作为其聚类中⼼的适合程度，记为a(i,k)。

如图3红⾊箭头所⽰，表⽰点k给点i发送信息，是⼀个点k 选diani的过程。

6）exemplar：指的是聚类中⼼。

7）r (i, k)加a (i, k)越⼤,则k点作为聚类中⼼的可能性就越⼤,并且i点⾪属于以k点为聚类中⼼的聚类的可能性也越⼤3.数学公式1）吸引度迭代公式:（公式⼀）说明1：R t+1(i,k)表⽰新的R(i,k)，R t(i,k)表⽰旧的R(i,k)，也许这样说更容易理解。

kmeans算法java实现

kmeans算法java实现K-means算法是一种常用的聚类算法，在机器学习和数据挖掘领域得到广泛应用。

本文将介绍K-means算法的原理以及如何用Java实现。

文章将按照以下五个主题逐步展开：K-means算法概述、算法步骤、Java实现准备、Java实现步骤和结果分析。

1. K-means算法概述K-means算法是一种非监督学习算法，用于将具有相似特征的数据点划分为不同的簇。

它以欧氏距离作为相似度度量，并希望簇内的数据点尽可能接近彼此，而不同簇之间的样本点则尽可能远离彼此。

算法的核心思想是通过迭代优化来找到使目标函数最小化的质心位置。

2. 算法步骤2.1 初始化：设定簇的数量K和数据集，随机选择K个数据点作为初始质心。

2.2 聚类：计算每个数据点到各个质心的距离，并将其归类到离其最近的质心所在的簇中。

2.3 更新质心：计算每个簇内所有数据点的均值，作为新的质心位置。

2.4 重复2.2和2.3步骤，直到质心位置不再改变或达到迭代次数的上限。

3. Java实现准备在开始编写代码之前，我们需要引入Java相关的机器学习库。

ApacheMahout和Weka是两个常用的选项，它们提供了各种机器学习算法的实现。

在本文中，我们将使用Weka库。

4. Java实现步骤4.1 导入必要的库：首先，导入Weka库，以及用于读取数据和处理数据的其他必要库。

4.2 读取数据：从外部文件读取数据，并将其转换为需要的格式。

例如，将输入的CSV文件转换为Weka库中的Instances对象。

4.3 初始化质心：随机选择K个数据点作为初始质心。

4.4 聚类和更新质心：根据质心计算每个数据点到各个质心的距离，并将其归类到最近的质心所在的簇中。

然后，计算每个簇内所有数据点的均值，作为新的质心位置。

4.5 重复聚类和更新质心步骤，直到质心位置不再改变或达到迭代次数的上限。

4.6 结果输出：将聚类的结果输出到外部文件，以便进一步分析和可视化。

机器学习中的聚类与分类算法

机器学习中的聚类与分类算法机器学习是指通过计算机算法，让计算机从数据中学习和发现规律，从而实现自主决策和预测能力的一门学科。

在机器学习中，聚类和分类是两种常见的算法方法。

本文将介绍聚类和分类的算法原理、应用场景以及它们在机器学习中的作用。

一、聚类算法聚类算法是一种无监督学习方法，它通过对数据集中的样本进行相似性度量，将相似的样本划分到同一类别中。

聚类算法的目标是最大化类内的相似性，同时最小化类间的相似性。

1. K-means算法K-means算法是一种经典的聚类算法，通过迭代的方式将数据点分为K个簇。

具体步骤如下：（1）随机选择K个中心点作为初始簇心；（2）计算每个数据点与簇心的距离，并将其归属到距离最近的簇中；（3）重新计算每个簇的簇心；（4）重复步骤2和步骤3，直到簇心不再发生变化或者达到迭代次数的上限。

2. 层次聚类算法层次聚类算法将数据点按照层次结构进行聚类，可分为自底向上和自顶向下两种方式。

（1）自底向上：开始时将每个数据点作为一个簇，然后将相似性最高的两个簇合并成一个簇，直到只剩下一个簇。

（2）自顶向下：开始时将所有数据点作为一个簇，然后逐步分裂成多个簇，直到每个簇只包含一个数据点。

二、分类算法分类算法是一种监督学习方法，它通过已有的带有标签的数据集训练一个模型，根据模型对未知数据进行分类。

分类算法的目标是根据已有的数据与标签之间的关系建立一个分类模型，用于预测未知数据的分类。

1. 决策树算法决策树算法是一种以树形结构表示决策规则的分类模型。

它通过逐步选择与数据集特征相对最优的划分点，并根据特征值将数据集划分为不同的子集。

决策树的构建过程类似于将数据集分成多个子问题进行解决的过程。

2. 支持向量机算法支持向量机算法是一种通过将数据映射到高维空间，然后在高维空间中寻找最优超平面的分类方法。

支持向量机在分类问题中以最大化间隔来划分不同类别的数据，从而提高分类性能。

三、聚类与分类的应用场景1. 聚类的应用场景聚类广泛应用于用户分群、图像分割、异常检测等领域。

基于机器学习的子空间聚类算法研究与应用

基于机器学习的子空间聚类算法研究与应用随着数据量的不断增长，传统的聚类算法已经无法满足对大规模数据进行快速而准确的聚类的需求。

在这种情况下，基于机器学习的子空间聚类算法被提出，并且得到了广泛的研究与应用。

在传统的聚类算法中，数据点之间的距离是通过欧几里得空间中的距离来计算的。

然而，随着数据维度的增加，欧几里得空间中的距离会变得越来越稀疏，从而导致聚类算法的准确性下降。

基于机器学习的子空间聚类算法解决了这个问题。

子空间聚类算法基于假设，即数据点可以分布在低维子空间中。

因此，对于高维数据，子空间聚类算法会将其分解为多个低维子空间，并在各个子空间中进行聚类。

这种聚类方法在处理高维数据时表现极为出色。

它对空间的局部结构和复杂度作出了准确而合理的模型假设，从而对数据进行分析时能提高精度和有效性。

在子空间聚类算法中，首先需要确定子空间的维度。

传统的方法是通过人工指定维度值来实现，但这种方法需要经验和技巧，效果不稳定。

近年来，基于机器学习的自适应子空间聚类算法被提出，使实现过程更智能化。

自适应子空间聚类算法通过结合聚类结果和数据分布特征，自适应地确定每个子空间的维度。

这种方法能够使聚类结果更加准确、稳定和有效，同时能够避免人工决策的不确定性，提高计算效率。

除了自适应子空间聚类算法，还有一些其他的基于机器学习的子空间聚类算法，比如谱聚类、核聚类、对比传播聚类等。

这些算法都有着不同的适用范围和应用场景，但它们的基本思路都是相似的。

通过有效的降维和聚类方法，它们能够对高维数据进行准确、稳定、有效的聚类，为实际应用提供了有力的支持。

在实际应用中，子空间聚类算法已经被广泛地应用于网络安全、图像识别、音视频分析等领域。

例如，基于子空间聚类算法的网络异常流量检测系统、基于子空间聚类算法的人脸识别系统等。

这些应用展示了子空间聚类算法的巨大潜力和实际价值。

总之，基于机器学习的子空间聚类算法是一种有效的高维聚类方法。

通过自适应子空间聚类算法等技术手段，可以进一步提高算法的准确性、稳定性和效率。

k-medoids聚类算法

k-medoids聚类算法k-medoids聚类算法是一种常用的非监督机器学习算法，用于将一组对象分成不同的群组。

与k-means算法类似，k-medoids也是一种基于距离的聚类算法，但它相比于k-means算法更加鲁棒，具有更好的稳定性。

在这篇文章中，我们将介绍k-medoids聚类算法的工作原理、算法流程以及其应用。

首先，让我们来了解一下k-medoids算法是如何工作的。

k-medoids算法通过计算每个数据点与聚类中心之间的距离，将数据点分配到最近的聚类中心。

与k-means算法不同的是，k-medoids算法选择的聚类中心是实际数据点，而不是数据的均值。

这些实际数据点被称为“medoids”，因为它们代表着每个聚类的代表性样本。

接下来，我们将介绍k-medoids算法的具体流程。

首先，我们需要选择k个初始聚类中心。

这些初始聚类中心可以根据一些预定义的规则选择，例如随机选择或者根据一些先验知识选择。

然后，我们计算每个数据点与这些初始聚类中心之间的距离，将每个数据点分配到距离最近的聚类中心。

在数据点分配完毕后，我们需要重新计算每个聚类中心的位置。

对于每个聚类，我们计算该聚类中的每个数据点到其他数据点的总距离，并将其中距离最小的点作为新的聚类中心。

这个过程不断迭代直到聚类中心不再变化或达到预定的迭代次数。

最后，我们将得到k个聚类中心以及它们对应的聚类。

每个聚类都由一组数据点组成，这些数据点与自己所属的聚类中心之间的距离最小。

这些聚类可以用于分析数据集，发现隐藏在数据中的模式和关系。

k-medoids算法具有一些优点。

首先，与k-means算法相比，k-medoids算法对异常值更加鲁棒，因为它选择的聚类中心是实际的数据点。

其次，k-medoids算法适用于任意距离度量，而k-means算法只适用于欧氏距离。

此外，k-medoids算法相对简单，易于实现和理解。

k-medoids算法在许多领域都有广泛的应用。

【机器学习】DBSCAN密度聚类算法原理与实现

【机器学习】DBSCAN密度聚类算法原理与实现1、概述DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类⽅法)是⼀种很典型的密度聚类算法.和K-Means，BIRCH这些⼀般只适⽤于凸样本集的聚类相⽐，DBSCAN既可以适⽤于凸样本集，也可以适⽤于⾮凸样本集。

DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。

该算法利⽤基于密度的聚类的概念，即要求聚类空间中的⼀定区域内所包含对象（点或其他空间对象）的数⽬不⼩于某⼀给定阈值。

过滤低密度区域，发现稠密度样本点。

同⼀类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处⼀定有同类别的样本存在。

2、基本定义假设我的样本集是D=(x1,x2,...,xm),则DBSCAN具体的密度描述定义如下：以下我们⽤图形直观的理解⼀下。

图中MinPts=5，红⾊的点都是核⼼对象，因为其ϵ-邻域⾄少有5个样本。

⿊⾊的样本是⾮核⼼对象。

所有核⼼对象密度直达的样本在以红⾊核⼼对象为中⼼的超球体内，如果不在超球体内，则不能密度直达。

图中⽤绿⾊箭头连起来的核⼼对象组成了密度可达的样本序列。

在这些密度可达的样本序列的ϵ-邻域内所有的样本相互都是密度相连的。

3、DBSCAN密度聚类思想DBSCAN的聚类定义：由密度可达关系导出的最⼤密度相连的样本集合，即为我们最终聚类的⼀个类别，或者说⼀个簇。

那么怎么才能找到这样的簇样本集合呢？DBSCAN使⽤的⽅法很简单，它任意选择⼀个没有类别的核⼼对象作为种⼦，然后找到所有这个核⼼对象能够密度可达的样本集合，即为⼀个聚类簇。

接着继续选择另⼀个没有类别的核⼼对象去寻找密度可达的样本集合，这样就得到另⼀个聚类簇。

⼀直运⾏到所有核⼼对象都有类别为⽌。

但是我们还是有三个问题没有考虑。

第⼀个是⼀些异常样本点或者说少量游离于簇外的样本点，这些点不在任何⼀个核⼼对象在周围，在DBSCAN中，我们⼀般将这些样本点标记为噪⾳点。

机器学习算法与实践第9章聚类算法

第九章聚类算法
无监督学习（Unsupervised Learning）是指在样本标记信息未知的情况下，通过对样本的学习来找到数据本身的内在性质和规律。无监督学习可以用于数据分析或者监督学习的前处理，主要包含聚类（Clustering）、降维（Dimensionality Reduction）、概率估计（Probability Estimation）等。
主要缺点：
26
9.4 层次聚类(假设类别之间存在层次结构，将样本聚到层次化的类别中)
聚合（Agglomerative）/自下而上（Bottom-up）聚类——本节重点
每个样本各分到一个类，之后将距离相近的两类合并，建立一个新的类别，重复此操作直到满足停止条件，得到层次化的类别。
分裂（Divisive）/自上而下（Top-down）聚类
10
9.1.2 性能度量
显然，DBI指数越小越好，DI指数越大越好
11
9.2 原型聚类
12
9.2 原型聚类
算法流程：
13
9.2 原型聚类
14
9.3 密度聚类
基本概念：
假设聚类结构可以通过样本分布的紧密程度确定，以数据集在空间分布上的稠密程度为依据进行聚类。
此类算法无需预先设定类别数量，因此适合于未知内容的数据集，代表算法有 DBSCAN、OPTICS、DENCLUE等(本节只讨论DBSCAN)
3
9.1.1 相似度
（1）闵可夫斯基距离（Minkowski Distance）
4
9.1.1 相似度
（2）马哈拉诺比斯距离（Mahalanobis Distance）
5
9.1.1 相似度
（3）相关系数(相关系数绝对值越接近1表示样本越相似；越接近0表示样本越不相似)

机器学习中的聚类分析方法

机器学习中的聚类分析方法机器学习中的聚类分析是一种数据挖掘技术，该技术可以将大量的数据集按照特定的规则进行分类和分组。

聚类分析主要用于数据分析、分类、数据挖掘和模式识别等领域，该技术的应用范围非常广泛，包括自然语言处理、图像识别、推荐系统等领域。

在聚类分析中，数据集合被分为不同的类别，每个类别都有相似的属性、特征或属性。

聚类分析方法可以通过设置聚类算法的参数来对数据进行分组，对于同一类别的数据，聚类算法能够产生一个类别标签。

聚类分析方法的优点在于能够将大量不同的数据进行有意义的分类，从而可以实现多种应用。

聚类分析方法的类型在机器学习中，聚类分析方法主要分为以下几种类型：1. 划分式聚类：这种方法通过将数据集分成互不重叠的子集来实现聚类。

在划分式聚类中，每个数据点只属于一个簇。

这种方法适合于数据集中每个数据点都属于同一个类别的情况。

划分式聚类算法包括K-Means算法等。

2. 层次式聚类：这种方法通过渐进地将数据点分成更多的子集来实现聚类。

在层次式聚类中，每个数据点都可以被分配到多个簇中。

这种方法适合于数据集中数据点属于多个类别的情况。

层次式聚类算法包括凝聚层次聚类、分裂式层次聚类等。

3. 密度式聚类：这种方法通过密度划分数据簇来实现聚类。

密度式聚类算法包括DBSCAN、OPTICS等。

4. 模型式聚类：这种方法通过使用统计学模型来实现聚类。

模型式聚类算法包括高斯混合模型等。

其中，划分式聚类和层次式聚类是常用的聚类分析方法。

K-Means聚类算法K-Means算法是目前应用最多的划分式聚类算法之一，其主要思想是将输入数据分成K个簇，每个簇有一个中心点，根据输入数据与各个簇的中心距离进行分类。

K-Means算法通过多次更新簇中心点和分类，来达到最终的聚类结果。

K-Means算法的优点在于其算法简单、时间复杂度较低，同时也适合于大规模数据和高维数据的处理。

但是，K-Means算法也存在着一些问题。

首先，初始点的随机性可能会对聚类结果产生较大的影响。

聚类算法_实验报告

一、实验背景随着大数据时代的到来，数据量呈爆炸式增长，如何有效地对海量数据进行处理和分析成为了一个重要课题。

聚类算法作为一种无监督学习方法，在数据挖掘、模式识别等领域有着广泛的应用。

本实验旨在通过实际操作，了解聚类算法的基本原理、实现方法及其在实际问题中的应用。

二、实验目的1. 理解聚类算法的基本原理和流程；2. 掌握K-means、层次聚类、DBSCAN等常用聚类算法；3. 分析不同聚类算法在处理不同类型数据时的优缺点；4. 学会使用聚类算法解决实际问题。

三、实验环境1. 操作系统：Windows 102. 编程语言：Python3. 数据库：Pandas4. 机器学习库：Scikit-learn四、实验内容1. K-means聚类算法（1）数据准备本实验使用的数据集为Iris数据集，包含150个样本，每个样本有4个特征。

（2）算法实现使用Scikit-learn库中的KMeans类实现K-means聚类算法。

（3）结果分析通过绘制样本分布图，观察聚类效果。

根据聚类结果，将样本分为3类，与Iris数据集的类别标签进行对比。

2. 层次聚类算法（1）数据准备本实验使用的数据集为鸢尾花数据集，包含150个样本，每个样本有4个特征。

（2）算法实现使用Scikit-learn库中的AgglomerativeClustering类实现层次聚类算法。

（3）结果分析通过绘制树状图，观察聚类过程。

根据聚类结果，将样本分为3类，与鸢尾花数据集的类别标签进行对比。

3. DBSCAN聚类算法（1）数据准备本实验使用的数据集为Iris数据集。

（2）算法实现使用Scikit-learn库中的DBSCAN类实现DBSCAN聚类算法。

（3）结果分析通过绘制样本分布图，观察聚类效果。

根据聚类结果，将样本分为3类，与Iris 数据集的类别标签进行对比。

五、实验结果与分析1. K-means聚类算法K-means聚类算法在Iris数据集上取得了较好的聚类效果，将样本分为3类，与真实标签一致。

机器学习技术中的聚类算法应用案例

机器学习技术中的聚类算法应用案例聚类算法是机器学习领域中一种常用的无监督学习方法，它通过将数据集中的样本划分为具有相似特征的不同类别，实现数据的聚集和分类。

在机器学习中，聚类算法被广泛应用于数据挖掘、图像处理、自然语言处理等领域，具有重要的实际应用价值。

下面将介绍三个聚类算法的应用案例。

1. K-means算法在客户细分中的应用K-means是一种简单且易于实现的聚类算法，被广泛应用于数据挖掘和客户细分领域。

以电子商务为例，企业经常需要将客户进行分类，以便对不同类别的客户采取个性化的营销策略。

K-means算法可以通过分析客户的购买行为、兴趣偏好等特征，将客户划分为具有相似购买行为或兴趣偏好的不同群体。

企业可以根据不同群体的特点来实施针对性的推广和营销活动，提高客户转化率和满意度。

2. DBSCAN算法在异常检测中的应用DBSCAN是一种基于密度的聚类算法，它可以发现具有较高密度的样本，并将其视为聚类簇。

由于DBSCAN算法可以有效地处理噪声和异常值，因此在异常检测领域具有广泛的应用。

例如，在金融领域中，通过对银行交易数据进行聚类分析，可以发现存在异常交易行为的用户。

这些异常交易可以是欺诈行为，通过及时检测并采取措施，有助于保护用户利益和降低风险。

3. 层次聚类算法在文本聚类中的应用层次聚类是一种自底向上的聚类算法，通过将最相似的样本逐步归为一类，实现层次化的聚类结果。

这种算法特别适用于文本数据的聚类分析。

例如，在新闻分类中，层次聚类算法可以将相似主题的新闻文章归为一类，并进一步划分为更具体的子类别。

这种方式可以帮助用户快速获取感兴趣的新闻内容，提高新闻推荐系统的准确性和个性化程度。

总结起来，聚类算法在机器学习中有着广泛的应用。

无论是客户细分、异常检测还是文本聚类，聚类算法都可以帮助我们从大量的数据中发现有用的模式和结构，为实际问题的解决提供支持。

随着机器学习技术的不断发展，我们相信聚类算法在更多领域中的应用将能够带来更多的创新和价值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《人工智能与机器学习》
实验报告
年级__ xxxx班____________
专业___________xxxxx____ _____
学号____________6315070301XX___________
姓名_____________gllh________________
日期___________2018-5-12 __
实验五聚类算法实现
一、实验目的
1、了解常用聚类算法及其优缺点
2、掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法
3、利用k-means聚类算法对已知数据集进行聚类分析
实验类型：验证性
计划课间：4学时
二、实验内容
1、利用python的sklearn库函数对给定的数据集进行聚类分析
2、分析k-means算法的实现流程
3、根据算法描述编程实现，调试运行
4、对所给数据集进行验证，得到分析结果
三、实验步骤
1、k-means算法原理
2、k-means算法流程
3、k-means算法实现
4、对已知数据集进行分析
四、实验结果分析
1.利用python的sklearn库函数对给定的数据集进行聚类分析：
其中数据集选取iris鸢尾花数据集
import numpy as np
from sklearn.datasets import load_iris
iris = load_iris()
def dist(x,y):
return sum(x*y)/(sum(x**2)*sum(y**2))**0.5
def K_means(data=iris.data,k=3,ping=0,maxiter=100):
n, m = data.shape
centers = data[:k,:]
while ping < maxiter:
dis = np.zeros([n,k+1])
for i in range(n):
for j in range(k):
dis[i,j] = dist(data[i,:],centers[j,:])
dis[i,k] = dis[i,:k].argmax()
centers_new = np.zeros([k,m])
for i in range(k):
index = dis[:,k]==i
centers_new[i,:] = np.mean(data[index,:],axis=0) if np.all(centers==centers_new):
break
centers = centers_new
ping += 1
return dis
if __name__ == '__main__':
res = K_means()
print(res)
（1）、首先求出样本之间的余弦相似度：
sum(x*y)/(sum(x**2)*sum(y**2))**0.5
（2）、设置k类别数为3，最大迭代次数为100
K_means(data=iris.data,k=3,ping=0,maxiter=100):
（3）、设置样本个数、属性个数并初始化类中心
n, m = data.shape
centers = data[:k,:]
（4）、求各样本至各类中心的距离
for i in range(n):
for j in range(k):
dis[i,j] = dist(data[i,:],centers[j,:])
dis[i,k] = dis[i,:k].argmax()
（5）、求新类中心:各类样本均值作为新类中心
for i in range(k):
index = dis[:,k]==i
centers_new[i,:] = np.mean(data[index,:],axis=0) 实验结果：
2.使用自己的数据集进行聚类分析并进行可视化：# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from sklearn.cluster import Birch
from sklearn.cluster import KMeans
from matplotlib import pyplot as plt
from matplotlib.font_manager import FontProperties
df = pd.read_csv("fa.csv",encoding = "utf-8")
X = df[['height','weight']].values
clf = KMeans(n_clusters=2)
y_pred = clf.fit_predict(X)
print(clf)
print(y_pred)
x = [n[0] for n in X]
print (x)
y = [n[1] for n in X]
print (y)
plt.scatter(x, y, c=y_pred, marker='o')
plt.title("K-means Boy/Girl-height-weight Data")
plt.xlabel("Height/cm")
plt.ylabel("Weight/kg")
plt.legend(["Position"])
plt.show()
本数据集使用男性女性身高体重数据集，k值为2，就是讲数据聚合为2类，看身高体重分布结果。

从此次实验看出，聚类数据集必须可以分类才能使用此算法，否则就会产生如下结果：
此数据集为UCI香水数据，无法进行聚类分析
五、实验心得
通过这次实验，使用K-means算法对数据集进行聚类分析，了解了算法的过程，首先选择K个点作为初始质心，之后进行重复并将每个点指派到最近的质心，形成K个簇后重新计算每个簇的质心直到簇不发生变化或达到最大迭代次数为止，首先我们要直到有多少种分类，选择K个初始质心，其中K是指定的参数，即所期望的簇的个数。

这样做的前提是我们已经知道数据集中包含多少个簇，但很多情况下，我们并不知道数据的分布情况，实际上聚类就是我们发现数据分布的一种手段，之后质心的选取也非常重要，选择适当的初始质心是基本kmeans算法的关键，一般是随机的选取初始质心，通过这次实验，实现了调用sklearn进行数据集的聚类算法，对以后工作学习都有所帮助。

六、注意事项
1、距离函数的选择
2、评价函数的计算
3、噪声数据的处理
4、数据集仍然可以选取分类算法所用数据集（手写体数字，雉尾花。

或者自带的其他聚类数据集）。