Kmeans聚类算法基本思想

合集下载

k-means聚类和fcm聚类的原理概念

k-means聚类和fcm聚类的原理概念摘要：一、聚类分析概述1.定义与作用2.常用的聚类算法二、K-means 聚类原理1.算法基本思想2.计算过程3.特点与优缺点三、FCM 聚类原理1.算法基本思想2.计算过程3.特点与优缺点四、K-means 与FCM 聚类的比较1.相似之处2.不同之处3.适用场景正文：一、聚类分析概述聚类分析是一种无监督学习方法，通过将相似的数据对象归为一类，从而挖掘数据集的潜在结构和模式。

聚类分析在数据挖掘、模式识别、图像处理、生物学研究等领域具有广泛应用。

常用的聚类算法有K-means 聚类和FCM 聚类等。

二、K-means 聚类原理1.算法基本思想K-means 聚类是一种基于划分的聚类方法，通过迭代计算数据点与当前中心点的距离，将数据点分配到距离最近的中心点所属的簇，然后更新中心点。

这个过程持续进行，直到满足停止条件。

2.计算过程（1）随机选择k 个数据点作为初始中心点。

（2）计算其他数据点与初始中心点的距离，将数据点分配到距离最近的簇。

（3）计算每个簇的中心点。

（4）重复步骤2 和3，直到中心点不再发生变化或达到最大迭代次数。

3.特点与优缺点特点：简单、易于实现，适用于大规模数据集。

优点：可以处理大规模数据集，对噪声数据具有一定的鲁棒性。

缺点：对初始中心点敏感，可能导致局部最优解；计算过程中需要反复计算距离，计算量较大。

三、FCM 聚类原理1.算法基本思想FCM 聚类是一种基于模糊划分的聚类方法，通过计算数据点与当前中心点的模糊距离，将数据点分配到距离最近的簇。

模糊距离是基于隶属度函数计算的，可以反映数据点对簇的隶属程度。

2.计算过程（1）随机选择k 个数据点作为初始中心点。

（2）计算其他数据点与初始中心点的模糊距离，将数据点分配到距离最近的簇。

（3）计算每个簇的中心点。

（4）重复步骤2 和3，直到中心点不再发生变化或达到最大迭代次数。

3.特点与优缺点特点：考虑了数据点对簇的隶属程度，具有更好的全局优化性能。

kmeans 算法

kmeans 算法K-Means算法，也称为K均值聚类算法，是一种无监督机器学习方法，用于将数据集分成K个簇群。

该算法的核心思想是将数据点划分为不同的簇群，使得同一簇群内的点相似度尽可能高，而不同簇群之间的相似度尽可能低。

该算法可用于许多领域，如计算机视觉、医学图像处理、自然语言处理等。

1.工作原理K-Means算法的工作原理如下：1. 首先，从数据集中随机选择K个点作为初始簇群的中心点。

2. 接下来，计算每个数据点与K个中心点之间的距离，并将它们归入距离最近的簇群中。

这个过程称为“分配”。

3. 在所有数据点都被分配到簇群后，重新计算每个簇群的中心点，即将簇群中所有数据点的坐标取平均值得出新的中心点。

这个过程称为“更新”。

4. 重复执行2-3步骤，直到簇群不再发生变化或达到最大迭代次数为止。

2.优缺点1. 简单易懂，实现方便。

2. 可用于处理大量数据集。

1. 随机初始化可能导致算法无法找到全局最优解。

2. 结果受到初始中心点的影响。

3. 对离群值敏感，可能导致簇群数量不足或簇群数量偏多。

4. 对于非球形簇群，K-Means算法的效果可能较差。

3.应用场景K-Means算法可以广泛应用于许多领域，如：1. 机器学习和数据挖掘：用于聚类分析和领域分类。

2. 计算机视觉：用于图像分割和物体识别。

3. 自然语言处理：用于文本聚类和词向量空间的子空间聚类。

4. 财务分析：用于分析财务数据，比如信用评分和市场分析。

5. 医学图像处理：用于医学影像分析和分类。

总之，K-Means算法是一种简单有效的聚类算法，可用于处理大量数据集、连续型数据、图像和文本等多种形式数据。

但在实际应用中，需要根据具体情况选择合适的簇群数量和初始中心点，在保证算法正确性和有效性的同时，减少误差和提高效率。

K-均值聚类算法

3.确定中心: 用各个聚类的中心向量作为新的中心；
4.重复分组和确定中心的步骤，直至算法收敛；
2.算法实现
输入：簇的数目k和包含n个对象的数据库。输出：k个簇，使平方误差准则最小。
算法步骤：
1.为每个聚类确定一个初始聚类中心，这样就有K 个初始聚类中心。
2.将样本集中的样本按照最小距离原则分配到最邻近聚类
给定数据集X，其中只包含描述属性，不包含类别属性。假设X包含k个聚类子集X1,X2,„XK；各个聚类子集中的样本数量分别为n1，n2,„,nk;各个聚类子集的均值代表点（也称聚类中心）分别为m1， m2,„,mk。
3.算法实例
则误差平方和准则函数公式为：
k
2
E p mi
i 1 pX i
单个方差分别为
E1 0 2.52 2 22 2.5 52 2 22 12.5 E2 13.15
总体平均误差是： E E1 E2 12.5 13.15 25.65 由上可以看出，第一次迭代后，总体平均误差值52.25~25.65，显著减小。由于在两次迭代中，簇中心不变，所以停止迭代过程，算法停止。
示为三维向量（分别对应JPEG图像中的红色、绿色和蓝色通道）； 3. 将图片分割为合适的背景区域（三个）和前景区域（小狗）； 4. 使用K-means算法对图像进行分割。
2 015/8/8
Hale Waihona Puke 分割后的效果注：最大迭代次数为20次，需运行多次才有可能得到较好的效果。
2 015/8/8
例2：
2 015/8/8
Ox y 102 200 3 1.5 0 450 552
数据对象集合S见表1，作为一个聚类分析的二维样本，要求的簇的数量k=2。

k-means聚类方法

k-means聚类方法1. K-means聚类方法的基本原理K-means聚类方法是一种基于划分的聚类算法，它将数据集划分为K 个簇，每个簇由与其中心距离最近的点组成。

K-means聚类方法的基本原理是：给定一组数据，将它们划分为K个簇，使得每个簇的内部距离最小，而簇之间的距离最大。

K-means算法通过迭代的方式，不断地调整簇的中心，以最小化每个簇内部的距离，从而实现最优的划分。

2. K-means聚类方法的优缺点K-means聚类方法具有计算简单、收敛快等优点，它可以将数据集划分为多个簇，每个簇内的数据点彼此具有较高的相似度，而簇与簇之间的数据点具有较低的相似度，从而有效地实现了数据分类。

但K-means聚类方法也有一些缺点，首先，K-means聚类方法的结果受初始值的影响较大，如果初始值不合理，可能导致聚类结果不理想；其次，K-means聚类方法只适用于线性可分的数据，如果数据不具有线性可分的特征，K-means聚类方法可能不能得到理想的结果；最后，K-means聚类方法没有考虑数据点之间的距离，因此可能会出现噪声数据点的情况，从而影响聚类结果。

3. K-means聚类方法的应用K-means聚类方法可以用于多种应用，如机器学习、数据挖掘、模式识别、图像处理等。

其中，最常见的应用是基于K-means聚类方法的聚类分析，用于将数据分成不同的组，以便更好地理解和分析数据。

此外，K-means聚类方法也可以用于多维数据可视化，以及探索数据中隐藏的模式和趋势。

K-means聚类方法还可以用于客户分类，以及市场细分，以更好地了解客户行为和需求。

此外，K-means聚类方法还可以用于语音识别，文本分类，图像分类等。

4. K-means聚类方法的参数调整K-means聚类方法的参数调整主要有两个：K值和距离度量标准。

K 值决定聚类的数量，距离度量标准决定两个点之间的距离。

参数调整的目的是为了让聚类结果尽可能满足用户的要求。

kmeans 聚类算法

kmeans 聚类算法Kmeans聚类算法Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法最初由J. MacQueen于1967年提出，而后由S. Lloyd和L. Forgy独立提出。

目前，Kmeans算法已经成为了机器学习领域中最常用的聚类算法之一。

Kmeans算法的基本思想是将数据集划分为k个不同的簇，每个簇具有相似的特征。

簇的数量k是由用户指定的，算法会根据数据集的特征自动将数据集分成k个簇。

Kmeans算法通过迭代的方式来更新每个簇的中心点，以此来不断优化簇的划分。

Kmeans算法的步骤Kmeans算法的步骤可以概括为以下几个步骤：1. 随机选择k个点作为中心点；2. 将每个数据点与离它最近的中心点关联，形成k个簇；3. 对于每个簇，重新计算中心点；4. 重复2-3步骤，直到簇不再变化或达到最大迭代次数。

Kmeans算法的优缺点Kmeans算法的优点包括：1. 算法简单易实现；2. 能够处理大规模数据集；3. 可以处理多维数据。

Kmeans算法的缺点包括：1. 需要用户指定簇的数量；2. 对于不规则形状的簇，效果不佳；3. 对于包含噪声的数据集，效果不佳。

Kmeans算法的应用Kmeans算法在机器学习和数据挖掘中有着广泛的应用。

以下是Kmeans算法的一些应用：1. 图像分割：将图像分为多个不同的区域；2. 文本聚类：将文本数据划分为多个主题；3. 市场分析：将消费者分为不同的群体，以便进行更好的市场分析；4. 生物学研究：将生物数据分为不同的分类。

总结Kmeans聚类算法是一种基于距离的无监督机器学习算法，它可以将数据集分为多个类别。

Kmeans算法的步骤包括随机选择中心点、形成簇、重新计算中心点等。

Kmeans算法的优缺点分别是算法简单易实现、需要用户指定簇的数量、对于不规则形状的簇效果不佳等。

Kmeans算法在图像分割、文本聚类、市场分析和生物学研究等领域有着广泛的应用。

kmeans算法实现原理

kmeans算法实现原理K-Means算法是一种聚类算法，旨在将一组数据对象分为多个不同的簇，使得同一簇内的对象之间相似度较高，簇间的不相似度较大。

该算法由J. MacQueen于1967年提出，其基本思想是把已有的n个数据对象分成k个簇，使得簇内对象的相似性较高，而簇间对象的相似性较低。

K-Means属于无监督学习算法，没有给定训练数据集的输出，只有输入数据。

一、算法原理KMeans算法采用的是迭代优化的方法，其步骤如下：1. 初始化: 从n个数据对象中随机选择k个作为初始的聚类中心。

2. 计算每个样本到每个簇中心的距离，并将其分配到与其距离最近的那个簇中。

3. 定义新的簇中心: 对于每个簇内的所有数据对象，求其平均值并作为新的簇中心。

4. 重复2和3直到簇中心不再发生变化，或者是达到最大迭代次数。

步骤2和步骤3是迭代的核心部分，直至算法收敛即可停止迭代。

二、算法实现KMeans算法的实现有多种方式，其中一种比较常用的实现方法是传统的坐标下降法。

坐标下降法在每个迭代步骤中只更新一个维度，对整个集合进行更新的时间较长。

通常采用Lloyd算法来改进这种方法。

Lloyd算法和坐标下降法思想类似，不过每次更新是对所有维度同时进行更新，而不是对单个维度进行更新，从而使算法收敛速度加快。

三、算法应用KMeans算法广泛应用于数据挖掘、模式识别、图像分割等领域，较为常见的应用有：1. 市场营销: KMeans算法可用于进行客户聚类分析，从而根据不同聚类的客户需求和行为，制定相应的市场策略。

2. 模式识别: KMeans算法可用于文本分类，根据文本的内容，进行分类和归纳，进而分析文本的分布规律。

3. 图像分割: KMeans算法可用于图像分割，对图像中的不同区域进行划分，达到分离目标物体的目的。

四、算法局限性虽然KMeans算法具有较好的聚类效果，但是其也存在一些局限性。

1. 聚类数目k的确定: 聚类数目k是算法的参数，其有时需要通过经验调整合适的数值。

K-means聚类算法

K-means聚类算法1. 概述K-means聚类算法也称k均值聚类算法，是集简单和经典于⼀⾝的基于距离的聚类算法。

它采⽤距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越⼤。

该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独⽴的簇作为最终⽬标。

2. 算法核⼼思想K-means聚类算法是⼀种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中⼼，然后计算每个对象与各个种⼦聚类中⼼之间的距离，把每个对象分配给距离它最近的聚类中⼼。

聚类中⼼以及分配给它们的对象就代表⼀个聚类。

每分配⼀个样本，聚类的聚类中⼼会根据聚类中现有的对象被重新计算。

这个过程将不断重复直到满⾜某个终⽌条件。

终⽌条件可以是没有（或最⼩数⽬）对象被重新分配给不同的聚类，没有（或最⼩数⽬）聚类中⼼再发⽣变化，误差平⽅和局部最⼩。

3. 算法实现步骤1、⾸先确定⼀个k值，即我们希望将数据集经过聚类得到k个集合。

2、从数据集中随机选择k个数据点作为质⼼。

3、对数据集中每⼀个点，计算其与每⼀个质⼼的距离（如欧式距离），离哪个质⼼近，就划分到那个质⼼所属的集合。

4、把所有数据归好集合后，⼀共有k个集合。

然后重新计算每个集合的质⼼。

5、如果新计算出来的质⼼和原来的质⼼之间的距离⼩于某⼀个设置的阈值（表⽰重新计算的质⼼的位置变化不⼤，趋于稳定，或者说收敛），我们可以认为聚类已经达到期望的结果，算法终⽌。

6、如果新质⼼和原质⼼距离变化很⼤，需要迭代3~5步骤。

4. 算法步骤图解上图a表达了初始的数据集，假设k=2。

在图b中，我们随机选择了两个k类所对应的类别质⼼，即图中的红⾊质⼼和蓝⾊质⼼，然后分别求样本中所有点到这两个质⼼的距离，并标记每个样本的类别为和该样本距离最⼩的质⼼的类别，如图c所⽰，经过计算样本和红⾊质⼼和蓝⾊质⼼的距离，我们得到了所有样本点的第⼀轮迭代后的类别。

此时我们对我们当前标记为红⾊和蓝⾊的点分别求其新的质⼼，如图d所⽰，新的红⾊质⼼和蓝⾊质⼼的位置已经发⽣了变动。

k-means聚类算法研究及应用

k-means聚类算法研究及应用
K-means聚类算法研究及应用
一、简介
K-means聚类算法是一种非监督学习算法，它是一种广泛应用在模式分类和无监督式学习的数据挖掘技术。

它使用了基于距离的聚类算法，以相似性作为衡量子簇类别的标准，任务是将样本(属性)空间中的数据分为K个不同的类，使聚类的误差平方和最小化：通常假设样本由簇中心所处的子空间所构建，每个子空间由一个簇中心控制，因此K-means算法常常被形象地称为“均值聚类”算法。

二、原理
K-means聚类算法是一种迭代算法，它的基本思想是：首先，随机选取若干个“簇中心”，然后将其他的数据点根据其与“簇中心”的距离，归到最近的“簇中心”所代表的簇中。

然后根据新聚集的簇，重新更新这些“簇中心”；如此不断迭代，最终计算得到一组稳定的“簇中心”，这组“簇中心”所代表的簇就是最后的结果了。

三、应用
1、生物信息学：K-means聚类算法用于基因芯片和定量PCR，以及蛋白质表达数据。

2、计算机视觉：K-means用于图像分割,聚类，像素重新分配等。

3、自然语言处理：K-means用于文本聚类，文档分类，文本挖掘等方面。

4、机器学习：K-means用于各种拟合问题，比如参数估计，探索异常
值等等。

四、总结
K-means聚类算法是一种简单高效的聚类算法，它可以有效地将数据空间分割成几个簇，属于非监督学习算法，它的核心在于划分数据空间，对数据的模式分类和无监督式学习有较好的应用，如生物信息学、计
算机视觉、自然语言处理、机器学习等领域。

常用聚类算法

常用聚类算法在数据挖掘、机器学习以及计算机视觉中，聚类分析是一种非常重要的机器学习技术，又被称作簇分析、集群分析或族群分析。

它的基本思想是将数据按其相似性分成若干个子集，以便我们更好的理解、探索数据。

目前主流的聚类算法有K-means、DBSCAN、层次聚类算法、谱聚类算法等等。

1、K-means聚类算法K-means聚类算法是最常用的无监督学习算法，它的基本思想是首先随机选择K个中心点，然后将每一个数据点都分到最接近它的中心点；接着重新计算每个簇的中心；最后重复这个过程直到所有数据点都收敛到设定的中心点，从而实现聚类。

K-means聚类算法的缺点是无法解决成簇的点的不同密度的情况，并且容易受到初始值的影响。

2、DBSCAN聚类算法DBSCAN（密度聚类域算法）是一种无监督学习算法，它通过构建指定半径E和指定最小点数MinPts之间的邻域来构建密度聚类，它能够发现任意形状的聚类，因而比K-means聚类算法更具有普适性。

它最大的优点是可以发现任意形状的聚类；最大的缺点是需要较大的计算量，运算时间可能比较长。

3、层次聚类算法层次聚类（Hierarchical Clustering）是一种以树状图的形式来表示聚类的算法。

它以数据点的距离（欧氏距离或余弦距离）为基础，将距离最近的点合并成一个簇，依次迭代，直到聚类完成。

层次聚类算法不需要设置K值，具有简单易懂的解释性，并且可以产生不同类型的层次聚类树，可以很好地反应数据的结构，但是它的时间复杂度比较高，有一定的性能问题。

4、谱聚类算法谱聚类算法（Spectral Clustering）是一种基于图的聚类算法，它将样本数据表示为图的节点，并用图的特征矩阵的特征向量来提取聚类的簇。

谱聚类算法可以处理任意形状的簇，并且可以有效地避免局部最小值问题，但它受到输入数据大小的约束，并且如果聚类数据存在噪声和重叠簇的情况下，它的表现不佳。

总结而言，K-means、DBSCAN、层次聚类算法、谱聚类算法等算法是聚类分析的常见算法，它们在数据挖掘、机器学习和计算机视觉等多领域有着重要的应用价值。

第12.1章 k-Means聚类算法【本科研究生通用机器学习课程精品PPT系列】

（1）K-means 算法在散货船代货运系统中的应用（2）K-Means 算法在客户细分中的应用
4 小结本章详细地介绍了K-means算法的基本概念、基本原理,并介绍了该算法的
特点和存在的缺陷,最后介绍了K-means算法的应用,从中可以看出K-means算法的应用非常广泛。
k-均值算法 (k-Means)
其中p表示簇中的点，X是簇内点的集合，distance(p, centroid)即点p到簇质心的距离
聚类结果的SSE即各个簇的SSE之和，其值越小表示聚类质量越好
主要内容
K-Means聚类算法 k-均值算法的改进 K-中心点聚类算法
考虑改对如进下学1生: 兴归趣数一据进化行聚类
学生编号喜欢吃零食喜欢看韩剧
A
8
B
7
C
8
D
8
E
0
F
0
G
1
H
2
喜欢打篮球喜欢玩游戏工资
8
0
0 5000
8
0
1 5100
7
0
1 5080
8
1
0 5030
0
10
8 5010
2
9
8 5090
2
9
9 5020
1
8
9 5040
结果被“工资”主导了！
改进1: 归一化
为什么结果被“工资”主导了？
解决方案: 归一化
例如x2,y2的差值很大，而x1,y1等差异很小，则计算得到的欧氏距离几乎
图: 4个簇及其质心
k-均值算法 (k-Means)
指定 k = 3 (即要将数据点分成3组)
1. 随机挑选3个点作为初始簇质心(centroid)

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

K-means聚类算法基本思想
聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

K-means 也是聚类算法中最简单的一种。

以星团划分为例，，首先随机选取k个宇宙中的点（或者k个星星）作为k个星团的
质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然后选取距离最近的那个星团作为，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心（对里面所有的星星坐标求平均）。

重复迭代第一步和第二步直到质心不变或者变化很小。

K-means也是聚类算法中最简单的一种了，但是里面包含的思想却是不一般。

最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中，那本书比较注重应用。

看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM 思想。

文档来自于网络搜索
聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。

而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。

聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。

比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。

文档来自于网络搜索
在聚类问题中，给我们的训练样本是，每个，没有了y。

K-means算法是将样本聚类成k个簇（cluster），具体算法描述如下：
1、随机选取k个聚类质心点（cluster centroids）为。

2、重复下面过程直到收敛{
对于每一个样例i，计算其应该属于的类
对于每一个类j，重新计算该类的质心
}
K是我们事先给定的聚类数，代表样例i与k个类中距离最近的那个类，的值是1到k中的一个。

质心代表我们对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的星星聚成k个星团，首先随机选取k个宇宙中的点（或者k个星星）作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然
后选取距离最近的那个星团作为，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计
算它的质心（对里面所有的星星坐标求平均）。

重复迭代第一步和第二步直到质心不变或者变化很小。

文档来自于网络搜索
下图展示了对n个样本点进行K-means聚类的效果，这里k取2。

K-means面对的第一个问题是如何保证收敛，前面的算法中强调结束条件就是收敛，可以证明的是K-means完全可以保证收敛性。

下面我们定性的描述一下收敛性，我们定义畸变函数（distortion function）如下：文档来自于网络搜索
J函数表示每个样本点到其质心的距离平方和。

K-means是要将J调整到最小。

假设当前J没有达到最小值，那么首先可以固定每个类的质心，调整每个样例的所属的类别来让J函数减少，同样，固定，调整每个类的质心
也可以使J减小。

这两个过程就是内循环中使J单调递减的过程。

当J递减到最小时，和c也同时收敛。

（在理论上，可以有多组不同的和c值能够使得J取得最小值，但这种现象实际上很少见）。

文档来自于网络搜索
由于畸变函数J是非凸函数，意味着我们不能保证取得的最小值是全局最小值，也就是说k-means对质心初始位置的选取比较感冒，但一般情况下k-means达到的局部最优已经满足需求。

但如果你怕陷入局部最优，那么可以选取
不同的初始值跑多遍k-means，然后取其中最小的J对应的和c输出。

文档来自于网络搜索
下面累述一下K-means与EM的关系，首先回到初始问题，我们目的是将样本分成k个类，其实说白了就是求每个样例x的隐含类别y，然后利用隐含类别将x归类。

由于我们事先不知道类别y，那么我们首先可以对每个样例假定一个y吧，但是怎么知道假定的对不对呢？怎么评价假定的好不好呢？我们使用样本的极大似然估计来度量，这里是就是x和y的联合分布P(x,y)了。

如果找到的y能够使P(x,y)最大，那么我们找到的y就是样例x的最佳类别了，x顺手就聚类了。

但是我们第一次指定的y不一定会让P(x,y)最大，而且P(x,y)还依赖于其他未知参数，当然在给定y的情况下，我们可以调整其他参数让P(x,y)最大。

但是调整完参数后，我们发现有更好的y可以指定，那么我们重新指定y，然后再计算P(x,y)最大时的参数，反复迭代直至没有更好的y可以指定。

文档来自于网络搜索这个过程有几个难点，第一怎么假定y？是每个样例硬指派一个y还是不同的y有不同的概率，概率如何度量。

第二如何估计P(x,y)，P(x,y)还可能依赖很多其他参数，如何调整里面的参数让P(x,y)最大。

这些问题在以后的篇章里回答。

文档来自于网络搜索
这里只是指出EM的思想，E步就是估计隐含类别y的期望值，M步调整其他参数使得在给定类别y的情况下，极大似然估计P(x,y)能够达到极大值。

然后在其他参数确定的情况下，重新估计y，周而复始，直至收敛。

文档来自于网络搜索
上面的阐述有点费解，对应于K-means来说就是我们一开始不知道每个样例对应隐含变量也就是最佳类别。

最开始可以随便指定一个给它，然后为了让P(x,y)最大（这里是要让J最小），我们求出在给定c情况下，J 最小时的（前面提到的其他未知参数），然而此时发现，可以有更好的（质心与样例距离最小的类别）指定给样例，那么得到重新调整，上述过程就开始重复了，直到没有更好的指定。

这样从K-means里我们可以看出它其实就是EM的体现，E步是确定隐含类别变量，M步更新其他参数来使J最小化。

这里的隐含类别变量指定
方法比较特殊，属于硬指定，从k个类别中硬选出一个给样例，而不是对每个类别赋予不同的概率。

总体思想还是一个迭代优化过程，有目标函数，也有参数变量，只是多了个隐含变量，确定其他参数估计隐含变量，再确定隐含变量估计其他参数，直至目标函数最优。

文档来自于网络搜索。