AP聚类算法

合集下载

基于密度敏感距离的多级近邻传播聚类算法

ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｔｏｃｌｕｓｔｅｒｏｎｔｈｅｐｒｅｌｉｍｉｎａｒｙｃｌｕｓｔｅｒｉｎｇｄａｔａｓｅｔｓ，ｔｈｅａｐｐｒｏｐｒｉａｔｅｃｌｕｓｔｅｒｎｕｍｂｅｒｉｓｏｂ — ｔａｉｎｅｄ．Ｔｈｅｒｅｓｕｌｔｓｏｆｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｉｎｐｒｏｃｅｓｓｉｎｇｌａｒｇｅ－ｓｃａｌｅｄａｎｄｃｏｍｐｌｅｘｄａｔａｓｅｔｓｏｕｔｐｅｒｆｏｒｍｓｉｓｂｅｔｔｅｒｔｈａｎｔｈｅｏｒｉｇｉｎａ１ＡＰａｌｇｏｒｉｔｈｍｉｎｔｅｒｍｓｏｆｓｐｅｅｄａｎｄｅｆｆｅｃｔｓ．
Ｄｉｓｔａｎｃｅ（ＭＡＰ－ＤＳＤ）ｉｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｌｙ，ｂｙｕｓｉｎｇｔｈｅｏｒｉｇｉｎａｌｄａｔａｓｅｔｓ，ａｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｐａｒｓｅｇｒａｐｈ
ｉｓｃｏｎｓｔｒｕｃｔｅｄ，ａｎｄａｐｐｌｙｉｎｇＡＰｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ｗｈｉｃｈｌｅｔＬｏｃａｌ — ｌｅｎｇｔｈａｓｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅ，ｐｒｅ —

机器学习：Python实现聚类算法（二）之AP算法

机器学习：Python实现聚类算法（⼆）之AP算法1.算法简介AP(Affinity Propagation)通常被翻译为近邻传播算法或者亲和⼒传播算法，是在2007年的Science杂志上提出的⼀种新的聚类算法。

AP 算法的基本思想是将全部数据点都当作潜在的聚类中⼼(称之为exemplar)，然后数据点两两之间连线构成⼀个⽹络(相似度矩阵)，再通过⽹络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中⼼。

2.相关概念(假如有数据点i和数据点j)（图1）（图2）（图3）1）相似度：点j作为点i的聚类中⼼的能⼒，记为S(i,j)。

⼀般使⽤负的欧式距离，所以S(i,j)越⼤，表⽰两个点距离越近，相似度也就越⾼。

使⽤负的欧式距离，相似度是对称的，如果采⽤其他算法，相似度可能就不是对称的。

2）相似度矩阵：N个点之间两两计算相似度，这些相似度就组成了相似度矩阵。

如图1所⽰的黄⾊区域，就是⼀个5*5的相似度矩阵(N=5) 3) preference：指点i作为聚类中⼼的参考度(不能为0)，取值为S对⾓线的值(图1红⾊标注部分)，此值越⼤，最为聚类中⼼的可能性就越⼤。

但是对⾓线的值为0，所以需要重新设置对⾓线的值，既可以根据实际情况设置不同的值，也可以设置成同⼀值。

⼀般设置为S相似度值的中值。

(有的说设置成S的最⼩值产⽣的聚类最少，但是在下⾯的算法中设置成中值产⽣的聚类是最少的)4）Responsibility(吸引度):指点k适合作为数据点i的聚类中⼼的程度，记为r(i,k)。

如图2红⾊箭头所⽰，表⽰点i给点k发送信息，是⼀个点i 选点k的过程。

5）Availability(归属度):指点i选择点k作为其聚类中⼼的适合程度，记为a(i,k)。

如图3红⾊箭头所⽰，表⽰点k给点i发送信息，是⼀个点k 选diani的过程。

6）exemplar：指的是聚类中⼼。

7）r (i, k)加a (i, k)越⼤,则k点作为聚类中⼼的可能性就越⼤,并且i点⾪属于以k点为聚类中⼼的聚类的可能性也越⼤3.数学公式1）吸引度迭代公式:（公式⼀）说明1：R t+1(i,k)表⽰新的R(i,k)，R t(i,k)表⽰旧的R(i,k)，也许这样说更容易理解。

仿射聚类算法研究及应用

150ACADEMIC RESEARCH 学术研究摘要：仿射传播聚类算法以相似度矩阵作为输入矩阵，迭代过程中用全局函数定义类中心，数据点交替更新最终达到较好的聚类效果，论文给出该算法实施的具体步骤和仿真结果验证聚类效果。

关键词：仿射聚类；吸引度；归属度；偏向参数一、算法原理2007年，Frey 等提出了仿射聚类算法（Affinity Propagation）。

该算法将所有数据点视为聚类网络图的节点,通过节点之间的信息传递，建立数据间的依存关系。

该算法输入值为相似矩阵，借助数据点之间的传递和竞争找到合适的类中心，原始数据的影响相对较小，聚类效果比较稳定。

通常选取欧式距离作为相似度的度量方式，即：22(,)nm n m S n m d x x =−=−− （1）不同的数据点之间构成不同的相似度，这些不同的相似度构成相似矩阵，记为(,)S n m 。

相似矩阵对角线上的数值(,)S k k ，称为偏向参数（Preference），(,)S k k 值的大小，决定被选为类代表点的可能性大小[1]。

其中，影响聚类的个数的参数称为偏向参数（reference），记为P。

其值决定不同的聚类结果，一般地，P 的值取的中值或者最小值[2]。

吸引度（Responsibility）和归属度（Availability）是AP 聚类的重要信息，每个信息反映不同代表点的竞争方式，通过不断搜索两个不同信息，找出适合的类中心。

对于任意一个样本点，在任何迭代更新阶段，吸引度和归属度共同决定作为类代表点的样本和哪些样本点归属此代表点[3]，AP 聚类就是吸引度和归属度交替更新的过程，公式为:(.)(,)max((,)(,))k kr i k S i k a i k s i k ′≠′′=−+ （2）}(,)min 0,(,)max(0,(,)),(.)max(0,(,)),i i k i kr k k r i k i ka i k r i k i k ′∉′≠′+≠ =′= ∑∑（3）其中，用(,)r i k 表示样本数据点i 向样本数据点k 传递归属度信息，体现数据点k 作为点i 的聚类中心的积累凭证。

AP算法

在统计和数据挖掘中，亲和传播（AP ）是基于数据点之间“消息传递”概念的聚类算法。

与诸如k-means 或k-medoids 的聚类算法不同，亲和传播不需要在运行算法之前确定或估计聚类的数量。

类似于k-medoids ，亲和力传播算法发现“样本”，输入集合的成员，输出聚类结果。

一算法描述2.1基本介绍我们让(x 1,…x n )作为一系列的数据点，然后用矩阵S 代表各个数据点之间的相似度，一般相似度的判断有欧氏距离，马氏距离，汉明距离。

如果S （i,k ）>S(i,j)则表示i 到k 的距离比i 到j 的距离近。

其中S(k,k)表示节点k 作为k 的聚类中心的合适程度，可以理解为，节点k 成为聚类中心合适度，在最开始时，这个值是初始化的时候使用者给定的值，会影响到最后聚类的数量。

这个算法通过迭代两个消息传递步骤来进行，以更新下面两个矩阵：代表(Responsibility)矩阵R ：r(i,k)表示第k 个样本适合作为第i 个样本的类代表点的代表程度。

说白了K 为男人，i 为女人，代表矩阵R 表示，这个男人成为i 这个女人老公的适合程度。

适选(Availabilities)矩阵A=[a(i,k)]N×N ：a(i,k)表示第i 个样本选择第k 个样本作为类代表样本的适合程度，同理表示i 选择K 作为自己老公的可能性。

当然，这个社会是相对于封建社会有点进步的，比如也会征求女方的意见，但是又有一定弊端，这个男人K 可以三妻四妾。

所以K 这个聚类中心，周围可以有许多样本i 。

所以有的人叫R 矩阵为吸引度矩阵，矩阵A 为归属度矩阵也是不无道理的。

2.2 算法的迭代公式对于代表矩阵r ：假设现在有一个聚类中心K ，我们找到另外一个假想的聚类中心k ’，重新定义K ’的代表矩阵和适合矩阵：(,')(,')s i k a i k ，找出这两个值相加最大的那一个，在用我们的(,)s i k 减去这个最大的，就表示这个K 的聚类中心对i 这个样本的吸引程度。

基于AP聚类算法的联邦学习聚合算法

基于AP聚类算法的联邦学习聚合算法
敖博超;范冰冰
【期刊名称】《计算机与现代化》
【年(卷),期】2024()4
【摘要】在传统的联邦学习中,多个客户端的本地模型由其隐私数据独立训练,中心服务器通过聚合本地模型生成共享的全局模型。

然而,由于非独立同分布(Non-IID)数据等统计异质性,一个全局模型往往无法适应每个客户端。

为了解决这个问题,本文提出一种针对Non-IID数据的基于AP聚类算法的联邦学习聚合算法(APFL)。

在APFL中,服务器会根据客户端的数据特征,计算出每个客户端之间的相似度矩阵,再利用AP聚类算法对客户端划分不同的集群,构建多中心框架,为每个客户端计算出适合的个性化模型权重。

将本文算法在FMINST数据集和CIFAR10数据集上进行实验,与传统联邦学习FedAvg相比,APFL在FMNIST数据集上提升了1.88个百分点,在CIFAR10数据集上提升了6.08个百分点。

实验结果表明,本文所提出的APFL在Non-IID数据上可以提高联邦学习的精度性能。

【总页数】7页(P5-11)
【作者】敖博超;范冰冰
【作者单位】华南师范大学计算机学院
【正文语种】中文
【中图分类】TP309
【相关文献】
1.一种AP算法的改进:M-AP聚类算法
2.基于改进AP聚类算法的自学习应用层DDoS检测方法
3.基于联邦学习的船舶AIS轨迹谱聚类算法研究
4.联盟链下基于联邦学习聚合算法的入侵检测机制优化研究
5.横向联邦学习中差分隐私聚类算法
因版权原因，仅展示原文概要，查看原文内容请购买。

基于改进LSD和AP聚类的路径边缘识别策略

基于改进LSD和AP聚类的路径边缘识别策略刘璧钺; 赵章焰【期刊名称】《《图学学报》》【年(卷),期】2019(040)005【总页数】10页(P915-924)【关键词】边缘识别; 过颜色算子; LSD; SVM; 特征提取; AP聚类【作者】刘璧钺; 赵章焰【作者单位】武汉理工大学物流工程学院湖北武汉 430063【正文语种】中文【中图分类】TP391目前，国内外对起重机的检测主要依靠人力攀爬完成，风险大、效率低。

因此，开发应用于大型起重机械的攀爬机器人，可降低对起重机保养、维护、检测的风险，提高工作效率。

大型起重机的金属结构总体尺寸大，颜色单一，如图1所示。

攀爬机器人的路径识别对象主要是起重机金属结构等结构化路径。

目前常见的结构化路径识别研究包括公路车道线识别[1]、变电站巡检机器人导引路径识别[2]、AGV小车导引路径识别[3-4]、智能汽车赛道识别[5]等。

上述结构化路径具有显著特点：背景颜色单一，路径处于二维平面内，环境干扰较少，路径表面缺陷较少，路径颜色和地面背景颜色差别较大，故其边缘更易于识别。

相较于上述常见的位于二维平面上的结构化路径，金属结构路径处于三维空间中，环境与背景更为复杂多变，路径表面缺陷更多，导致路径图像中的干扰直线段更多，路径边缘提取更为困难。

结合起重机金属结构路径的特点，本文提出一种基于改进线段分割检测(line segment detector, LSD)算法和近邻传播(affinity propagation, AP)聚类算法的路径边缘识别策略。

整体流程如图2所示。

LSD算法的目标在于检测图像中局部、平直的轮廓，对于被遮挡或局部模糊的路径边缘线，经常会被割裂为多条短直线。

因此，需从LSD算法检测得到的所有直线段中，剔除干扰直线段，筛选出构成路径边缘的直线段。

本文基于支持向量机(support vector machine, SVM)最优分类线的方法确定梯度阈值，并增设梯度阈值和主方向角约束，改进LSD算法，降低检测出的干扰直线段数量。

基于AP算法支持向量机的设计与应用

钟毅，桂霞，郑刘明，沈威，赖丽娜，春光周
（吉林大学计算机科学与技术学院，长春１０１）３０２
摘要：计一种基于Ａ设Ｐ聚类算法和ＳＭ分类器相融合的新的混合分类器，使用ＡＶＰ聚类算
Ａｓｒｃ：ｈｕｈｒｐｏｏｅｅｘｄｃｓｉｅｈｃｓａｅｎａｉｉｒｐｇｔｎＡ）ｃｕｔｉｇｂｔｔＴｅａｔｏｓｒｐｓｄａｎｗｍｉｌｓｒｉｈｉｂｓｄｏｆｎｔｐｏａａｏ（Ｐｌｓｒａｅａｆｗｉｆｙｉｅｎ
ｐｏｌｍｆｓｐｏｅｔｒｍａｈｉｌｓｉｃｔｏｎｃｕｒｃｒｂｅｏｕｐｒｖｃｏｃｎｅｃａｓｆａｉｎｉａｃａｙ．Ｅｘｅｉｅｔｌｒｓｌｓｓｗｈｔｔｅｍｉｅｄｌｔｉｐｒｍｎａｅｕｔｈｏｔａｈｘｄｍｏｅ
法优化数据集，得到了高质量、小样本的ＳＶＭ分类器训练集．实验结果表明：与传统的Ｓ有更高的分类精度；在心脏病预测上，分类器的效果较好．该
关键词：支持向量机；Ｐ聚类算法；混合分类器；心脏病预测Ａ
第４９卷
第５期
吉林大学学报（理学版）
ＪｕｎｌｏｉｎＵｎｖｒｉＳｉｎｅＥｉｏｏｒａｆｌｉｅｓｙ（ｃｅｃｄｔｎ）Ｊｉｔｉ
Ｖｏ１４ＮＯ．．９５
２１０１年９月

仿射传播AP

仿射传播AP(affinity propagation)是Frey 于2007年在Science 上首次提出的一种聚类算法，算法快速、有效，已经在人脸图像的聚类、“基因外显子”发现、搜索最优航线等方面得到了应用。

它可以找到样本集合中具有代表性的范例样本，并对原始数据集加以分割。

仿射传播算法的输入是成对样本点之间的测度(,)s n m ，定义为：2(,).n m s n m V C =--‖‖ 原始样本集中的所有数据点都可能是潜在的范例样本，因而所有的(,)s m m 初始化时都是相同的。

在聚类的过程中，有两个变量，吸引度(,)r n m 和归属度(,)a n m ，需要通过竞争机制加以更新。

更新规则为：..(,)(,)max {(,)(,)}m s t m mr n m s n m a n m s n m ''≠''=-+..(,)(,)max {(,)(,)}m s t m mr m m s m m a m m s m m ''≠''=-+ ..,(,)min{0,(,)max{0,(,)}}n s t n n m a n m r m m r n m ''≠'=+∑..(,)max{0,(,)}n s t n m a m m r n m ''≠'=∑通过以上更新规则，样本点之间进行信息的互换，最终使得所选择的能量函数达到极小。

仿射传播算法也可以通过设置固定的迭代次数或者是局部的变化程度加以终止。

仿射传播算祛与K 均值算法同属于K 中心聚类方法。

经典的K 均值算法对初始聚类中心的选择敏感且容易陷入局部极值，因此，需要在不同初始化下运行很多次，以寻找一个最好的聚类结果。

然而，这种策略也只有在小的类数和某次初始化靠近好的结果时才有效果。

AP 算法则克服了这些缺点，其迭代过程不断搜索合适的聚类中心，同时也使得聚类的适应度函数(目标函数)最大化。

ap聚类算法原理

ap聚类算法原理Ap聚类算法原理Ap聚类算法（Affinity Propagation Clustering Algorithm）是一种基于消息传递的聚类算法，它是由Brendan J. Frey和Delbert Dueck于2007年提出的。

该算法通过自适应性地选择样本点作为聚类中心，并利用消息传递的方式更新样本点之间的相似度矩阵，从而实现聚类的目的。

Ap聚类算法的基本原理是通过样本点之间的相似度来构建网络图，然后利用消息传递的方式在网络图上进行迭代更新，最终确定每个样本点的聚类归属。

具体而言，Ap聚类算法包含以下几个关键步骤：1. 相似度计算：首先，需要计算每对样本点之间的相似度。

相似度的计算可以根据具体问题采用不同的度量方法，如欧氏距离、余弦相似度等。

通过计算相似度矩阵，可以得到样本点之间的相似度关系。

2. 网络图构建：基于相似度矩阵，构建一个带权重的网络图。

在网络图中，每个样本点表示一个节点，相似度表示节点之间的边的权重。

网络图的构建过程中，需要选择一个合适的参数damping，用于控制节点之间消息的传递强度。

3. 消息传递：在网络图上进行消息传递的迭代过程。

首先，每个节点向其他节点发送一个“责任”消息，表示该节点希望成为其他节点的聚类中心。

然后，每个节点根据接收到的“责任”消息和自身的相似度，更新自己的“可用性”值，表示该节点作为聚类中心的适合程度。

接着，每个节点根据接收到的“可用性”值和自身的相似度，更新自己的“归属度”值，表示该节点作为某个聚类中心的合适程度。

最后，每个节点根据接收到的“归属度”值和自身的相似度，更新自己的“偏好度”值，表示该节点作为聚类中心的优先级。

4. 聚类结果确定：经过多轮的消息传递迭代后，每个节点的“偏好度”值会趋于稳定。

根据节点的“偏好度”值和相似度矩阵，可以确定每个样本点的聚类归属。

具体而言，对于每个节点，选择与其“归属度”最大的节点作为其聚类中心，从而确定每个样本点的聚类归属。

AP聚类算法的分析与应用

郭秀娟陈莹
（１：吉林建筑大学计算机科学与工程学院，长春２：吉林建筑大学电气与电子信息工程学院，长春１３０１１８；１３０１１８）
摘要：Ａｉｎｆｉｔｙｐｒｏｐａｇａｔｉｏｎ（ＡＰ）聚类算法是通过消息传递实现聚类的，不需要事先指定聚类数目．对于规模较大的数
２：ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｉｎｇ，ＪｉｌｉｎＪｉａｎｚｈｕＵｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｃｈｕｎ，Ｃｈｉｎａ１３０１１８１
ｔｅｒａｎｄｉｔｄｏｅｓｎｏｔｎｅｅｄｔｏｓｐｅｃｉｆｙｃｌｕｓｔｅｉｎｒｇｎｕｍｂｅｒｂｅｆｏｒｅｈａｎｄ．ＴｈｅＡＰｃｌｕｓｔｅｒｉｎｇｉｓａｒａｐｉｄａｎｄｅｆｆｅｃｔｉｖｅｃｌｕｓｔｅ — ｒｉｎｇｍｅｔｈｏｄｗｈｉｃｈｉｓｓｕｐｅｉｏｒｒｔｏｏｔｈｅｒｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓ，ｓｕｃｈａｓＫ —ｃｅｎｔｅｒｓ．ＡＰｐｒｉｎｃｉｐｌｅａｎｄｓｔｅｐｓｏｆｔｈｅａｌｇｏｒｉｔｈｍｗａｓｓｔｕｄｉｅｄｔｈｒｏｕｇｈｔｈｅｅｘｐｅｒｉｍｅｎｔ，ｗｈｉｃｈｐｒｏｖｅｄｔｈｅｐｒａｃｔｉｃａｂｉｌｉｔｙａｎｄｖａｌｉｄｉｔｙｏｆＡＰｃｌｕｓｔｅｉｎｒｇａｌｇｏ —

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

AP聚类算法1.分类与聚类1.1 分类算法简介分类(classification )是找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。

在分类算法中输入的数据，或称训练集（Training Set），是一条条的数据库记录（Record）组成的。

每一条记录包含若干条属性（Attribute），组成一个特征向量。

训练集的每条记录还有一个特定的类标签（Class Label）与之对应。

该类标签是系统的输入，通常是以往的一些经验数据。

一个具体样本的形式可为样本向量:(v1, v2, ... , vn; c)。

在这里vi表示字段值,c表示类别。

分类的目的是：分析输入的数据，通过--在训练集中的数据表现出来的特性，为每一个类找到一种准确的描述或者模型。

这种描述常常用谓词表示。

由此生成的类描述用来对未来的测试数据进行分类。

尽管这些未来的测试数据的类标签是未知的，我们仍可以由此预测这些新数据所属的类。

注意是预测，而不能肯定。

我们也可以由此对数据中的每一个类有更好的理解。

也就是说：我们获得了对这个类的知识。

下面对分类流程作个简要描述：训练：训练集——>特征选取——>训练——>分类器分类：新样本——>特征选取——>分类——>判决常见的分类算法有：决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。

1.2 聚类算法简介聚类(clustering)是指根据“物以类聚”的原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。

与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。

它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。

聚类分析的算法可以分为：划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（Model-Based Methods）。

经典的K-means和K-centers都是划分法。

分类与聚类的区别聚类分析也称无监督学习或无指导学习，聚类的样本没有标记，需要由聚类学习算法来自动确定; 在分类中，对于目标数据库中存在哪些类是知道的，要做的就是将每一条记录分别属于哪一类标记出来。

聚类学习是观察式学习，而不是示例式学习。

可以说聚类分析可以作为分类分析的一个预处理步骤。

2.K-MEANS算法k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较低。

簇的相似度是关于簇中对象的均值度量，可以看作簇的质心(centriod)或重心(center of gravity)。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数.，其定义如下：∑∑=∈-=E ki C p i i m p 12|| （1）其中，E 是数据集中所有对象的平方误差和，p 是空间中的点，表示给定对象，i m 是簇i C 的均值（p 和i m 都是多维的）。

换句话说，对于每个簇中的每个对象，求对象到其簇中心距离的平方，然后求和。

这个准则试图使生成的k 个结果簇尽可能的紧凑和独立。

例1:我们在二维空间中随机的生成20个数据点，将聚类数目指定为5个，并随机生成一个聚类中心(用“×”来标注)，根据对象与簇中心的距离，每个对象分成于最近的簇。

初始示例图如下：***图1.随机生成的数据点及初始聚类中心示例图下一步，更新簇中心。

也就是说，根据簇中的当前对象，重新计算每个簇的均值。

使用这些新的簇中心，将对象重新分成到簇中心最近的簇中。

不断迭代上面的过程，直到簇中对象的重新分布不再发生，处理结束。

最终的聚类结果示例图如下：图2. 最终聚类结果示例图从上图中我们可以看到，最终的聚类结果受初始聚类中心的影响很大，而且最后的簇质心点不一定是在数据点上。

K均值算法试图确定最小化平方误差的k个划分。

当结果簇是紧凑的，并且簇与簇之间明显分离时，它的效果较好。

对处理大数据集，该算法是相对可伸缩的和有效率的，因为它的计算复杂度是O（nkt），其中n是对象的总数，k是簇的个数，t 是迭代的次数。

通常地，k<<n并且t<<n。

该方法经常终止于局部最优解。

然而，只有当簇均值有定义的情况下k均值方法才能使用。

在某些应用中，例如当涉及具有分类属性的数据时，均值可能无定义。

用户必须事先给出要生成的簇的数目k可以算是该方法的缺点。

K均值方法不适合于发现非凸形状的簇，或者大小差别很大的簇。

此外，它对于噪声和离群点数据是敏感的，因为少量的这类数据能够对均值产生极大的影响。

3.AP算法Affinity Propagation (AP) 聚类是最近在Science杂志上提出的一种新的聚类算法。

它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个数据点互相之间的相似度不等。

这些相似度组成N×N的相似度矩阵S(其中N为有N个数据点)。

AP算法不需要事先指定聚类数目,相反它将所有的数据点都作为潜在的聚类中心,称之为exemplar。

以S矩阵的对角线上的数值s (k, k)作为k点能否成为聚类中心的评判标准,这意味着该值越大,这个点成为聚类.中心的可能性也就越大,这个值又称作参考度p ( preference) 。

聚类的数量受到参考度p 的影响,如果认为每个数据点都有可能作为聚类中心,那么p就应取相同的值。

如果取输入的相似度的均值作为p的值,得到聚类数量是中等的。

如果取最小值,得到类数较少的聚类。

AP算法中传递两种类型的消息, (responsiility)和(availability)。

r(i,k)表示从点i发送到候选聚类中心k的数值消息,反映k点是否适合作为i点的聚类中心。

a(i,k)则从候选聚类中心k发送到i的数值消息,反映i点是否选择k作为其聚类中心。

r (i, k)与a (i, k)越强,则k点作为聚类中心的可能性就越大,并且i点隶属于以k点为聚类中心的聚类的可能性也越大。

AP算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的exemplar,同时将其余的数据点分配到相应的聚类中。

在这里介绍几个文中常出现的名词：exemplar ：指的是聚类中心。

similarity ：数据点i 和点j 的相似度记为S (i ，j)。

是指点j 作为点i 的聚类中心的相似度。

一般使用欧氏距离来计算，如－|| 22)()(j i j i y y x x -+-||。

文中，所有点与点的相似度值全部取为负值。

因为我们可以看到，相似度值越大说明点与点的距离越近，便于后面的比较计算。

preference ：数据点i 的参考度称为P(i)或S(i,i)。

是指点i 作为聚类中心的参考度。

一般取S 相似度值的中值。

Responsibility:R(i,k)用来描述点k 适合作为数据点i 的聚类中心的程度。

Availability:A(i,k)用来描述点i 选择点k 作为其聚类中心的适合程度。

两者的关系如下图：图3. 数据点之间传递消息示意图下面是R 与A 的计算公式：R(i,k)=S(i,k)-max{A(i,j)+S(i,j)}(j ∈{1,2,……,N,但j ≠k}) (2) A(i,k)=min{0,R(k,k)+∑jk j R ))}},(,0{max( (j ∈{1,2,……,N,但j ≠i 且j≠k}) (3)R(k,k)=P(k)-max{A(k,j)+S(k,j)} (j ∈{1,2,……,N,但j ≠k}) (4) 由上面的公式可以看出，当P(k)较大使得R(k, k)较大时, A(i, k) 也较大, 从而类代表k 作为最终聚类中心的可能性较大; 同样, 当越多的P(i)较大时, 越多的类代表倾向于成为最终的聚类中心。

因此, 增大或减小P 可以增加或减少AP 输出的聚类数目。

Damping factor(阻尼系数):主要是起收敛作用的。

文中讲述，每次迭代，吸引度i R 和归属度i A 要与上一次的1-i R 和1-i A 进行加权更新。

公式如下：i R ＝(1-lam) *i R +lam * 1-i R (5)i A =(1-lam) * i A +lam * 1-i A (6)其中，lam )1,5.0[∈。

AP 算法的具体工作过程如下：先计算N 个点之间的相似度值，将值放在S 矩阵中，再选取P 值(一般取S 的中值)。

设置一个最大迭代次数(文中设默认值为1000)，迭代过程开始后，计算每一次的R 值和A 值，根据R(k,k)+A(k,k)值来判断是否为聚类中心(文中指定当(R(k,k)+A(k,k))＞0时认为是一个聚类中心)，当迭代次数超过最大值( 即maxits 值)或者当聚类中心连续多少次迭代不发生改变( 即convits 值)时终止计算(文中设定连续50次迭代过程不发生改变是终止计算)。

例2：我们在二维空间中随机的生成20个数据点，将P 值设为S 矩阵的中值，将convits 值设置成20,maxits 值设置成1000，用AP 算法进行计算，最终聚类结果如下图：图4. AP 算法迭代过程示意图图5 最终聚类结果示意图在AP 算法中，迭代次数和聚类数目主要受到两个参数的影响。

其中，聚数数目主要受preference值（负值）的影响。

下面对同一组数据集(200个数据点)进行计算，取不同的preference值得到的聚类数目如下：Preference值聚类数目2) (Smedian16median(S) 112×median(S) 8表1.不同的preference得到的聚类数目比较由表1，我们可以看出，当preference越大时，得到的聚类数目越多。

当取不同的lam（阻尼系数）值时，迭代次数和迭代过程中数据的摆动都会有很大的不同，下面同样是对同一组数据集(200个数据点)进行计算，取有代表性的两个值（0.5和0.9）进行比较结果如下：图6 lam取0.9时的迭代示意图图 m取0.5时的迭代示意图从上面两个图对比中我们可以发现，当lam 值越小时，迭代次数会减少，但是迭代过程中net Similarity 值波动会很大，当要聚类的数据点比较大时，这样难于收敛。