实验三 K-均值聚类算法实验报告

合集下载

模式识别实验三

实验三K-Means聚类算法一、实验目的1)加深对非监督学习的理解和认识2)掌握动态聚类方法K-Means算法的设计方法二、实验环境1)具有相关编程软件的PC机三、实验原理1)非监督学习的理论基础2)动态聚类分析的思想和理论依据3)聚类算法的评价指标四、实验内容1)用FAMALE.TXT和MALE.TXT的数据作为样本集，实现K-Means聚类算法；2)调整特征、分类器等方面的一些因素，考察它们对分类器性能的影响，从而加深对所学内容的理解和感性认识。

五、实验步骤1)把FAMALE.TXT和MALE.TXT两个文件合并成一个数据集；2)同时采用身高和体重数据作为特征，设类别数为2，利用K-Means聚类方法对数据进行聚类;3)将聚类结果表示在二维平面上;4)尝试不同初始值对此数据集是否会造成不同的聚类结果;5)对1)中的数据利用K-Means聚类方法分别进行两类、三类、四类、五类聚类，画出聚类指标与类别数之间的关系曲线，探讨是否可以确定出合理的类别数目;6)利用test2.txt数据或者把test2.txt的数据与上述1中的数据合并在一起，重复上述实验，考察结果是否有变化，对观察到的现象进行分析，写出体会。

六、实验源代码clear all;fid=fopen('test1.txt','r');test1=fscanf(fid,'%f%f%c',[3,inf]);fclose(fid);f2=[0;0];f1=[0;0];N1=17;N2=18;for i=1:N1f1(1,1)=f1(1,1)+test1(1,i);f1(2,1)=f1(2,1)+test1(2,i);end;f1mean=f1/N1;for i=N1+1:35f2(1,1)=f2(1,1)+test1(1,i);f2(2,1)=f2(2,1)+test1(2,i);end;f2mean=f2/(35-N1);J1=0;J2=0;J=0;for i=1:N1J1=J1+(test1(1,i)-f1mean(1,1))*(test1(2,i)-f1mean(2,1));end;for i=N1+1:35J2=J2+(test1(1,i)-f2mean(1,1))*(test1(2,i)-f2mean(2,1));end;J=J1+J2;figure;detaJ=0;for k=1:35if(k<N1)detaJ=N2/(N2+1)*J2-N1/(N1-1)*J1;if(detaJ>0)plot(k,test1(1,k),'k+');end;if(detaJ<0)plot(k,test1(1,k),'r*');f1=f1-test1(1:2,k);f2=f2+test1(1:2,k);N1=N1-1;N2=35-N1+1;f1mean=f1/N1;f2mean=f2/N2;J1=0;J2=0;J=0;for i=1:N1J1=J1+(test1(1,i)-f1mean(1,1))*(test1(2,i)-f1mean(2,1))-(t est1(1,k)-f1mean(1,1))*(test1(2,k)-f1mean(2,1));end;for i=N1+1:35J2=J2+(test1(1,i)-f2mean(1,1))*(test1(2,i)-f2mean(2,1))+(t est1(1,k)-f2mean(1,1))*(test1(2,k)-f2mean(2,1));end;J=J1+J2;detaJ=0;end;hold on;elsedetaJ=N1/(N1+1)*J1-N2/(N2-1)*J2;if(detaJ>0)plot(k,test1(1,k),'r*');end;if(detaJ<0)plot(k,test1(1,k),'k+');f1=f1+test1(1:2,k);f2=f2-test1(1:2,k);N1=N1+1;N2=35-N1-1;f1mean=f1/N1;f2mean=f2/N2;J1=0;J2=0;J=0;for i=1:N1J1=J1+(test1(1,i)-f1mean(1,1))*(test1(2,i)-f1mean(2,1))+(t est1(1,k)-f1mean(1,1))*(test1(2,k)-f1mean(2,1));end;for i=N1+1:35J2=J2+(test1(1,i)-f2mean(1,1))*(test1(2,i)-f2mean(2,1))-(test1(1,k)-f2mean(1,1))*(test1(2,k)-f2mean(2,1));end;end;J=J1+J2;detaJ=0;end;hold on;end;title('K-means聚类');xlabel('测试序号'),ylabel('身高(cm)')七、实验结果及分析总结八、体会及总结k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

k-means算法实验报告

.哈尔滨工业大学数据挖掘理论与算法实验报告(2014年度秋季学期).课程编码S1300019C授课教师高宏学生姓名赵天意学号14S101018学院电气工程及自动化学院一、实验内容设计实现 k 均值聚类算法。

二、实验设计随机生成 2 维坐标点，对点进行聚类，进行k=2 聚类， k=3 聚类，多次 k=4 聚类，分析比较实验结果。

三、实验环境及测试数据实验环境： Windows7操作系统，Python2.7 IDLE测试数据：随机生成 3 个点集，点到中心点距离服从高斯分布：集合大小中心坐标半径11005,52 210010,62 31008,102四、实验过程编写程序随机生成测试点集，分别聚成2, 3, 4 类，观察实验结果多次 4 聚类，观察实验结果五、实验结果初始随机点：2聚类迭代 -平方误差1234561337677639634633633聚类中心与类中点数9.06 ，8.291915.05 ，5.011093聚类123456789101112 810692690688686681565385369.4369.8373700 4.99 ，5.05108,7.92 ，10.489310.15 ，6.16994聚类迭代 27次，平方误差 344.897291273 7.95，,10.56904.89，5.001038.41，6.313810.75 ，6.1,469多次4聚类迭代27次平方误差 352.19 4.95 ，5.031069.79 ，6.03937.85 ，10.509012.71 ，8.1611迭代 8 次平方误差356.1910.15 ，6.16997.92 ，10.48935.54 ，5.01674.09 ，5.1041迭代 7 次平方误差352.3510.39 ，6.04874.91 ，4.981038.00 ，10.79797.71 ，7.6931六、遇到的困难及解决方法、心得体会K-Means初值对最终的聚类结果有影响，不同初值，可能会有不同的聚类结果，也就是说， K-Means收敛于局部最优点K-Means趋向于收敛到球形，每类样本数相近K-Means随着k的增加，平方误差会降低，但聚类效果未必变好该例子， 2 聚类误差 633 ， 3 聚类 370 ，4 聚类 350 ，可以发现 2 聚类到 3 聚类误差下降较快， 3 到 4 聚类误差下降较慢，所以 3 是最佳聚类个数。

如何使用K均值算法进行聚类分析(Ⅲ)

K均值算法是一种常用的聚类分析方法，它可以根据数据的特征将数据集分成若干个簇。

在实际应用中，K均值算法被广泛用于数据挖掘、模式识别、图像分割等领域。

本文将详细介绍如何使用K均值算法进行聚类分析，并且探讨一些常见的应用场景。

1. 算法原理K均值算法的原理比较简单，首先需要确定簇的数量K，然后随机选择K个数据点作为初始的聚类中心。

接着，将数据集中的每个数据点分配到与其最近的聚类中心所在的簇中。

然后重新计算每个簇的中心点，直到簇中心不再发生变化或者达到预设的迭代次数为止。

最终得到K个簇，每个簇包含一组相似的数据点。

2. 数据预处理在使用K均值算法进行聚类分析之前，需要对数据进行预处理。

首先需要对数据进行标准化处理，使得各个特征的取值范围相对一致。

其次，需要对数据进行降维处理，以减少计算复杂度和提高聚类效果。

最后，需要对数据进行缺失值处理和异常值处理，以确保数据的完整性和准确性。

3. 选择簇的数量K选择簇的数量K是K均值算法中的一个关键步骤。

通常情况下，可以通过肘部法则来确定最优的簇的数量。

肘部法则是通过绘制簇内平方和与簇的数量K的关系图，找到拐点所对应的K值作为最佳的簇的数量。

另外，可以通过轮廓系数等指标来评估不同K值下的聚类效果，选择使得聚类效果最优的簇的数量。

4. 聚类结果评估在得到聚类结果之后，需要对聚类结果进行评估。

通常可以使用簇内平方和、轮廓系数、Davies-Bouldin指数等指标来评估聚类的效果。

除此之外，还可以通过可视化的方式来展示聚类的结果，比如绘制簇的中心点、簇的分布图等。

通过对聚类结果的评估，可以调整算法参数，优化聚类效果。

5. 应用场景K均值算法在各个领域都有着广泛的应用。

在市场营销领域，可以使用K均值算法对客户进行分群，以便针对不同的客户群体制定个性化的营销策略。

在医疗领域，可以使用K均值算法对患者进行分组，以便进行疾病风险评估和治疗方案制定。

在金融领域，可以使用K均值算法对金融产品进行分群，以便推荐个性化的金融产品。

实验三-K-均值聚类算法实验报告

实验三K-Means聚类算法一、实验目的1) 加深对非监督学习的理解和认识2) 掌握动态聚类方法K-Means 算法的设计方法二、实验环境1) 具有相关编程软件的PC机三、实验原理1) 非监督学习的理论基础2) 动态聚类分析的思想和理论依据3) 聚类算法的评价指标四、算法思想K-均值算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心，然后计算其他数据距离这三个聚类中心的距离，将数据归入与其距离最近的聚类中心，之后再对这K个聚类的数据计算均值，作为新的聚类中心，继续以上步骤，直到新的聚类中心与上一次的聚类中心值相等时结束算法。

实验代码function km(k,A)%函数名里不要出现“-”warning off[n,p]=size(A);%输入数据有n个样本，p个属性cid=ones(k,p+1);%聚类中心组成k行p列的矩阵,k表示第几类，p是属性%A(:,p+1)=100;A(:,p+1)=0;for i=1:k%cid(i,:)=A(i,:); %直接取前三个元祖作为聚类中心m=i*floor(n/k)-floor(rand(1,1)*(n/k))cid(i,:)=A(m,:);cid;endAsum=0;Csum2=NaN;flags=1;times=1;while flagsflags=0;times=times+1;%计算每个向量到聚类中心的欧氏距离for i=1:nfor j=1:kdist(i,j)=sqrt(sum((A(i,:)-cid(j,:)).^2));%欧氏距离end%A(i,p+1)=min(dist(i,:));%与中心的最小距离[x,y]=find(dist(i,:)==min(dist(i,:)));[c,d]=size(find(y==A(i,p+1)));if c==0 %说明聚类中心变了flags=flags+1;A(i,p+1)=y(1,1);elsecontinue;endendiflagsfor j=1:kAsum=0;[r,c]=find(A(:,p+1)==j);cid(j,:)=mean(A(r,:),1);for m=1:length(r)Asum=Asum+sqrt(sum((A(r(m),:)-cid(j,:)).^2));endCsum(1,j)=Asum;endsum(Csum(1,:))%if sum(Csum(1,:))>Csum2% break;%endCsum2=sum(Csum(1,:));Csum;cid; %得到新的聚类中心endtimesdisplay('A矩阵，最后一列是所属类别'); Afor j=1:k[a,b]=size(find(A(:,p+1)==j));numK(j)=a;endnumKtimesxlswrite('data.xls',A);五、算法流程图六、实验结果>>Kmeans6 iterations, total sum of distances = 204.82110 iterations, total sum of distances = 205.88616 iterations, total sum of distances = 204.8219 iterations, total sum of distances = 205.886........9 iterations, total sum of distances = 205.8868 iterations, total sum of distances = 204.8218 iterations, total sum of distances = 204.82114 iterations, total sum of distances = 205.88614 iterations, total sum of distances = 205.8866 iterations, total sum of distances = 204.821Ctrs =1.0754 -1.06321.0482 1.3902-1.1442 -1.1121SumD =64.294463.593976.9329七、实验心得初始的聚类中心的不同，对聚类结果没有很大的影响，而对迭代次数有显著的影响。

聚类分析算法实验报告(3篇)

第1篇一、实验背景聚类分析是数据挖掘中的一种重要技术，它将数据集划分成若干个类或簇，使得同一簇内的数据点具有较高的相似度，而不同簇之间的数据点则具有较低相似度。

本实验旨在通过实际操作，了解并掌握聚类分析的基本原理，并对比分析不同聚类算法的性能。

二、实验环境1. 操作系统：Windows 102. 软件环境：Python3.8、NumPy 1.19、Matplotlib 3.3.4、Scikit-learn0.24.03. 数据集：Iris数据集三、实验内容本实验主要对比分析以下聚类算法：1. K-means算法2. 聚类层次算法（Agglomerative Clustering）3. DBSCAN算法四、实验步骤1. K-means算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的KMeans类进行聚类，设置聚类数为3。

（3）计算聚类中心，并计算每个样本到聚类中心的距离。

（4）绘制聚类结果图。

2. 聚类层次算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的AgglomerativeClustering类进行聚类，设置链接方法为'ward'。

（3）计算聚类结果，并绘制树状图。

3. DBSCAN算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的DBSCAN类进行聚类，设置邻域半径为0.5，最小样本数为5。

（3）计算聚类结果，并绘制聚类结果图。

五、实验结果与分析1. K-means算法实验结果显示，K-means算法将Iris数据集划分为3个簇，每个簇包含3个样本。

从聚类结果图可以看出，K-means算法能够较好地将Iris数据集划分为3个簇，但存在一些噪声点。

2. 聚类层次算法聚类层次算法将Iris数据集划分为3个簇，与K-means算法的结果相同。

从树状图可以看出，聚类层次算法在聚类过程中形成了多个分支，说明该算法能够较好地处理不同簇之间的相似度。

数据挖掘实验报告三

实验三一、实验原理K-Means算法是一种 cluster analysis 的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

在数据挖掘中，K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

算法原理：(1) 随机选取k个中心点；(2) 在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；(3) 更新中心点为每类的均值；(4) j<-j+1 ,重复(2)(3)迭代更新，直至误差小到某个值或者到达一定的迭代步数，误差不变.空间复杂度o(N)时间复杂度o(I*K*N)其中N为样本点个数，K为中心点个数，I为迭代次数二、实验目的：1、利用R实现数据标准化。

2、利用R实现K-Meams聚类过程。

3、了解K-Means聚类算法在客户价值分析实例中的应用。

三、实验内容依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。

对其进行标准差标准化并保存后，采用k-means算法完成客户的聚类，分析每类的客户特征，从而获得每类客户的价值。

编写R程序，完成客户的k-means聚类，获得聚类中心与类标号，并统计每个类别的客户数四、实验步骤1、依据航空公司客户价值分析的LRFMC模型提取客户信息的LRFMC指标。

2、确定要探索分析的变量3、利用R实现数据标准化。

4、采用k-means算法完成客户的聚类，分析每类的客户特征，从而获得每类客户的价值。

五、实验结果客户的k-means聚类，获得聚类中心与类标号，并统计每个类别的客户数六、思考与分析使用不同的预处理对数据进行变化，在使用k-means算法进行聚类，对比聚类的结果。

kmenas算法首先选择K个初始质心，其中K是用户指定的参数，即所期望的簇的个数。

这样做的前提是我们已经知道数据集中包含多少个簇.1.与层次聚类结合经常会产生较好的聚类结果的一个有趣策略是，首先采用层次凝聚算法决定结果粗的数目，并找到一个初始聚类，然后用迭代重定位来改进该聚类。

聚类分析实验报告

聚类分析实验报告
《聚类分析实验报告》
在数据挖掘和机器学习领域，聚类分析是一种常用的技术，用于将数据集中的对象分成具有相似特征的组。

通过聚类分析，我们可以发现数据集中隐藏的模式和结构，从而更好地理解数据并做出相应的决策。

在本次实验中，我们使用了一种名为K均值聚类的方法，对一个包含多个特征的数据集进行了聚类分析。

我们首先对数据进行了预处理，包括缺失值处理、标准化和特征选择等步骤，以确保数据的质量和可靠性。

接着，我们选择了合适的K值（聚类的数量），并利用K均值算法对数据进行了聚类。

在实验过程中，我们发现K均值聚类方法能够有效地将数据集中的对象分成具有相似特征的组，从而形成了清晰的聚类结构。

通过对聚类结果的分析，我们发现不同的聚类中心代表了不同的数据模式，这有助于我们更好地理解数据集中的内在规律和特点。

此外，我们还对聚类结果进行了评估和验证，包括使用轮廓系数和肘部法则等方法来评价聚类的质量和效果。

通过这些评估方法，我们得出了实验结果的可靠性和有效性，证明了K均值聚类在本次实验中的良好表现。

总的来说，本次实验通过聚类分析方法对数据集进行了深入的挖掘和分析，得到了有意义的聚类结果，并验证了聚类的有效性和可靠性。

通过这一实验，我们对聚类分析方法有了更深入的理解，也为今后在实际应用中更好地利用聚类分析提供了有力支持。

聚类算法_实验报告

一、实验背景随着大数据时代的到来，数据量呈爆炸式增长，如何有效地对海量数据进行处理和分析成为了一个重要课题。

聚类算法作为一种无监督学习方法，在数据挖掘、模式识别等领域有着广泛的应用。

本实验旨在通过实际操作，了解聚类算法的基本原理、实现方法及其在实际问题中的应用。

二、实验目的1. 理解聚类算法的基本原理和流程；2. 掌握K-means、层次聚类、DBSCAN等常用聚类算法；3. 分析不同聚类算法在处理不同类型数据时的优缺点；4. 学会使用聚类算法解决实际问题。

三、实验环境1. 操作系统：Windows 102. 编程语言：Python3. 数据库：Pandas4. 机器学习库：Scikit-learn四、实验内容1. K-means聚类算法（1）数据准备本实验使用的数据集为Iris数据集，包含150个样本，每个样本有4个特征。

（2）算法实现使用Scikit-learn库中的KMeans类实现K-means聚类算法。

（3）结果分析通过绘制样本分布图，观察聚类效果。

根据聚类结果，将样本分为3类，与Iris数据集的类别标签进行对比。

2. 层次聚类算法（1）数据准备本实验使用的数据集为鸢尾花数据集，包含150个样本，每个样本有4个特征。

（2）算法实现使用Scikit-learn库中的AgglomerativeClustering类实现层次聚类算法。

（3）结果分析通过绘制树状图，观察聚类过程。

根据聚类结果，将样本分为3类，与鸢尾花数据集的类别标签进行对比。

3. DBSCAN聚类算法（1）数据准备本实验使用的数据集为Iris数据集。

（2）算法实现使用Scikit-learn库中的DBSCAN类实现DBSCAN聚类算法。

（3）结果分析通过绘制样本分布图，观察聚类效果。

根据聚类结果，将样本分为3类，与Iris 数据集的类别标签进行对比。

五、实验结果与分析1. K-means聚类算法K-means聚类算法在Iris数据集上取得了较好的聚类效果，将样本分为3类，与真实标签一致。

k-means聚类算法实验总结

K-means聚类算法实验总结在本次实验中，我们深入研究了K-means聚类算法，对其原理、实现细节和优化方法进行了探讨。

K-means聚类是一种无监督学习方法，旨在将数据集划分为K个集群，使得同一集群内的数据点尽可能相似，不同集群的数据点尽可能不同。

实验步骤如下：1. 数据准备：选择合适的数据集，可以是二维平面上的点集、图像分割、文本聚类等。

本实验中，我们采用了二维平面上的随机点集作为示例数据。

2. 初始化：随机选择K个数据点作为初始聚类中心。

3. 迭代过程：对于每个数据点，根据其与聚类中心的距离，将其分配给最近的聚类中心所在的集群。

然后，重新计算每个集群的聚类中心，更新聚类中心的位置。

重复此过程直到聚类中心不再发生明显变化或达到预设的迭代次数。

4. 结果评估：通过计算不同指标（如轮廓系数、Davies-Bouldin指数等）来评估聚类效果。

实验结果如下：1. K-means聚类能够有效地将数据点划分为不同的集群。

通过不断迭代，聚类中心逐渐趋于稳定，同一集群内的数据点逐渐聚集在一起。

2. 在实验中，我们发现初始聚类中心的选择对最终的聚类结果有一定影响。

为了获得更好的聚类效果，可以采用多种初始聚类中心并选择最优结果。

3. 对于非凸数据集，K-means算法可能会陷入局部最优解，导致聚类效果不佳。

为了解决这一问题，可以考虑采用其他聚类算法，如DBSCAN、层次聚类等。

4. 在处理大规模数据集时，K-means算法的时间复杂度和空间复杂度较高，需要进行优化。

可以采用降维技术、近似算法等方法来提高算法的效率。

通过本次实验，我们深入了解了K-means聚类算法的原理和实现细节，掌握了其优缺点和适用场景。

在实际应用中，需要根据数据集的特点和需求选择合适的聚类算法，以达到最佳的聚类效果。

k-means聚类算法实验总结 -回复

k-means聚类算法实验总结-回复K-means聚类算法是一种常用的无监督学习算法，广泛应用于数据挖掘、图像分割、文本分类等领域。

本文将基于我对K-means聚类算法的实验总结，分步详细介绍这一算法的原理、实验设置、实验结果及其分析。

希望通过本文的总结，读者能够对K-means算法有一个更全面的了解。

一、算法原理K-means聚类算法的原理比较简单，其基本步骤如下：1. 初始化k个聚类中心，可以是随机选择样本或根据经验预设；2. 对于每个样本，计算其与各个聚类中心的距离，并将其划分到距离最近的聚类中心所属的类别；3. 调整聚类中心的位置，将各个类别内的样本点的均值作为新的聚类中心，重复步骤2，直到聚类中心的位置不再变化或达到预设的最大迭代次数。

二、实验设置为了验证K-means聚类算法的性能，我选择了UCI机器学习库中的Iris 数据集作为实验数据集。

该数据集包含150个样本，每个样本有4个属性。

为了方便可视化，将数据集中的前两个属性作为横纵坐标，将样本点分布在二维平面上。

在实验中，我使用Python编程语言实现了K-means聚类算法，并使用matplotlib库绘制了聚类结果的散点图。

实验中设置聚类的类别数k为3，迭代次数上限为100。

三、实验结果及分析执行K-means聚类算法后，得到了如下图所示的聚类结果：[图1 聚类结果图]根据聚类结果可以看出，三个类别的样本点被分别用不同的颜色表示，并且通过散点图可以很直观地看到各个样本点与聚类中心的距离。

为了更客观地评估K-means的聚类性能，我采用了两项指标：聚类准确率和轮廓系数。

聚类准确率是将聚类结果与原始类别进行对比，计算分类正确的样本数量占总样本数量的比例。

通过计算实验结果，我得到了聚类准确率为85.33。

轮廓系数是一种评价聚类结果的衡量指标，其数值范围在-1到1之间，越接近于1表示聚类越紧密、样本点越相似，越接近于-1表示聚类越分散、样本点越不相似。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验三 K-Means聚类算法
一、实验目的
1) 加深对非监督学习的理解和认识
2) 掌握动态聚类方法K-Means 算法的设计方法
二、实验环境
1) 具有相关编程软件的PC机
三、实验原理
1) 非监督学习的理论基础
2) 动态聚类分析的思想和理论依据
3) 聚类算法的评价指标
四、算法思想
K-均值算法的主要思想是先在需要分类的数据中寻找K组数据作为初始聚类中心，然后计算其他数据距离这三个聚类中心的距离，将数据归入与其距离最近的聚类中心，之后再对这K个聚类的数据计算均值，作为新的聚类中心，继续以上步骤，直到新的聚类中心与上一次的聚类中心值相等时结束算法。

实验代码
function km(k,A)%函数名里不要出现“-”
warning off
[n,p]=size(A);%输入数据有n个样本，p个属性
cid=ones(k,p+1);%聚类中心组成k行p列的矩阵,k表示第几类，p是属性
%A(:,p+1)=100;
A(:,p+1)=0;
for i=1:k
%cid(i,:)=A(i,:); %直接取前三个元祖作为聚类中心
m=i*floor(n/k)-floor(rand(1,1)*(n/k))
cid(i,:)=A(m,:);
cid;
end
Asum=0;
Csum2=NaN;
flags=1;
times=1;
while flags
flags=0;
times=times+1;
%计算每个向量到聚类中心的欧氏距离
for i=1:n
for j=1:k
dist(i,j)=sqrt(sum((A(i,:)-cid(j,:)).^2));%欧氏距离 end
%A(i,p+1)=min(dist(i,:));%与中心的最小距离
[x,y]=find(dist(i,:)==min(dist(i,:)));
[c,d]=size(find(y==A(i,p+1)));
if c==0 %说明聚类中心变了
flags=flags+1;
A(i,p+1)=y(1,1);
else
continue;
end
end
i
flags
for j=1:k
Asum=0;
[r,c]=find(A(:,p+1)==j);
cid(j,:)=mean(A(r,:),1);
for m=1:length(r)
Asum=Asum+sqrt(sum((A(r(m),:)-cid(j,:)).^2)); end
Csum(1,j)=Asum;
end
sum(Csum(1,:))
%if sum(Csum(1,:))>Csum2
% break;
%end
Csum2=sum(Csum(1,:));
Csum;
cid; %得到新的聚类中心
end
times
display('A矩阵，最后一列是所属类别');
A
for j=1:k
[a,b]=size(find(A(:,p+1)==j));
numK(j)=a;
end
numK
times
xlswrite('data.xls',A);
五、算法流程图
六、实验结果
>>Kmeans
6 iterations, total sum of distances = 204.821
10 iterations, total sum of distances = 205.886
16 iterations, total sum of distances = 204.821
9 iterations, total sum of distances = 205.886
........
9 iterations, total sum of distances = 205.886
8 iterations, total sum of distances = 204.821
8 iterations, total sum of distances = 204.821
14 iterations, total sum of distances = 205.886
14 iterations, total sum of distances = 205.886
6 iterations, total sum of distances = 204.821
Ctrs =1.0754 -1.06321.0482 1.3902-1.1442 -1.1121
SumD =64.294463.593976.9329
七、实验心得
初始的聚类中心的不同，对聚类结果没有很大的影响，而对迭代次数有显著的影响。

数据的输入顺序不同，同样影响迭代次数，而对聚类结果没有太大的影响。