聚类算法分析报告汇总

合集下载

聚类分析实验报告

聚类分析实验报告一、实验目的：通过聚类分析方法，对给定的数据进行聚类，并分析聚类结果，探索数据之间的关系和规律。

二、实验原理：聚类分析是一种无监督学习方法，将具有相似特征的数据样本归为同一类别。

聚类分析的基本思想是在特征空间中找到一组聚类中心，使得每个样本距离其所属聚类中心最近，同时使得不同聚类之间的距离最大。

聚类分析的主要步骤有：数据预处理、选择聚类算法、确定聚类数目、聚类过程和聚类结果评价等。

三、实验步骤：1.数据预处理：将原始数据进行去噪、异常值处理、缺失值处理等，确保数据的准确性和一致性。

2.选择聚类算法：根据实际情况选择合适的聚类算法，常用的聚类算法有K均值算法、层次聚类算法、DBSCAN算法等。

3.确定聚类数目：根据数据的特征和实际需求，确定合适的聚类数目。

4.聚类过程：根据选定的聚类算法和聚类数目进行聚类过程，得到最终的聚类结果。

5. 聚类结果评价：通过评价指标（如轮廓系数、Davies-Bouldin指数等），对聚类结果进行评价，判断聚类效果的好坏。

四、实验结果：根据给定的数据集，我们选用K均值算法进行聚类分析。

首先，根据数据特点和需求，我们确定聚类数目为3、然后，进行数据预处理，包括去噪、异常值处理和缺失值处理。

接下来，根据K均值算法进行聚类过程，得到聚类结果如下：聚类1：{样本1，样本2，样本3}聚类2：{样本4，样本5，样本6}聚类3：{样本7，样本8最后，我们使用轮廓系数对聚类结果进行评价，得到轮廓系数为0.8，说明聚类效果较好。

五、实验分析和总结：通过本次实验，我们利用聚类分析方法对给定的数据进行了聚类，并进行了聚类结果的评价。

实验结果显示，选用K均值算法进行聚类分析，得到了较好的聚类效果。

实验中还发现，数据预处理对聚类分析结果具有重要影响，必要的数据清洗和处理工作是确保聚类结果准确性的关键。

此外，聚类数目的选择也是影响聚类结果的重要因素，过多或过少的聚类数目都会造成聚类效果的下降。

聚类分析结果总结报告

聚类分析结果总结报告聚类分析是一种常用的数据分析方法，通过找出数据样本之间的相似性，将它们分为簇，从而对数据进行分类。

本次聚类分析旨在对一批消费者进行分类，以便更好地理解他们的行为模式、需求和喜好。

以下是对聚类分析结果的总结报告。

通过对消费者的行为数据进行聚类分析，我们将其分为三个簇：簇1、簇2和簇3。

每个簇代表着一组相似的消费者群体，下面对每个簇进行具体分析。

簇1：这是一个高消费群体，他们在各个维度上的消费都较高。

他们对品牌认知较高，更注重购买名牌产品；他们也更倾向于在线购物，且购买的商品种类较广泛；此外，他们更愿意花费时间在购物上，喜欢认真研究和比较产品特点和价格。

簇1群体对价格并不敏感，更看重商品质量和品牌的声誉。

簇2：这是一个价值敏感的消费群体，他们更注重价格相对便宜的商品。

他们对品牌知名度并不是很敏感，更关注购物便利性和商品的实用性。

他们喜欢到实体店购物，可以触摸和试穿商品，这样可以更好地评估商品的实际价值。

簇2群体对线上购物并不是很感兴趣，更喜欢传统的购物方式。

簇3：这是一个中等消费群体，他们在各个维度上的消费行为都处于中等水平。

他们对品牌和价格都没有太强的偏好，更关注商品的功能和性能。

他们对购物的时间和成本都有一定的限制，更倾向于选择便利和高性价比的商品。

通过以上分析，我们得出以下几个结论：1. 个体之间在消费行为上的差异很大，每个簇代表的消费群体有明显的特征和偏好。

2. 消费者对品牌、价格、购物方式等因素的重视程度存在差异，这可以为市场营销提供指导。

3. 不同簇的消费群体在市场定位和产品推广上需要采取不同的策略，吸引不同簇的目标消费群体。

4. 对于高消费群体，可以重点推广高端品牌和品质产品；对于价值敏感的群体，可以提供更具性价比的产品和便利的购物体验；对于中等消费群体，可以提供功能强大且价格适中的商品。

在实际应用中，聚类分析可以辅助企业进行市场细分和目标客户定位，可以帮助提高市场竞争力和个性化营销的效果。

(完整版)聚类算法总结

1.聚类定义“聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset）,这样让在同一个子集中的成员对象都有一些相似的属性”——wikipedia“聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

它是一种重要的人类行为。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

”——百度百科说白了，聚类（clustering）是完全可以按字面意思来理解的——将相同、相似、相近、相关的对象实例聚成一类的过程。

简单理解，如果一个数据集合包含N个实例，根据某种准则可以将这N 个实例划分为m个类别，每个类别中的实例都是相关的，而不同类别之间是区别的也就是不相关的，这个过程就叫聚类了。

2.聚类过程:1) 数据准备:包括特征标准化和降维.2) 特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中.3) 特征提取:通过对所选择的特征进行转换形成新的突出特征.4) 聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量;而后执行聚类或分组.5) 聚类结果评估:是指对聚类结果进行评估.评估主要有3 种:外部有效性评估、内部有效性评估和相关性测试评估.3聚类算法的类别没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构，根据数据在聚类中的积聚规则以及应用这些规则的方法,有多种聚类算法.聚类算法有多种分类方法将聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算法,如图1 所示的4 个类别.3.聚类算法基于层次聚类算法：基于划分聚类算法（partition clustering)基于密度聚类算法：基于网格的聚类算法：STING ：利用网格单元保存数据统计信息，从而实现多分辨率的聚类WaveCluster：在聚类分析中引入了小波变换的原理，主要应用于信号处理领域。

聚类分析算法实验报告(3篇)

第1篇一、实验背景聚类分析是数据挖掘中的一种重要技术，它将数据集划分成若干个类或簇，使得同一簇内的数据点具有较高的相似度，而不同簇之间的数据点则具有较低相似度。

本实验旨在通过实际操作，了解并掌握聚类分析的基本原理，并对比分析不同聚类算法的性能。

二、实验环境1. 操作系统：Windows 102. 软件环境：Python3.8、NumPy 1.19、Matplotlib 3.3.4、Scikit-learn0.24.03. 数据集：Iris数据集三、实验内容本实验主要对比分析以下聚类算法：1. K-means算法2. 聚类层次算法（Agglomerative Clustering）3. DBSCAN算法四、实验步骤1. K-means算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的KMeans类进行聚类，设置聚类数为3。

（3）计算聚类中心，并计算每个样本到聚类中心的距离。

（4）绘制聚类结果图。

2. 聚类层次算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的AgglomerativeClustering类进行聚类，设置链接方法为'ward'。

（3）计算聚类结果，并绘制树状图。

3. DBSCAN算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的DBSCAN类进行聚类，设置邻域半径为0.5，最小样本数为5。

（3）计算聚类结果，并绘制聚类结果图。

五、实验结果与分析1. K-means算法实验结果显示，K-means算法将Iris数据集划分为3个簇，每个簇包含3个样本。

从聚类结果图可以看出，K-means算法能够较好地将Iris数据集划分为3个簇，但存在一些噪声点。

2. 聚类层次算法聚类层次算法将Iris数据集划分为3个簇，与K-means算法的结果相同。

从树状图可以看出，聚类层次算法在聚类过程中形成了多个分支，说明该算法能够较好地处理不同簇之间的相似度。

聚类的实验报告

一、实验目的1. 理解聚类算法的基本原理和过程。

2. 掌握K-means算法的实现方法。

3. 学习如何使用聚类算法对数据集进行有效划分。

4. 分析不同聚类结果对实际应用的影响。

二、实验环境1. 操作系统：Windows 102. 编程语言：Python3. 库：NumPy、Matplotlib、Scikit-learn三、实验内容本次实验主要使用K-means算法对数据集进行聚类，并分析不同参数设置对聚类结果的影响。

1. 数据集介绍实验所使用的数据集为Iris数据集，该数据集包含150个样本，每个样本包含4个特征（花瓣长度、花瓣宽度、花萼长度、花萼宽度），以及对应的分类标签（Iris-setosa、Iris-versicolor、Iris-virginica）。

2. K-means算法原理K-means算法是一种基于距离的聚类算法，其基本思想是将数据集中的对象划分为K个簇，使得每个对象与其所属簇的质心（即该簇中所有对象的平均值）的距离最小。

3. 实验步骤（1）导入数据集首先，使用NumPy库导入Iris数据集，并提取特征值和标签。

（2）划分簇使用Scikit-learn库中的KMeans类进行聚类，设置聚类个数K为3。

（3）计算聚类结果计算每个样本与对应簇质心的距离，并将样本分配到最近的簇。

（4）可视化结果使用Matplotlib库将聚类结果可视化，展示每个样本所属的簇。

（5）分析不同参数设置对聚类结果的影响改变聚类个数K，观察聚类结果的变化，分析不同K值对聚类效果的影响。

四、实验结果与分析1. 初始聚类结果当K=3时，K-means算法将Iris数据集划分为3个簇，如图1所示。

图1 K=3时的聚类结果从图1可以看出，K-means算法成功地将Iris数据集划分为3个簇，每个簇对应一个Iris物种。

2. 不同K值对聚类结果的影响（1）当K=2时，K-means算法将Iris数据集划分为2个簇，如图2所示。

班级学生成绩聚类分析报告

班级学生成绩聚类分析报告1. 引言学生成绩是评价学生学习成果的一个重要指标。

通过对学生成绩进行聚类分析可以帮助我们理解学生成绩之间的关系，发现不同学生群体之间的特点和差异，为教育教学提供参考。

本报告旨在对某班级学生成绩进行聚类分析，并探讨聚类结果的意义。

2. 数据准备本次分析使用的数据是某班级学生的成绩数据，包括数学、语文、英语三门课程的成绩。

共有50个学生的成绩数据，每位学生的成绩用一个向量表示，该向量的维度为3。

下表给出了前5位学生的成绩数据示例：学生编号数学成绩语文成绩英语成绩S1 85 90 75S2 72 80 82S3 96 91 93S4 68 75 78S5 92 88 853. 聚类分析方法聚类分析是一种将样本根据其相似性进行分组的方法。

在本次分析中，我们使用K-means算法对学生成绩进行聚类。

K-means算法通过将样本划分到K个聚类中心，使得各个样本到所属聚类中心的距离最小化，来实现聚类的目标。

4. 聚类分析过程在进行聚类分析之前，需要先确定K值，即要将样本分成几个聚类。

我们通过手肘法确定K值。

手肘法通过绘制不同K值下的聚类误差平方和（SSE）与K值的关系图，找到误差平方和变动趋势明显变缓的拐点作为合适的K值。

本次分析中，我们尝试了K从1到10的值，计算了对应的SSE，并绘制了SSE与K值的关系图。

观察到当K=3时，SSE的变化趋势明显变缓，因此我们选择K=3作为合适的聚类数量。

接下来，我们使用K-means算法将学生成绩进行聚类。

在聚类过程中，我们随机选择了3个初始聚类中心，并迭代计算每个样本与各个聚类中心的距离，将其划分到距离最近的聚类中心。

5. 聚类结果分析经过聚类分析，我们将学生成绩分成了3个聚类，分别为聚类1、聚类2和聚类3。

下图给出了聚类结果的可视化效果：![聚类结果图](cluster.png)从上图可以看出，不同聚类之间存在明显的差异。

我们对每个聚类的特点进行分析如下：- 聚类1: 该聚类中的学生在数学和语文成绩上表现较为突出，英语成绩相对较低。

聚类算法_实验报告

一、实验背景随着大数据时代的到来，数据量呈爆炸式增长，如何有效地对海量数据进行处理和分析成为了一个重要课题。

聚类算法作为一种无监督学习方法，在数据挖掘、模式识别等领域有着广泛的应用。

本实验旨在通过实际操作，了解聚类算法的基本原理、实现方法及其在实际问题中的应用。

二、实验目的1. 理解聚类算法的基本原理和流程；2. 掌握K-means、层次聚类、DBSCAN等常用聚类算法；3. 分析不同聚类算法在处理不同类型数据时的优缺点；4. 学会使用聚类算法解决实际问题。

三、实验环境1. 操作系统：Windows 102. 编程语言：Python3. 数据库：Pandas4. 机器学习库：Scikit-learn四、实验内容1. K-means聚类算法（1）数据准备本实验使用的数据集为Iris数据集，包含150个样本，每个样本有4个特征。

（2）算法实现使用Scikit-learn库中的KMeans类实现K-means聚类算法。

（3）结果分析通过绘制样本分布图，观察聚类效果。

根据聚类结果，将样本分为3类，与Iris数据集的类别标签进行对比。

2. 层次聚类算法（1）数据准备本实验使用的数据集为鸢尾花数据集，包含150个样本，每个样本有4个特征。

（2）算法实现使用Scikit-learn库中的AgglomerativeClustering类实现层次聚类算法。

（3）结果分析通过绘制树状图，观察聚类过程。

根据聚类结果，将样本分为3类，与鸢尾花数据集的类别标签进行对比。

3. DBSCAN聚类算法（1）数据准备本实验使用的数据集为Iris数据集。

（2）算法实现使用Scikit-learn库中的DBSCAN类实现DBSCAN聚类算法。

（3）结果分析通过绘制样本分布图，观察聚类效果。

根据聚类结果，将样本分为3类，与Iris 数据集的类别标签进行对比。

五、实验结果与分析1. K-means聚类算法K-means聚类算法在Iris数据集上取得了较好的聚类效果，将样本分为3类，与真实标签一致。

聚类分析中实验报告

一、实验背景聚类分析是数据挖掘中的一种无监督学习方法，通过对数据集进行分组，将相似的数据对象归为同一类别。

本实验旨在通过实践，加深对聚类分析方法的理解，掌握常用的聚类算法及其应用。

二、实验目的1. 理解聚类分析的基本原理和方法。

2. 掌握常用的聚类算法，如K-means、层次聚类、密度聚类等。

3. 学习使用Python等工具进行聚类分析。

4. 分析实验结果，总结聚类分析方法在实际应用中的价值。

三、实验环境1. 操作系统：Windows 102. 编程语言：Python3.83. 数据库：SQLite 3.32.24. 聚类分析库：scikit-learn 0.24.2四、实验步骤1. 数据准备- 下载并导入实验数据集，本实验使用的是Iris数据集，包含150个样本和4个特征。

- 使用pandas库对数据进行预处理，包括缺失值处理、异常值处理等。

2. 聚类算法实现- 使用scikit-learn库实现K-means聚类算法。

- 使用scikit-learn库实现层次聚类算法。

- 使用scikit-learn库实现密度聚类算法（DBSCAN）。

3. 结果分析- 使用可视化工具（如matplotlib）展示聚类结果。

- 分析不同聚类算法的优缺点，对比聚类效果。

4. 实验总结- 总结实验过程中遇到的问题和解决方法。

- 分析聚类分析方法在实际应用中的价值。

五、实验结果与分析1. K-means聚类- 使用K-means聚类算法将数据集分为3个类别。

- 可视化结果显示，K-means聚类效果较好，将数据集分为3个明显的类别。

2. 层次聚类- 使用层次聚类算法将数据集分为3个类别。

- 可视化结果显示，层次聚类效果较好，将数据集分为3个类别，且与K-means聚类结果相似。

3. 密度聚类（DBSCAN）- 使用DBSCAN聚类算法将数据集分为3个类别。

- 可视化结果显示，DBSCAN聚类效果较好，将数据集分为3个类别，且与K-means聚类结果相似。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

嵌入式方向工程设计实验报告学院班级：130712学生学号：13071219学生姓名：杨阳同作者：无实验日期：2010年12月聚类算法分析研究1 实验环境以及所用到的主要软件Windows Vista NetBeans6.5.1 Weka3.6MATLAB R2009a2 实验内容描述聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习” 过程，它倾向于数据的自然划分。

其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。

本文中对近年来聚类算法的研究现状与新进展进行归纳总结。

一方面对近年来提出的较有代表性的聚类算法，从算法思想。

关键技术和优缺点等方面进行分析概括；另一方面选择一些典型的聚类算法和一些知名的数据集，主要从正确率和运行效率两个方面进行模拟实验，并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。

最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。

实验中主要选择了K 均值聚类算法、FCM 模糊聚类算法并以UCI Machine Learning Repository 网站下载的IRIS 和WINE 数据集为基础通过MATLAB 实现对上述算法的实验测试。

然后以WINE 数据集在学习了解Weka 软件接口方面的基础后作聚类分析，使用最常见的K 均值（即K-means ）聚类算法和FCM 模糊聚类算法。

下面简单描述一下K 均值聚类的步骤。

K 均值算法首先随机的指定K 个类中心。

然后：（1）将每个实例分配到距它最近的类中心，得到K 个类；（2）计分别计算各类中所有实例的均值，把它们作为各类新的类中心。

重复（1）和（2），直到K 个类中心的位置都固定，类的分配也固定。

在实验过程中通过利用Weka 软件中提供的simpleKmeans （也就是K 均值聚类算法对WINE 数据集进行聚类分析，更深刻的理解k 均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。

然后再在学习了解Weka 软件接口方面的基础上对Weka 软件进行一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。

3 实验过程3.1K 均值聚类算法3.1.1 K 均值聚类算法理论K 均值算法是一种硬划分方法，简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。

K 均值算法的划分理论基础是21min ick ik A i x v ∈=-∑∑ （1）其中c 是划分的聚类数，i A 是已经属于第i 类的数据集i v 是相应的点到第i 类的平均距离，即1,i N kk i k i ix v x A N ==∈∑（2）其中i N 表示在数据集i A 中的对象数。

3.1.2 算法的基本过程1:step 任意选择K 个对象作为初始的类的中心； 2:step repeat ；3:step 根据类中的平均值,将每个数据点 (重新)赋给最相近的类； 4:step 更新类的平均值；5:step until 不再发生变化,即没有对象进行被重新分配时过程结束。

3.1.3 算法代码分析K 均值聚类算法的代码分析过程如下首先调用clust_normalize （）函数将数据集标准化具体过程如下 data=clust_normalize(data,'range'); 下面是对K 均值算法的初始化 if max(size(param.c))==1, c = param.c;index=randperm(N);v=X(index(1:c),:);v = v + 1e-10;v0=X(index(1:c)+1,:);v0 = v0 - 1e-10; elsev = param.c; c = size(param.c,1); index=randperm(N);v0=X(index(1:c)+1,:);v0 = v0 + 1e-10; end iter = 0;接着是迭代求解直到满足要求的解或者达到最大的迭代值 while prod(max(abs(v - v0))), iter = iter +1; v0 = v;for i = 1:c这里是用来计算欧氏距离dist(:,i) = sum([(X - repmat(v(i,:),N,1)).^2],2); end下面将分类结果赋值[m,label] = min(dist');distout=sqrt(dist);下面计算分类中心for i = 1:cindex=find(label == i);if ~isempty(index)v(i,:) = mean(X(index,:));elseind=round(rand*N-1);v(i,:)=X(ind,:);endf0(index,i)=1;endJ(iter) = sum(sum(f0.*dist));if param.visclfhold onplot(v(:,1),v(:,2),'ro')colors={'r.' 'gx' 'b+' 'ys' 'md' 'cv' 'k.' 'r*' 'g*' 'b*' 'y*' 'm*' 'c*' 'k*' };for i=1:cindex = find(label == i);if ~isempty(index)dat=X(index,:);plot(dat(:,1),dat(:,2),colors{i})endendhold offpause(0.1)endend保存求解结果result.cluster.v = v;result.data.d = distout;计算划分矩阵f0=zeros(N,c);for i=1:cindex=find(label == i);f0(index,i)=1;endresult.data.f=f0;result.iter = iter;result.cost = J;3.1.4实验配置实验过程配置比较简单只需按照如下介绍即可。

将路径修改为MATLAB工具箱的相应路径在次是“E:\MATLAB\toolbox\FUZZCLUST”如下path(path,'E:\MATLAB\toolbox\FUZZCLUST')选择数据集在实验中选择了IRIS数据集，因此IRIS=1。

在下面选择哪个数据集只需将相应的值置为1其他两个置为0。

wine=0;iris=1;wisc=0;if wineload winedat.txtdata=winedat(:,1:end-1);C=winedat(:,end);endif irisload irisdata=iris(:,1:4);C=zeros(length(data),1);for i=1:3C(find(iris(:,4+i)==1))=i;endendif wiscwisc数据预处理wisc=wk1read('wisconsin.wk1');NI=9;NT=length(wisc);data.X=[wisc(:,11) wisc(:,2:10)];data.X=sortrows(data.X,1);[I,J]=find(data.X(:,7)~=0);data.X=data.X(I,:);[I,J]=find(data.X(:,1)==2);data.X(I,1)=1;[I,J]=find(data.X(:,1)==4);data.X(I,1)=2;C=data.X(:,1);data=data.X(:,2:end);end数据标准化data.X=data;data=clust_normalize(data,'range');下面的参数在FCM模糊聚类时用到param.m=2;如下参数是设置分类数即K=3param.c=3;param.val=1;param.vis=0;result=Kmeans(data,param);result=validity(result,data,param);[d1,d2]=max(result.data.f');Cc=[];for i=1:param.cCi=C(find(d2==i));dum1=hist(Ci,1:param.c);[dd1,dd2]=max(dum1);Cc(i)=dd2;end3.1.5实验效果实验中使用了UCI的IRIS数据集和WINE数据集，实验的结果如下图1)IRIS数据集实验结果MATLAB实验输出的图形如下图１ PCA图图２ Conventional Sammon mapping 图图３ Fuzzy Sammon mapping 图并且可在实验中得到MATLAB的算法评价指标如下2)WINE数据集实验结果MATLAB实验输出的图形如下图 4 PCA图图 5 Conventional Sammon mapping 图图 6 Fuzzy Sammon mapping 图并且可在实验中得到MATLAB 的算法评价指标如下将该算法在两种不同数据集中的测试结果对比如下3.1.6 K 均值聚类算法的相关特点该算法试图找出使平方误差值最小的K 个划分。

当结果类是密集的，而类与类之间区分明显时，它的效果较好。

算法复杂度()o nkt ，其中t 是迭代次数。

因此其可扩展性较好，对大数据集处理有较高的效率。

算法常以局部最优结束。

全局最优要穷举所有可能的划分。

缺点：不适合发现非凸面状的类。

不适合大小差别较大的类。

对于噪声和孤立点是敏感的，由于少量的该类数据对平均值产生较大的影响。

3.2 FCM 模糊聚类算法FCM 算法也是一种基于划分的聚类算法，它的思想就是使得被划分到同一类的对象之间相似度最大，而不同类之间的相似度最小。

模糊C 均值算法是普通C 均值算法的改进，普通C 均值算法对于数据的划分是硬性的，而FCM 则是一种柔性的模糊划分。

在介绍FCM 具体算法之前我们先介绍一些模糊集合的基本知识。

3.2.1 FCM 模糊聚类算法的理论 1) 理论基础-模糊集基本知识首先说明隶属度函数的概念。

隶属度函数是表示一个对象x 隶属于集合A 的程度的函数，通常记做()A x μ，其自变量范围是所有可能属于集合A 的对象（即集合A 所在空间中的所有点），取值范围是[]0,1，即()01A x μ≤≤。