聚类分析实验报告.doc

合集下载

聚类分析实验报告

聚类分析实验报告一、实验目的：通过聚类分析方法，对给定的数据进行聚类，并分析聚类结果，探索数据之间的关系和规律。

二、实验原理：聚类分析是一种无监督学习方法，将具有相似特征的数据样本归为同一类别。

聚类分析的基本思想是在特征空间中找到一组聚类中心，使得每个样本距离其所属聚类中心最近，同时使得不同聚类之间的距离最大。

聚类分析的主要步骤有：数据预处理、选择聚类算法、确定聚类数目、聚类过程和聚类结果评价等。

三、实验步骤：1.数据预处理：将原始数据进行去噪、异常值处理、缺失值处理等，确保数据的准确性和一致性。

2.选择聚类算法：根据实际情况选择合适的聚类算法，常用的聚类算法有K均值算法、层次聚类算法、DBSCAN算法等。

3.确定聚类数目：根据数据的特征和实际需求，确定合适的聚类数目。

4.聚类过程：根据选定的聚类算法和聚类数目进行聚类过程，得到最终的聚类结果。

5. 聚类结果评价：通过评价指标（如轮廓系数、Davies-Bouldin指数等），对聚类结果进行评价，判断聚类效果的好坏。

四、实验结果：根据给定的数据集，我们选用K均值算法进行聚类分析。

首先，根据数据特点和需求，我们确定聚类数目为3、然后，进行数据预处理，包括去噪、异常值处理和缺失值处理。

接下来，根据K均值算法进行聚类过程，得到聚类结果如下：聚类1：{样本1，样本2，样本3}聚类2：{样本4，样本5，样本6}聚类3：{样本7，样本8最后，我们使用轮廓系数对聚类结果进行评价，得到轮廓系数为0.8，说明聚类效果较好。

五、实验分析和总结：通过本次实验，我们利用聚类分析方法对给定的数据进行了聚类，并进行了聚类结果的评价。

实验结果显示，选用K均值算法进行聚类分析，得到了较好的聚类效果。

实验中还发现，数据预处理对聚类分析结果具有重要影响，必要的数据清洗和处理工作是确保聚类结果准确性的关键。

此外，聚类数目的选择也是影响聚类结果的重要因素，过多或过少的聚类数目都会造成聚类效果的下降。

实验报告1聚类分析

SPSS操作实验题目：聚类分析实验类型：基本操作实验目的：掌握聚类分析的基本原理及方法实验内容：[例2-1] 1999年财政部、国家经贸委、人事部和国家计委联合发布了《国有资本金效绩评价规则》。

其中，对竞争性工商企业的评价指标体系包括下面八大基本指标：净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。

下面我们借助于这一指标体系对我国上市公司的运营情况进行分析，以下数据为35家上市公司2008年年报数据，这35家上市公司分别来自于电力、煤气及水的生产和供应业，房地行业，信息技术业，在后面各章中也经常以该数据为例进行分析。

1、采用系统聚类分析方法对各只股票进行分析，使用最短聚类法，分类数为3实验步骤：1.从[例2-1]中分别提取各只股票的净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率数据。

2.利用spss将依次数据导入，采取系统聚类分析方法分别对三种行业聚类分析：分析-分类-系统聚类分析。

实验结果：1.电力、煤气及水的生产和供应业近似矩阵案例矩阵文件输入净资产收益率总资产报酬率资产负债率总资产周转率流动资产周转率已获利息倍数销售增长率净资产收益率.000 10.567 204.679 20.951 22.305 31.917 51总资产报酬率10.567 .000 202.270 11.493 12.998 32.408 57资产负债率204.679 202.270 .000 201.688 197.291 195.803 217总资产周转率20.951 11.493 201.688 .000 4.812 40.114 64流动资产周转率22.305 12.998 197.291 4.812 .000 39.883 65已获利息倍数31.917 32.408 195.803 40.114 39.883 .000 58销售增长率51.149 57.884 217.638 64.598 65.026 58.575资本累计率30.163 32.869 207.094 37.392 38.208 54.679 69聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 4 5 4.812 0 0 32 1 2 10.567 0 0 33 14 16.936 2 1 44 1 8 34.658 3 0 55 16 39.800 4 0 66 17 61.168 5 0 77 1 3 203.780 6 0 02.房地行业近似矩阵案例矩阵文件输入净资产收益率总资产报酬率资产负债率总资产周转率流动资产周转率已获利息倍数销售增长净资产收益率.000 20.208 196.427 36.175 34.998 37.710 134总资产报酬率20.208 .000 210.601 18.199 16.950 30.670 131资产负债率196.427 210.601 .000 221.849 220.269 206.557 284总资产周转率36.175 18.199 221.849 .000 3.500 35.115 129流动资产周转率34.998 16.950 220.269 3.500 .000 34.710 129已获利息倍数37.710 30.670 206.557 35.115 34.710 .000 149销售增长率134.798 131.678 284.778 129.800 129.483 149.586资本累计率25.262 28.540 210.565 37.071 36.452 43.988 129聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 4 5 3.500 0 0 22 2 4 17.574 0 1 43 1 8 25.262 0 0 44 1 2 32.240 3 2 55 16 36.438 4 0 66 17 134.063 5 0 77 1 3 221.578 6 0 03.信息技术业近似矩阵案例矩阵文件输入净资产收益率总资产报酬率资产负债率总资产周转率流动资产周转率已获利息倍数销售增长率净资产收益率.000 9.218 146.034 17.749 17.196 12.141 46总资产报酬率9.218 .000 152.894 9.366 9.376 4.945 51资产负债率146.034 152.894 .000 160.184 158.330 153.603 131总资产周转率17.749 9.366 160.184 .000 4.090 9.251 58流动资产周转率17.196 9.376 158.330 4.090 .000 9.208 58已获利息倍数12.141 4.945 153.603 9.251 9.208 .000 53销售增长率46.184 51.984 131.087 58.369 58.978 53.079资本累计率109.341 112.642 164.533 119.023 119.395 115.278 113聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 4 5 4.090 0 0 32 2 6 4.945 0 0 33 24 9.300 2 1 44 1 2 14.076 0 3 55 1 7 53.719 4 0 66 1 8 114.918 5 0 77 1 3 152.381 6 0 04.三个行业的综合聚类近似矩阵案例矩阵文件输入净资产收益率总资产报酬率资产负债率总资产周转率流动资产周转率已获利息倍数销售增长净资产收益率.000 24.596 319.066 45.415 44.923 50.874 151总资产报酬率24.596 .000 329.610 23.474 23.327 44.893 152资产负债率319.066 329.610 .000 339.932 335.426 323.417 381总资产周转率45.415 23.474 339.932 .000 7.220 54.109 156流动资产周转率44.923 23.327 335.426 7.220 .000 53.668 156已获利息倍数50.874 44.893 323.417 54.109 53.668 .000 169销售增长率151.393 152.945 381.639 156.294 156.437 169.188资本累计率116.204 120.760 338.078 130.150 130.552 134.959 185聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 4 5 7.220 0 0 22 2 4 23.400 0 1 33 1 2 38.312 0 2 44 1 6 50.886 3 0 55 1 8 126.525 4 0 66 17 161.989 5 0 77 1 3 338.167 6 0 0实验结果分析：实验体会与拓展设想：得分。

聚类分析算法实验报告(3篇)

第1篇一、实验背景聚类分析是数据挖掘中的一种重要技术，它将数据集划分成若干个类或簇，使得同一簇内的数据点具有较高的相似度，而不同簇之间的数据点则具有较低相似度。

本实验旨在通过实际操作，了解并掌握聚类分析的基本原理，并对比分析不同聚类算法的性能。

二、实验环境1. 操作系统：Windows 102. 软件环境：Python3.8、NumPy 1.19、Matplotlib 3.3.4、Scikit-learn0.24.03. 数据集：Iris数据集三、实验内容本实验主要对比分析以下聚类算法：1. K-means算法2. 聚类层次算法（Agglomerative Clustering）3. DBSCAN算法四、实验步骤1. K-means算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的KMeans类进行聚类，设置聚类数为3。

（3）计算聚类中心，并计算每个样本到聚类中心的距离。

（4）绘制聚类结果图。

2. 聚类层次算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的AgglomerativeClustering类进行聚类，设置链接方法为'ward'。

（3）计算聚类结果，并绘制树状图。

3. DBSCAN算法（1）导入Iris数据集，提取特征数据。

（2）使用Scikit-learn库中的DBSCAN类进行聚类，设置邻域半径为0.5，最小样本数为5。

（3）计算聚类结果，并绘制聚类结果图。

五、实验结果与分析1. K-means算法实验结果显示，K-means算法将Iris数据集划分为3个簇，每个簇包含3个样本。

从聚类结果图可以看出，K-means算法能够较好地将Iris数据集划分为3个簇，但存在一些噪声点。

2. 聚类层次算法聚类层次算法将Iris数据集划分为3个簇，与K-means算法的结果相同。

从树状图可以看出，聚类层次算法在聚类过程中形成了多个分支，说明该算法能够较好地处理不同簇之间的相似度。

聚类的实验报告

一、实验目的1. 理解聚类算法的基本原理和过程。

2. 掌握K-means算法的实现方法。

3. 学习如何使用聚类算法对数据集进行有效划分。

4. 分析不同聚类结果对实际应用的影响。

二、实验环境1. 操作系统：Windows 102. 编程语言：Python3. 库：NumPy、Matplotlib、Scikit-learn三、实验内容本次实验主要使用K-means算法对数据集进行聚类，并分析不同参数设置对聚类结果的影响。

1. 数据集介绍实验所使用的数据集为Iris数据集，该数据集包含150个样本，每个样本包含4个特征（花瓣长度、花瓣宽度、花萼长度、花萼宽度），以及对应的分类标签（Iris-setosa、Iris-versicolor、Iris-virginica）。

2. K-means算法原理K-means算法是一种基于距离的聚类算法，其基本思想是将数据集中的对象划分为K个簇，使得每个对象与其所属簇的质心（即该簇中所有对象的平均值）的距离最小。

3. 实验步骤（1）导入数据集首先，使用NumPy库导入Iris数据集，并提取特征值和标签。

（2）划分簇使用Scikit-learn库中的KMeans类进行聚类，设置聚类个数K为3。

（3）计算聚类结果计算每个样本与对应簇质心的距离，并将样本分配到最近的簇。

（4）可视化结果使用Matplotlib库将聚类结果可视化，展示每个样本所属的簇。

（5）分析不同参数设置对聚类结果的影响改变聚类个数K，观察聚类结果的变化，分析不同K值对聚类效果的影响。

四、实验结果与分析1. 初始聚类结果当K=3时，K-means算法将Iris数据集划分为3个簇，如图1所示。

图1 K=3时的聚类结果从图1可以看出，K-means算法成功地将Iris数据集划分为3个簇，每个簇对应一个Iris物种。

2. 不同K值对聚类结果的影响（1）当K=2时，K-means算法将Iris数据集划分为2个簇，如图2所示。

实验报告聚类分析

实验四聚类分析实验要求：选取一组有实际意义的数据，利用SAS的五种系统聚类方法将n个样本进行分类，要求：1）说明每一种方法的分类结果；2）利用主成分分析说明哪一种分类结果更合理。

实验目的：学会利用SAS语言编写程序以实现聚类分析过程。

实验过程与结果分析：我们仍对实验一的数据集chengshi（2006年各省市主要城市建设水平指标年度统计数据）进行聚类分析。

第一步：编写SAS程序。

proc cluster data=chengshi method=single outtree=tree1;id region;proc tree data=tree1 horizontal graphics;id region;run;proc cluster data=chengshi method=complete outtree=tree2;id region;proc tree data=tree2 horizontal graphics;id region;run;proc cluster data=chengshi method=centroid outtree=tree3;id region;proc tree data=tree3 horizontal graphics;id region;run;proc cluster data=chengshi method=average outtree=tree4;id region;proc tree data=tree4 horizontal graphics;id region;run;proc cluster data=chengshi method=ward outtree=tree5;id region;proc tree data=tree5 horizontal graphics;id region;run;第二步: 将数据集提交运行，运行结果见图1-图10；图1 利用最小距离法所得到的树状分类图图2 最小距离法的聚类过程图3 利用最大距离法所得到的树状分类图图4 最大距离法的聚类过程图5 利用重心法所得到的树状分类图图6 重心法的聚类过程图7 利用平均距离法所得到的树状分类图图8 平均距离法的聚类过程图9 利用离差平方和法所得到的树状分类图图10 离差平方和法的聚类过程第三步：对输出的结果进行分析。

《多元统计实验》---聚类分析实验报告二

《多元统计实验》---聚类分析实验报告
rownames(ex4)=ex4.4[,1]
KM<-kmeans(ex4,4,nstart = 20,algorithm = "Hartigan-Wong")
KM
sort(KM$cluster)
三、实验结果分析：
第一题：
如下图为20种啤酒最小距离法系统聚类树状图，当取合并距离为20时，20种啤酒可以分为3类，第一类为{16，19}，第二类为{10，12，9，20}，第三类为{2，7，4，3，5，15，13，14，8，17，11，1，6，18}。

如下图为20种啤酒最大距离法系统聚类树状图，如果将啤酒分为4类，则第一类为{16，19}，第二类{10，12，9，20}，第三类{4，2，7}，第四类{13，17，11，8，6，18，5，15，3，14}，即蓝色框出。

如下截图为当20种啤酒分为3类是的最大距离法聚类出的结果，即分为{1，3，5，6，8，11，13，14，15，17，18}、{2，4，7}、{9，10，12，16，19，20}。

第二题：
如下截图，31个地区被聚成大小为4、3、16、8的四个类，means表示各类均值，
如下截图得出的结果，按地区原顺序聚类后的分类情况以及类间平方和在总平方和中的占比为79.7%，分类结果为：
第一类：天津、江苏、福建、广东
第二类：北京、上海、浙江
第三类：河北、山西、辽宁、吉林、黑龙江、山东、河南、广西、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆
第四类：内蒙古、安徽、江西、湖北、湖南、海南、重庆、四川。

聚类分析中实验报告

一、实验背景聚类分析是数据挖掘中的一种无监督学习方法，通过对数据集进行分组，将相似的数据对象归为同一类别。

本实验旨在通过实践，加深对聚类分析方法的理解，掌握常用的聚类算法及其应用。

二、实验目的1. 理解聚类分析的基本原理和方法。

2. 掌握常用的聚类算法，如K-means、层次聚类、密度聚类等。

3. 学习使用Python等工具进行聚类分析。

4. 分析实验结果，总结聚类分析方法在实际应用中的价值。

三、实验环境1. 操作系统：Windows 102. 编程语言：Python3.83. 数据库：SQLite 3.32.24. 聚类分析库：scikit-learn 0.24.2四、实验步骤1. 数据准备- 下载并导入实验数据集，本实验使用的是Iris数据集，包含150个样本和4个特征。

- 使用pandas库对数据进行预处理，包括缺失值处理、异常值处理等。

2. 聚类算法实现- 使用scikit-learn库实现K-means聚类算法。

- 使用scikit-learn库实现层次聚类算法。

- 使用scikit-learn库实现密度聚类算法（DBSCAN）。

3. 结果分析- 使用可视化工具（如matplotlib）展示聚类结果。

- 分析不同聚类算法的优缺点，对比聚类效果。

4. 实验总结- 总结实验过程中遇到的问题和解决方法。

- 分析聚类分析方法在实际应用中的价值。

五、实验结果与分析1. K-means聚类- 使用K-means聚类算法将数据集分为3个类别。

- 可视化结果显示，K-means聚类效果较好，将数据集分为3个明显的类别。

2. 层次聚类- 使用层次聚类算法将数据集分为3个类别。

- 可视化结果显示，层次聚类效果较好，将数据集分为3个类别，且与K-means聚类结果相似。

3. 密度聚类（DBSCAN）- 使用DBSCAN聚类算法将数据集分为3个类别。

- 可视化结果显示，DBSCAN聚类效果较好，将数据集分为3个类别，且与K-means聚类结果相似。

聚类分析实验报告结论(3篇)

第1篇本次聚类分析实验旨在深入理解和掌握聚类分析方法，包括基于划分、层次和密度的聚类技术，并运用SQL Server、Weka、SPSS等工具进行实际操作。

通过实验，我们不仅验证了不同聚类算法的有效性，而且对数据理解、特征选择与预处理、算法选择、结果解释和评估等方面有了更为全面的认知。

以下是对本次实验的结论总结：一、实验目的与意义1. 理解聚类分析的基本概念：实验使我们明确了聚类分析的定义、目的和应用场景，认识到其在数据挖掘、市场分析、图像处理等领域的重要性。

2. 掌握聚类分析方法：通过实验，我们学习了K-means聚类、层次聚类等常用聚类算法，并了解了它们的原理、步骤和特点。

3. 提高数据挖掘能力：实验过程中，我们学会了如何利用工具进行数据预处理、特征选择和聚类分析，为后续的数据挖掘工作打下了基础。

二、实验结果分析1. K-means聚类：- 实验效果：K-means聚类算法在本次实验中表现出较好的聚类效果，尤其在处理规模较小、结构较为清晰的数据时，能快速得到较为满意的聚类结果。

- 特点：K-means聚类算法具有简单、高效的特点，但需要事先指定聚类数目，且对噪声数据敏感。

2. 层次聚类：- 实验效果：层次聚类算法在处理规模较大、结构复杂的数据时，能较好地发现数据中的层次关系，但聚类结果受距离度量方法的影响较大。

- 特点：层次聚类算法具有自适应性和可解释性，但计算复杂度较高，且聚类结果不易预测。

3. 密度聚类：- 实验效果：密度聚类算法在处理噪声数据、非均匀分布数据时，能较好地发现聚类结构，但对参数选择较为敏感。

- 特点：密度聚类算法具有较好的鲁棒性和可解释性，但计算复杂度较高。

三、实验结论1. 聚类算法的选择：根据实验结果，K-means聚类算法在处理规模较小、结构较为清晰的数据时，具有较好的聚类效果；层次聚类算法在处理规模较大、结构复杂的数据时，能较好地发现数据中的层次关系；密度聚类算法在处理噪声数据、非均匀分布数据时，能较好地发现聚类结构。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

聚类分析实验报告
姓名：学号：班级：
一：实验目的
1.了解聚类分析的基本原理及在spss中的实现过程。

2.通过对指标进行聚类，体会降维的处理过程。

3.通过不同性质指标对样本进行聚类，体会归类的思想。

二：实验原理
聚类分析是根据事物本身的特性来定量研究分类问题的一种多元统计分析方法。

其基本思想是同一类中的个体有较大的相似性，不同类中的个体差异较大，于是根据一批根据一批样品的多个观察指标，找出能够度量样品（或变量）之间相似度的统计量，并以此为依据，采用某种聚类法，将所有的样品（或变量）分别聚合到不同的类中。

三：实验过程
本实验是通过对上市公司分析所得。

由基本经济知识知道评价一个上市公司的业绩主要从以下四个方面：盈利能力，偿债能力，成长能力，经营能力。

所以我分别从这四个方面共选取了19个指标来对上市公司的业绩进行评价。

具体数据请见EXCEL。

由上面的分析我们知道评定一个上市公司业绩的指标有四类，但我们看EXCEL可知，每一类下面有4-5个指标，每类指标有较强相关性，存在多重共线性和维数过高而不易分析得影响。

所以首先采用系统聚类法对每类指标进行聚类，再采用比较复相关系数得出每类最具代表的指标，达到降维的目的。

（注：以下对指标分析均采用主间连接法，度量标准为person相关性）
以下是实验截图：
（1）：对盈利能力指标
从上表分析我们可将盈利能力的4个指标分为两类，即“毛利率”为一类，“销售净利率”、“成本费用利润率”和“资产净利润”为一类。

所以“毛利率”为一类，另外再对“销售净利润”、“成本费用利润率”和“资产净利润”分别作对另3个指标的复相关系数，结果如下：
①、以“销售净利润”为因变量，其余为自变量得：
模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .980a.960 .957 .20721755
a. 预测变量: (常量), Zscore: 资产净利率（%）, Zscore: 毛利率（%）, Zscore: 成本费用利润率（%）。

②、以“成本费用利润率”为因变量，其余为自变量得：
模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .978a.957 .953 .21603919
a. 预测变量: (常量), Zscore: 销售净利率（%）, Zscore: 毛利率（%）, Zscore: 资产净利率（%）。

模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .686a.470 .428 .75625071
a. 预测变量: (常量), Zscore: 成本费用利润率（%）, Zscore:
毛利率（%）, Zscore: 销售净利率（%）。

综上比较复相关系数R得，当以“销售净利润”为因变量时，R最大，所以最终选取“销售净利润”和“毛利率”代表盈利能力。

（2）：对偿债能力指标的聚类
从上表分析我们可将偿债能力的5个指标分为两类，即“资产负债率”和“产权比率”为一类，“流动比率”、“速动比率”和“现金流动负债比”为一类。

然后同上法作复相关系数，结果如下：
①、以“资产负债率”为因变量，其余为自变量得：
模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .934a.873 .859 .37572750
a. 预测变量: (常量), Zscore(现金流动负债比), Zscore(流动比率（倍）), Zscore: 产权比率（%）, Zscore(速动比率（倍）)。

②、以“产权比率”为因变量，其余为自变量得：
模型汇总
综上比较复相关系数R得，在①和②中选择“资产负债率”，在③④⑤中选择“速动比率”，即最终选取“资产负债率”和“速动比率”代表偿债能力。

（3）：对成长能力指标的聚类
从上表分析我们可将成长能力的5个指标分为两类，即“经营性现金流增长率”单独为一类，“营业收入增长率”、“总资产增长率”、“净利润增长率”和“股东权益增长率”为一类。

然后同上法作复相关系数，结果如下：
①、以“营业收入增长率”为因变量，其余为自变量得：
模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .583a.340 .269 .85494489
a. 预测变量: (常量), Zscore: 经营性现金流增长率（%）, Zscore: 净利润增长率（%）, Zscore: 股东权益增长率（%）, Zscore: 总资产增长率（%）。

模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .712a.507 .453 .73933653
综上比较复相关系数R得，在①②③④中选择“总资产增长率”，即最终选取“经营性现金流增长率”和“总资产增长率”代表成长能力的指标。

（4）：对运营能力指标的聚类
从上表分析我们可将营运能力的5个指标分为两类，即“应收账款周转率”单独为一类，“总资产周转率”、“股东权益周转率”、“固定资产周转率”和“存货周转率”为一类。

然后同上法作复相关系数，结果如下：
模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .861a.74
2 .714 .53466578
a. 预测变量: (常量), Zscore(固定资产周转率（次）), Zscore(存货周转率（次）), Zscore(应收账款周转率（次）), Zscore(股东权益周转率（次）)。

②、以“股东权益周转率”为因变量，其余为自变量得：
模型汇总
模型R R 方调整 R 方标准估计的误
差
1 .851a.725 .695 .55205260
a. 预测变量: (常量), Zscore(总资产周转率（次）), Zscore(应收账款周转率（次）), Zscore(存货周转率（次）), Zscore(固定资产周转率（次）)。

③、以“固定资产周转率”为因变量，其余为自变量得：
综上比较复相关系数R得，在①②③④中选择“总资产周转率”，即最终选取“应收账款周转率”和“总资产周转率”代表营运能力的指标。

总结：通过对反应上市公司业绩的四个方面分别进行聚类，我们筛选了8个指标来反应一家上市公司的经营业绩。

在上面的聚类过程中，我们也发现对盈利能力、偿债能力和成长能力三个方面的指标进行聚类时得到了很好的结果，而对经营能力进行聚类时相对较差，这是因为经营能力的指标相对于其他三方面的指标相关性较低，其实在一开始我对这四个方面共19个指标做了一次聚类，发现反应经营能力的指标的一部分和反应其他三方面的指标聚在了一起。

这其实可从经济上解释，因为经营能力越好，则其盈利能力、偿债能力和成长能力就越好。

但我们也可将其单独归为一类。

综上我们得出了反应一家上市公司业绩的8个指标，接下来，我们将通过因子分析来对上市公司经营业绩做出综合评价。

聚类分析实验报告.doc