多元统计分析(聚类分析)

合集下载

多元统计分析概述

多元统计分析概述

多元统计分析概述多元统计分析是一种统计学方法,用于研究多个变量之间的关系和模式。

它可以帮助我们理解和解释数据中的复杂关系,从而提供有关变量之间相互作用的深入洞察。

在本文中,我们将概述多元统计分析的基本概念、常用方法和应用领域。

一、基本概念1. 变量:在多元统计分析中,我们研究的对象是多个变量。

变量可以是数值型(如年龄、收入)或分类型(如性别、教育程度)。

2. 样本和总体:多元统计分析通常基于样本数据进行推断。

样本是从总体中抽取的一部分观察值。

通过对样本数据进行分析,我们可以推断总体的特征和关系。

3. 相关性和相关系数:多元统计分析可以帮助我们研究变量之间的相关性。

相关性是指两个变量之间的关系程度。

相关系数是衡量相关性强度和方向的统计指标,常用的有皮尔逊相关系数和斯皮尔曼相关系数。

4. 因果关系和回归分析:多元统计分析也可以用于研究变量之间的因果关系。

回归分析是一种常用的方法,用于建立变量之间的数学模型,从而预测一个变量对另一个变量的影响。

二、常用方法1. 主成分分析(PCA):主成分分析是一种降维技术,用于将多个相关变量转化为少数几个无关的主成分。

它可以帮助我们发现数据中的主要模式和结构。

2. 因子分析:因子分析是一种用于探索变量之间潜在关系的方法。

它可以帮助我们理解变量背后的共同因素,并将多个变量归纳为几个潜在因子。

3. 聚类分析:聚类分析是一种将样本分组为相似类别的方法。

它可以帮助我们发现数据中的群组结构,并识别相似的观察值。

4. 判别分析:判别分析是一种用于区分不同组别的方法。

它可以帮助我们确定哪些变量对于区分不同组别最为重要。

5. 多元方差分析(MANOVA):多元方差分析是一种用于比较多个组别之间差异的方法。

它可以同时考虑多个因变量和多个自变量之间的关系。

三、应用领域多元统计分析在各个领域都有广泛的应用,包括社会科学、生物医学、市场研究等。

以下是一些常见的应用领域:1. 社会科学:多元统计分析可以帮助研究人类行为和社会现象。

多元统计分析

多元统计分析

多元统计分析随着社会的发展和科学技术的不断进步,多元统计分析已经成为了现代统计学中非常重要的研究领域。

多元统计分析是使用多个变量进行数据分析的一种统计学技术,可以连接各个领域的研究成果和应用。

多元统计分析技术通常被用于研究多个变量之间的关系或变异性质。

它可以在大量的样本中进行高效的数据采集和信息整合,使研究者可以清晰地理解各变量之间的关系,进而提高研究和实践的效率。

下面我们主要介绍多元统计分析中最常见的五种技术:主成分分析、聚类分析、判别分析、因子分析和结构方程模型。

1. 主成分分析(PCA)PCA通常被用来压缩或降维多变量的数据。

该技术处理原始数据,将其转换为新变量,其数量比原始变量小。

主成分分析的目标是降低数据维度,而不是丢失大部分信息。

通过主成分分析,各变量之间的一个线性组合,可以在一个新的坐标系中描绘出数据的模式和差异,使得研究者可以从各种角度观察数据集的特征。

主成分分析能够帮助研究者快速掌握大量指标之间的关系,然后选择性地提取相关的信息。

2. 聚类分析(CA)聚类分析旨在寻找数据集内部指标之间的相似性或差异。

它使用类似度测量方法将数据分组或聚类,从而确定研究对象之间的类别和关系。

聚类分析将研究对象之间的共同点组合在一起,并将其与其他成组对象区分开来,这有助于识别数据集中有哪些对象或变量比较相关。

聚类分析得出的结果可以提供研究者对不同类别进行描述和探究的机会。

3. 判别分析(DA)判别分析是一种监督学习方法,其目标是在给定的类别下找到更好的判别因子或变量。

在判别分析中,研究者需要指示哪些变量能够最好地将不同组别区分开来。

在分类问题中,判别分析是非常有用的,可以快速判断新观察结果所属的类别。

4. 因子分析(FA)因子分析旨在寻找潜在的因素或变量,以说明数据中的关系和其他类型的变化。

在因子分析中,数据集中的每个变量与若干潜在因素中的一种或多种相关联。

通过因子分析,可以减少数据中某些不必要和重复的因素,从而更好地理解大量数据背后的原理与常见模式。

应用多元统计分析聚类分析

应用多元统计分析聚类分析

应用多元统计分析聚类分析多元统计分析是一种利用多个变量对数据进行综合分析的方法,通过对各个变量之间的关系进行分析,可以帮助我们了解数据的内在规律,揭示变量之间的相互作用,为问题的解决提供依据和参考。

其中,聚类分析是多元统计分析中的一种方法,它通过将样本数据划分为不同的组别,使得组内的样本之间相似度较高,组间的样本相似度较低,从而实现数据的分类和整理。

聚类分析的过程一般可分为以下几个步骤:1.确定聚类的目标与方法:在进行聚类分析之前,需要明确分析的目标,即希望把样本分成多少个组别,以及采用什么样的分析方法。

2.选择合适的变量和数据:聚类分析需要选择一些具有代表性的变量作为分析对象,并准备好相应的数据。

这些变量可以是数值型、名义型或顺序型的,但需要注意的是,不同类型的变量需要采用不同的距离度量。

3.计算样本间的距离:通过选择合适的距离度量方法,可以度量各个样本之间的相似度或距离,常用的距离度量方法有欧氏距离、曼哈顿距离和相关系数等。

4.执行聚类分析:根据选定的聚类方法,进行聚类分析。

常用的聚类方法有层次聚类和非层次聚类两种,其中层次聚类可以进一步分为凝聚聚类和分裂聚类等。

5.判断聚类结果的合理性:根据实际情况和问题要求,对得到的聚类结果进行合理性检验。

可以通过观察不同聚类组别内的样本特征和组间的差异度,评估聚类结果的合理性。

6.解释和应用聚类结果:根据聚类分析得到的结果,可以对分类的样本进行解释和应用。

例如,可以找到各个类别的典型样本,分析其特征和规律,为问题的解决提供参考和支持。

聚类分析在实际应用中具有很广泛的应用价值。

例如,在市场细分方面,可以利用聚类分析将消费者划分为不同的群体,有针对性地开展精准营销;在医药领域中,可以通过聚类分析将疾病患者划分为不同的病种,帮助医生进行诊断和治疗方案的选择;在社会科学研究中,可以利用聚类分析将受访者划分为不同的人群,通过对不同人群的特征分析,了解社会问题背后的机制和原因。

多元统计分析(聚类分析,判别分析,对应分析)

多元统计分析(聚类分析,判别分析,对应分析)

91.500
358.500
95.000
357.000
输出的第一部分对应表是由原始数据学号与科目 分类的列联表,可以看出观测总数n=40,说明原 始数据中没有记录缺失,有效边际为行列数的总 和。
维数 1 2 3 总计
汇总 惯量比例
置信奇异值
奇异值 .075 .052
惯量 .006 .003
解释 .548 .264
2 -.143 -.427 .065 -.013
概述列点a
惯量 .002 .003 .005 .000 .010
点对维惯量
1 .000
2 .099
.022
.880
.975
.021
.003
.001
1.000
1.000
贡献
1 .000 .047 .989 .039
维对点惯量 2 .135 .887 .010 .006
(列)的每一状态对每一维度(公共因子)特
征值的贡献及每一维度对行(列)各个状态的
特征值等贡献。如第一维度中,外语对应的数 值最大,为0.975,说明外语这一状态对第一维 度的贡献最大。
对应分析
由以上两张坐标表可以得出如下的叠加散点图,也是输出 的最后一部分,是学号各状态与科目各状态同时在一张二 维图上的投影。在图上既可以看到每一变量内部各状态之 间的相关关系,又可以同时考察两变量之间的相关关系。
对应分析
结果分析
学号 1 2 3 4
语文 82.000 81.000 83.000 72.000
对Байду номын сангаас表
数学 120.000 119.000 115.000 115.000
科目 外语 71.000 77.000 69.000 75.000

应用多元统计分析

应用多元统计分析

应用多元统计分析多元统计分析是一种应用广泛的统计方法,用于分析多个变量之间的关系和相互影响。

它可以帮助我们揭示数据背后的规律,并为决策提供科学依据。

在本文中,我们将介绍多元统计分析的基本概念、常用方法和实际应用。

多元统计分析的基本概念:多元统计分析是指同时考虑多个变量之间关系的统计方法。

在传统的统计分析中,我们通常只关注一个变量与另一个变量之间的关系,而忽视了其他因素对这种关系的影响。

而多元统计分析则能够考虑多个变量之间的复杂关系,帮助我们全面地理解数据的特征和规律。

常用的多元统计分析方法有:1. 主成分分析(Principal Component Analysis,简称PCA)主成分分析是一种降维技术,用于将高维数据转化为低维表示。

它通过线性变换将原始变量转换为一组互不相关的主成分,从而简化了数据的复杂性。

主成分分析可以帮助我们发现数据中的主要模式,降低变量之间的相关性,提高数据的解释能力。

2. 因子分析(Factor Analysis)因子分析是一种探索性的数据降维方法,用于发现数据隐藏的潜在因子。

它假设观测变量由少数几个潜在因子决定,并通过线性组合表示。

因子分析可以帮助我们理解多个变量之间的共同性,找到隐藏在数据背后的结构。

3. 聚类分析(Cluster Analysis)聚类分析是一种无监督学习方法,用于将观测对象划分为不同的类别。

它通过计算不同对象之间的相似度或距离,将它们分配到同一类别中。

聚类分析可以帮助我们发现数据中的自然分组结构,从而更好地理解和解释数据。

4. 判别分析(Discriminant Analysis)判别分析是一种有监督学习方法,用于确定一组变量的线性组合,可以最好地将不同类别的观测对象区分开来。

它可以帮助我们理解不同类别之间的差异,并通过构建分类模型进行预测。

多元统计分析的实际应用:多元统计分析在各个领域都有着广泛的应用。

以下是其中一些典型的应用场景:1. 社会科学研究:多元统计分析可以用于分析调查数据、人口统计数据等,揭示社会现象的规律和影响因素。

多元统计分析 第5章 聚类分析

多元统计分析 第5章 聚类分析

余弦相似性 Cosine Similarity
A document can be represented by thousands of attributes,
p (such as each recording the frequency of a particular word keywords) or phrase in the document. xi yi
feature mapping, ... Cosine measure: If d1 and d2 are two vectors (e.g., termfrequency vectors), then cos(d1, d2) = (d1 d2) /||d1|| ||d2|| ,
where indicates vector dot product, ||d||: the length of vector d
d1 = (5, 0, 3, 0, 2, 0, 0, 2, 0, 0) d2 = (3, 0, 2, 0, 1, 1, 0, 1, 0, 1) d1 d2 = 5*3+0*0+3*2+0*0+2*1+0*1+0*1+2*1+0*0+0*1 = 25 ||d1||= (5*5+0*0+3*3+0*0+2*2+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5 = 6.481 ||d2||= (3*3+0*0+2*2+0*0+1*1+1*1+0*0+1*1+0*0+1*1)0.5=(17)0.5 = 4.12 cos(d1, d2 ) = 0.94

多元统计分析-聚类分析

多元统计分析-聚类分析

多元统计分析-聚类分析聚类分析是⼀个迭代的过程对于n个p维数据,我们最开始将他们分为n组每次迭代将距离最近的两组合并成⼀组若给出需要聚成k类,则迭代到k类是,停⽌计算初始情况的距离矩阵⼀般⽤马⽒距离或欧式距离个⼈认为考试只考 1,2⽐较有⽤的⽅法是3,4,5,8最喜欢第8种距离的计算 欧式距离 距离的⼆范数 马⽒距离 对于X1, X2均属于N(u, Σ) X1,X2的距离为 (X1 - X2) / sqrt(Σ)那么不同的聚类⽅法其实也就是不同的计算类间距离的⽅法1.最短距离法 计算两组间距离时,将两组间距离最短的元素作为两组间的距离2.最长距离法 将两组间最长的距离作为两组间的距离3.中间距离法 将G p,G q合并成为G r 计算G r与G k的距离时使⽤如下公式 D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq β是提前给定的超参数-0.25<=β<=04.重⼼法 每⼀组都可以看成⼀组多为空间中点的集合,计算组间距离时,可使⽤这两组点的重⼼之间的距离作为类间距离 若使⽤的是欧⽒距离 那么有如下计算公式 D2kr = n p/n r * D2kp + n q/n r * D2kq - (n p*n q / n r*n r ) * D2pq5.类平均法 两组之间的距离 = 组间每两个样本距离平⽅的平均值开根号 表达式为D2kr = n p/n r * D2kp + n q/n r * D2kq6.可变类平均法 可以反映合并的两类的距离的影响 表达式为D2kr = n p/n r *(1- β) * D2kp + n q/n r *(1- β) * D2kq + β*D2pq 0<=β<17.可变法 D2kr = (1- β)/2 * (D2kp + D2kq) + β*D2pq8.离差平⽅和法 这个⽅法⽐较实⽤ 就是计算两类距离的话,就计算,如果将他们两类合在⼀起之后的离差平⽅和 因为若两类本⾝就是⼀类,和本⾝不是⼀类,他们的离差平⽅和相差较⼤ 离差平⽅和:类中每个元素与这⼀类中的均值距离的平⽅之和 若统⼀成之前的公式就是 D2kr = (n k + n p)/(n r + n k) * D2kp + (n k + n q)/(n r + n k) -(n k)/(n r + n k) * * D2pq⼀些性质 除了中间距离法之外,其他的所有聚类⽅法都具有单调性 单调性就是指每次聚类搞掉的距离递增 空间的浓缩和扩张 D(A)>=D(B) 表⽰A矩阵中的每个元素都不⼩于B D(短) <= D(平) <= D(长) D(短,平) <= 0 D(长,平) >= 0 中间距离法⽆法判断。

多元统计分析课件第五章_聚类分析

多元统计分析课件第五章_聚类分析
(3)按(5.12)计算新类与其它类的距离。 (4)重复(2)、(3)两步,直到所有元素。并成一类为
止。如果某一步距离最小的元素不止一个,则对应ቤተ መጻሕፍቲ ባይዱ些
最小元素的类可以同时合并。
【例5.1】设有六个样品,每个只测量一个指标,分别是1, 2,5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表5.1
一、系统聚类的基本思想
系统聚类的基本思想是:距离相近的样品(或变量)先聚成 类,距离相远的后聚成类,过程一直进行下去,每个样品 (或变量)总能聚到合适的类中。系统聚类过程是:假设总 共有n个样品(或变量),第一步将每个样品(或变量)独 自聚成一类,共有n类;第二步根据所确定的样品(或变量) “距离”公式,把距离较近的两个样品(或变量)聚合为一 类,其它的样品(或变量)仍各自聚为一类,共聚成n 1类; 第三步将“距离”最近的两个类进一步聚成一类,共聚成n 2类;……,以上步骤一直进行下去,最后将所有的样品 (或变量)全聚成一类。为了直观地反映以上的系统聚类过 程,可以把整个分类系统画成一张谱系图。所以有时系统聚 类也称为谱系分析。除系统聚类法外,还有有序聚类法、动 态聚类法、图论聚类法、模糊聚类法等,限于篇幅,我们只 介绍系统聚类方法。
在生物、经济、社会、人口等领域的研究中,存在着大量量 化分类研究。例如:在生物学中,为了研究生物的演变,生 物学家需要根据各种生物不同的特征对生物进行分类。在经 济研究中,为了研究不同地区城镇居民生活中的收入和消费 情况,往往需要划分不同的类型去研究。在地质学中,为了 研究矿物勘探,需要根据各种矿石的化学和物理性质和所含 化学成分把它们归于不同的矿石类。在人口学研究中,需要 构造人口生育分类模式、人口死亡分类状况,以此来研究人 口的生育和死亡规律。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

应用多元统计分析第五章聚类分析
主讲:孔幸
组员:杨海生
王晶晶
田艳霞
龚禄娃
第五章聚类分析
习题5.8
试使用系统聚类法和K-均值法分别对这些地区进行聚类分析,并对结果进行比较分析。

将数据导入SPSS,分析得到以下结果:
5.8.1 系统聚类分析(类平均法)
1.系统聚类分析树状图
使用平均联接(组间)的树状图
重新调整距离聚类合并
图5.8-1系统聚类法树状图
如图5.8-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。

从树状图可见,将16个地区分成4类:第一类:上海,经济相对发达地区,农民每人平均生活消费支出情况的六个经济指标相对于16个地区来说都比较大,说明上海农民的平均生活消费水平在
16个地区中最高的。

第二类:北京和浙江,经济中上等地区,农民每人平均生活消费支出的六个经济指标相对于其他的13个地区(除上海外)都比较高,说明北京和浙江地区农民的平均生活消费水平在16个地区中属于中上等水平。

第三类:天津、江苏、辽宁、福建、江西、安徽、内蒙古、黑龙江和吉林,经济中等地区,这7个地区农民的平均生活消费水平在16个地区中属于中等水平。

第四类:河北、河南、山西和山东,经济中下等地区,这4个地区农民的平均生活消费水平在16个地区中中下等水平,即在16个地区中是相对较低的。

5.8.2 K-均值法
通过上述的系统聚类分析(类平均法)我们发现,16个地区农民的平均生活消费水平可以分成4类,因此,我们运用K-均值法做快速聚类分析时,将16个地区聚成的类数设定为4类。

在SPSS中的运行结果解释具体如下:
1.首先分析方差分析表,见表5.8-1
表5.8-1 方差分析表
聚类误差
F Sig.
均方df 均方df
食品5127.237 3 96.784 12 52.976 0.000
衣着100.666 3 28.916 12 3.481 0.050
燃料24.794 3 11.122 12 2.229 0.137
住房3015.542 3 124.862 12 24.151 0.000 交通和通讯341.567 3 60.105 12 5.683 0.012
娱乐教育文化 4.539 3 2.555 12 1.777 0.205
从表5.8-1中可见,聚成的四类在食品、衣着、燃料、住房、交通和通讯以及娱乐教育文化六个经济指标的均值间无差异的原假设下,出现目前值或更极端值的概率分别为0.000、0.050、0.137、0.000、0.012和0.205,故变量食品、衣着、住房以及交通和通讯在分类过程中均在统计学上有显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),而燃料和娱乐教育文化变量无统计学上的显著性意义(P=0.137和0.205大于0.05),因此,有必要在剔除燃料和娱乐教育文化变量后重新做聚类分析。

剔除燃料和娱乐教育文化后重新做的聚类分析结果解释如下:
2.迭代过程分析
表5.8-2 迭代过程中类中心得变化量
迭代聚类中心内的更改
1 2 3 4
1 15.305 0.000 12.195 22.664
2 0.000 0.000 0.000 0.000
表5.8-2显示了迭代过程的基本情况,它表明迭代到第二次时,类中心点已没有太大变化达到收敛。

3.给出个观测量所属的类及与所属类中心的距离
表5.8-3 各观测量所属类成员表
表5.8-3中聚类列给出了观测量所属的类别,距离列给出了观测量与所属类中心的距离。

4.给出聚类结果形成的中心的各变量值
表5.8-4 最终的类中心表
聚类
1 2 3 4
食品180.13 221.11 106.65 141.78
衣着38.17 38.64 26.23 28.15
住房53.83 115.65 19.98 25.09 交通和通讯41.68 50.82 23.4 26.01 结合表5.8-3和表5.8-4,我们可以看出16个地区被分成4类,第一类包括:北京和浙江,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为180.13、38.17、53.83和41.68,这类地区农民每人平均生活消费水平在16个地区中属于中上等。

第二类为上海,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为221.11、38.64、115.65和50.82,上海农民每人平均生活消费水平在16个地区中属于最高的。

第三类包括:河北、山西、黑龙江、
山东和河南,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为106.65、26.23、19.98和23.4,这类地区农民每人平均生活消费水平在16个地区中属于中等。

第四类包括:天津、内蒙古、辽宁、吉林、江苏、安徽、福建和江西,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为141.78、28.15、25.09和26.01,这类地区农民每人平均生活消费水平在16个地区中是相对较低的。

5.给出分类变量的方差分析表
表5.8-5 方差分析表
聚类误差
F Sig.
均方df 均方df
食品5127.237 3 96.784 12 52.976 0.000
衣着100.666 3 28.916 12 3.481 0.050
住房3015.542 3 124.862 12 24.151 0.000 交通和通讯341.567 3 60.105 12 5.683 0.012
表5.8-5给出了分类变量的方差分析表,从表中可见用来聚类的4个变量食品、衣着、住房以及交通和通讯在分四类过程中,均有统计学上的显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),表明用这4个变量将16各地区分成四类的快速聚类过程是成功的,聚类效果有统计学意义。

综上所述,将我国16个地区农民支出情况的抽样调查数据通过系统聚类分析和K-均值法聚类分析可以看出,运用这两种方法分析得出的结果基本上一致,但是也有两点不同:
(1)在系统分类法分析的结果中,将黑龙江地区与天津、内蒙古和江西等地区归为一类,而在K-均值法聚类分析结果中,将黑龙江地区与河南、河北、山东和山西等地区归为一类。

(2)在系统分类法分析的结果中,将上海地区分成第一类,北京和浙江地区分成第二类,天津、内蒙古和江西等地区分成第三类,河南、河北、山东和山西等地区分成第四类;而在K-均值法聚类分析结果中,北京和浙江地区分成第一类,上海地区分成第二类,河南、河北、山东和山西等地区分成第三类,天津、内蒙古和江西等地区分成第四类。

习题5.9
试利用两种不同的聚类法对城市进行聚类分析。

将数据导入SPSS,分析得到以下结果:
5.9.1系统聚类分析(类平均法)
1. 系统聚类分析树状图
使用平均联接(组间)的树状图
重新调整距离聚类合并
图5.9-1系统聚类法树状图
如图5.9-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。

从树状图可见,将34个我国部分省会城市和计划单列市分成4类:
第一类:深圳,经济较发达城市。

第二类:重庆和成都,经济中等城市
第三类:上海和广州,经济中上等城市
第四类:长春、南昌、哈尔滨、昆明、石家庄、兰州、西宁、南宁、太原、银川、乌鲁木齐、合肥、福州、海口、贵阳、郑州、西安、沈阳、长沙、济南、青岛、武汉、杭州、宁波、南京、天津、大连、北京和厦门。

经济中下等城市。

5.9.2系统聚类分析(中间距离法)
1.系统聚类分析树状图
使用中位数联接的树状图
重新调整距离聚类合并
图5.9-2 系统聚类法树状图
如图5.9-2所示,选择的聚类方法为中间距离法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。

从树状图可见,将34个我国部分省会城市和计划单列市分成4类:
第一类:深圳,经济较发达城市。

第二类:重庆和成都,经济中等城市。

第三类:杭州、宁波、南京、天津、沈阳、长沙、青岛、济南、武汉、大连、北京、厦门、上海和广州。

经济中上等城市。

第四类:长春、南昌、哈尔滨、昆明、石家庄、兰州、西宁、南宁、太原、银川、乌鲁木齐、合肥、福州、海口、贵阳、郑州、和西安。

经济发展相对缓慢城市。

综上所述,通过运用两种不同的系统聚类法(类平均法和中间距离法)对城市进行聚类分析,我们可以看出虽然两种不同的系统聚类法都可以讲城市分成4类,但是分类结果并不是完全相同的。

其中,两种不同的方法分成的第一类和第二类结果是完全一致的,然而,第三类和第四类的差距有点大,类平均法将上海和广州分成第三类,中间距离法分成的第三类不仅包括了上海和广州,而且还包括了杭州、宁波和厦门等12个城市。

总体来看,本题中采用中间距离法聚类分析的结果要优于类平均法聚类分析的结果。

相关文档
最新文档