高级统计学作业聚类分析
聚类分析_精品文档

1聚类分析内涵1.1聚类分析定义聚类分析(Cluste.Analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术.也叫分类分析(classificatio.analysis)或数值分类(numerica.taxonomy), 它是研究(样品或指标)分类问题的一种多元统计方法, 所谓类, 通俗地说, 就是指相似元素的集合。
聚类分析有关变量类型:定类变量,定量(离散和连续)变量聚类分析的原则是同一类中的个体有较大的相似性, 不同类中的个体差异很大。
1.2聚类分析分类聚类分析的功能是建立一种分类方法, 它将一批样品或变量, 按照它们在性质上的亲疏、相似程度进行分类.聚类分析的内容十分丰富, 按其聚类的方法可分为以下几种:(1)系统聚类法: 开始每个对象自成一类, 然后每次将最相似的两类合并, 合并后重新计算新类与其他类的距离或相近性测度. 这一过程一直继续直到所有对象归为一类为止. 并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法): 首先对n个对象初步分类, 然后根据分类的损失函数尽可能小的原则对其进行调整, 直到分类合理为止.(3)最优分割法(有序样品聚类法): 开始将所有样品看成一类, 然后根据某种最优准则将它们分割为二类、三类, 一直分割到所需的K类为止. 这种方法适用于有序样品的分类问题, 也称为有序样品的聚类法.(4)模糊聚类法: 利用模糊集理论来处理分类问题, 它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果.(5)图论聚类法: 利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法.(6)聚类预报法:利用聚类方法处理预报问题, 在多元统计分析中, 可用来作预报的方法很多, 如回归分析和判别分析. 但对一些异常数据, 如气象中的灾害性天气的预报, 使用回归分析或判别分析处理的效果都不好, 而聚类预报弥补了这一不足, 这是一个值得重视的方法。
统计学中的聚类分析方法

统计学中的聚类分析方法统计学是一门研究数据收集、整理、分析和解释的学科。
在统计学中,聚类分析是一种常用的方法,通过对数据集进行分类,将相似的样本归为一类,以便揭示数据的内部结构和隐含关系。
聚类分析可以应用于各个领域,包括市场调研、生物学、医学、图像处理等。
对于大量数据集的分类和理解,聚类分析提供了一种有效的手段。
一、聚类分析的基本思想聚类分析的基本思想是将样本集合中具有相似特征的样本划分为一组,通过测量样本间的相似性或者距离,将样本分成不同的簇。
相似性可以根据各种度量方法来定义,例如欧氏距离、曼哈顿距离、相关系数等。
聚类分析的目标是使得同一簇中的样本之间更加相似,而不同簇中的样本之间差异较大。
在进行聚类分析时,需要注意选择合适的聚类算法和参数,以及对结果的验证和解释。
二、常用的聚类算法1. K-means算法K-means算法是一种常见的聚类算法,通过将样本分为K个簇,每个簇内的样本之间的距离最小,而不同簇之间的距离最大。
算法的基本步骤包括初始化质心、计算样本到质心的距离、分配样本到最近的质心、更新质心位置,并迭代上述步骤直至收敛。
2. 层次聚类算法层次聚类算法是一种分层次的聚类方法,不需要预先指定簇的数目。
该算法将每个样本作为一个独立的簇,并通过不断合并相似的簇来构建层次结构。
合并的标准可以是最小距离、最大距离、平均距离等。
3. 密度聚类算法密度聚类算法是一种基于密度的聚类方法,适用于对复杂的数据集进行聚类。
该算法通过计算样本集合中每个样本的密度,并将高密度相连的样本划分为一类。
密度聚类算法的优点在于它可以发现任意形状的簇,并且对于噪声和异常点具有较强的鲁棒性。
三、聚类结果的评价和解释聚类结果的评价和解释是聚类分析中的重要步骤。
常用的评价指标包括轮廓系数、DB指数、Dunn指数等,它们能够对聚类结果的好坏进行量化评估。
解释聚类结果的过程包括对每个簇的特征进行分析,寻找可以解释簇内样本差异的相关因素。
经济统计学中的聚类分析方法

经济统计学中的聚类分析方法聚类分析是一种常用的数据分析方法,它在经济统计学中有着广泛的应用。
聚类分析的目标是将一组数据划分为若干个相似的子集,每个子集内的数据相似度高,而不同子集之间的数据相似度低。
这种方法可以帮助经济学家发现数据中的规律和模式,从而更好地理解经济现象。
聚类分析的基本原理是通过计算数据点之间的相似度或距离来确定数据的分组。
常用的相似度度量方法包括欧氏距离、曼哈顿距离和余弦相似度等。
欧氏距离是最常用的相似度度量方法,它计算两个数据点之间的直线距离。
曼哈顿距离则是计算两个数据点在坐标轴上的距离之和。
余弦相似度是通过计算两个向量之间的夹角来度量它们的相似度。
在经济统计学中,聚类分析可以用于多个方面的研究。
首先,它可以帮助经济学家对经济发展水平进行分类。
通过对不同国家或地区的经济指标进行聚类分析,可以将它们划分为不同的发展水平组别。
这有助于我们了解不同地区的经济特点和发展趋势,为政府制定相关政策提供参考。
其次,聚类分析可以用于市场细分。
市场细分是指将一个大市场划分为若干个小市场,每个小市场具有相似的需求和行为特征。
通过对消费者的购买行为和偏好进行聚类分析,可以将消费者划分为不同的群体,从而更好地满足他们的需求。
这对企业来说是非常重要的,可以帮助它们制定更精准的市场营销策略。
此外,聚类分析还可以用于金融风险管理。
金融市场中的数据非常庞大复杂,通过对金融市场数据进行聚类分析,可以将相似的金融资产或交易划分为同一类别。
这有助于金融机构更好地评估风险和制定风险管理策略,从而提高金融市场的稳定性和安全性。
聚类分析方法还可以与其他经济统计学方法相结合,如主成分分析和因子分析。
主成分分析可以用于降维,将高维数据转化为低维数据,而聚类分析可以在降维后的数据上进行分组。
因子分析可以用于提取数据的主要因素,而聚类分析可以将具有相似因素的数据进行分组。
这些方法的结合可以更全面地分析经济数据,提高分析的准确性和可解释性。
统计问题 5 聚类分析

由上图可知易分为两类,X与Z一类,Y一类。1234 Nhomakorabea5
6
7
8
X
1.8
2.1
3.2
2.2
2.5
2.8
1.9
2.0
Y
95
99
101
103
98
102
120
130
Z
0.15
0.21
0.18
0.17
0.16
0.20
0.09
0.11
解答:
题目要求对8各企业技术密集水平聚类,即R聚类(变量聚类)
上表为Proximity相关系数。由上表知X和Z的正相关性较大,Y与Z的负相关性较大,Y与X也程现负相关性。
生产工人劳动生产率x每百万元固定资产所容纳的职工人数y和技术管理人员在职工中的比重z
5、聚类分析现有8个企业,对每个企业用3个指标来刻画企业的技术密集水平:生产工人劳动生产率(x)、每百万元固定资产所容纳的职工人数(y)和技术管理人员在职工中的比重(z)。具体数据如下表,试对这8个企业的技术密集水平作聚类分析。
统计学中的分类与聚类分析

统计学中的分类与聚类分析统计学作为一门研究数据收集、分析和解释的学科,对于各个领域的研究和应用起着重要的作用。
在统计学中,分类与聚类分析是两个基本的方法。
它们不仅在学术界得到广泛运用,也在商业领域以及社会科学中发挥着重要的作用。
一、分类分析分类分析是一种通过定义和识别不同类别的方法,将数据按照预设的类别进行划分。
在分类分析中,研究人员首先选择合适的变量,通过对这些变量的测量和观察,获得所需的数据。
然后,通过采用适当的数学和统计模型,将数据划分到不同的类别中。
分类分析的应用广泛。
比如,在医学研究中,分类分析能够帮助研究人员判断不同群体的特征,从而更好地进行预防和治疗。
在市场营销领域,分类分析则可以帮助企业了解消费者的需求和偏好,从而制定有效的市场策略。
此外,分类分析还可以用于社会科学研究中,帮助我们理解不同人群的行为和态度。
二、聚类分析聚类分析是一种无监督学习的方法,通过将数据样本分成不同的群组或聚类,揭示数据内在的结构和规律。
与分类分析不同,聚类分析不需要事先定义好类别,而是根据数据本身的特点进行自动分组。
聚类分析属于非监督学习,它可以应用于许多领域,包括生物学、社会学、经济学等。
在生物学研究中,聚类分析可以帮助研究人员发现不同物种之间的关系,从而推断出生物进化的过程。
在社会学研究中,聚类分析则可以帮助我们理解不同人群的行为模式,发现社会分布和人口组成的规律。
三、分类与聚类的关系分类和聚类是统计学中两个相互关联的概念。
分类可以看作是一种预测性的分析方法,它将待分类的数据样本与已知类别的样本进行比较,然后根据相似性进行划分。
而聚类则是一种描述性的分析方法,它从数据本身的相似性出发,将数据样本进行自动分组。
分类和聚类的关系在实际应用中有很大的重叠。
有时候,我们可以根据已有的分类信息,将数据分成不同类别,并进一步使用聚类分析来发现数据内在的结构。
而在某些情况下,我们也可以先使用聚类分析将数据分组,再根据分组内的特征进行分类。
统计学作业聚类分析

聚类分析采用欧式距离,分别运用类平均法、最短距离法、最长距离法,对31个省、直辖市、自治区分类。
1、类平均法* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *Dendrogram using Average Linkage (Between Groups)Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+甘肃 28 -+宁夏 30 -+青海 29 -+-+河南 16 -+ |新疆 31 -+ +-+黑龙江 8 -+ | |陕西 4 -+-+ +-+内蒙古 5 -+ | |陕西 27 -----+ +-+山东 15 ---+-+ | |湖南 18 ---+ | | |河北 3 -+-+ +-+ |吉林 7 -+ +-+ |湖北 17 ---+ | +---+四川 23 -+-+ | | |云南 25 -+ +-+ | |辽宁 6 ---+ | +-----+江西 14 -+-+ | | |贵州 24 -+ +-----+ | |安徽 12 ---+ | |广西 20 -------+-----+ +-----------------------------+海南 21 -------+ | |江苏 10 -+-------+ | |重庆 22 -+ +---+ | |天津 2 ---------+ +---+ | |福建 13 -------------+ +-+ |西藏 26 -----------------+ |北京 1 ---------+ |上海 9 ---------+---+ |浙江 11 ---------+ +-----------------------------------+广东 19 -------------+2、最短距离法* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *Dendrogram using Single LinkageRescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+甘肃 28 -+宁夏 30 -+青海 29 -+---+河南 16 -+ |新疆 31 -+ |黑龙江 8 -+ |陕西 4 -+---+-+内蒙古 5 -+ | |陕西 27 -----+ |四川 23 -----+-+云南 25 -----+ |河北 3 -+---+ |吉林 7 -+ | |湖北 17 -----+-+山东 15 -----+ |辽宁 6 -------+-+湖南 18 -------+ |江西 14 ---+-+ | +---+贵州 24 ---+ +-+ | |安徽 12 -----+ | +-+广西 20 ---------+ | |江苏 10 -+-----------+ +---+重庆 22 -+ | +---+海南 21 ---------------+ | +-+天津 2 -------------------+ | +-----------------------+福建 13 -----------------------+ | |西藏 26 -------------------------+ |北京 1 -------------------+-+ |上海 9 -------------------+ +-+ |浙江 11 ---------------------+ +-------------------------+广东 19 -----------------------+3、最长距离法* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *Dendrogram using Complete LinkageRescaled Distance Cluster CombineC A S E 0 5 10 15 20 25Label Num +---------+---------+---------+---------+---------+甘肃 28 -+宁夏 30 -+青海 29 -+---+河南 16 -+ |新疆 31 -+ +---+黑龙江 8 -+ | |陕西 4 -+-+ | |内蒙古 5 -+ +-+ +-----+陕西 27 ---+ | |山东 15 ---+---+ | |湖南 18 ---+ | | |河北 3 -+-+ +-+ |吉林 7 -+ +-+ | |湖北 17 ---+ +-+ +---------+四川 23 -+-+ | | |云南 25 -+ +-+ | |辽宁 6 ---+ | |江西 14 -+ | |贵州 24 -+-------+ | +-----------------------+安徽 12 -+ +-----+ | |广西 20 -----+---+ | |海南 21 -----+ | |江苏 10 -+-----+ | |重庆 22 -+ +---------+ | |天津 2 -------+ +-------+ |福建 13 -----------+-----+ |西藏 26 -----------+ |北京 1 -------+ |上海 9 -------+-----+ |浙江 11 -------+ +-----------------------------------+广东 19 -------------+由上述图表可知,类平均法分为三类:{1,9,11,19}为第一类,{13,22,2,10,26}为第二类,其他为第三类;最短距离分为两类,{1,9,11,19}为第一类,其余的归为第二类;最长距离法归为三类:{1,9,11,19}为第一类,{13,22,2,10,26}为第二类,其他为第三类。
高级统计学作业-聚类分析

全国各地区消费价格增长水平的聚类分析摘要:针对我国各省(直辖)市的2009年度消费价格增长水平数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区消费价格增长水平类型。
聚类结果为制订有针对性的地区消费市场战略提供依据。
关键词:SPSS;聚类分析;消费水平。
1.引言由于传统的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐,导致各地区的工资水平和消费价格增长水平的不同。
因此,对各地区消费价格增长水平进行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义。
聚类分析和判别分析是是进行以上分析的两个重要的方法。
1.1聚类分析[1]定义:聚类分析又称群分析、点群分析。
根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。
聚类分析的基本思想:我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。
1.1.1 系统聚类法系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。
重复这一过程,直到将所有的样本(或指标)合并为一类。
系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。
统计分析- 聚类分析

聚类方法
§10.3 系统聚类
①“Between-groups linkage”类间平均法,当两类之间所有样本 之间距离的平均值最小时,这两类可以合并为一类。 ②“Within- groups linkage”类内平均法,当合并后所有样本的距 离的平均值最小时,这两类可以合并为一类。 ③“Nearest neighbor”最短距离法,当两类最近样本之间的距离 最小时,这两类可以合并为一类。 ④“Furthest neighbor”最长距离法,当两类最远样本之间的距离 最小时,这两类可以合并为一类。 ⑤“Centroid clustering”重心法,当两类重心距离最小时,这两 类可以合并为一类。 ⑥“Median clustering”中心法,当两类中心距离最小时,这两类 可以合并为一类。 ⑦ “Ward‘s method”离差平方和法,当合并后类内部各个样本 距离(欧氏距离)的离差平方和最小时,这两类可合并为一 类。
选择对变量进行聚类
SPSS 软件实现
§10.3 系统聚类法
对原始数据进行离差标准化处理; 采用相关系数表征变量之间的相似程度; 采用离差平方和最小的方法计算类与类之间的距离。
SPSS 软件实现
结果分析-数据信息
§10.3 系统聚类法
Case Processing Summarya Cases Missing N Percent 0 .0%
p
j.
)
2 2 ( x x ) ( x x ) i i. j j.
1
1
当 i j 时,rij 1 , 说明两个变量(样本)x i 与 x j完全相似; 当rij 1 ,说明两个变量(样本)x i 与 x j 相似密切; 当 i与j 正交时,rij 0, 说明变量(样本)x i 与 x j完全不一样; 当rij 0,说明变量(样本)x i 与 x j 差别很大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全国各地区消费价格增长水平的聚类分析摘要:针对我国各省(直辖)市的2009年度消费价格增长水平数据,选取9个经济指标进行系统聚类分析,得到我国3类不同的地区消费价格增长水平类型。
聚类结果为制订有针对性的地区消费市场战略提供依据。
关键词:SPSS;聚类分析;消费水平。
1.引言由于传统的经济发展起点不同,加上地域、资源、技术和政策等条件的差异,各个地区的经济发展水平高低不齐,导致各地区的工资水平和消费价格增长水平的不同。
因此,对各地区消费价格增长水平进行分类、比较和研究,总结出有助于市场调节和商业发展的对策,有针对性地制订地区经济发展战略,对促进国民经济协调发展有重要意义。
聚类分析和判别分析是是进行以上分析的两个重要的方法。
聚类分析[1]定义:聚类分析又称群分析、点群分析。
根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性。
聚类分析的基本思想:我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。
系统聚类法系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。
重复这一过程,直到将所有的样本(或指标)合并为一类。
系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。
在本例中进行的是Q型聚类。
类与类之间距离的计算方法主要有以下几种:(1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值;(2)最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值;(3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值;(4)组内联接(Within-groups Linkage),是指把两类所有个体之间的距离都考虑在内;(5)重心距离法(Centroid clustering),是指两个类中心点之间的距离;(6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。
K-均值法(快速聚类法)K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。
但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。
快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。
因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。
快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。
数据来源本文针对我国各省(直辖)市的2009年度消费价格分类指数数据[2],考虑到数据的可得性和来源的权威性,选取9个消费指标进行系统聚类分析并假定上年相应价格指数为100,得到我国3类不同的地区消费价格增长水平类型。
聚类结果将为制订有针对性的地区经济发展战略提供依据。
表-1数据来源于《中国统计摘要-2010》,利用社会经济统计软件建立数据库并对数据进行分析处理。
表-1:国内31个省、直辖市、自治区的9项消费价格指标数据其中,北京、河北、山东、贵州、重庆五省、直辖市、自治区不参与聚类分析,将作为待判别样本进行判别分析后的分组归类,以检验聚类结果。
2.聚类分析系统聚类分析法系统聚类分析法步骤将国内26个省、直辖市、自治区的9项消费价格指标数据输入SPSS,做聚类分析,具体步骤为:(1)在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“系统聚类(H)”(如图-1所示)。
图-1(2)弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案(C)”中,将其他变量选入“变量框”中,如图-2所示。
在“分群”单选框中选中“个案”,表示进行的是Q型聚类。
在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。
图-2(3)单击“统计量(S)”按钮,在“系统聚类分析:统计量”对话框中选择“合并进程表”、“相似性矩阵”,如图-3所示,表示输出结果将包括这两项内容。
图-3(4)单击“绘制(T)”按钮,在“系统聚类分析:图”对话框中选择“树状图”、“冰柱”,如图-4所示,表示输出的结果将包括谱系聚类图(树状)以及冰柱图(垂直)。
图-4(5)单击“方法(M)”按钮,弹出“系统聚类分析:方法”对话框,如下图-5所示。
图-5“聚类方法(M)”选项条中可选项包括如图-6所示的几种方法,本例中选择“组间联接”:图-6“度量标准-区间(N)”选项条中可选项包括如图-7所示的几种度量方法,本例中选择“平方Euclidean距离”:图-7“转换值-标准化(S)”选项条中可选项包括如图-8所示的几种将原始数据标准化的方法,本例中选择“全局从0到1”:图-8系统聚类法结果表-2中分别为有效个案、缺失个案和个案总数的个数和百分数。
脚注显示聚类时采用的聚类方法为Between-groups linkage平均联结(组之间)。
表-3表-3显示的是用平方Euclidean距离计算的近似矩阵表,其实质是一个不相似矩阵,其中的数值表示各个样本之间的相似系数,数值越大,表示两样本距离越大。
表-4 聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 8 12 .156 0 0 72 23 .158 0 0 83 25 26 .164 0 0 64 11 16 .166 0 0 155 6 22 .176 0 0 166 19 25 .195 0 3 127 5 8 .203 0 1 138 2 14 .209 2 0 119 10 13 .275 0 0 1110 4 20 .288 0 0 1711 2 10 .365 8 9 1612 19 23 .377 6 0 2013 5 15 .379 7 0 1414 5 7 .454 13 0 1815 11 17 .486 4 0 1916 2 6 .511 11 5 1717 2 4 .549 16 10 1818 2 5 .649 17 14 2019 9 11 .660 0 15 2320 2 19 .682 18 12 2121 2 21 .869 20 0 2222 2 18 21 0 2423 1 9 0 19 2424 1 2 23 22 2525 1 24 24 0 0表-4所列各项的意义如下:“阶”指聚类步骤号;“群集组合”指在某步中合并的个案;“系数”指距离或相似系数;“首次出现阶群集”指新生成聚类;“下一阶”指对应步骤生成的新类将在第几步与其它个案或新类合并。
图-9 冰状图图-9是反映样本聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样本。
图-10清晰地表示了聚类的全过程。
根据聚类分析的原理:聚类是一个将数据划分为若干簇或类的过程,并使得同一簇内的数据对象具有较高的相似度,而不同簇中的数据对象具有较低的相似度。
相似度则由基于数据对象描述属性的取值来确定,通常就是各对象之间的距离。
从图中可以看出在起初各步中,难以看出有哪些聚类形成,但在最后一步,聚类合并时距离明显加大,线条很长,所以聚类终止。
其他聚类方法种聚类方法(组内联接法、最近邻元素法、最远邻元素法、质心聚类法、中位数聚类法、Ward法)生成的树状聚类图如图-11至图-16所示。
通过对以上7中方法的比较,我们可以看出,将这26个地区的消费水平指数分成3类是比较合适的,具体分类可参看表-5:表-5 不同聚类方法结果的对比K-均值分析法(快速聚类法)K-均值聚类法步骤(1)在数据编辑窗口的主菜单中选择“分析(A)”→“分类(F)”→“K-均值聚类(K)”(如图-17所示)。
图-17(2)弹出“K均值聚类分析”对话框,将“地区”变量选入“个案标记依据(B)”中,将其他变量选入“变量框(V)”中,如图-18所示。
在“方法”单选框中选中“迭代与分类”,在“聚类数”中填上“3”,表示聚类结果将分成3类。
图-18(3)单击“迭代(I)”按钮,弹出“K均值聚类分析:迭代”对话框,在“最大迭代次数(M)”中填上“10”(默认值),如图-19所示,表示设定的最大迭代次数为10。
图-19(4)单击“选项(O)”按钮,在“K均值聚类分析:选项”对话框中选择“初始聚类中心”、“每个个案的聚类信息”,如图-20所示,表示输出结果将包括这两项内容。
图-20(6)单击“保存(S)”按钮,在“K均值聚类分析:保存”对话框中选择“聚类成员(C)”、“与聚类中心的距离(D)”,如图-21所示,表示输出结果将包括这两项内容,并保存在“变量视图”以及“数据视图”中,如图-22、图-23所示。
其中变量QCL-1表示的是案例的类别号,表示该个案是属于哪一类;QCL-2表示案例与其类别中心之间的距离。
图-21图-22图-23K-均值聚类法结果分析输出结果中,表-6表示的是初始聚类的中心,也就是质点。
表-6初始聚类中心聚类1 2 3居民消费价格指数食品烟酒及用品衣着家庭设备用品及服务医疗保健和个人用品交通和通信娱乐教育文化居住表-7表示的是迭代历史记录。
表-8表示的是最终聚类中心,可以看出,第1类的消费价格增长最低,第2类居中,第3类最高。
表-8最终聚类中心聚类1 2 3居民消费价格指数食品烟酒及用品衣着家庭设备用品及服务医疗保健和个人用品交通和通信娱乐教育文化居住表-9表示的是最终聚类中心间的距离,可以看出,第2类与第3类之间的距离要比第2类与第1类之间的距离小。
表-9最终聚类中心间的距离聚类 1 2 3123表-10表示的是每个聚类中的案例数,可以看出,第1类有8个样本,第2类中有1个样本,第3类有17个样本。