农村居民消费结构

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

系统聚类分析法的应用

——以2004年我国30个地区农村居民消费结构情况为例

摘要:聚类分析是给我们提供了一种对于复杂问题如何分组的统计方法,系统聚类法是聚类分析中最常用的一种方法,本文介绍系统聚类法的原理及应用,并以2004年我国30个地区农村居民消费结构情况为例,比较分析我国各地去农村居民消费结构的类型、差异。

关键字:系统聚类分析法SPSS软件操作2004年我国农村居民消费结构

正文:聚类分析是将样品或变量按照他们在性质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描述样品或变量的亲疏程度通常有两个途径,一个是把每个样品或变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程度。

聚类分析按照分组理论依据的不同,可以分为系统聚类法、动态聚类法、模糊聚类、图论聚类、聚类预报等多种聚类方法;而按照分析对象不同,可以分为Q型聚类,即对样品进行分类处理,和R型聚类,即对变量进行分类处理。

下面以2004年我国30个地区农村居民消费结构为例,来阐述聚类分析的方法和步骤。为了全面反映我国农村居民消费结构状况,选择如下八个指标:食品支出所占比重(x1),衣着支出所占比重(x2),居住支出所占比重(x3),家庭设备用品及其服务支出所占比重(x4),医疗保健支出所占比重(x5),交通通讯支出所占比重(x6),文教娱乐支出所占比重(x7),其他商品和服务支出所占比重(x8)。对数据进行Q型聚类分析,以研究我国各地区农村居民消费结构的特点。

图1

首先,由于在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定义域变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大差异,另外由于样本数据受量纲和数量级的影响,因此在聚类分析处理过程中,应对原始数据矩阵

进行变换处理。常用的数据变换方法有以下几种:

1.中心化变换:中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始

数据中减去该变量的均值,就得到中心化后的数据。设中心化后的数据为

。进行了中心化变换后的数据特点是,其每列数据之和均为0。

2.规格化变换:规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之

差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到规格化数据。规格化后的数据为:进行了规格化变换后数据的特点是,

将每列的最大数据变为1,最小数据变为0,其余数据取值在0,1之间。

3.标准化变换:标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除

以标准差,即1/2。进行了标准化变

换后的数据特点是,每列数据的平均值为0,方差为1,同时消除了量纲的影响。使用标准差处理后,在抽样样本改变时,他仍保持相对稳定性。

4.对数变换:对数变换主要是对原始数据取对数。即。对数变换后的数

据特点是,可将具有指数特征的数据结构化为线性数据结构。

对农村居民消费结构数据的每个变量进行标准化变换,消除量纲的影响,用excel中的函数AVERAGE()求均值、VAR()求方差、POWER()求某数的几次方、STANDARDIZE()根据平均值和标准差求某数标准化后的值,得到每个变量标准化后的值。如图2。

图2

然后,就可以对变换处理后的数据进行聚类分析,系统聚类分析法:系统聚类分析是在样

品距离的基础上,定义类与类之间的距离,首先将n个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止,并把这个过程做成一个聚类谱系图。

(1)定义距离及相似系数:对于p个变量,n个样品的样本数据,每个样品有p个变量,故每个样品都可以看成是p维空间上的一个点,n个样品就是p维空间上的n个点。对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。因此,需定义样品之间的距离,即第i个样品

与第j个样品之间的距离,记为,所定义的距离一般满足以下条件:

对于定量数据资料常用的距离有以下几种:

明氏(明科夫斯基,Minkowski)距离,距离公式为。这里q为某一自然数,明氏距离是一最常见最直观的距离。

当q=1时,,则称为绝对值距离。

当q=2时,,则称为欧式距离。欧式距离是聚类分析中用的最广

泛的距离,但该距离与各变量的量纲有关,没有考虑指标间的相关性;也没有考虑各变量方差的不同。

当时,,则称为切比雪夫距离。

由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不应该直接使用明氏距离,而应该先对各变量的数据进行标准化处理,然后再用标准化后的数据计算距离。

兰氏(Lance和Williams)距离,当全部数据大于零时,兰氏距离公式为,

可见兰氏距离是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,其受奇异值的影响较小,使其适合应用于具有高度偏倚的数据。然而兰氏距离没有考虑变量间的相关性。

马氏距离(Mahalanobis),距离公式记为,其中为样本协方差

的逆矩阵,。马氏距离的优点是考虑到各变量之间的相关性,

并且与各变量的单位无关。不足之处是在聚类分析过程中,如果用全部数据计算的均值和协方差阵来计算马氏距离,并且始终保持不变,则显得不妥;然后若要随聚类过程而不断改变,计算将会很困难。比较合理的办法是用各个类的样品来计算各自的协方差阵,同一类样品的马氏距离应当用这一类的协方差矩阵来计算。

斜交空间距离,由于多个变量之间存在着不同程度的相关关系。在这种情况下,用正交空间距离来计算样品间的距离,易产生变形,从而使聚类分析时的谱系结构发生改变。斜交空

间距离公式定义为,其中是变量与变量之

间的相关系数。如果计算的样品量较多,则不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。

聚类分析对变量进行分类时,通常采用相似系数来表示变量之间的亲疏程度。相似系数定义如下:设表示变量与变量之间的相似系数,则应满足下列条件:

越接近于1,则表示变量与变量之间关系越密切,越接近于0,则表示变量之间关系越

疏远。聚类时,关系密切的变量应归于一类,反之关系疏远的变量归于不同类。常用的相似系数有:

夹角余弦,向量与的夹角为,则夹角余弦为,当i=j时,

夹角余弦为1,说明两个指标极相似,当i与j两个指标正交时,夹角余弦为0,说明两者不相关。

相关系数,为数据标准化处理后的夹角余弦,设表示变量与之间的相关系数,则公式为,当i=j时,表示指标的自相关系数等于1;当i≠j时,相

关系数的取值在-1到1之间。相关系数的绝对值越接近1,表示两变量之间的相关程度越高。

(2)系统聚类分析方法:进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种,即最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法等。

最短距离法,是把两个类之间的距离定义为一类中的所有样品与另一类中所有样品之间的

相关文档
最新文档