多元统计分析案例分析.doc

多元统计分析案例分析.doc
多元统计分析案例分析.doc

、对我国30个省市自治区农村居民生活水平作聚类分析

1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农

村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯

92.87 79.35 3590 3457.9 4643 4124.6 18.7 数据来源:《中国统计年鉴2010》

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下:

第一类:北京、上海、浙江。

第二类:天津、、辽宁、、福建、甘肃、江苏、广东。

第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。

从分类结果上看,根据2 0 10年的调查数据,第一类地区的农民生活水平较高, 第二类属于中等水平,第三类、第四类属于较低水平。

二、判别分析

**.错误分类的案例

从上可知,只有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别:

已知判别函数系数和组质心处函数如下:

判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7

Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7

Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:丫1=-1.08671

Y2=-0.62213

Y3=-0.84188

计算丫值与不同类别均值之间的距离分别为:D1=138.5182756

D2=12.11433124

D3=7.027544292

D4=2.869979346

经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。

三,因子分析:

分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

(1)各指标的相关系数阵:

从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确, 能够从中提取公共因子,适合因子分子。

(2)检验:

由上表可知:巴特利特球度检验统计量的观测值为 0.如果显著性水平a 为0.05,由于显著性水平小于

0.05,拒绝零假设,认为相关 系数矩阵与单位阵有显著差异,同时,KO 值为0.701,根据Kaiser 给出的度量标 准可知原有变量适合进行因子分析

(3)各指标的贡献率如下表:

从中可以看出,各个指标的贡献率都在百分之五十之上比较高。

从上表中可以看出,第一个因子的特征根为

3.449.解释原有五个变量总方差的

68%累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量

145.585.相应的概率p 接近为

(5)因子载荷阵如下:

Com ponent Matrix a

Component 1

2 农产品价格指数 .446 .88

3 农村居民消费 .967 -.052 消费支岀

.952 -.125 家庭人均纯收入 .936 -.039 就业人数

.729

-.258

Extracti on Method: Pri ncipal Component An alysis. a. 2 components extracted.

由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要; 第二个因子与原有变量的相关性较小, 它对原有变量的解释作用不显著。 为便于 对各因子进行命名,对因子载荷阵实施正交旋转。 旋转之后的因子载荷阵:

总方差17.34%, (4)碎石图:

累计方差贡献率为86.313%。 Scree P lot

相关主题
相关文档
最新文档