多元统计分析整理版

合集下载

第五章 多元统计分析(提纲)

第五章  多元统计分析(提纲)

第五章多元统计分析第一节多元描述统计一、列表法二、多元数据的图示法1.轮廓图作图步骤为:(1)作平面坐标系,横坐标取A个点表示A个变量。

(2)对给定的一次观测值,在P个点上的纵坐标(即高度)和它对应的变量取值成正比。

(3)连接P个高度的顶点得一折线,则一次观测值的轮廓为一条多角折线形。

n次观测值可画出M条折线.构成轮廓图。

2.雷达图(蛛网图)作图步骤是:(1)作一圆,并把圆周分为P等分。

(2)连接圆心和各分点,把这十条半径依次定义为各变量的坐标轴,并标以适当的刻度。

(3)对给定的—次观测值,把它的P个分量值分别点在相应的坐际轴上,然后连接成一个P 边形,这个P边形就是P元观测值的图示,n次观测值可画出M个多边形。

将上例数据用雷达图表示如下(值得注意的是,这里坐标轴只有正半袖,因而只能表示非负数据,若有负数据.只能通过合理变换使之非负才行):3.脸谱图(切尔诺夫脸)人们的反应表现在脸上。

切尔诺夫假定用二维平面的脸来表示多维观测结果,脸的特征(如脸的形状,嘴的弯曲率,鼻子的长度,服睛的大小,瞳孔的位置等等)是由P个变量的测量值所决定的。

按照最初的设计.切尔诺夫脸可处理多达18个变量。

脸部容貌对应的变量的分配是由实验者完成的,不同选择会产生不同的结果。

为了取得令人满意的表示常常需要一些重复步骤。

第二节综合评价方法一、综合评价及其要素1.综合评价根据多个指标,对评价对象进行客观、公正、合理的全面评价。

2.综合评价的要素(1)被评价的对象(2)评价指标(3)权重系数(4)综合评价模型(5)评价者二、综合评价的原则1.评价目标:总结性、发展性(预测性)2.评价对象采样:普遍、可比、可测性3.评价指标选择原则:相关性、全面性、可操作、与评价方法相协调。

三、综合评价的步骤:1.确定反映要研究的对象的主要方面及各方面的主要指标,建立评价指标体系。

2.评价指标的转换与综合的方法3.确定各种评估方法所需要的参数4.加权合成指标评价值,进行评估分析,得出评估结论五、评价指标的正向化与无量纲化1.正向指标、逆向指标与正向化正向指标是指数值越大越好的指标,逆向指标是数值越小越好的指标。

完整版本多元统计分析实例汇总

完整版本多元统计分析实例汇总

多元统计剖析实例院系 : 商学院学号 :姓名 :多元统计剖析实例本文采集了 2012 年 31 个省市自治区的农林牧渔和有关农业数据 , 经过对对采集的数据进行比较剖析对 31 个省市自治区进行分类 . 选用了 6个指标农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值 , 乡村居民家庭经营耕地面积 .数据以下表 :一. 聚类法设定 4 个群聚 , 采纳了系统聚类法 . 下表为 spss 剖析以后的结果 .聚类表群集组合初次出现阶群集阶群集 1 群集 2 系数群集 1 群集 2 下一阶1 5 7 226.381 0 0 132 2 9 1715.218 0 0 53 22 24 1974.098 0 0 74 1 29 5392.690 0 0 65 2 30 6079.755 2 0 66 1 2 11120.902 4 5 87 4 22 21528.719 0 3 118 1 26 23185.444 6 0 149 12 20 26914.251 0 0 1910 27 31 35203.443 0 0 2011 4 28 50321.121 7 0 2212 11 13 65624.068 0 0 2413 5 25 114687.756 1 0 1714 1 21 169600.075 8 0 2215 8 18 188500.814 0 0 2116 17 19 204825.463 0 0 2117 5 14 268125.103 13 0 2018 3 23 387465.457 0 0 2619 6 12 425667.984 0 9 2320 5 27 459235.019 17 10 2321 8 17 499195.430 15 16 2522 1 4 559258.810 14 11 2823 5 6 708176.881 20 19 2424 5 11 854998.386 23 12 2825 8 10 1042394.608 21 0 2626 3 8 1222229.597 18 25 2927 15 16 1396048.280 0 0 2928 1 5 1915098.014 22 24 3029 3 15 3086204.552 26 27 3030 1 3 6791755.637 28 29 0Rescaled Distance Cluster CombineCASE 0 5 1015 20 25 Label Num +--------- +--------- +--------- +--------- +---------+内蒙 5 -+吉林7 -+云南25 -+-+江西14 -+ +-+陕西27 -+-+ |新疆31 -+ +-+安徽12 -+-+ | |广西20 -+ +-+ +------- +辽宁 6 ---+ | |浙江11 -+----- + |福建13 -+ |重庆22 -+ +--------------------------------- +贵州24 -+ | |山西 4 -+--- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 -+ +--------- + |天津 2 -+ | |上海9 -+ | |宁夏30 -+--- + |西藏26 -+ |海南21 -+ |河北 3 ---+----- + |四川23 ---+ | |黑龙江8 -+-+ +------------- + |湖南18 -+ +--- + | | |湖北17 -+-+ +-+ +------------------------- + 广东19 -+ | |江苏10 ------- + |山东15 ----------- +----------- +河南16 ----------- +群集成员事例 4 群集1: 北京 12: 天津 13: 河北 14: 山西 15: 内蒙 26: 辽宁 17: 吉林 28: 黑龙江 29: 上海 110: 江苏 111: 浙江 112: 安徽 113: 福建 114: 江西 115: 山东 316: 河南 117: 湖北 118: 湖南 119: 广东 120: 广西 121: 海南 122: 重庆 123: 四川 124: 贵州 125: 云南 126: 西藏 427: 陕西 128: 甘肃 129: 青海 130: 宁夏 131: 新疆 2从 SPSS剖析结果能够获得 , 内蒙 , 吉林 , 黑龙江 , 新疆为第 2族群 , 这一族群的特色是农业收入可能不高 , 可是农民的固定财产 , 和耕地面积特别高 , 农民的充裕程度或许机械化程度较高; 山东是第 3族群 , 这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平并且农民充裕; 西藏处于第 4族群 , 这是因为 , 西藏人员较少 , 自然条件恶劣 , 可使用耕地少 , 可是 , 因为国家的扶助 , 农民的固定 财产许多 , 农民相对而言比较富裕 ; 大部分省份属于第 1族群 , 这一族群的特色在 于六项指标都没有较为突出的一项, 或许农林牧渔收入的原来就少, 或许是农民 的固然比较辛苦 , 整体的农业收入较高 , 可是农民的收入水平比较低, 固定财产较 少 .三. 鉴别法X 1,X 2,X 3,X 4,X 5,X 6分别代表农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值, 乡村居民家庭经营耕地面积 .剖析事例办理纲要未加权事例N百分比有效31 100.0清除的缺失或越界组代码 0 .0 起码一个缺失鉴别变量 0 .0 缺失或越界组代码还有起码一 0.0个缺失鉴别变量共计 0 .0 共计31 100.0实验结果剖析 :组统计量有效的 N (列表状态)Average Linkage (Between Groups) 均值 标准差 未加权的已加权的1农业总产值 1463.8900 1062.0348625 25.000 林业总产值 118.5768 87.02052 25 25.000 牧业总产值 830.3664 671.10440 25 25.000渔业总产值291.4128346.719022525.000乡村居民家庭拥有生产性固定14432.3400 5287.92950 25 25.000 财产原值乡村居民家庭经营耕地面积 1.5496 .88484 25 25.000 2 农业总产值1582.2975 543.92851 4 4.000林业总产值93.3500 37.71131 4 4.000 牧业总产值1021.3175 372.88255 4 4.000 渔业总产值38.3500 27.49067 4 4.000 乡村居民家庭拥有生产性固定30226.4175 4233.77839 4 4.000 财产原值乡村居民家庭经营耕地面积9.4975 3.30626 4 4.000 3 农业总产值3960.6200 . a 1 1.000林业总产值107.0100a1 1.000 .牧业总产值2285.9200 . a 1 1.000 渔业总产值1267.0700 . a 1 1.000 乡村居民家庭拥有生产性固定19168.1400 . a 1 1.000 财产原值乡村居民家庭经营耕地面积 1.6400 . a 1 1.000 4 农业总产值53.3900 . a 1 1.000林业总产值 2.5600 . a 1 1.000牧业总产值59.0200a1 1.000 .渔业总产值.2200 . a 1 1.000乡村居民家庭拥有生产性固定52935.0700 . a 1 1.000财产原值乡村居民家庭经营耕地面积 1.8900 . a 1 1.000 从表上能够看出 , 组均值之间差值很大 . 各个分组 , 在 6 项指标上均值有较明显的差别 .组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值乡村居民家庭经营耕地面积.190 38.263 3 27 .000 由表中能够知道 ,13456 指标之间的 sig 值较小 ,2 指标 sig 值有 0.561 较大 ,可是仍说明接受原假定 , 各指标族群间差别较大 .汇聚的组内矩阵农业总产值林业总产值牧业总产值渔业总产值有关性农业总产值 1.000 .449 .895 .400 林业总产值.449 1.000 .489 .481牧业总产值.895 .489 1.000 .294渔业总产值.400 .481 .294 1.000乡村居民家庭拥有生产性固定-.093 -.262 -.052 -.040财产原值乡村居民家庭经营耕地面积.056 -.033 .181 -.104汇聚的组内矩阵乡村居民家庭拥有生产性固定资乡村居民家庭经产原值营耕地面积有关性农业总产值-.093 .056林业总产值-.262 -.033牧业总产值-.052 .181渔业总产值-.040 -.104乡村居民家庭拥有生产性固定 1.000 .326财产原值乡村居民家庭经营耕地面积.326 1.000从表中能够知道 , 查验结果 p 值>0.05, 此时 , 说明协方差矩阵相等,能够进行 bayes 查验 .Fisher剖析法协方差矩阵的均等性的箱式查验对数队列式AverageLinkage(BetweenGroups) 秩对数队列式1 6 61.1252 . a . b3 . c . b4 . c . b汇聚的组内 6 62.351打印的队列式的秩和自然对数是组协方差矩阵的秩和自然对数。

多元统计分析多元统计分析15

多元统计分析多元统计分析15
)
1
W1 ( n, 2 )就是 2 2 ( n).
一般地,设X(α)~Np(μ,Σ) (α=1,…,n) 相互独立,记
p
1


M
1n ,

n p
1


p


则称W=X'X服从非中心参数为Δ的非中心Wishart分布,记为
W~Wp(n,Σ,Δ). 其中
M M (1n )(1n ) 1n1n n
Np(μ,Σ/n).S~?.
1、威沙特(Wishart)分布的定义
定义3.1.4 设X(α) ~Np(0,Σ) (α=1,…,n)相互独立,则称随机矩阵
n
W X ( ) X ( ) X X
1
的分布为Wishart分布(威沙特分布),记为W~Wp(n,Σ).
显然p=1时
n
W X (2 ) ~ 2 2 (,n即
一元统计中,用样本方差
n
1
2
S2
(
X

X
)
(i )
n 1 i 1
作为σ2的估计,而且知道
1
2
n
2
2
(
X

X
)
~

( n 1)
(i )
i 1
ഥ 作为μ的估计,样本
多元正态总体Np(μ,Σ)中,常用样本均值向量
ഥ~
协方差阵S=A/(n-1)作为Σ的估计.由第二章的定理2.5.2已给出了
11 12 r
1,…,n)相互独立,其中

21 22 p r
又已知随机矩阵
W11 W12 r

多元统计分析整理版.doc

多元统计分析整理版.doc

1、主成分分析的目的是什么?主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。

它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。

常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。

2、主成分分析基本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。

同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。

● 设p 个原始变量为 ,新的变量(即主成分)为 ,主成分和原始变量之间的关系表示为?3、在进行主成分分析时是否要对原来的p 个指标进行标准化?SPSS 软件是否能对数据自动进行标准化?标准化的目的是什么?需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进行数据标准化; 进行主成分分析时SPSS 可以自动进行标准化;标准化的目的是消除变量在水平和量纲上的差异造成的影响。

求解步骤⏹ 对原来的p 个指标进行标准化,以消除变量在水平和量纲上的影响 ⏹ 根据标准化后的数据矩阵求出相关系数矩阵 ⏹ 求出协方差矩阵的特征根和特征向量⏹ 确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国31个省市自治区2006年的6项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每张表可以得出哪些结论,进行主成分分析,找出主成分并进行适当的解释:(下面是SPSS 的输出结果,请根据结果写出结论) 表一:数据输入界面p 21p x x x ,,, 21p ,21p y y y ,,, 21表二:数据输出界面a)此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。

观察各相关系数,若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析。

多元统计分析 第1章 多元分析概述

多元统计分析  第1章 多元分析概述
多少品种?聚类分析方法(物以类聚,人 以群分)
多元统计分析的应用举例
反映城镇居民消费水平的八项指标:
➢人均粮食支出、人均副食支出、 ➢人均烟酒茶支出、人均衣着商品支出、 ➢人均日用品支出、人均燃料支出、 ➢人均非商品支出、人均出行支出
为什么要多元、多指标? 指标归并聚类分析
多元统计分析的应用
第一章 多元统计分析概述
多元统计分析--ቤተ መጻሕፍቲ ባይዱ言
多元统计分析是运用数理统计方法来研究 解决多指标问题的理论和方法。
一元(单变量)到多变量? 大数据时代的需要 多变量带来的问题?
多元统计分析--历史
1928年Wishart发表论文《多元正态总体样 本协差阵的精确分布》
R. A. Fisher 、H. Hotelling、S. N. Roy、许 宝騄……
上世纪50年代中期,随着电子计算机的出 现和发展,使多元分析方法得到广泛应用
多元统计分析—核心内容
基于多元正态总体
➢参数估计 ➢假设检验 ➢判别分析 ➢聚类分析 ➢主成分分析 ➢因子分析 ➢对应分析 ➢典型相关分析 ➢多维标度法等
应用背景
统计学的生命力在于应用 多元统计分析方法的应用
Application Driven (Data Driven)
评价企业经济效益
➢百元固定资产原值实现产值、 ➢百元固定资产原值实现利税、 ➢百元资金实现利税、 ➢……
指标太多、错综复杂主成分分析或因子 分析
多元统计分析的应用
考察两个部门工作效率是否有显著差异
➢多元正态总体均值向量和协差阵的假设检验
有100种酒,品尝家可以对每两种酒进行品 尝对比,给出一种相近程度的得分以分析 这100种酒之间的结构关系

多元统计分析因子分析(方法步骤分析总结)

多元统计分析因子分析(方法步骤分析总结)

因子分析+聚类分析:一.对数据进行因子分析,实验步骤:1在SPSS窗口中选择:分析-降维-因子分析,在因子分析主界面将变量X1 移入变量框2点击“描述”,在对话框中,统计量选择:原始分析结果,相关矩阵选择:系数,以描述相关系数,点击继续3点击“抽取”,在对话框中,方法为主成份,分析选择:相关性矩阵,输出选择:未旋转的因子解和碎石图,抽取中选择基于特征值(特征值大于1)或者因子的固定数量(要提取的因子为2),点击继续4点击“旋转”,在对话框中,方法为最大方差法,在输出中选择旋转解和载荷图(当因子数=2时),点击继续5点击“得分”,在对话框中,选中“保存为变量”和“显示因子得分系数矩阵”,在方法中选择“回归”,点击继续6点击确定实验结果分析:1.特征根和累计贡献率由表中可以看出,因为成份1和2的特征值>1,被提取出来,而且由于第三个特征根相比下降比较快,我们也只选取两个公共因子,对1和2旋转后其累计贡献率为82.488%。

由碎石图,我们也可以看出1和2的特征值大于1,可以被提取出来,其余变量特征值过小,不予提取。

从旋转成份矩阵可以看出,经过旋转的载荷系数产生了明显的区别,横向找到最大的一个数,如上表中黄色部分画出,第一个公因子在v1,v3,v5上占有较大载荷,说明于这三个指标有较大的相关性,命名为;第二个公因子在v2,v4,v6上有较大载荷,有较大相关性,归为一类,可命名为。

该表为成分转换矩阵,给出旋转所需的矩阵可以用成份得分系数矩阵写出各个因子关于中心标准化后的变量的表达式。

F1=0.385x1-0.001x2+…..F2=…..(分析的举例:第一个因子在外貌自信心洞察力推销能力工作魄力志向抱负理解能力潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子第二个因子在简历格式工作经验适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子第三个因子在兴趣爱好诚信度求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子。

天津市考研统计学复习资料多元统计分析重点知识点梳理

天津市考研统计学复习资料多元统计分析重点知识点梳理

天津市考研统计学复习资料多元统计分析重点知识点梳理多元统计分析是统计学的一个重要分支,主要研究多个变量之间的关系。

在天津市考研统计学考试中,多元统计分析是一个重要的考点。

本文将为大家梳理多元统计分析的重点知识点,帮助大家更好地复习。

一、多元统计分析的基本概念多元统计分析是指研究多个变量之间关系的一种统计方法。

基本概念包括变量、样本、总体以及数据矩阵等。

变量是研究对象的属性或特征,可以分为自变量和因变量。

样本是从总体中抽取出来的一部分观察对象。

总体是包含所有观察对象的集合,数据矩阵则是由多个变量构成的数据表格。

二、多元统计分析的基本假设多元统计分析中,基本的假设包括正态性、方差齐性、线性关系和独立性。

正态性假设要求变量呈正态分布;方差齐性假设要求不同组之间的方差相等;线性关系假设要求变量之间存在线性关系;独立性假设要求各个样本之间是相互独立的。

三、多元统计分析的方法多元统计分析的方法包括主成分分析、因子分析、聚类分析、判别分析以及多元方差分析等。

主成分分析是一种降维技术,可以将多个变量转化为少数几个主成分;因子分析是一种变量提取技术,用于研究隐藏在观测变量背后的潜在因素;聚类分析是一种将样本按照某种相似性划分为不同群体的方法;判别分析是一种用于分类的方法,可以根据已知类别的样本训练分类模型,然后对未知类别的样本进行分类;多元方差分析是用于研究多个因素对多个变量的影响的方法。

四、多元统计分析的应用领域多元统计分析在实际应用中有广泛的应用领域。

比如,在金融风险管理领域,可以利用因子分析来识别和度量风险因子;在市场调研和消费者行为研究中,可以利用聚类分析来对消费者进行划分和分类;在医学研究中,可以利用判别分析来辅助诊断疾病。

五、多元统计分析的局限性多元统计分析也存在一定的局限性。

首先,多元统计分析的结果可能受到数据质量和样本分布的影响。

其次,多元统计分析的结果只是对样本的推断,不能直接推广到整个总体。

此外,多元统计分析的结果需要结合实际情况进行解释和分析,不能仅仅依赖统计指标。

(整理)多元统计分析上机实验.

(整理)多元统计分析上机实验.

多元统计分析上机实验指导第一部分 SPSS软件基本操作当用户安装SPSS软件后,点击快捷图标,将会出现以下界面:图1.1 启动SPSS后出现的对话框对话框包括一个六选一单选对话框和一个复选对话框,其内容为:●Run the tutorial 运行操作指南;●Type in data 输入数据选项,建立新的数据集时可选择此项;●Run an existing query 运行一个已经存在的数据文件选项;●Create new query using Database Wizard 用数据库处理工具建立新文件;●Open an existing date source 打开一个已经存在的数据文件;●Open another type of file 打开其他类型的文件。

●Don’t show this dialog in the future 是一复选对话框,选中该复选项后,下次启动SPSS时将不会显示对话框,直接显示数据编辑窗口。

如果只是利用该软件做一般性的统计分析,不做高级开发工作,可以在“Don’t show this dialog in the future”左方的小方块里打钩,以后启动SPSS时将不会显示对话框,直接显示数据编辑窗口。

§1.1 数据文件的建立SPSS 软件包的数据编辑主窗口类似于EXCEL ,数据文件的建立就是在数据编辑窗口中完成的。

数据编辑窗口可以显示两张表,分别是Data View (见图1.2)和Variable View (见图1.3),通过点击下端的2个同名窗口标签按钮实现相互切换。

数据编辑区是SPSS 的主要操作窗口,是一个二维平面表格,用于对数据进行各种编辑;标尺栏由纵向标尺栏和横向标尺栏,横向标尺栏显示数据变量,纵向标尺栏显示数据顺序(如时间顺序)。

Data View 表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、主成分分析的目的是什么?主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。

它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。

常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。

2、主成分分析基本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。

同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。

● 设p 个原始变量为 ,新的变量(即主成分)为 ,主成分和原始变量之间的关系表示为?3、在进行主成分分析时是否要对原来的p 个指标进行标准化?SPSS 软件是否能对数据自动进行标准化?标准化的目的是什么?需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进行数据标准化; 进行主成分分析时SPSS 可以自动进行标准化;标准化的目的是消除变量在水平和量纲上的差异造成的影响。

求解步骤⏹ 对原来的p 个指标进行标准化,以消除变量在水平和量纲上的影响 ⏹ 根据标准化后的数据矩阵求出相关系数矩阵 ⏹ 求出协方差矩阵的特征根和特征向量⏹ 确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国31个省市自治区2006年的6项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每张表可以得出哪些结论,进行主成分分析,找出主成分并进行适当的解释:(下面是SPSS 的输出结果,请根据结果写出结论) 表一:数据输入界面p 21p x x x ,,, 21p ,21p y y y ,,, 21表二:数据输出界面a)此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。

观察各相关系数,若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析。

表三为各成分的总解释方差表。

component为各成分的序号;initial Eigenvalues是初始特征值,total是各成分的特征值,% of variance是各成分的方差占总方差的百分比(贡献率)。

Cumulative%是累计贡献率,表明前几个成分可以解释总方差的百分数。

Extraction sums 是因子提取结果。

一般来说,当特征根需大于1,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分。

由表可知,第一个主成分的特征根为3.963,方差贡献率为66.052%,这表示第一个主成分解释了原始6个变量66.052%的信息,可以看出前两个成分所解释的方差占总方差的95.57%,仅丢失了4.43%的信息。

因此最后结果是提取两个主成分。

在extraction sums of squared loadings一栏,自动提取了前两个公因子,因为前两个公因子就可以解释总方差的绝大部分95.6%。

表四是表示各成分特征值的碎石图。

可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大。

而因子3、4、5之间的特征值差值都比较小,可以初步得出保留两个因子将能概括绝大部分信息。

明显的拐点为3,因此提取2个因子比较合适。

证实了表三中的结果。

碎石图(Scree Plot),从碎石图可以看到6个主轴长度变化的趋势。

实践中,通常选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可。

表五是初始提取的成分矩阵,它显示了原始变量与各主成分之间的相关系数,表中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数a ij。

比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。

这个系数越大,说明主成分对该变量的代表性就越大。

第一主成分(component 1)对财政收入,固定资产投资,社会消费品零售总额有绝对值较大的相关系数;第二主成分(component 2)对人均gdp,年末总人口,居民消费水平有绝对值较大的相关系数。

可以分别对其进行命名。

版本一:根据我国31个省市自治区2006年的6项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序。

表一数据输入界面:65432126543211263.0721.0728.0351.0055.0725.0950.0674.0633.0896.0976.0670.0xxxxxxyxxxxxxy表二因子分析SPSS输出界面a)KMO统计量为0.695,接近0.7,表明6个变量之间有较强的相关关系。

适合作因子分析。

Bartlett球度检验统计量为277.025。

检验的P值接近0,拒绝原假设,认为相关系数与单位阵有显著差异。

可以因子分析。

表三因子分析SPSS输出界面b)表三为公因子提取前和提取后的共同度表,initial列提取因子前的各变量的共同度;extraction列是按特定条件(如特征值>1)提取公因子时的共同度,表中的共同度都很高,说明提取的成分能很好的描述这些变量。

所有变量的共同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的。

变量x i的信息能够被k个公因子解释的程度表四因子分析SPSS输出界面c)表四为各成分的总解释方差。

Component表示按特征值大小排序的因子编号。

Initial下分别给出了相关系数矩阵的特征值、方差贡献率和累计方差贡献率。

Extraction是所提取的公因子未经旋转情况下的特征值,方差贡献了和累计方差贡献率。

Rotation项下是旋转后的。

“Rotation Sums of Squared Loadings”部分是因子旋转后对原始变量方差的解释情况。

旋转后的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。

95.57%表明提取的两个公共因子的方差可以解释总方差的95.57%。

第j个公因子对变量x i的提供的方差总和,反映第j个公因子的相对重要程度旋转后成分矩阵。

第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这几个载荷系数较大,主要解释了这几个变量。

从实际意义上看,可以把因子1姑且命名为“经济水平”因子。

而第二个因子与人均GDP、居民消水平这两个变量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑且命名为“消费水平”因子表五是因子得分系数矩阵。

根据因子得分和原始变量的标准化值可计算每个观测量的各因子的分数。

4、因子分析基本思想?因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

因子分析的基本思想是根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。

每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。

对于所研究的某一具体问题,原始变量可以分解为两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。

设p个原始变量为,要寻找的m个因子(m<k)为,因子和原始变量之间的关系表达式为?mmkmkkmmmmefafafaxefafafaxefafafaxk2211222221211121211112系数a ij为第个i变量与第k个因子之间的线性相关系数,反映变量与因子之间的相关程度,也称为载荷(loading)。

由于因子出现在每个原始变量与因子的线性组合中,因此也称为公因子。

为特殊因子,代表公因子以外的因素影响5、因子分析的目的是什么?k21kxxx,,,21m21mfff,,,21因子分析是从多个变量指标中选择出少数几个综合变量指标,以较少的几个因子反映原始资料的大部分信息的一种降维的多元统计方法。

求解步骤1) 对原始数据标准化2) 建立相关系数矩阵R (因子提取) 3) 求R 的单位特征根λ与特征向量U ; 4) 因子旋转求因子载荷矩阵A ; 5) 写出因子模型X=AF+E 6)建立因子得分矩阵P7)写出因子得分模型F=P ’X(因子提取的方法:主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因子法;旋转方法为:方差最大正交旋转、四次方最大正交旋转、平方最大正交旋转、斜交旋转、Promax :该方法在方差最大正交旋转的基础上进行斜交旋转) 6、什么是变量共同度?写出变量共同度的表达式。

变量x i 的信息能够被k 个公因子解释的程度,用 k 个公因子对第i 个变量x i 的方差贡献率表示mj ijimi i i a aa a D 1222221)21(122k j a h pi iji,,,7、什么是公共因子方差贡献率?写出公共因子方差贡献率表达式。

第j 个公因子对变量x i 的提供的方差总和,反映第j 个公因子的相对重要程度)21(122p i a g kj ij j,,,8、因子分析中KMO 检验主要检验什么? KMO 越接近1,变量间的相关性越强KMO 在0.8以上,说明该问题适合做因子分析。

KMO 统计量在0.7以上时,因子分析效果较好; KMO 统计量在0.5以下时,因子分析效果很差KMO (Kaiser-Meyer-Olkin)检验统计量是用于比较原始变量间简单相关系数和偏相关系数的指标。

当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO 值接近1,KMO 越接近1,变量间的相关性越强。

当所有变量间的简单相关系数平方和接近0时,KMO 值接近0.KMO 值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。

Kaiser 给出了常用的kmo 度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。

Bartlett 球度检验:以变量的相关系数矩阵为基础,假设相关系数矩阵是单位阵(对角线元素不为0,非对角线元素均为0)。

如果相关矩阵是单位阵,则各变量是独立的,无法进行因子分析。

9、因子分析中公因子个数确定的依据是什么?用公因子方差贡献率提取:一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该公因子的解释力度太弱,还不如使用原始变量的解释力度大碎石图中变化趋势出现拐点的前几个主成分10、因子分析中因子旋转(factor rotation)的目的是什么?什么是因子得分(factor score)?因子旋转的目的使得因子载荷系数尽可能两极分化,使因子载荷系数向 1或0靠近,使得某一个变量值在某一个因子上的载荷系数大,从而更清楚地看出各因子与原始变量的相关性大小,使因子的含义更加清楚,以便于对因子的命名和解释。

相关文档
最新文档