多元统计典型相关分析实例

合集下载

完整版本多元统计分析实例汇总

完整版本多元统计分析实例汇总

多元统计剖析实例院系 : 商学院学号 :姓名 :多元统计剖析实例本文采集了 2012 年 31 个省市自治区的农林牧渔和有关农业数据 , 经过对对采集的数据进行比较剖析对 31 个省市自治区进行分类 . 选用了 6个指标农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值 , 乡村居民家庭经营耕地面积 .数据以下表 :一. 聚类法设定 4 个群聚 , 采纳了系统聚类法 . 下表为 spss 剖析以后的结果 .聚类表群集组合初次出现阶群集阶群集 1 群集 2 系数群集 1 群集 2 下一阶1 5 7 226.381 0 0 132 2 9 1715.218 0 0 53 22 24 1974.098 0 0 74 1 29 5392.690 0 0 65 2 30 6079.755 2 0 66 1 2 11120.902 4 5 87 4 22 21528.719 0 3 118 1 26 23185.444 6 0 149 12 20 26914.251 0 0 1910 27 31 35203.443 0 0 2011 4 28 50321.121 7 0 2212 11 13 65624.068 0 0 2413 5 25 114687.756 1 0 1714 1 21 169600.075 8 0 2215 8 18 188500.814 0 0 2116 17 19 204825.463 0 0 2117 5 14 268125.103 13 0 2018 3 23 387465.457 0 0 2619 6 12 425667.984 0 9 2320 5 27 459235.019 17 10 2321 8 17 499195.430 15 16 2522 1 4 559258.810 14 11 2823 5 6 708176.881 20 19 2424 5 11 854998.386 23 12 2825 8 10 1042394.608 21 0 2626 3 8 1222229.597 18 25 2927 15 16 1396048.280 0 0 2928 1 5 1915098.014 22 24 3029 3 15 3086204.552 26 27 3030 1 3 6791755.637 28 29 0Rescaled Distance Cluster CombineCASE 0 5 1015 20 25 Label Num +--------- +--------- +--------- +--------- +---------+内蒙 5 -+吉林7 -+云南25 -+-+江西14 -+ +-+陕西27 -+-+ |新疆31 -+ +-+安徽12 -+-+ | |广西20 -+ +-+ +------- +辽宁 6 ---+ | |浙江11 -+----- + |福建13 -+ |重庆22 -+ +--------------------------------- +贵州24 -+ | |山西 4 -+--- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 -+ +--------- + |天津 2 -+ | |上海9 -+ | |宁夏30 -+--- + |西藏26 -+ |海南21 -+ |河北 3 ---+----- + |四川23 ---+ | |黑龙江8 -+-+ +------------- + |湖南18 -+ +--- + | | |湖北17 -+-+ +-+ +------------------------- + 广东19 -+ | |江苏10 ------- + |山东15 ----------- +----------- +河南16 ----------- +群集成员事例 4 群集1: 北京 12: 天津 13: 河北 14: 山西 15: 内蒙 26: 辽宁 17: 吉林 28: 黑龙江 29: 上海 110: 江苏 111: 浙江 112: 安徽 113: 福建 114: 江西 115: 山东 316: 河南 117: 湖北 118: 湖南 119: 广东 120: 广西 121: 海南 122: 重庆 123: 四川 124: 贵州 125: 云南 126: 西藏 427: 陕西 128: 甘肃 129: 青海 130: 宁夏 131: 新疆 2从 SPSS剖析结果能够获得 , 内蒙 , 吉林 , 黑龙江 , 新疆为第 2族群 , 这一族群的特色是农业收入可能不高 , 可是农民的固定财产 , 和耕地面积特别高 , 农民的充裕程度或许机械化程度较高; 山东是第 3族群 , 这一族群中六个指标都处于较高水平,农林牧渔四项收入都处于较高水平并且农民充裕; 西藏处于第 4族群 , 这是因为 , 西藏人员较少 , 自然条件恶劣 , 可使用耕地少 , 可是 , 因为国家的扶助 , 农民的固定 财产许多 , 农民相对而言比较富裕 ; 大部分省份属于第 1族群 , 这一族群的特色在 于六项指标都没有较为突出的一项, 或许农林牧渔收入的原来就少, 或许是农民 的固然比较辛苦 , 整体的农业收入较高 , 可是农民的收入水平比较低, 固定财产较 少 .三. 鉴别法X 1,X 2,X 3,X 4,X 5,X 6分别代表农业产值 , 林业产值 . 牧业总产值 , 渔业总产值 , 乡村居民家庭拥有生产性固定财产原值, 乡村居民家庭经营耕地面积 .剖析事例办理纲要未加权事例N百分比有效31 100.0清除的缺失或越界组代码 0 .0 起码一个缺失鉴别变量 0 .0 缺失或越界组代码还有起码一 0.0个缺失鉴别变量共计 0 .0 共计31 100.0实验结果剖析 :组统计量有效的 N (列表状态)Average Linkage (Between Groups) 均值 标准差 未加权的已加权的1农业总产值 1463.8900 1062.0348625 25.000 林业总产值 118.5768 87.02052 25 25.000 牧业总产值 830.3664 671.10440 25 25.000渔业总产值291.4128346.719022525.000乡村居民家庭拥有生产性固定14432.3400 5287.92950 25 25.000 财产原值乡村居民家庭经营耕地面积 1.5496 .88484 25 25.000 2 农业总产值1582.2975 543.92851 4 4.000林业总产值93.3500 37.71131 4 4.000 牧业总产值1021.3175 372.88255 4 4.000 渔业总产值38.3500 27.49067 4 4.000 乡村居民家庭拥有生产性固定30226.4175 4233.77839 4 4.000 财产原值乡村居民家庭经营耕地面积9.4975 3.30626 4 4.000 3 农业总产值3960.6200 . a 1 1.000林业总产值107.0100a1 1.000 .牧业总产值2285.9200 . a 1 1.000 渔业总产值1267.0700 . a 1 1.000 乡村居民家庭拥有生产性固定19168.1400 . a 1 1.000 财产原值乡村居民家庭经营耕地面积 1.6400 . a 1 1.000 4 农业总产值53.3900 . a 1 1.000林业总产值 2.5600 . a 1 1.000牧业总产值59.0200a1 1.000 .渔业总产值.2200 . a 1 1.000乡村居民家庭拥有生产性固定52935.0700 . a 1 1.000财产原值乡村居民家庭经营耕地面积 1.8900 . a 1 1.000 从表上能够看出 , 组均值之间差值很大 . 各个分组 , 在 6 项指标上均值有较明显的差别 .组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值组均值的均等性的查验Wilks 的 Lambda F df1 df2 Sig.农业总产值.773 2.640 3 27 .070林业总产值.928 .699 3 27 .561牧业总产值.801 2.238 3 27 .107渔业总产值.691 4.019 3 27 .017乡村居民家庭拥有生产性固定.253 26.538 3 27 .000财产原值乡村居民家庭经营耕地面积.190 38.263 3 27 .000 由表中能够知道 ,13456 指标之间的 sig 值较小 ,2 指标 sig 值有 0.561 较大 ,可是仍说明接受原假定 , 各指标族群间差别较大 .汇聚的组内矩阵农业总产值林业总产值牧业总产值渔业总产值有关性农业总产值 1.000 .449 .895 .400 林业总产值.449 1.000 .489 .481牧业总产值.895 .489 1.000 .294渔业总产值.400 .481 .294 1.000乡村居民家庭拥有生产性固定-.093 -.262 -.052 -.040财产原值乡村居民家庭经营耕地面积.056 -.033 .181 -.104汇聚的组内矩阵乡村居民家庭拥有生产性固定资乡村居民家庭经产原值营耕地面积有关性农业总产值-.093 .056林业总产值-.262 -.033牧业总产值-.052 .181渔业总产值-.040 -.104乡村居民家庭拥有生产性固定 1.000 .326财产原值乡村居民家庭经营耕地面积.326 1.000从表中能够知道 , 查验结果 p 值>0.05, 此时 , 说明协方差矩阵相等,能够进行 bayes 查验 .Fisher剖析法协方差矩阵的均等性的箱式查验对数队列式AverageLinkage(BetweenGroups) 秩对数队列式1 6 61.1252 . a . b3 . c . b4 . c . b汇聚的组内 6 62.351打印的队列式的秩和自然对数是组协方差矩阵的秩和自然对数。

多元统计分析案例具体操作只是分享

多元统计分析案例具体操作只是分享

一、多元回归分析高磷钢的效率(Y)与高磷钢的出钢量(X1)及高磷钢中的FeO含量(X2)有关, 所测数据如下表,利用SPSS拟建立回归方程:Y=b0+b1*X1+b2*X2,步骤如下:(1)操作过程在数据输入之后,依次单击“分析”——“回归”——“线性”,在弹出的“线性回归”对话框中,将出钢量X1和FeO含量X2设为自变量,效率设为因变量,回归方法设为“进入”。

如下图:图1.1(2)(3回归方程的回归系数:b0=75.144,b1=0.215,b2=-0.843 拟合回归方程:Y=0.215*X1-0.843*X2+75.144 1)回归方程的显著性检验(F 检验):检验假设:012:0m H βββ==⋅⋅⋅==,1:j H β⋅⋅⋅各(j=1,2,,m)不全为0,0.05α= SS 总=SS 回+SS 残,其中F ~F(m ,n-m-1)根据方差分析表(Anova ),MS 回=66.799,MS 残=14.759,从而F=4.515,F>F 0.05(2,10)(Sig<0.05),可知在显著性水平α=0.05,拒绝原假设H 0,自变量和因变量之间存在显著性的线性关系。

2)回归方程拟合优度检验:R 2=0.475,说明高磷钢的效率变异的47.5%可由其岀钢量和FeO 的含量的变化来解释。

3)对各自变量指明方程中的每一个自变量对Y 的影响(即方差分析和决定系数检验整体)。

A 、回归系数的显著性检验(t 检验):j b 为偏回归系数的估计值,jb S 是j b 的标准误。

检验假设:H 0:0=j β,j t 服从自由度为1--=m n ν的t 分布。

如果12--≥m n ,/j t |t |α,则在α=0.05水平上拒绝H 0,接受H 1,说明j X 与Y 有线性回归关系。

非标准化系数b1=0.215,b2=-0.843,对于b1,t1=2.889,|t1|>t 0.05/2(10),拒绝原假设,说明在给定的显著水平α=0.05下,X1对Y 有显著的影响;对于b2,t2=-1.538,t 0.05/2(10)>|t2|> t 0.1/2(10),说明在给定的显著水平α=0.05下,接受原假设,X2对Y 没有显著的影响。

应用多元统计分析之典型相关分析(doc 6页)

应用多元统计分析之典型相关分析(doc 6页)

应用多元统计分析之典型相关分析(doc 6页)联系与区别。

答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。

主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。

9.4 简述典型相关分析中载荷分析的内容及作用。

答:作用:进行典型载荷分析有助于更好解释分析已提取的p 对典型变量。

分析原始变量与典型变量之间相关性。

内容: 令(1)(2)*()p ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦a a A a (1)(2)*()p ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦b b B b 12p U U U ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦U 12p V V V ⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦V*(1)*(2)==U A X V B X其中*A ,*B 为p 对典型变量系数向量组成的矩阵,U 和V 为p 对典型变量组成的向量。

则(1)*(1)(1)*11(,)(,)Cov Cov ==U X A X X A Σ(1)(1)(1)(1)1/2(1)(1)(,)()()(,)()i k i ki k i ki kk k k Corr U X D U D X Cov U X D X σ-===这里()1iD U =,(1)1/2()k kkD X σ=。

记1/211V -为对角元素是1/2kkσ-的对角阵,所以有(1)(1)1/2(1)11,*(1)1/2(1)*1/2111111(,)(,)(,)U X Corr Cov Cov ---====R U X U V X A X VX A ΣV类似可得: (2)*1/22222,V X -=R B ΣV (2)*1/21222,U X-=RA ΣV(1)*1/22111,V X -=R B ΣV对于经过标准化处理后得到的典型变量有:(1)*11,Z U Z =R A R ;(2)*22,Z V Z =R B R(2)*12,Z U Z =R A R ;(1)*21,Z V Z=RB R对于样本典型相关分析,上述结果中的数量关系同样成立。

多元统计分析第9章典型相关分析

多元统计分析第9章典型相关分析

0
Σ12
Σ
1 22
Σ
21a
2Σ11a
0
(9.7)
同理,由方程组(9.4)式可得
Σ21Σ111Σ12b 2Σ22b 0
(9.8)
一、典型相关分析的基本思想

Σ1 11

Σ1 22

ΣΣ121211ΣΣ1221ΣΣ121211ΣΣ1221ab
2a 2b
X(2)
X (2) 11
X (2) 21
样本均值向量
X
(2) n1
X (2) 12
X (2) 22
X (2) n2
X (2) 1q
Σ
Σ 1
22
21
B
Σ221Σ
Σ Σ 1
21 11 12
其中 A 为 p×p 阶矩阵, B 为 q×q 阶矩阵。
一、典型相关分析的基本思想
因为 aΣ12b Corr(U ,V ) ,求 Corr(U,V ) 最大值也就
是求 的最大值,而求 的最大值又转化为求 A 和 B 的最
大特征根。
可以证明, A 和 B 的特征根和特征向量有如下性质: 1. A 和 B 具有相同的非零特征根,且所有特征根非负。 2. A 和 B 的特征根均在 0~1 之间。 3. 设 A 和 B 的 非 零 特 征 根 为 12 22 r2 ,
X
(2) 2
a (1) P
X
(1) P
b(1) q
X
(2) q
我们称其为第一对典型变量,最大特征根的平方根 1 即为两
典型变量的相关系数,我们称其为第一典型相关系数。
一、典型相关分析的基本思想
如果第一典型变量不足以代表两组原始变量的信息,则需要求

SPSS典型相关分析

SPSS典型相关分析
还可以得到每个典型变量V和第一组变量的相关系数 见表6以及每个典型变量W和第二组变量的相关系数 见表7.
表6
第18页/共23页
表7
从这两个表中可以看出,V1主要和变量hed相关 (0.99329),而V2主要和led(0.92484)及net (0.75305)相关;W1主要和变量arti(0.99696)及 man(0.92221)相关,而W2主要和com(0.81123) 相关;这和它们的典型系数是一致的。
表1 相关性的若干检验
第12页/共23页
表2给出了特征根(Eigenvalue),特征根所占的百分比 (Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon Cor)及其平方(Sq. Cor)。看来,头两对典型变量(V, W) 的累积特征根已经占了总量的99.427%。它们的典型相 关系数也都在0.95之上。
第14页/共23页
表3 未标准化系数 表4 标准化系数
第15页/共23页
可以看出,头一个典型变量V1相应于前面第一个(也是最 重要的)特征值,主要代表高学历变量hed;而相应于前面 第二个(次要的)特征值的第二个典型变量V2主要代表低 学历变量led和部分的网民变量net,但高学历变量在这里起 负面作用。 从表4中可以得到第一变量的头三个典型变量V1、 V2、V3中的V1 和V2的表达式:
12.3 典型相关分析的实例分析
例12.1为研究业内人士和观众对于一些电视节目的观点 的关系,对某地方30个电视节目做了问卷调查并给出 了平均评分。观众评分来自低学历(led)、高学历(hed) 和网络(net)调查三种,它们形成第一组变量;而业内人 士分评分来自包括演员和导演在内的艺术家(arti)、发 行(com)与业内各部门主管(man)三种,形成第二组变 量。参加图12.1,数据间TV.Sav。

多元统计分析案例

多元统计分析案例

一.搜集的必要性消费是实现国民经济良性循环的关键,而消费结构是否合理,又是消费的关键问题。

考察消费结构是研究和衡量居民消费水平,生活质量的一条重要的途径,可以从侧面反映一国宏观经济发展的基本状况,是联合国划分一国经济发展阶段的重要手段之一。

改革开放以来,我国的经济政治体制改革直接影响了农村居民生活水平及消费结构。

二提出使用的多元消费结构是一种客观存在,消费结构的分类则是人们主观的产物,可以根据实际需要对消费结构进行不同的分类,消费结构首先可以分为宏观消费结构与微观消费结构两个类型。

宏观消费结构是指我国考察的消费资料最终实现的分布,如个人消费与公共消费各自所占的比重,个人消费与社会集团以及社会集团各自的比重,各地区和城乡居民消费各自的比重。

微观消费结构是从单个家庭和个人着眼考察的消费结构,是指居民生活消费内容的组成方式,是宏观消费的基础。

三.进行选定多元统计方法的研究设计和实现的步骤因子分析的基本思想是通过对变量的相关系数矩阵的内部结构进行分析,从中找出少数几个能够控制员是变量的因子,建立因子分析模型,利用公共因子再现原始变量之间的相关关系,达到简化变量,降低变两位数和对原始变量在解释及命名的目的。

设有m个原始变量,表示为x1,x2,…,xm,根据因子分析的要求,假设这些变量已经标准化(均值为0,标准差为1),假设m个变量可以由n个因子f1,f2,…,fn表示为线性组合,即:x1=a11f1+a12f2+…+a1nfn+ε1x2=a21f1+a22f2+…+a2nfn+ε2…xm=am1f1+am2f2+…+amnfn+εm上式为因子分析的数学模型,如果利用矩阵形量向量,它的每一个分量表示一个指标或变量;F称为因子向量,每一个分量表示一个因子,由于它们出现在每个原始变量的线性表达式中,所以又称为公共因子;矩阵A为因子载荷矩阵,其元素aij称为因子载荷;ε称为特殊因子,表示原始变量中不能由因子解释的部分,均值为0。

多元统计分析实例

多元统计分析实例院系: 商学院学号: 姓名:多兀统计分析实例本文收集了 2012年31个省市自治区的农林牧渔和相关农业数据,通过对对 收集的数据进行比较分析对31个省市自治区进行分类•选取了 6个指标农业产值 林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农 村居民家庭经营耕地面积. 数据如下表: 江 区 京津北H 蒙宁林龙海苏江徽建西东南北南东西南庆川州南藏西肃海夏牘地北天河山内辽吉黒上江浙安福江山河湖湖广广海重四贵77西陕甘青宁新农业总产值 林业驰产{牧业总产懾业总产侬村居民家庭拥有生产性[5166.2954.83 154.16 12 98 12767. 09 0・5195.^9 £ 79 105. 01 61, 66 17508. 57 1. 58 3095.29 77.88 1747. 66 1?7. 74 17904. S3 1789847-41 79, 07 298. 83 8. 42 ^808. 38 2.51171.-57 97. 7G U1S. 86 26. 08 293曲.旳 10. 4 1539.65128. 68 16ZL 23 618. 74 249^7. 92 3. 781166.ES90. 1 1130. 36 34. 14 24937. SB S. 272315. 64 134. 51350. 63 77. 92 31507. 91 13. 56171.48 9.5572. 59 57. 45 4146. 13 0. 262966.72 99. 75 1226,18 1235.4 14541. 03 L251229.36 142.14 549. 01 687. 05 22747. 33 6 541867.64 209. 5 1119.73 334. 43 15134. 35 1. 391263.71 256. 45 48L 28 p03. 36 11821. 38 731003.21 228. 91 752. 63 333. 06 gggg. 31 L 57 39&0.储 107.01 22S5. 92 1267. 07 19168.14 L &4 3958.^5 140. 85 2255. 61 SS.4 12980. 72 1. &2 2488. 06 100.05 1334, X 626, 23 10813. 13 1. 71 2651.69 259. 97 1488. 58 279. 94 3904. 32 1. 22 2229. 27222.74 1134.14 914. 05 8516. 72 0.53 1724 245. 56 1072. 77 331. 74 11851. 56 L 37 4S0. 72 137.85 214. 14 236.27 11387. 06 0. 83 341.51 43.48 453. 9 44. 99 122S5. 74 L 29 2764- 9 151. 52269. 86 163. 77 13759.17 1.14364. 54.19421. 55 28. 21 11957. 31 L 181398.17225. S3 912. 97 63.1 19020. 92 1.. 6 53.39 2” 56 59. 02 0. 22 52935. 07 L 891526.23 58. 44 598. 72 14. 61 12273. 06 L 52984,24 20. 07 231. 72 1,8 1$486. 44 2. 72 117-09 4.57 137. 08 0. 56 21919.甜 L 33 240, 4&9・77 105, 72 13. 36 24266.19 3・69 1675収04485. 37 15* 26 35Q70. 315 76.聚类法设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.C A S E 0 5 10 15 20 25 内蒙 5 -+吉林7 -+云南25 - + -+江西14 -+ +-+陕西27 - + -+ |新疆31 -+ +- +安徽12 -+-+ 11广西20 —+ + — + +——————— +辽宁 6 ---+ | |浙江11 -+—+ 1福建13 -+ 1重庆22 -+ + ............... ....... + 贵州24 -+ 1|山西 4 -+ -+ | |甘肃28 -+ | | |北京 1 -+ | | |青海29 + + + | 1天津 2 -+ 1|上海9 -+ 1|宁夏30 -+ - +|西藏26 -+ |海南21 -+ |河北 3 | 1四川23 - + | |黑龙江8 -+-+ + .......... + |湖南18 -+ + + | | |湖北17 - + -+ +-+ + -------------- ■...... + 广东19 -+ | |江苏10 --——+ |山东15 ...... + ....... +河南16 ...... +从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较少•三.判别法X1,X2,X3,X4,X5,X6分别代表农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积实验结果分析:从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.由表中可以知道,13456指标之间的sig 值较小,2指标sig 值有0.561较大, 不过仍说明接受原假设,各指标族群间差异较大.从表中可以知道,检验结果p值>0.05,此时,说明协方差矩阵相等,可以进行bayes检验.Fisher 分析法协方差矩阵的均等性的箱式检验典型判别式函数摘要由表中看出,函数1,2的特征值达到0.911,0.822比较大,对判别的贡献大由表中可知,3个Fishe判别函数分别为y i 2.928 0.003X20.626X6y2 2.269 0.002X2 0.489X6y3 0.975 0.009X2 0.01X3 0.03X4 0.037X6农村居民家庭拥有生产性固定资产原值对判别数据所属群体无用该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关性较强.符合较好.由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.贝叶斯分析法该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数y1 0.03X1 0.029X2 0.03X3 0.002X4 0.001X5 0.153X1 8.418第一类:第二y2 0.06X10.42X2 0.009X3 0.004X40.004X5 4.286X6 38.18类;第三y3 0.02X-I0.010X20.002X30.010X40.001X5 1.X620.732类;第四类:『4 0.OO3X-I 0.051X20.004x30.006x40.002x5 1.675x661.646将各样品的自变量值代入上述4个BayeS判别函数,得到函数值。

多元统计分析——典型相关分析


在约束条件:
′ ′ ′ cov(u1, u2 ) = cov(α1x,α 2 x) = α1Σ11α 2 = 0 ′ ′ ′ cov(v1, v2 ) = cov(β1 y, β 2 y ) = β1Σ11β 2 = 0
′ cov(u1 , v2 ) = cov(α1′x, β 2 y ) = α1′Σ12 β 2 = 0
y3
要求: 要求: 相互独立, 相关。 1、 u1和v1与u2和v2相互独立,但u2和v2相关。 由于随机变量u 2 、 由于随机变量 u 和 v , 乘以任意常数并不改变 它们之间的相关系数, 它们之间的相关系数,为防止不必要的结果重 复出现, 最好的限制是令各自的方差等于1 复出现 , 最好的限制是令各自的方差等于 1 , 如var(u1)=Var(v1)=1 )=1 如此继续下去, 直至进行到r min(p,q), 如此继续下去 , 直至进行到 r 步 , r≤min(p,q) , 可以得到r组变量。 可以得到r组变量。
(2)
Σ12 β1 − λΣ11α1 = 0 Σ 21α1 −νΣ 22 β1 = 0
(3)
将上面的3式分别左乘 ′ 将上面的 式分别左乘α1 和 β1′
′ ′ α1Σ12 β1 − α1λΣ11α1 = 0 ν β1′Σ 21α1 − β1′ Σ 22 β1 = 0
′ ′ α1Σ12 β1 = α1λΣ11α1 = λ ′ ′ β1Σ 21α1 = νβ1Σ 22 β1 = ν
Var ( v1 ) = β1′Var (Y ) β1 = β1′Σ 22 β1 = 1
′ ′ ρ u 1 , v1 = Cov ( u 1 , v1 ) = α 1 Cov ( X , Y ) β 1 = α 1 Σ 12 β 1

R语言版应用多元统计分析典型相关分析

应用多元统计分析第9章 典型相关分析- 1-典型相关分析(Canonical Correlation Analysis)是用于分析两组随机变量之间相关程度的一种多元统计分析方法,它能够有效地揭示两组随机变量之间的相互线性依赖关系,这一方法由霍特林(Hotelling,1935)首先提出。

在实际中,经常需要研究一组变量与另一组变量之间的相关关系。

例如,在商业与经济研究中,考虑一组价格指数与另一组价格指数之间的相关性;在体育训练中,考察运动员的身体各项指标与各种训练项目之间的相关性;在工厂里,考察原材料的主要质量指标与产品的质量指标之间的相关性;在教育学中,研究高三学生在高考中的各科考试成绩与高二时各主科成绩之间的相关性,等等。

我们考虑利用主成分分析的思想,把两个随机向量 和 的相关性研究化为两个综合变量u和v之间的相关性研究。

也就是求系数向量 和 ,使得之间的相关性达到最大;若这两个综合变量不足以代表两组原始变量的相关性,还可以继续在每一组中找出第二个线性组合,使它们各自在与第一线性组合不相关的线性组合中,相互之间具有最大的相关性,如此下去,这就是典型相关分析的基本思想。

我们希望找到系数向量a和b,使得 与 之间的相关系数达到最大。

由相关系数定义,为了得到具有唯一性的解,我们对a和b附加下列条件我们希望在上述条件下求a和b,使得 达到最大。

由条件微分学中的条件极值方法可知,a和b满足其中矩阵 和 有共同的非零特征值,设其为 ,我们称 为典型相关系数。

设 和 分别为矩阵 和 的对应于 且满足 的特征向量。

令则称 为第i对典型相关变量,而 为第i个典型相关系数。

假定p+q维随机向量 的n次观测值组成的数据矩阵为若假定 ,,则协方差阵 的无偏估计为其中 。

称矩阵S为样本协方差阵。

设 ,,其中 为p阶方阵, 为q阶方阵。

将样本协方差阵S同样分块为 。

下面我们从样本协方差阵或样本相关阵出发来讨论如何求样本典型相关变量。

多元统计分析实例汇总

多元统计分析实例院系: 商学院学号: 姓名:多兀统计分析实例本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类•选取了6个指标农业产值林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积.数据如下表:农业总产值林业想产{牧业总产彳渔业总产彳农村居民家庭拥有生产性匱166. 2954.83154. 1612. 9312767. 090+ 5195. 99 2.791CJ5,0161, 6617508. 57 1. 583095. 2977.881747, 66177.7417904. 33 1.S9847. 4179.07298. 83& 429808. 38 2. 51171^7S7.7S1118, 8626. 08293的.甜m 41539. 65128.631621. 23618. 7424997. 92 3. 781166. 589S. 11130, 3634. 1424937. 86 E. 272315.64134+51350. 6877. 9231507. 9113. 56 171.489.5572. 5957, 454146. 130. 26 2966.7299.751226, 181235.414541. 03 1.251229. 36142.14隔01687. 0522747. 830. 511867? 64209. 51119, 73381 4315134. 35 1.891263. 71256.45481. 28903. 3611821. 380. 731003. 21228.91752. 68333. 9999. 31 1. 573960. 6210T.012285. 921267. 071915& K 1. C43958. 95140. 85225F. 6186.412980. 72 1. 622483. 06100.051334. 04626. 2310813.13 1. 712651.69259.971488. 5B279. 948904, 32 1. 222229. 27222, 741134, 14914. 058516. 720.53 1724245.561072. 77331. 7411851. 56 1. 37 460. 72137.85214.14236. 2711387. 060. 0384L3143.48453. 944. 9912295. 74 1. 292764. 9151. 52259. 86163. 7713752.17 1. 14364. 8654.194Z1. 5523. 2111957. 31 1. 18 1398.17225.83912. 9763.119020. 92 1. 6 53, 392,5659, 020. 2252935. 07 1. 89 1磁2858.44598. 72血6112273. 06 1. 52 982 2420.07231, 72 1. 819486. 44 2.7211匚09 4.57137.080. 5621919. 34 1. S3240. 469.77105. 7213. 3624266.19 3. 69 1675収0Q485. 3715. 2635070. 31 5. 76.聚类法设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.Rescaled Dista nee Cluster Comb ineC A S E 0 5 10 15 20 25内蒙 5 -+吉林7 -+云南25 - + -+江西14 -+ +-+陕西27 - + -+ |新疆31 -+ +- +安徽12 -+-+ 11广西20 —+ + — + +——————— +辽宁 6 ---+ | |浙江11 -+—+ 1福建13 -+ 1重庆22 -+ + ......................... ........... + 贵州24 -+ 1|山西 4 -+ -- + | |甘肃28 -+ | | |北京 1 -+ | | |青海29 + + + | 1天津 2 -+ 1|上海9 -+ 1|宁夏30 -+ -- +|西藏26 -+ |海南21 -+ |河北 3 | 1四川23 -- + | |黑龙江8 -+-+ + .................. + |湖南18 -+ + -- + | | |湖北17 - + -+ +-+ + ---------------------- ■........... + 广东19 -+ | |江苏10 --——+ |山东15 ............ + ............ +河南16 ............ +从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较少•三.判别法X1,X2,X3,X4,X5,X6分别代表农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积•实验结果分析:从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.由表中可以知道,13456指标之间的sig 值较小,2指标sig 值有0.561较大,不过仍说明接受原假设,各指标族群间差异较大从表中可以知道,检验结果p值>0.05,此时,说明协方差矩阵相等,可以进行bayes 检验.Fisher 分析法协方差矩阵的均等性的箱式检验典型判别式函数摘要由表中看出,函数1,2的特征值达到0.911,0.822比较大,对判别的贡献大由表中可知,3个Fishe 判别函数分别为*2.928 0.003X 2 0.626X 6 y 2 2.2690.002X 20.489X 6y 3 0.975 0.009X 20.01X 3 0.03X 4 0.037X 6农村居民家庭拥有生产性固定资产原值对判别数据所属群体无用该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关性较强.符合较好.由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.贝叶斯分析法该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数y1 0.03x1 0.029X2 0.03x3 0.002x4 0.001x5 0.153X1 8.418 第一类:第二y2 0.06x10.42X2 0.009x30.004x40.004x5 4.286X6 38.18 类;第三y0.02x-i 0.010x20.002x30.010x40.001x5 1.x620.732 类;第四类:y4 0.003x10.051x20.004x30.006x4 0.002x51.675x661.646将各样品的自变量值代入上述4个BayeS判别函数,得到函数值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、对体力测试(共7项指标)及运动能力测试(共5项指标)两组指标进行典型相关分析 Run MATRIX procedure: Correlations for Set-1 X1 X2 X3 X4 X5 X6 X7 X1 1.0000 .2701 .1643 -.0286 .2463 .0722 -.1664 X2 .2701 1.0000 .2694 .0406 -.0670 .3463 .2709 X3 .1643 .2694 1.0000 .3190 -.2427 .1931 -.0176 X4 -.0286 .0406 .3190 1.0000 -.0370 .0524 .2035 X5 .2463 -.0670 -.2427 -.0370 1.0000 .0517 .3231 X6 .0722 .3463 .1931 .0524 .0517 1.0000 .2813 X7 -.1664 .2709 -.0176 .2035 .3231 .2813 1.0000

Correlations for Set-2 X8 X9 X10 X11 X12 X8 1.0000 -.4429 -.2647 -.4629 .0777 X9 -.4429 1.0000 .4989 .6067 -.4744 X10 -.2647 .4989 1.0000 .3562 -.5285 X11 -.4629 .6067 .3562 1.0000 -.4369 X12 .0777 -.4744 -.5285 -.4369 1.0000

两组变量的相关矩阵说明,体力测试指标与运动能力测试指标是有相关性的。 Correlations Between Set-1 and Set-2 X8 X9 X10 X11 X12 X1 -.4005 .3609 .4116 .2797 -.4709 X2 -.3900 .5584 .3977 .4511 -.0488 X3 -.3026 .5590 .5538 .3215 -.4802 X4 -.2834 .2711 -.0414 .2470 -.1007 X5 -.4295 -.1843 -.0116 .1415 -.0132 X6 -.0800 .2596 .3310 .2359 -.2939 X7 -.2568 .1501 .0388 .0841 .1923

上面给出的是两组变量间各变量的两两相关矩阵,可见体力测试指标与运动能力测试指标间确实存在相关性,这里需要做的就是提取出综合指标代表这种相关性。 Canonical Correlations 1 .848 2 .707 3 .648 4 .351 5 .290

上面是提取出的5个典型相关系数的大小,可见第一典型相关系数为0.848,第二典型相关系数为0.707,第三典型相关系数为0.648,第四典型相关系数为0. 351,第五典型相关系数为0. 290。

Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .065 83.194 35.000 .000 2 .233 44.440 24.000 .007 3 .466 23.302 15.000 .078 4 .803 6.682 8.000 .571 5 .916 2.673 3.000 .445

上表为检验各典型相关系数有无统计学意义,可见第一、第二典型相关系数有统计学意义,而其余典型相关系数则没有。

Standardized Canonical Coefficients for Set-1 1 2 3 4 5 X1 .475 .115 .391 -.452 -.462 X2 .190 -.565 -.774 .307 .489 X3 .634 .048 .288 .321 -.276 X4 .040 .080 -.400 -.906 .422 X5 .233 .773 -.681 .459 .233 X6 .117 .148 .425 .141 .649 X7 .038 -.394 .025 -.103 -1.029

Raw Canonical Coefficients for Set-1 1 2 3 4 5 X1 .141 .034 .116 -.134 -.137 X2 .026 -.076 -.104 .041 .066 X3 .040 .003 .018 .020 -.018 X4 .008 .015 -.075 -.169 .079 X5 .016 .054 -.047 .032 .016 X6 .020 .025 .071 .024 .109 X7 .005 -.048 .003 -.013 -.126

上面为各典型变量与变量组1中各变量间标化与未标化的系数列表,由此我们可以写出典型变量的转换公式(标化的)为:L1=0.475X1+0.19X2+0.634X3+0.04X4+0.233X5+0.117X6+0.038X7余下同理。 Standardized Canonical Coefficients for Set-2 1 2 3 4 5 X8 -.505 -.659 .577 .186 .631 X9 .209 -1.115 .207 -.775 -.292 X10 .365 -.262 .188 1.153 -.154 X11 -.068 -.034 -.579 .340 1.181 X12 -.372 -.896 -.649 .569 -.124

Raw Canonical Coefficients for Set-2 1 2 3 4 5 X8 -1.441 -1.879 1.647 .531 1.798 X9 .005 -.026 .005 -.018 -.007 X10 .133 -.095 .069 .419 -.056 X11 -.018 -.009 -.153 .090 .312 X12 -.012 -.029 -.021 .018 -.004

Canonical Loadings for Set-1 1 2 3 4 5 X1 .689 .235 .099 -.150 -.112 X2 .526 -.625 -.408 .225 .237 X3 .741 -.212 .263 -.042 .001 X4 .242 -.032 -.298 -.809 .182 X5 .200 .705 -.558 .257 -.161 X6 .364 -.096 .191 .224 .476 X7 .115 -.259 -.437 .053 -.471

Cross Loadings for Set-1 1 2 3 4 5 X1 .584 .166 .064 -.053 -.032 X2 .446 -.442 -.265 .079 .069 X3 .629 -.150 .170 -.015 .000 X4 .205 -.023 -.193 -.284 .053 X5 .170 .498 -.362 .090 -.047 X6 .309 -.068 .124 .079 .138 X7 .098 -.183 -.283 .019 -.136

上表为第一变量组中各变量分别与自身、相对的典型变量的相关系数,可见它们主要和第一对典型变量的关系比较密切。 Canonical Loadings for Set-2 1 2 3 4 5 X8 -.692 -.149 .654 .111 .244 X9 .750 -.550 .001 -.346 .127 X10 .776 -.183 .275 .538 .020 X11 .585 -.108 -.371 -.054 .711 X12 -.674 -.265 -.548 .193 -.371 Cross Loadings for Set-2 1 2 3 4 5 X8 -.587 -.106 .424 .039 .071 X9 .636 -.389 .001 -.121 .037 X10 .658 -.129 .178 .189 .006 X11 .496 -.076 -.240 -.019 .206 X12 -.571 -.187 -.355 .068 -.108

上表为第二变量组中各变量分别与自身、相对的典型变量的相关系数,结论与前相同。 下面即将输出的是冗余度(Redundancy)分析结果,它列出各典型相关系数所能解释原变量变异的比例,可以用来辅助判断需要保留多少个典型相关系数。

Redundancy Analysis: Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .221 CV1-2 .152 CV1-3 .125 CV1-4 .121 CV1-5 .082

首先输出的是第一组变量的变化可被自身的典型变量所解释的比例,可见第一典型变量解释了总变化的22.1%,第二典型变量能解释15.2%,第三典型变量只能解释12.5%,第四典型变量只能解释12.1%,第五典型变量只能解释8.2%。

Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .159 CV2-2 .076 CV2-3 .052 CV2-4 .015 CV2-5 .007

上表为第一组变量的变化能被它们相对的典型变量所解释的比例,可见第五典型变量的解释度非常小。

Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .488 CV2-2 .088 CV2-3 .188

相关文档
最新文档