实验九典型相关分析报告

实验九典型相关分析报告
实验九典型相关分析报告

课时授课计划

课次序号:22 一、课题:实验九典型相关分析

二、课型:上机实验

三、目的要求:1.掌握典型相关分析的理论与方法、模型的建立与显著性检验;

2.掌握利用典型相关分析的SAS过程解决有关实际问题.

四、教学重点:典型相关分析的SAS过程.

教学难点:相关分析的理论与方法、模型的建立与显著性检验.

五、教学方法及手段:传统教学与上机实验相结合.

六、参考资料:

《应用多元统计分析》,高惠璇编,北京大学出版社,2005;

《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,2001;

《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008;

《应用回归分析》(二版),何晓群编,中国人民大学出版社,2007;

《统计建模与R软件》,薛毅编著,清华大学出版社,2007.

七、作业:4.9 4.10

八、授课记录:

九、授课效果分析:

实验九典型相关分析(Canonical Correlation Analysis) (2学时)

一、实验目的和要求

能利用原始数据与相关矩阵、协主差矩阵作相关分析,能根据SAS输出结果选出满足要求的几个典型变量.

二、实验内容

1.典型相关分析的SAS过程—PROC CANCORR过程

基本语句:

PROC CANCORR ;

V AR variables;

WITH variables;

RUN;

说明:此过程输入数据可以是原始数据,也可以是相关系数矩阵或协方差矩阵,输出结果包含相关系数矩阵、典型相关系数、典型变量的系数、典型变量对之间的相关性检验的F统计量值、自由度、p值、典型变量与原始变量的相关系数等.

(1)proc cancorr语句的<选项列表>:

●OUT=SAS 数据集——创建含原始数据和典型相关变量得分(观测值)的SAS集.

●OUTSTAT=SAS 数据集——创建含原始变量的样本均值、样本标准差、样本相关系数阵、典型相关系数和典型变量的标准化和非标准化系数等SAS集.

●CORR(或C)——打印原始变量的样本相关系数矩阵.

●NCAN=m——规定要求输出的典型变量对个数,默认为两组变量个数较小者.

●EDF=n-1——针对输入原始数据集为样本相关系数矩阵或样本协方差矩阵,借此选项指定样本容量为观测个数减1.输入为原始观测数据时,省略此项.

●all——所有输出项.

●noprint——不输出分析结果.

●short——只输出典型相关系数和多元分析统计数.

●simple——简单统计数.

●vname=变量名——为var语句的变量定义名称.

●vprefix=前缀名——为var语句的典型变量定义前缀.

●wname=变量名——为with语句的变量定义名称.

●wprefix=前缀名——为with语句的典型变量定义前缀.

(2)V AR variables——V AR后列出进行相关分析的第一组变量名称.

(3)WITH variables——WITH后列出进行相关分析的第二组变量名称

var与with语句经常同proc cancorr语句一起使用.其他语句类似corr过程.

2. 典型相关分析步骤

两组随机变量

T q T p Y Y Y X X X ),,,(,),,,(2121 ==Y X ,

取值 T q T p y y y x x x ),,,(,

),,,(2121 ==y x n 组观测数据 T iq i i i T ip i i i y y y x x x ),,,(,

),,,(2121 ==y x ,

标准化样本

),,,(

),,,(222

21111**2*1*pp

p ip i i T

ip i i i s x x s x x s x x x x x ---== x T q iq i i i y y y y y y ),,,(

11

112

21111*σσσ---= y n i ,,2,1 =

样本相关系数矩阵

???

?

??=22211211

R R R R R 为总体T

T T ),(Y X 相关系数矩阵ρ的估计. 样本典型相关分析步骤:

(1)求21122

121

11*

R R R R A --∧

=(121

1121122*

R R R R B --∧=)的特征值

022221≥≥≥≥∧∧∧p

ρρρ

(2)求21122

12111*

R R R R A --∧

=和121

1121122*

R R R R B --∧=对应的正交单位化特征向量

∧∧∧p e e e ,,,21 和∧

∧∧p f f f ,,,21

(3)第k 对典型相关变量为

*

2122**

2111*,

y R f x R e -

∧∧-

∧∧

==T k

k

T k

k

V U ,

其中 ),,,(),,,,(*

*

2*

1*

*

*

2*

1*

q p y y y x x x ==y x

样本典型相关系数为

=∧∧k V U k k ρρ

*

*,, p k ,,2,1 =

(4)典型相关系数的显著性检验

0:0:)(1)(0≠?=k k k k H H ρρ p k ,,2,1 =

统计量 ),(~121/1/112)

(0k k H k

k

t k k k k d d F d d F k 真ΛΛ-=

检验p 值为 )),(()(210k k k k k H k f d d F P f F P p ≥=≥=

若α

(0k H .

依次就p k ,,2,1 =进行检验,若对某个k ,检验p 值首次满足α>p ,则认为只有前1-k 对典型变量显著相关,选取前1-k 对即可.

注意:利用样本协方差矩阵,分析方法一样.不需要对数据标准化处理.

3.实例分析

例4.6 为研究空气温度与土壤温度的关系,考虑六个变量

:1X 日最高土壤温度; :2X 日最低土壤温度; :3X 日土壤温度积分值; :1Y 日最高气温; :2Y 日最低气温; :3Y 日气温曲线积分值.

观测了46=n 天,数据如表4.7.T T Y Y Y X X X ),,(,),,(321321==Y X ,做典型相关分析.

解:(1)建立输入数据集,程序如下:

data examp4_6; input x1-x3 y1-y3; cards ;

85 59 151 84 65 147 86 61 159 84 65 149 83 64 152 79 66 142 83 65 158 81 67 147 88 69 180 84 68 167 77 67 147 74 66 131 78 69 159 73 66 131 84 68 159 75 67 134 89 71 195 84 68 161 91 76 206 86 72 169 91 76 206 88 73 176 94 76 211 90 74 187 94 75 211 88 72 171 92 70 201 58 72 171 87 68 167 81 69 154 83 68 162 79 68 149 87 66 173 84 69 160 87 68 177 84 70 160 88 70 169 84 70 168 83 66 170 77 67 147 92 67 196 87 67 166 92 72 199 89 69 171

94 72 204 89 72 180 92 73 201 93 72 186 93 72 206 93 74 188 94 72 208 94 75 199 95 73 214 93 74 193 95 70 210 93 74 196 95 71 207 96 75 198 95 69 202 95 76 202 96 69 173 84 73 173 91 69 168 91 71 170 89 70 189 88 72 179 95 71 210 89 72 179 96 73 208 91 72 182 97 75 215 92 74 196 96 69 198 94 75 192 95 67 196 96 75 195 94 75 211 93 76 198 92 73 198 88 74 188 90 74 197 88 74 178 94 70 205 91 72 175 95 71 209 92 72 190 96 72 208 92 73 189 95 71 208 94 75 194 96 71 208 96 76 202 ; run ;

(2) 调用典型相关分析cancorr 过程

菜单操作方法为,选择Globals/SAS/Assist/Data analysis/multivariate/canonical correlation analysis(典型相关分析)菜单命令. 编程方法如下:

proc cancorr data =examp4_6 corr ; /*调用相关分析过程,打印样本相关系数矩阵*/ var x1-x3; /* 第一组变量x1-x3*/ with y1-y3; /* 第二组变量y1-y3*/ run ;

由SAS proc cancorr 过程求得T Y Y Y X X X ),,,,,(321321样本相关系数矩阵???

?

??=22211211

R R R R R SAS 系统 10:24 Sunday, November 2, 2008 14

The CANCORR Procedure

Correlations Among the Original Variables

Correlations Among the VAR Variables (变量x1-x3的相关系数矩阵11R ) x1 x2 x3

x1 1.0000 0.5705 0.8751 x2 0.5705 1.0000 0.7808 x3 0.8751 0.7808 1.0000

Correlations Among the WITH Variables (变量y1-y3的相关系数矩阵22R ) y1 y2 y3 y1 1.0000 0.6705 0.7850 y2 0.6705 1.0000 0.9324 y3 0.7850 0.9324 1.0000 Correlations Between the VAR Variables and the WITH Variables

变量x1-x3与y1-y3的相关系数矩阵12R

y1 y2 y3 x1 0.7136 0.8400 0.9143 x2 0.3796 0.6809 0.5907 x3 0.6256 0.8185 0.8695 变量间高度相关。

SAS 系统 10:24 Sunday, November 2, 2008 15 The CANCORR Procedure Canonical Correlation Analysis

典型相关分析的一般结果

Adjusted Approximate Squared Canonical Canonical Standard Canonical Correlation Correlation Error Correlation 典型相关系数∧

k ρ 校正的典型相关系数 近似的标准误 典型相关系数平方 1 ∧

1ρ=0.927857 0.922345 0.020733 ∧

21ρ=0.860919

2 ∧2ρ=0.562181 0.53983

3 0.101958 ∧

2

2ρ=0.316047

3 ∧

3ρ=0.165974 . 0.144965 ∧

23ρ=0.027547

(3)检验各对典型变量是否显著相关

表4.8 各对典型变量相关性检验结果

Eigenvalues of Inv(E)*H Test of H0: The canonical correlations in the

= CanRsq/(1-CanRsq) 即)1/(22∧

-k k ρρ current row and all that follow are zero

Likelihood Approximate

Eigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF Pr > F 各对相关系 相邻两特 特征值占 特征值占方差 似然比k Λ k F 值 k d 1 k d 2

k p

数特征值 征值之差 方差比例 比例累计值

1 6.1901 5.7280 0.9266 0.9266 0.09250440 17.98 9 97.5 <.0001

2 0.4621 0.4338 0.0692 0.9958 0.66511158 4.64 4 82 0.0020

3 0.0283 0.0042 1.0000 0.97245268 1.19 1 42 0.2816

检验假设0:)

(0

=k k H ρ

检验统计量),(~121/1/112)

(0k k H k

k t k k k k d d F d d F k 真

ΛΛ-=,k k d d 21,为第一、第二自由度.由检验

结果可知,05.0,

05.021=<=<ααp p ,05.02816.03>=p .故只有前两对典型变

量显著相关.取前两对进行分析即可.

另外,从对典型变量),(k k V U 进行分析求得特征值在方差占比例的累计值(贡献率)为0.9958也可看出,只需要前两对变量即可.

以下输出用wilks ’Lambda 等四种方法对典型相关系数为零的假设检验

Multivariate Statistics and F Approximations S=3 M=-0.5 N=19

Statistic Value F Value Num DF Den DF Pr > F 统计方法 F 值 检验p 值 Wilks' Lambda 0.09250440 17.98 9 97.5 <.0001 Pillai's Trace 1.20451366 9.39 9 126 <.0001 Hotelling-Lawley Trace 6.68047081 29.18 9 59.755 <.0001 Roy's Greatest Root 6.19005360 86.66 3 42 <.0001

NOTE: F Statistic for Roy's Greatest Root is an upper bound.

(4)求出典型变量及典型相关系数,并解释

典型变量的系数和典型结构

SAS 系统 10:24 Sunday, November 2, 2008 16 The CANCORR Procedure Canonical Correlation Analysis

Raw Canonical Coefficients for the VAR Variables 第一组变量x1-x3的典型变量的系数(原始变量未标准化)

第一典型变量1?U 第二典型变量2?U 3

?U V1 V2 V3 x1 0.1280199827 0.1095637597 -0.406148274 x2 -0.031330493 0.4635275823 -0.074977596 x3 0.021******* -0.08102918 0.1118830437 第二组变量y1-y3的典型变量的系数(原始变量为标准化)

Raw Canonical Coefficients for the WITH Variables

第一典型变量1?V 第二典型变量2?V 3

?V W1 W2 W3 y1 -0.011564835 0.0308514741 -0.222582518 y2 -0.061163256 0.8627405447 -0.119837671 y3 0.0624247406 -0.137906924 0.0811935636

数据未标准化结果,即利用协方差矩阵分析的结果

32110219.003139.01280.0x x x U +-=∧

32210624.00612.00115.0y y y V +--=∧

其余略

SAS 系统 10:24 Sunday, November 2, 2008 17 The CANCORR Procedure Canonical Correlation Analysis

第一组变量x1-x3的典型变量的系数(原始变量标准化后)

Standardized Canonical Coefficients for the VAR Variables

第一典型变量∧

*1U 第二典型变量∧

*2U ∧

*

3U

V1 V2 V3 x1(即*

1x ) 0.6485 0.5550 -2.0575 x2(即*

2x ) -0.1149 1.6993 -0.2749 x3(即*

3x ) 0.4600 -1.6963 2.3422

第二组变量y1-y3的典型变量的系数(原始变量标准化后)

Standardized Canonical Coefficients for the WITH Variables 第一典型变量∧

*1V 第一典型变量∧

*2V ∧

*3V W1 W2 W3 y1 -0.0863 0.2302 -1.6609 y2 -0.2016 2.8436 -0.3950

给出21

12212111*?R R R R A --=的三个特征值 0.860919?21=ρ,0.316047?2

2=ρ,0.027547?23=ρ.

第一对典型变量

*3

*2*1*14600.01149.06485.0?x x x U +-=主要日最高、日均土壤温度加权 *3

*2

*1

*1

2527.12016.00863.0?y y y V

+--=主要受日均气温影响 第一对典型变量主要表现日均气温与日均、最高土壤温度相关性。气温高,则土壤温度高。

第一对典型相关系数为0.9278571==∧

ρ

第二、第三对典型变量及典型相关系数

*3*2*1

*26963.1-6993.15550.0?x x x U +=主要日最低土壤温度和日均土壤温度差异 *3

*2*1*27674.2-8436.22320.0?y y y V

+=主要最低气温和日均气温的差异 第二对变量主要表现日均温差与土壤温差的关系。温差大,则土壤温度差异大。

*3

*2*1*33422.22749.00575.2?x x x U +--= *3

*2

*1

*3

6293.13950.06609.1?y y y V

+--= 0.562181?2=ρ

0.165974?3=ρ (5)以下输出原变量和典型变量间的相关系数(可不要求)

SAS 系统 10:24 Sunday, November 2, 2008 18 The CANCORR Procedure Canonical Structure

第一组变量x1-x3和它们的典型变量

*

1

U,

*

2

U,

*

3

U的相关系数

Correlations Between the VAR Variables and Their Canonical Variables V1 V2 V3

x1 0.9856 0.0400 -0.1646

x2 0.6143 0.6915 0.3802

x3 0.9378 0.1163 0.3270

第二组变量y1-y3和它们的典型变量

*

1

V,

*

2

V,

*

3

V的相关系数

Correlations Between the WITH Variables and Their Canonical Variables W1 W2 W3

y1 0.7620 -0.0358 -0.6466

y2 0.9086 0.4176 0.0107

y3 0.9970 0.0647 -0.0428

第一组变量x1-x3和第二组典型变量

*

1

V,

*

2

V,

*

3

V的相关系数

Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables W1 W2 W3

x1 0.9145 0.0225 -0.0273

x2 0.5700 0.3887 0.0631

x3 0.8702 0.0654 0.0543

第二组变量y1-y3和第一组典型变量

*

1

U,

*

2

U,

*

3

U的相关系数

Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables

V1 V2 V3

y1 0.7070 -0.0201 -0.1073

y2 0.8430 0.2347 0.0018

y3 0.9251 0.0364 -0.0071

原变量和第一对变量相关程度高,后两组提取的信息很少,与典型对系数一致。

练习:评委打分问题

data examp1;

input x1-x3 y1-y3;

cards;

86 43 85 43 93 71

99 74 99 78 99 89

37 22 10 27 24 33

5 19 5

6 13 11 38

45 43 55 39 54 58

21 32 21 34 35 32

36 78 48 75 42 78

69 31 85 32 70 52

40 98 36 99 64 86

26 14 40 8 25 21

51 68 38 68 48 72

63 86 79 87 76 95

39 80 57 80 55 68

78 40 72 42 75 58

56 49 54 48 52 61

39 80 71 76 52 81

65 5 53 11 67 41

28 11 31 12 23 35

50 32 68 23 49 58

69 98 69 97 81 99

55 99 78 97 60 90

36 11 5 15 26 5

77 18 61 27 68 54

67 33 95 34 59 61

45 87 46 85 67 80

61 72 63 63 62 75

41 63 74 55 50 76

6 5 13 5 5 13

28 53 35 51 31 59

66 20 79 18 67 55

;

run;

(2) 调用典型相关分析cancorr过程

菜单操作方法为,选择Globals/SAS/Assist/Data analysis/multivariate/canonical correlation analysis(典型相关分析)菜单命令.

编程方法如下:

proc cancorr data=ex5 corr; /*调用相关分析过程,打印样本相关系数矩阵*/

var x1-x3; /* 第一组变量x1-x3*/

with y1-y3; /* 第二组变量y1-y3*/

run;

SAS 系统 2008年08月01日星期五下午09时25分34秒 1

The CANCORR Procedure

Correlations Among the Original Variables

Correlations Among the VAR Variables

x1 x2 x3

x1 1.0000 0.2266 0.7249

x2 0.2266 1.0000 0.3345

x3 0.7249 0.3345 1.0000

Correlations Among the WITH Variables

y1 y2 y3

y1 1.0000 0.5223 0.8898

y2 0.5223 1.0000 0.7144

y3 0.8898 0.7144 1.0000

Correlations Between the VAR Variables and the WITH Variables

y1 y2 y3

x1 0.2781 0.9187 0.5144

x2 0.9904 0.4821 0.8954

x3 0.3186 0.7567 0.6409

SAS 系统 2008年08月01日星期五下午09时25分34秒 2

The CANCORR Procedure

Canonical Correlation Analysis

Adjusted Approximate Squared

Canonical Canonical Standard Canonical

Correlation Correlation Error Correlation

1 0.995440 0.994933 0.001690 0.990902

2 0.952820 0.951082 0.017109 0.907865

3 0.637323 . 0.110270 0.406180

Test of H0: The canonical correlations in Eigenvalues of Inv(E)*H the current row and all that follow are zero = CanRsq/(1-CanRsq)

Likelihood Approximate

Eigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF Pr > F

1 108.911

2 99.0575 0.9118 0.9118 0.00049778 141.58 9 58.56 <.0001

2 9.8536 9.1696 0.0825 0.994

3 0.05471158 40.9

4 4 50 <.0001

3 0.6840 0.0057 1.0000 0.59381993 17.78 1 26 0.0003

Multivariate Statistics and F Approximations

S=3 M=-0.5 N=11

Statistic Value F Value Num DF Den DF Pr > F

Wilks' Lambda 0.00049778 141.58 9 58.56 <.0001

Pillai's Trace 2.30494685 28.74 9 78 <.0001

Hotelling-Lawley Trace 119.44881991 309.86 9 34.667 <.0001 Roy's Greatest Root 108.91116421 943.90 3 26 <.0001

NOTE: F Statistic for Roy's Greatest Root is an upper bound.

SAS 系统 2008年08月01日 星期五 下午09时25分34秒 3

The CANCORR Procedure Canonical Correlation Analysis

Raw Canonical Coefficients for the VAR Variables

V1 V2 V3 x1 0.006674773 0.0352304459 -0.054341051 x2 0.0318235747 -0.012479334 -0.005196029 x3 -0.002099295 0.0125781113 0.0592150232

Raw Canonical Coefficients for the WITH Variables

W1 W2 W3 y1 0.028******* -0.030407375 -0.066162702 y2 0.0008426431 0.0456854586 -0.048655023 y3 0.0060022012 0.0139185651 0.116965176

SAS 系统 2008年08月01日 星期五 下午09时25分34秒 4

The CANCORR Procedure 标准化数据典型相关分析 Canonical Correlation Analysis

Standardized Canonical Coefficients for the VAR Variables

V1 V2 V3 x1 0.1489 0.7857 -1.2120 x2 0.9770 -0.3831 -0.1595 x3 -0.0520 0.3116 1.4671

Standardized Canonical Coefficients for the WITH Variables

W1 W2 W3 y1 0.8575 -0.9111 -1.9825 y2 0.0193 1.0463 -1.1143 y3 0.1454 0.3371 2.8332

给出21

12212111*?R R R R A --=的三个特征值 0.995440?21=ρ,0.952820?2

2=ρ,0.637323?23=ρ

第一特征根贡献率%18.19,选一对就可以。也说明,两组变量高度相关。

第一对典型变量

*3

*2*1*10520.0-9770.01489.0?x x x U +=主要高学历、低学历加权与网络调查差异。 *3

*2

*1

*1

1454.00193.08575.0?y y y V

++=主要艺术家、部门主管、发行部门加权。 第一对典型变量主要表现高低学历打分与艺术家部门主管打分的关系。网络调查占比例小。第一组(高学历)打分高,则第二组打分也高。说明二者具有高度的一致性。特别是高学历的打分和专家打分高度一致,第一对典型相关系数为0.9954401=∧

ρ

第二、第三对典型变量及典型相关系数

*3*2*1*23116.03831.0-7857.0?x x x U +=主要低学历、网络和高学历打分差异 *3

*2*1*23371.00463.19111.0-?y y y V ++=主要发行部门、部门主管和艺术家打分的差异。

第二对变量主要表现低学历与发行部门打分的关系。低学历打分高,则发行部门打分高。低学历占人群比例高,发行部门打分主要看是否符合大众口味。

*3*2*1

*3 1.46710.15952120.1?x x x U +--= *3

*2

*1

*3

8332.21143.19825.1?y y y V +--= 0.952820?2=ρ

0.637323?3=ρ

SAS 系统 2008年08月01日 星期五 下午09时25分34秒 5

The CANCORR Procedure Canonical Structure

Correlations Between the VAR Variables and Their Canonical Variables

V1 V2 V3 x1 0.3325 0.9248 -0.1847 x2 0.9933 -0.1008 0.0566 x3 0.3827 0.7530 0.5352

Correlations Between the WITH Variables and Their Canonical Variables

W1 W2 W3 y1 0.9970 -0.0647 -0.0435 y2 0.5710 0.8112 -0.1258 y3 0.9222 0.2738 0.2731

Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables

W1 W2 W3 x1 0.3310 0.8812 -0.1177 x2 0.9888 -0.0961 0.0361 x3 0.3809 0.7175 0.3411

Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables

V1 V2 V3

y1 0.9924 -0.0616 -0.0277

y2 0.5684 0.7730 -0.0802

y3 0.9180 0.2609 0.1740

本章总结

●主成分分析定义与求法,求主成分,样品排名

●典型相关分析定义及求法,典型相关系数的显著性检验.

●主成分分析与典型相关分析所解决问题不同;但二者思想方法相近, 构造原变量的线性

组合达到降维的目的.求解方法相似(约束极值问题),用相近的思想方法解决不同问题.作业:

4.7(需求出典型相关变量和典型相关系数)4.9

书面总结:写出总体典型相关变量的定义、求法,典型相关系数,样本典型相关分析的步骤,显著性检验.

相关主题
相关文档
最新文档