典型相关分析

典型相关分析
典型相关分析

武夷学院实验报告

课程名称:多元统计分析项目名称:典型相关分析

姓名:专业:14信计班级:1班学号:同组成员:无

-、实验目的

1.对典型相关分析问题的思路、理论和方法认识;

2.SPSS软件相应计算结果确认与应用;

3.SPSS软件相应过程命令。

二、实验内容

这里通过典型相关分析来反映我国财政收入与财政支出之间的关系。第一组反映财政收入的指标有国内增值税、营业税、企业所得税、个人所得税、专项收入及行政事业性收费收入等,分别用X1-X6来表示。第二

组反映财政支出的指标有一般公共服务、国防、公共安全、教育、科学技术、社会保障和就业、医疗卫生与计划生育及节能环保等,分别用Y1-Y8来表示。原始数据如下:

jts 10^ ?96K! 1?痼8496.6641 H929? 129.06M.820H W234 8?

225.0B425.1 '2W.39tU.31

线北 2 応.Jb Bi2 in231 EJ S4.EO94.001SB.9E52^ U10.9G243.0S S37.BJ4B7B

iL古314,65are.oe2C2加49 37320.47吳7E如口 5.5E:156.D5542 4462 OS4由蓋芒353.02155 2644 ar154.S2124 3?330 10 5.26175.7?4f6ff T31 6+ 24841657.(1^0 63S4 15107.12Bl 34-'9S24457669 4811B99

11245.09121衍23 0551.W2眉316W1-17,77412 0337.ZZ

151.7325T.99 a.Bi北田71.61270 00s.se173.35soi a?.ei

上癌B4847355 2211-5.6S100 413GD 10G.E?RED6T9 54257 BE

SIS B5926BF2.41763 862uee193.1136663冃69 ii22 54462.99145 J 鮒302?651 .CT106&.9?6G6M193.?121.3^71530 IB丄53347 7D fflUDG191 ti?

1S0.4G43.441*b.M4H 15 4.3ti163.7B591DS.6J 23431551 41271 OS7B3779.TO W.34327. D&7.GI10S.4457 J .91&D.£22-

146.43423.5013E Z12B7762.?1EE29337 DI 5.951629266』53站32

lift409,fi6TO 331匚4田163.68⑹112F臼孙15,26341.33139? 6?149.14 202G6^1.?9血丽酊S390.252?.7B?33.21 6.51XI .221171.5290.00;

225.6E215 3357.71sa.732EB69g?J9227 .Qfl KC &377.21

175.11451 IE IS 175D5C63.0P17E0I eae14.70m .as SR a55 46

广床ID5B.S61KK.20S7JB33i3 03233.00450 110SMiS17.83B50.3I忡3射3ii 54

ra 9B763CM 2037 7*叩41X224132D磁178.61HR n S4 36

Jl.bt190.965G.46 1 td11.1?tr.1l I ib.+J W.1E w sr13.92

11 lEJRX424.31135.B237.54砧.0027E.U0.7$141.2243?.2330.6£43 nauli JUC at r na■TCC C口口in■M F c£r1TD rt"l匚in DQ1E CT s y s n de imc J-1ELD CK

J

三、实验步骤

在SPSS 中没有提供典型相关分析的专门菜单项,必须采用 canonical correlation.sps 宏来实现。把

canonical

correlation.sps 安装在SPSS 子目录下。

(1) 按文件-新建-语法打开语法窗口,输入下图中的语句:

(2 )点击语句窗口“运行”菜单中的“全部”子菜单项。运行典型相关宏命令,得出结果。

四、实验结果

表1 (第一组变量的自相关系数阵)

LC?C

圈怕.4

工內印 屮JH 内窗0DGJV ) 取f

□二甘上

? %% 阴■

S*- ■

甘 ?* % 匚]阳语:ca~crizfll cair -dflr?iDr QGtrvie dc£ia 仃

豊佶 p - $pss 沁加

I p 1 B \^~

S 产EWWiFiy 址耳岳厂".嘻

h 1 rri5h

IN CLUD FC ersVkdrrihlstralo ND 龄 p\S lat sikcs l7\Ca rtamcal cotte lai la n. sp 皆-

cancetT bull- <1 Q X3 >4 适超

_/*?= V1 73 Yi V5 VE ¥7

Correlations

for Set-1

XI

X2

X3 X4

XI

1.0000

.9344 .9779

.9452

.5377 .5256

X2 .9344 1.X00

.9151

.3400 + 5470

? 6392

X3

.9779

.9151

.3514

.4657

.4717

X4 .9452 .@460 .9814 1.0000 ,41TB ’ 3000 K5

.5377

.5470 .4S57 .4175 1.0000

.3703

XE .5256 .6502

.4717

,3600

.3703 1.0000

X0

Sc-t-2

YL Y2

76Y6¥7 TL L 0000.S'9?.flCiSl.78'?一防起.B24B

72-8O0T 1. 0X0 .6351 ,saoo.05130 ,TO43,7011

T9.3361 1.00M /嘲.3573,G6K

Y4 .9200L.COOO汽畑,77H .8EB3

T5 .6021.obW .症d .F;403 1.1XCO.sum

哪.7B7T.7M0 .7T44 1..S2d:.7471

T7.拠1.阿8.9GM.㈤因.8241 J.OOOO

T8 .9348.8576 .96S3? 641G.BISO L0000

表2 (第二组变量的自相关系数阵)

表1和表2分别为两组变量的自相关系数阵。反映了各组内变量间的相关系数。

TL¥5YE

Y2TJ n

yi.6103 -6?45 ■昶旨.0T6& *4395 .£191 血歹

.76M .8248 .3106 .aeoi .9843 .3046 皿34:VfE

■ B4B8 .S>74 .3030 .10ST .5747 .4514.0264

H4.4356 .5966.9446.3S36^6TG.5253

.4ae4 .4441 .5333 ? BBBO

H43>4M90T ” DBL8

.-173.5727,5595 .1340.5414 &421.0820.7 M2

表3 (两组变量间的相关系数阵)

表3为两组变量间的相关系数。从表中可以看出,第一组变量中的X1,X2,X3与第二组变量中的Y3,

Y4,Y5之间相关系数较高,这进一步说明需要提取典型变量来代表这种相关性。

值得注意的是,由于变量间的交互作用,这个简单相关系数阵只能作为参考,不能真正反映两组变量间的实质联系。

Caiiftiiieal Corielaticas

1.991

2?83B

3,635

4.492

5?39G

6,218

表4(典型相关系数)

表4为典型相关系数。从表中可以看出,第一对典型变量相关系数为0.991,第二对典型变量相关系数为0.838,以此类推共有6对典型变量的典型相关系数。由于此处的典型相关系数是从样本数据算得的,和简单相关系数一样,有必要进行总体系数是否为0的检验(见表5)。

Test that 工書朮么iniiiE correlations are zero:

bilk's Chi-SQ DF Sig

1.002 14

2. S1448.000.000

2 _0975S.40435.000.030

3.32825. no 2

4.000?400

410.87515.000 .761

5 _S03 4.932S_ 000 .765

6.9531,0953- 000 .778

表5 (典型相关系数的显著性检验)

表5为典型相关系数的显著性检验。该表从左至右分别为Wilks统计量、卡方统计量、自由度和伴随概率。从表中伴随概率可以看出,第一对和第二对典型变量的典型相关系数显著不为0;从第三对典型变量开始, 典型相关系数的p值都比较大,均相关性不显著。因此需要第一对和第二对典型变量。

Stajiiiariiseil CajipnlcaL Coetffax 5&t_l

1 24

XL-? ,289499 2. 384 4 099 -L. 60A-1.032

X2s 361-1.670-2.fli64 .ad/.27? 1. 4L6

X3 .506 Z 501 -8. 604一乩512 -,946

X4 H027.960 -3.664 3.463 6. 116 ,747

X5 -.004191.573 221 ,65D .870

溜OSG233.44D151 1.0?0-.994

表6(第一组典型变量的标准化系数)

Faw Canonical 'Coeff i ii ents f OT

1Set-]

J 74

Hl-.001 .002 .009 .^18 -.006 -.004

J{2 -.oci-.0C4 00? .002 .001 ? M3

K3 -.001 .002 .010 -.033 -.021 -.004

X4.OOC .010 -02G.034 .o&o .007

鬲-.00:3 *008 '003 ,013

-.001 -.002 .004 -.002 .000-,oos

表7 (第一组典型变量的为标准化系数)

S t andordi. z cd C=mciiic al Coe^f ic: ieiits ftH Set-2

12 3 4 5 6

.2EL -.6.24571 L.333.106-3.135

一一也d-.B38-1.529 .3M

.341.5^5

V3 10 &?BS".27E ,931占193,D12

.251 -1.G0O 5.050 ,000-1.444 E*05G

T5 -.Ml .992-.5餌-.311.016 -1.785

料.C32 ,0?3.需1-.402 1 . 143.HO

严-.饷门.8L6-2.277-2. 471-1. 217-.223

-.0S3 -.273.剧-.ESO.£甜-1.0^

表8 (第二组典型变量的标准系数)

Raw Cisnctnical C o ei £ic ient s if oz

1 Set-2

z a q

Y1,OOL -,D03-.002 .009.001 -.014

T2 -013 104 -.?5.筛£.117

Y3二001 .DO? .0D2 .003 .006 .024

¥4001 004 .001 -.OOd .MB

一* UQ3 * OIL -+3O7 -*讥4 +Q00

Y6,000 .000 .003 -.002 .C06 .001

T7* Ooo ,Oos -* 01B -,QO9 -,C02

花「001 -.004 .011 -,ocs +oio -.01?

表9 (第二组典型变量的未标准系数)

表6-表9为各典型变量标准化与未标准化的系数列表。从表对典

型变量的线性函数,分别为

6和表8中第一列和第二列数据可以得到第

Canonical Loarfir.es for Set-1

1 2 3 4 5 11 -.98d .124 .031 .091 -.034 .CIS

12-B S7SI二173 -033,010 二.021 r03S

13 -.Q74.21^ -.009-.071.004 .028

X4*.S26 -.001 .C88 .砌

15-.272 -.056.224 一575

第-.61^ -.B6B ?172 -.077 .265 467

表10 (第'组的典型载荷系数)

Cxosg L Q adlng s loi Sei-L

12C43G XI^.976 .104 .056 .044 -.013■ 004

X2一曲-.150 -.067.00S -.008一(K迫

X3-,SS5*173-.m-.004 .001 +006

X4 -.916 ” 302-045 -.01(. .010

X5-.E37 .228.342-.OCT.0S9 .12S

丽一冋946E.117 -,<>37 .105 -w

表11 (第

组的交叉载荷系

数)

Canonical Leadings for Set-2

12S4&6 yi-.ess -.629 .023.055 -,C69-.120

Y2-..47 -.532 -.321 .033 .300 .116

Y3-.wd -.31P .0?.083.027.110

Y4-.ass.501 .102 ? .077 -.IM .025

Y5-.see ,139-,00(

3.036-.072

驚-.563 -.625 .033 -.344.339 -.033 V7 -.£S9 -.66S -.014 25S -■ 166 =.01S 73-.73B -.505 .155 -.13B * 2E4 -.052

表12 (第二组的典型载荷系数)

Crrss Lio^dings far Set —2

1 2

3 4

Y1

-.082

&2?

.016 .027

-027

-.026

T2 -.740 -■虫&

-.220

H 016

■册

.OSE

Y3

-,386

2S3

.040

,011

.024 T4 -,318

.070

-.037

-.054

.005

Y5

--97T .Ilf -.(J02

<001

-016

T6

-,548

-.440 ,057

-.166 .134

-.007

T7

-.093

-.(174

-.010

-.123

-.062

-.003

TB -.731

42S

.107

-.0S6

.0C9

-.011

表13 (第二组的交叉载荷系数)

表10-表13为典型载荷系数与交叉载荷系数的输出结果。其中,典型载荷系数是典型变量与本组观测变量 之间的两两简单相关系数。交叉载荷系数是指某一典型变量与另外一组中的观测量之间的两两简单相关。 Prcporticn of Variance of Set-1 Explained by Its Oim Can. Vai.

Prop Var

.733 .101 ,050 .004 ?022 ?091

表16

CV1-1 CV1-2 CV1-5

CV1-4 CV1-5 CV1-6

rzoportion of Variance

CV2-1

CV2-2 CV2-3

CV2-4

CV2-5 CV2-6

Propoxtion of Variance CV2-1 cva-2 CV2-3 CV2-4 cva-e CV2-6

表14

cf Set _l E xpl a.ined

Prop Var

,720 .071 .023 ,001 .003

表15

of Explained

Frap 7ax

?503 ,23S .019 ?02S ?O32 -006 by Opposite Can, Vaz.

by I te Own Can. Yaii

Proportion o£ Variance □£ Set^2 Esp lamed, by Opposri e Can. Vax ?Pafop Var

CV1-1

CV1-2 .167

CV1-3

CV1-4 .006

CV1-5

CV1-5■ QW

表17

表14-表17为冗余分析的输出结果。它说明了各典型变量对各变量组方差解释的比例。冗余分析包括组内代表比例和交叉解释比例,是典型相关分析中很重要的部分。

(1) 组内代表比例是指本组所有观测变量的总标准方差中由本组形成的各个典型变量所分别代表的比

例。从表中可以看到第一组变量被自身的第一个变量揭示了73.3%,被自身的第二个典型变量揭示

了10.1%,以此类推;第二组变量被自身的第一个典型变量揭示了72%,自身的第二个典型变量揭

示了7.1%。

(2) 交叉解释比例是指一组变量形成的典型变量对另一组观测变量的总标准方差所解释的比例,是一种

组间交叉共享比例。从表中可以看到第一组变量被第二组变量的第一个典型变量揭示了60.3%,被第二个典型变量揭示了23.8% ;第二组变量被第一组变量的第一个典型变量揭示了59.2%,被第二个典型变量揭示了16.7%。

五、实验总结

典型相关分析是一种采用类似主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系?在实际中,只须着重研究相关关系较大的那几对典型相关变量?通过实例分析,我们进一步明确了典型相关分析是研究

两组变量之间相关性的一种降维技术的统计分析方法?而复相关是典型相关的一个特例,简单相关是复相关

的一个特例?第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减?各对

典型相关变量所含的信息互不重复?并且经标准化的两组变量之间的典型相关系数与原始的两组变量间的

相应典型相关系数是相同的?通过实验,能够进一步对SPSS软件更熟悉应用。

实验报告成绩(百分制)_________________ 实验指导教师签字:_________________

典型相关分析(CCA)附算法应用及程序演示教学

典型相关分析(C C A)附算法应用及程序

典型相关分析

摘要 利用典型相关分析的思想,提出了解决了当两组特征矢量构成的总体协方差矩阵奇异时,典型投影矢量集的求解问题,使之适合于高维小样本的情形,推广了典型相关分析的适用范围.首先,探讨了将典型分析用于模式识别的理论构架,给出了其合理的描述.即先抽取同一模式的两组特征矢量,建立描述两组特征矢量之间相关性的判据准则函数,然后依此准则求取两组典型投影矢量集,通过给定的特征融合策略抽取组合的典型相关特征并用于分类.最后,从理论上进一步剖析了该方法之所以能有效地用于识别的内在本质.该方法巧妙地将两组特征矢量之间的相关性特征作为有效判别信息,既达到了信息融合之目的,又消除了特征之间的信息冗余,为两组特征融合用于分类识别提出了新的思路.

一、典型相关分析发展的背景 随着计算机技术的发展,信息融合技术已成为一种新兴的数据处理技术,并已取得了可喜的进展.信息融合的3个层次像素级、特征级、决策级。 特征融合,对同一模式所抽取的不同特征矢量总是反映模式的不同特征的有效鉴别信息,抽取同一模式的两组特征矢量,这在一定程度上消除了由于主客观因素带来的冗余信息,对分类识别无疑具有重要的意义 典型相关分析(CanoniealComponentAnalysis:CCA)是一种处理两组随机变量之间相互关系的统计方法。它的意义在于:用典型相关变量之间的关系来刻画原来两组变量之间的关系!实现数据的融合和降维!降低计算复杂程度。 二、典型相关分析的基本思像 CCA 的目的是寻找两组投影方向,使两个随机向量投影后的相关性达到最大。具体讲,设有两组零均值随机变量 () T c ...c c p 21x ,,= 和 () T d ...d d q 21y ,,= CCA 首先要找到一对投影方向1α和1β,使得投影y v 11T β= 和x u 11 T α=之间具有最大的相关性,1u 和1v 为第一对典型变量;同 理,寻找第二对投影方向2α和2β,得到第二对典型变量2u 和2v ,使其与第一对典型变量不相关,且2u 和2v 之间又具有最大相关性。这样下去,直到x 与y 的典型变量提取完毕为止。从而x 与y 之

典型相关分析SPSS例析

典型相关分析 典型相关分析(Canonical correlation )又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。 典型相关与主成分相关有类似,不过主成分考虑的是一组变量,而典型相关考虑的是两组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的成分使之与另一组的成分具有最大的线性关系。 典型相关模型的基本假设:两组变量间是线性关系,每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共线性。典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因变量。 典型相关会找出一组变量的线性组合**=i i j j X a x Y b y =∑∑与 ,称 为典型变量;以使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。i a 和j b 称为典型系数。如果对变量进 行标准化后再进行上述操作,得到的是标准化的典型系数。 典型变量的性质 每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关;原来所有变量的总方差通过典型变量而成为几个相互独立的维度。一个典型相关系数只是两个典型变量之间的相关,不能代

表两个变量组的相关;各对典型变量构成的多维典型相关,共同代表两组变量间的整体相关。 典型负荷系数和交叉负荷系数 典型负荷系数也称结构相关系数,指的是一个典型变量与本组所有变量的简单相关系数,交叉负荷系数指的是一个典型变量与另一组变量组各个变量的简单相关系数。典型系数隐含着偏相关的意思,而典型负荷系数代表的是典型变量与变量间的简单相关,两者有很大区别。 重叠指数 如果一组变量的部分方差可以又另一个变量的方差来解释和预测,就可以说这部分方差与另一个变量的方差之间相重叠,或可由另一变量所解释。将重叠应用到典型相关时,只要简单地将典型相关系数平方(2 CR),就得到这对典型变量方差的共同比例,代表一个典型变量的方差可有另一个典型变量解释的比例,如果将此比例再乘以典型变量所能解释的本组变量总方差的比例,得到的就是一组变量的方差所能够被另一组变量的典型变量所能解释的比例,即为重叠系数。 例1:CRM(Customer Relationship Management)即客户关系管理案例,有三组变量,分别是公司规模变量两个(资本额,销售额),六个CRM实施程度变量(WEB网站,电子邮件,客服中心,DM 快讯广告Direct mail缩写,无线上网,简讯服务),三个CRM绩效维度(行销绩效,销售绩效,服务绩效)。试对三组变量做典型相关分析。

典型相关分析及其应用实例

摘要 典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型 相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性. 【关键词】典型相关分析,样本典型相关,性质,实际应用 ABSTRACT The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up

如何在SPSS中实现典型相关分析

如何在SPSS中实现典型相关分析? SPSS 11.0 15.1 典型相关分析 15.1.1方法简介 在相关分析一章中,我们主要研究的是两个变量间的相关,顶多调整其他因素的作用而已;如果要研究一个变量和一组变量间的相关,则可以使用多元线性回归,方程的复相关系数就是我们要的东西,同时偏相关系数还可以描述固定其他因素时某个自变量和应变量间的关系。但如果要研究两组变量的相关关系时,这些统计方法就无能为力了。比如要研究居民生活环境与健康状况的关系,生活环境和健康状况都有一大堆变量,如何来做?难道说做出两两相关系数?显然并不现实,我们需要寻找到更加综合,更具有代表性的指标,典型相 关(CanonicalCorrelation)分析就可以解决这个问题。 典型相关分析方法由Hotelling提出,他的基本思想和主成分分析非常相似,也是降维。即根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)对来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上,提取时要求第一对综合变量间的相关性最大,第二对次之,依此类推。这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。一般来说,只需要提取1~2对典型变量即可较为充分的概括样本信息。 可以证明,当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。故可以认为典型相关系数是简单相关系数、复相关系数的推广,或者说简单相关系数、复相关系数是典型相关系数的特例。 15.1.2引例及语法说明 在SPSS中可以有两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,第二种方法在使用上非常简单,而输出的结果又非常详细,因此这里只对它进行介绍。该程序名为Canonical correlation.sps,就放在SPSS的 安装路径之中,调用方式如下: INCLUDE 'SPSS所在路径\Canonical correlation.sps'. CANCORR SETl=第一组变量的列表 /SET2=第二组变量的列表. 在程序中首先应当使用include命令读入典型相关分析的宏程序,然后使用cancorr名称调用,注意最后的“.”表示整个语句结束, 不能遗漏。 这里的分析实例来自曹素华教授所著《实用医学多因素统计分析方法》第176页:为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长和头宽,资料见文件canoncor.sav,希望求得两组变量的典型变量及典型相关系数。显然,代表兄长头形的变量为第一组变量,代表弟弟头形的变量为第二组变量,这里希望求得的是两组变量间的相关性,在语法窗口中键入的程 序如下: INCLUDE 'D:\SpssWin\Canonical correlation.sps'. 请使用时改为各自相应的安装目录 CANCORR SETl=longlwidthl 列出第一组变量 /SET2=long2width2. 列出第二组变量 选择菜单Run->All,运行上述程序,结果窗口中就会给出典型相关分析的结果。 15.1.3 结果解释 NOTE:ALL OUTPUT INCLUDING ERROR MESSAGES HAVE BEEN TEMPORARILY SUPPRESSED.IF YOU EXPERIENCE UNUSUAL BEHAVIOR THEN RERUN THIS

SPSS典型相关分析

SPSS数据统计分析与实践 第二十二章:典型相关分析 (Canonical Correlation) 主讲:周涛副教授 北京师范大学资源学院 教学网站:https://www.360docs.net/doc/2c8806475.html,/Courses/SPSS

典型相关分析(Canonical Correlation)本章内容: 一、典型相关分析的基本思想 二、典型相关分析的数学描述 三、SPSS实例 四、小节

典型相关分析的基本思想 z典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 z简单相关系数;复相关系数;典型相关系数 z典型相关分析首先在每组变量中找出变量的线性组合,使其具有最大相关性; z然后再在每组变量中找出第二对线性组合,使其与第一对线性组合不相关,而第二对本身具有最大相关性; z如此继续下去,直到两组变量之间的相关性被提取完毕为止; z这些综合变量被称为典型变量(canonical variates);第I对典型变量间的相关系数则被称为第I 典型相关系数(一般来说,只需提取1~2对典型变量即可较为充分的概括样本信息)。

典型相关分析的目的 T q T p Y Y Y Y X X X X ),,,() ,,,(2121K K ==设两组分别为p 与q 维 (p ≤q)的变量X ,Y :设p + q 维随机向量协方差阵,????????=Y X Z ??? ?????ΣΣΣΣ=Σ222112 11其中Σ11是X 的协方差阵,Σ22是Y 的协方差阵,Σ12=ΣT 21是X ,Y 的协方差阵 典型相关分析用X 和Y 的线性组合U =a T X , V =b T Y 之间的相关来研究X 和Y 之间的相关性。其目的就是希望找到向量a 和b ,使ρ(U ,V )最大,从而找到替代原始变量的典型变量U 和V 。

典型相关分析

武夷学院实验报告 课程名称:多元统计分析项目名称:典型相关分析 姓名:专业:14信计班级:1班学号:同组成员:无 -、实验目的 1.对典型相关分析问题的思路、理论和方法认识; 2.SPSS软件相应计算结果确认与应用; 3.SPSS软件相应过程命令。 二、实验内容 这里通过典型相关分析来反映我国财政收入与财政支出之间的关系。第一组反映财政收入的指标有国内增值税、营业税、企业所得税、个人所得税、专项收入及行政事业性收费收入等,分别用X1-X6来表示。第二 组反映财政支出的指标有一般公共服务、国防、公共安全、教育、科学技术、社会保障和就业、医疗卫生与计划生育及节能环保等,分别用Y1-Y8来表示。原始数据如下: jts 10^ ?96K! 1?痼8496.6641 H929? 129.06M.820H W234 8? 225.0B425.1 '2W.39tU.31

数学建模__SPSS_典型相关分析

典型相关分析 在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。 典型相关分析计算步骤 (一)根据分析目的建立原始矩阵 原始数据矩阵 ?? ????????? ???nq n n np n n q p q p y y y x x x y y y x x x y y y x x x 2 1 2 1 222212221 1121111211 (二)对原始数据进行标准化变化并计算相关系数矩阵 R = ?? ? ? ??22211211 R R R R 其中11R ,22R 分别为第一组变量和第二组变量的相关系数阵,12R = 21 R '为第一组变量和第二组变量的相关系数 (三)求典型相关系数和典型变量 计算矩阵=A 111-R 12R 122-R 21R 以及矩阵=B 122-R 21R 1 11-R 12R 的特征值和特征向量,分 别得典型相关系数和典型变量。 (四)检验各典型相关系数的显著性 第五节 利用SPSS 进行典型相关分析 第一步,录入原始数据,如下表:X1 X2 X3 X4 X5 分别代表多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入和城镇人口比例。

1、点击“Files→New→Syntax”打开如下对话框。 2、输入调用命令程序及定义典型相关分析变量组的命令。如图

输入时要注意“Canonical correlation.sps”程序所在的根目录,注意变量组的格式和空格。 第三步,执行程序。用光标选择这些命令,使其图黑,再点击运行键,即可得到所有典型相关分析结果。

SPSS典型相关分析结果解读

Correlations for Set-1 Y1Y2Y3 Y1 1.0000.9983.5012 Y2.9983 1.0000.5176 Y3.5012.5176 1.0000 第一组变量间的简单相关系数 Correlations for Set-2 X1X2X3X4X5X6X7X8X9X10X11X12X13 X1 1.0000-.3079-.7700-.7068-.6762-.7411-.7466-.5922-.1948-.1285-.2650-.9070-.6874 X2-.3079 1.0000-.0117.0103-.0613-.0283-.0140.3333.4161.3810.3831.1098-.0640 X3-.7700-.0117 1.0000.9905.9860.9973.9990.5892.0421-.0196.2492.9515.9903 X4-.7068.0103.9905 1.0000.9910.9935.9952.5634.0249-.0367.2476.9120.9953 X5-.6762-.0613.9860.9910 1.0000.9887.9912.5717.0363-.0277.2475.8972.9926 X6-.7411-.0283.9973.9935.9887 1.0000.9985.5563.0142-.0453.2210.9355.9950 X7-.7466-.0140.9990.9952.9912.9985 1.0000.5795.0319-.0298.2441.9390.9945 X8-.5922.3333.5892.5634.5717.5563.5795 1.0000.7097.6540.8990.6619.5138 X9-.1948.4161.0421.0249.0363.0142.0319.7097 1.0000.9922.8520.1350-.0228 X10-.1285.3810-.0196-.0367-.0277-.0453-.0298.6540.9922 1.0000.8184.0752-.0801 X11-.2650.3831.2492.2476.2475.2210.2441.8990.8520.8184 1.0000.3093.1840 X12-.9070.1098.9515.9120.8972.9355.9390.6619.1350.0752.3093 1.0000.9040 X13-.6874-.0640.9903.9953.9926.9950.9945.5138-.0228-.0801.1840.9040 1.0000 Correlations Between Set-1and Set-2 X1X2X3X4X5X6X7X8X9X10X11X12X13 Y1-.7542-.0147.9995.9940.9892.9989.9998.5788.0334-.0280.2426.9430.9937 Y2-.7280-.0234.9965.9958.9954.9977.9988.5859.0485-.0136.2573.9285.9949 Y3-.4485.2952.5096.4955.5230.4760.5048.9695.7610.7071.9073.5449.4500 Canonical Correlations 1 1.000 2 1.000 3 1.000 第一对典型变量的典型相关系数为CR1=1.....二三 Test that remaining correlations are zero:维度递减检验结果降维检验 Wilk's Chi-SQ DF Sig. 1.000.000.000.000

典型相关分析(CCA)附算法应用及程序

典型相关分析

摘要 利用典型相关分析的思想,提出了解决了当两组特征矢量构成的总体协方差矩阵奇异时,典型投影矢量集的求解问题,使之适合于高维小样本的情形,推广了典型相关分析的适用范围.首先,探讨了将典型分析用于模式识别的理论构架,给出了其合理的描述.即先抽取同一模式的两组特征矢量,建立描述两组特征矢量之间相关性的判据准则函数,然后依此准则求取两组典型投影矢量集,通过给定的特征融合策略抽取组合的典型相关特征并用于分类.最后,从理论上进一步剖析了该方法之所以能有效地用于识别的内在本质.该方法巧妙地将两组特征矢量之间的相关性特征作为有效判别信息,既达到了信息融合之目的,又消除了特征之间的信息冗余,为两组特征融合用于分类识别提出了新的思路.

一、典型相关分析发展的背景 随着计算机技术的发展,信息融合技术已成为一种新兴的数据处理技术,并已取得了可喜的进展.信息融合的3个层次像素级、特征级、决策级。 特征融合,对同一模式所抽取的不同特征矢量总是反映模式的不同特征的有效鉴别信息,抽取同一模式的两组特征矢量,这在一定程度上消除了由于主客观因素带来的冗余信息,对分类识别无疑具有重要的意义 典型相关分析(CanoniealComponentAnalysis:CCA)是一种处理两组随机变量之间相互关系的统计方法。它的意义在于:用典型相关变量之间的关系来刻画原来两组变量之间的关系!实现数据的融合和降维!降低计算复杂程度。 二、典型相关分析的基本思像 CCA 的目的是寻找两组投影方向,使两个随机向量投影后的相关性达到最大。具体讲,设有两组零均值随机变量 () T c ...c c p 21x ,,= 和 () T d ...d d q 21y ,,= CCA 首先要找到一对投影方向1 α和 1 β ,使得投影 y v 11T β= 和 x u 11T α=之间具有最大的相关性,1 u 和1v 为第一对典型变量;同 理,寻找第二对投影方向2 α和2 β,得到第二对典型变量2 u 和2 v ,使

实验九典型相关分析报告

课时授课计划 课次序号:22 一、课题:实验九典型相关分析 二、课型:上机实验 三、目的要求:1.掌握典型相关分析的理论与方法、模型的建立与显著性检验; 2.掌握利用典型相关分析的SAS过程解决有关实际问题. 四、教学重点:典型相关分析的SAS过程. 教学难点:相关分析的理论与方法、模型的建立与显著性检验. 五、教学方法及手段:传统教学与上机实验相结合. 六、参考资料: 《应用多元统计分析》,高惠璇编,北京大学出版社,2005; 《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,2001; 《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008; 《应用回归分析》(二版),何晓群编,中国人民大学出版社,2007; 《统计建模与R软件》,薛毅编著,清华大学出版社,2007. 七、作业:4.9 4.10 八、授课记录: 九、授课效果分析:

实验九典型相关分析(Canonical Correlation Analysis) (2学时) 一、实验目的和要求 能利用原始数据与相关矩阵、协主差矩阵作相关分析,能根据SAS输出结果选出满足要求的几个典型变量. 二、实验内容 1.典型相关分析的SAS过程—PROC CANCORR过程 基本语句: PROC CANCORR ; V AR variables; WITH variables; RUN; 说明:此过程输入数据可以是原始数据,也可以是相关系数矩阵或协方差矩阵,输出结果包含相关系数矩阵、典型相关系数、典型变量的系数、典型变量对之间的相关性检验的F统计量值、自由度、p值、典型变量与原始变量的相关系数等. (1)proc cancorr语句的<选项列表>: ●OUT=SAS 数据集——创建含原始数据和典型相关变量得分(观测值)的SAS集. ●OUTSTAT=SAS 数据集——创建含原始变量的样本均值、样本标准差、样本相关系数阵、典型相关系数和典型变量的标准化和非标准化系数等SAS集. ●CORR(或C)——打印原始变量的样本相关系数矩阵. ●NCAN=m——规定要求输出的典型变量对个数,默认为两组变量个数较小者. ●EDF=n-1——针对输入原始数据集为样本相关系数矩阵或样本协方差矩阵,借此选项指定样本容量为观测个数减1.输入为原始观测数据时,省略此项. ●all——所有输出项. ●noprint——不输出分析结果. ●short——只输出典型相关系数和多元分析统计数. ●simple——简单统计数. ●vname=变量名——为var语句的变量定义名称. ●vprefix=前缀名——为var语句的典型变量定义前缀. ●wname=变量名——为with语句的变量定义名称. ●wprefix=前缀名——为with语句的典型变量定义前缀. (2)V AR variables——V AR后列出进行相关分析的第一组变量名称. (3)WITH variables——WITH后列出进行相关分析的第二组变量名称 var与with语句经常同proc cancorr语句一起使用.其他语句类似corr过程.

3个介绍典型相关分析的案例

Example 1: 测量25个家庭中长子的头长和头宽,与次子的头长和头宽的相关性 SET1=长子头长长子头宽/ SET2=次子头宽次子头长/. 结果: 分别给出两组变量内部的相关系数 组一相关系数 Correlations for Set-1 长子头长长子头宽 长子头长 1.0000 .7346 长子头宽 .7346 1.0000 组二相关系数 Correlations for Set-2 次子头宽次子头长 次子头宽 1.0000 .8393 次子头长 .8393 1.0000 第一组与第二组变量之间的相关系数 Correlations Between Set-1 and Set-2 次子头宽次子头长 长子头长 .7040 .7108 长子头宽 .7086 .6932 典型相关系数 Canonical Correlations 1 .789 2 .054 维度递减检验结果(降维检验) Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .377 20.964 4.000 .000 2 .997 .062 1.000 .803 标准化典型系数—第一组

Standardized Canonical Coefficients for Set-1 1 2 长子头长-.552 -1.366 长子头宽-.522 1.378 第一组典型变量的未标准化系数 Raw Canonical Coefficients for Set-1 1 2 长子头长-.057 -.140 长子头宽-.071 .187 第二组典型变量的标准化系数 Standardized Canonical Coefficients for Set-2 1 2 次子头宽-.538 1.759 次子头长-.504 -1.769 第二组典型变量的未标准化系数 Raw Canonical Coefficients for Set-2 1 2 次子头宽-.080 .262 次子头长-.050 -.176 典型负载系数(结构相关系数:典型变量与原始变量之间的相关系数)第一组 Canonical Loadings for Set-1 1 2 长子头长-.935 -.354 长子头宽-.927 .375 交叉负载系数(某一组中的典型变量与另外一组的原始变量之间的相关系数)—第一组原始量Cross Loadings for Set-1 1 2 长子头长-.737 -.019 长子头宽-.731 .020

第十章典型相关分析

第十章 典型相关分析 (Canonical Correlation Analysis ) §10.1 引言 一、何时采用典型相关分析 1.两个随机变量Y 与 X ?? ?→?相关关系 简单相关系数; 2.一个随机变量Y 与一组随机变量 p X X ,,1 ?→?多重相关(复相关系数); 3.一组随机变量q Y Y ,,1 与另一组随机变量p X X ,,1 ?→?典型(则)相关系数。 典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关 系数的特例。 典型相关是研究两组变量之间相关性的一种统计分析方法,也是一种降维技术。 二、实例 由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。 实例(X 与Y 地位相同) 1985年中国28 省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为621,,X X X ;机能指标脉搏(次/分)、收缩压(mmHg) 、舒张压(变音)、舒张压(消音)、肺活量(ml)分别为521,,Y Y Y 。现欲研究这两组变量之间的相关性。

简单相关系数矩阵

用简单相关系数描述两组变量的相关关系的缺点: 只是孤立考虑单个X 与单个Y 间的相关,没有考虑X 、Y 变量组内部各变量间的相关。 两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描述。(复相关系数也如此)。 对于上例,要想研究两组变量间的相关关系,构造线性函数如下: 5 25222121616212111Y a Y a Y a V X a X a X a U +++=+++= 要求它们之间具有最大相关性,这就是典型相关分析问题。 §10.2 典型相关分析的统计思想 典型相关分析研究两组变量之间整体性的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。 典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的变量能代表原始变量大部分的信息,同时,与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对…使得各对典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数。典型相关分析就是用典型相关系数衡量两组变量之间的相关性。 一、典型相关分析的统计思想 采用主成分思想寻找第i 对典型(相关)变量: m q p i Y b Y b Y b Y b V X a X a X a X a U q iq i i i p ip i i i =='=+++='=+++=),min(,,2,1 ,22112211 典型相关系数),(i i i V U Corr CanR =典型变量系数或典型权重b a '',,此处X 、Y 是已经过标准化的变量。 记第一对典型相关变量间的典型相关系数为:),(111V U Corr CanR = 使1U 与1V 间最大相关;第二对典型相关变量间的典型相关系数为:),(222V U Corr CanR =使2U 与2V 间最大相关,且分别与11,V U 无关;……。第i 对典型相关变量间的典型相关系数为:),(i i i V U Corr CanR =,使i U 与i V 间最大相关,且分别与 ,,,,2211V U V U 无关;且 0121≥≥≥≥≥i CanR CanR CanR 。 二、典型相关分析的基本理论和方法 设有两组随机变量:()()' ='=q p Y Y Y Y X X X X ,,,,,,,2121 ,X 、Y 的协方差矩阵为:? ?? ? ??∑∑∑∑=∑22211211。设q p <,11∑是第一组变量的协方差阵,22∑是第二组变量的协方差

典型相关分析

相关分析的类型 典型相关分析:用于探究一组解释变量与一组反应变量时间的关系。 典型相关分析函数:cancor(x,y,xcenter=T,ycenter=T) x为第一组变量数据矩阵 y为第二组变量数据矩阵 xcenter表示第一组变量是否中心化 ycenter表示第二组变量是否中心化 自编典型相关函数:cancor.test(x,y,plot=T) x为第一组变量数据矩阵 y为第二组变量数据矩阵 plot为是否绘制典型相关图 例1:d11.1 生理指标与训练指标之间的典型相关性。 生理指标:体重(x1)、腰围(x2)、脉搏(x3); 训练指标:引体向上次数(y1)、起坐次数(y2)、跳跃次数(y3)。> X<-read.table("clipboard",header=T) > R<-cor(X)

> R x1 x2 x3 y1 y2 y3 x1 1.0000 0.8702 -0.36576 -0.3897 -0.4931 -0.22630 x2 0.8702 1.0000 -0.35289 -0.5522 -0.6456 -0.19150 x3 -0.3658 -0.3529 1.00000 0.1506 0.2250 0.03493 y1 -0.3897 -0.5522 0.15065 1.0000 0.6957 0.49576 y2 -0.4931 -0.6456 0.22504 0.6957 1.0000 0.66921 y3 -0.2263 -0.1915 0.03493 0.4958 0.6692 1.00000 > R11<-R[1:3,1:3];R12<-R[1:3,4:6];R21<-R[4:6,1:3];R22<-R [4:6,4:6] > A<-solve(R11)%*%R12%*%solve(R22)%*%R21 #A=(R11)-1 R12 (R22)-1 R21 > ev<-eigen(A)$values #特征值 > sqrt(ev) #典型相关系数 [1] 0.79561 0.20056 0.07257 以上过程是一步一步计算的,接下来我们使用R自带的典型相关函数: > xy<-scale(X) #数据标准化 > ca<-cancor(xy[,1:3],xy[,4:6]) #典型相关分析 > ca$cor #典型相关系数 [1] 0.79561 0.20056 0.07257 > ca$xcoef #x的典则载荷 [,1] [,2] [,3] x1 -0.17789 -0.43230 0.04381 x2 0.36233 0.27086 -0.11609 x3 -0.01356 -0.05302 -0.24107 > ca$ycoef #y的典则载荷 [,1] [,2] [,3] y1 -0.08018 -0.08616 0.29746 y2 -0.24181 0.02833 -0.28374 y3 0.16436 0.24368 0.09608 典型变量的系数载荷并不唯一,只要是它的任意倍数即可,所以每个软件得出的结果并不一样,而是相差一个倍数。 R自带的典型分析函数cancor()并不包括对典则相关系数的假设检验,为了方便,使用自编典型相关检验函数cancor.test()。 > cancor.test(xy[,1:3],xy[,4:6],plot=T) $cor [1] 0.79561 0.20056 0.07257 $xcoef [,1] [,2] [,3]

典型相关性分析1

典型相关性分析 典型相关分析是借助主成分分析降维的思想,分别对两组变量提取主成分,且使得两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系。 代码如下: INCLUDE 'E:\SPSSInc\PASWStatistics18\Samples\English\Canonical correlation.sps'. cancorr set1=x1 x2 x3 /set2=y1 y2 y3. Run MATRIX procedure: Correlations for Set-1 x1 x2 x3 x1 1.0000 .8702 -.3658 x2 .8702 1.0000 -.3529 x3 -.3658 -.3529 1.0000 数据集1中变量x1-x3的相关关系,有相关系数知,x1与x2有较强的相关性。 Correlations for Set-2 y1 y2 y3 y1 1.0000 .6957 .4958 y2 .6957 1.0000 .6692 y3 .4958 .6692 1.0000

数据集2中变量y1-y3的相关关系,有相关系数知,y1与y2有较强的相关性。 Correlations Between Set-1 and Set-2 y1 y2 y3 x1 -.3897 -.4931 -.2263 x2 -.5522 -.6456 -.1915 x3 .1506 .2250 .0349 x1-x3与y1-y3的相关关系,x1,x2与y1-y3是负相关关系,说明体重和腰围较大对运动能力具有负影响。 Canonical Correlations 1 .796 2 .201 3 .073 表示三个典型相关系数 Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .350 16.255 9.000 .062 2 .955 .718 4.000 .949 3 .995 .082 1.000 .775 对三个典型相关系数的显著性检验,原假设是相关系数为0,在显著性水平为0.1上,第一个典型相关系数对应的Sig.为0.062<0.1,拒绝原假设,认为第一个典型相关系数不为0.第二和第三个典型相关系数对应的Sig.>0.1,认为二者均为0。 Standardized Canonical Coefficients for Set-1 1 2 3 x1 .775 -1.884 -.191 x2 -1.579 1.181 .506 x3 .059 -.231 1.051 数据集1标准化变量的典型相关变量函数表达式:U1=0.775x1*-1.579x2*+0.059x3* U2=-1.884x1*+1.181x2*-0.231x3*,U3=-0.191x1*+0.506x2*+1.051x3* Raw Canonical Coefficients for Set-1 1 2 3 x1 .031 -.076 -.008 x2 -.493 .369 .158 x3 .008 -.032 .146 数据集1原始变量的典型相关变量函数表达式:U1=0.031x1-0.493x2+0.008x3,U2...,U3… Standardized Canonical Coefficients for Set-2 1 2 3 y1 .349 -.376 -1.297

典型相关分析方法研究

典型相关分析方法研究 摘要:典型相关分析是研究两组变量(或两个随机向量)之间的相关关系的一种统计方法。与仅研究二个变量间线性关系的简单相关分析相比,典型相关分析能揭示出两组变量之间的内在联系,且两组变量的数目可以改变,这确定了它的重要性。随着计算机技术的发展,典型相关分析在各个行业试验研究中应用日渐广泛。本文主要介绍典型相关分析的基本原理与步骤并举例说明其应用。 关键词:典型相关分析;基本原理;步骤;应用 Abstract:Canonical correlation analysis is the study of two groups of variables (or two random vectors) a statistical method the relationship between the. Compared with only the simple correlation analysis of linear relationship between two variables and canonical correlation analysis can reveal the internal relations between two sets of variables, and the number of two groups of variables can change, this determines the importance of it. With the development of computer technology, the canonical correlation analysis system has been widely used in various industries in experimental study. This paper mainly introduces the basic principle and procedure of canonical correlation analysis and examples of its application. Key words:Canonical correlation analysis; basic principle; step; application 一、引言 典型相关分析(Canonical Correlation Analysis 简称CCA)是处理两个随机矢量之间相关性的统计方法,在多元统计分析中占有非常重要的地位。典型相关分析可有效反映两组统计数据之间的关系,有着重要的应用背景[1]。 在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响,就需要考察有关财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济发展的一系列指标如国内生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。 二、典型相关分析的国内外研究现状 典型相关分析及其改进算法已成功的应用到计算机视觉、模式识别、电子通信、生物医学、文本和图像检索和社会统计学等众多学科或领域。很多学者都在从事这方面的研究,并取得了良好的效果。孙权森[2]等将典型相关分析应用到特征融合中,利用典型相关分析达到了信息冗余的目的。陈拓[3]等利用典型相关分

相关文档
最新文档