应用多元统计分析-第九章 典型相关分析

合集下载

多元统计典型相关分析

多元统计典型相关分析

0.005268
0.473272
2 0.186865 0.186638
0.009651
0.034919
X1(就餐) X2(电影)
Y1(年龄) Y2(收入) Y3(文化)
X组典型变量的系数
U1
U2
0.7689
-1.4787
0.2721
1.6443
Y组典型变量的系数
V1
V2
0.0491
1.0003
0.8975
在约束条件:
Var(u) aΣ11a 1 Var(v) bΣ22b 1
下,求a1和b1,使uv达到最大源自令根据数学分析中条件极值的求法,引入Lagrange乘数,求极 值问题,则可以转化为求
(a1
,
b1
)
a112b1
2
(a111a11)
2
(b122b1
1)
(1)
的极大值,其中和是 Lagrange乘数。
干有代表性的综合变量Ui、Vi,使得每一个综合变量是
原变量的线性组合,即
Ui
a X (i) (1) 11
a(i) 2
X
(1) 2
aP(i
)
X
(1) P
a( i ) X(1)
Vi
b(i) 1
X (2) 1
b(i) 2
X
(2) 2
b(i) q
X
(2) q
b(i)X(2)

a
b
典型相关分析的基本思想
Ui
36
第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的 指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013,可见典型变量 v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消 费与年龄和受教育程度之间的相关性。

《应用多元分析》第三版(第九章 对应分析)

《应用多元分析》第三版(第九章  对应分析)

p
i 1
pij
p j pi pi
是第j列轮廓cj到列轮廓中心r的卡方距离。故总惯量
可看成是行轮廓到其中心的卡方距离的加权平均,
也可看成是列轮廓到其中心的卡方距离的加权平均。
它既度量了行轮廓之间的总变差,也度量了列轮廓
之间的总变差。
总惯量为零的等价情形
❖ 总惯量为零与以下三种情形的任一种等价: (1) pij pi p j , i 1, 2, , p, j 1, 2, , q ,或表示 为 P rc; (2)所有的行轮廓相等,即 r1 r2 rp c; (3)所有的列轮廓相等,即c1 c2 cq r。
最后一列用r表示,即
r P1 p1, p2, , pp
其中1 1,1, ,1 是元素均为1的q维向量,最后一行
用 c表示,即
c 1P p1, p2, , pq
其中1 1,1, ,1是元素均为1的p维向量,向量r和c
的元素有时称为行和列密度(masses)。
三、行、列轮廓
❖ 第i行轮廓(profile) :
pp
列轮廓矩阵
p11 p1
p12 p2
C PDc1 c1,c2,
p21
, cq p1
p22 p2
pp1 pp2
p1
p2
其中 Dc diag p1, p2, , pq 。
p1q
pq
p2q
pq
ppq
pq
p1
r P1 PDc1 Dc1 c1,c2,
第九章 对应分析
❖ 对应分析(correspondence analysis)是用于寻求列联表的行 和列之间联系的一种低维图形表示法,它可以从直觉上揭示 出同一分类变量的各个类别之间的差异,以及不同分类变量 各个类别之间的对应关系。

典型相关分析

典型相关分析

一、典型相关分析的概念典型相关分析(canonical correlation analysis ) 就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。

它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1 (分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

二、条件:典型相关分析有助于综合地描述两组变量之间的典型的相关关系。

其条件是,两组变量都是连续变量,其资料都必须服从多元正态分布。

~*、相关计算如果我们记两组变量的第一对线性组合为U1 1X V1 1Y1(a11 1 1 a21 , , a p1 )1 (11 ,21 , ,q1 )Var (U1) 1Var (X ) 111 1Var (V1) 1Var (Y ) 1 1 22 1 1典型相关分析就是求和,使二者的相关系数达到最大。

1 1典型相关分析希望寻求 a 和b 使得p 达到最大,但是由于随 机变量乘以常数时不改变它们的相关系数, 为了防止不必要的结 果重复出现,最好的限制是令 Var(U) =1和Var (V ) = 11.实测变量标准化;2.求实测变量的相关阵R;XXl,…,X3.求A 和B;A1XXXY 1YYYX B1YY YX1XXXY4、求A 和B 的特征根及特征向量;A 关于 ,的特征向量(a i ,比,…,ap ),求B 关于i的特征向量(bi 1, b i2, •…bi P ) 5、计算Vi 和Wi ;V i b i1X 1 b i2X 21X Y Y Yrp1!qqb ip X p Wiai1Y 1ai2丫 2a iq Y qR「i6、Vi 和Wi 的第i 对典型相关系数应用典型相关分析的场合是:可以使用回归方法, 但有两个或两个以上的因变量;特别是因变量或准则 变量相互间有一定的相关性,无视它们之间相互依赖 的关系而分开处理,研究就毫无意义。

多元统计分析第9章典型相关分析

多元统计分析第9章典型相关分析

0
Σ12
Σ
1 22
Σ
21a
2Σ11a
0
(9.7)
同理,由方程组(9.4)式可得
Σ21Σ111Σ12b 2Σ22b 0
(9.8)
一、典型相关分析的基本思想

Σ1 11

Σ1 22

ΣΣ121211ΣΣ1221ΣΣ121211ΣΣ1221ab
2a 2b
X(2)
X (2) 11
X (2) 21
样本均值向量
X
(2) n1
X (2) 12
X (2) 22
X (2) n2
X (2) 1q
Σ
Σ 1
22
21
B
Σ221Σ
Σ Σ 1
21 11 12
其中 A 为 p×p 阶矩阵, B 为 q×q 阶矩阵。
一、典型相关分析的基本思想
因为 aΣ12b Corr(U ,V ) ,求 Corr(U,V ) 最大值也就
是求 的最大值,而求 的最大值又转化为求 A 和 B 的最
大特征根。
可以证明, A 和 B 的特征根和特征向量有如下性质: 1. A 和 B 具有相同的非零特征根,且所有特征根非负。 2. A 和 B 的特征根均在 0~1 之间。 3. 设 A 和 B 的 非 零 特 征 根 为 12 22 r2 ,
X
(2) 2
a (1) P
X
(1) P
b(1) q
X
(2) q
我们称其为第一对典型变量,最大特征根的平方根 1 即为两
典型变量的相关系数,我们称其为第一典型相关系数。
一、典型相关分析的基本思想
如果第一典型变量不足以代表两组原始变量的信息,则需要求

应用多元统计分析.ppt

应用多元统计分析.ppt

多元统计分析研究 的对象就是多 维随机向量.
第一章
§1.1


引言--多元分析的研究对象和内容
研究的内容既包括一元统计学中某 些方法的直接推广,也包括多个随机 变量特有的一些问题。
多元统计分析是一类范围很广 的理论和方法。
第一章
§1.1


引言--多元分析的研究对象和内容
就以学生成绩为例,我们可以研究很多 问题:用各科成绩的总和作为综合指标来 比较学生学习成绩的好坏(如成绩好的与成 绩差的,又如文科成绩好的与理科成绩好 的);研究各科成绩之间的关系(如物理 与数学成绩的关系,文科成绩与理科成绩 的关系);……等等。所有这些都属于多 元统计分析的研究内容。
课程其它事项

教学软件: R 课程主页: 课程评估:

作业 : 期中 : 期末 :
10% 40% 50%

答疑时间: 周二 9:30—11:30
第一章
§1.1

引 言

在实际问题中,很多随机现象涉及到 的变量不止一个,而经常是多个变量,而 且这些变量间又存在一定的联系。我们常 常需要处理多个变量的观测数据。例如考 察学生的学习情况时,就需了解学生在几 个主要科目的考试成绩。 下表给出从某年级随机抽取的12名学 生中5门主要课程期末考试成绩。
0 . 1025 X 0 . 2852 X 4 12 Z1是12个变量的线性组合,且系数都是正数, 数值有大有小。显然数值大的变量对综合指标 (主成分)的贡献大;数值小的变量对综合指 标(主成分)的贡献小。
教育学-主成分分析在学生学习成绩排序中的应用
12个原始变量(课程)提供的信息各为多少?用什 么量来表达?最经典的方法是用变量的方差Var(Xi)为 多少来表达。 如果某课程全班学生的成绩都差不多,比如都是80 分左右,则这门课程在学生成绩的排序中不起什么作 用。这反映在原始变量的线性组合Z1 (第一主成分) 上该变量对应的系数会很小(如0.1025). 如果另一门课程全班学生的成绩相差很大,有的 100分,有的只有30多分,则这门课程在学生成绩的 排序中起的作用很大。这反映在原始变量的线性组合 Z1 (第一主成分)上该变量对应的系数会很大(比如 0.4525).

《应用多元统计分析》第五版PPT(第九章)

《应用多元统计分析》第五版PPT(第九章)
λk>0是Z的k个奇异值。于是,12 22 k2 0是
ZZ′的正特征值。

pq
总惯量
i1 j1
2
pij pi p j pi p j
pq

zi2j
i1 j1
k
tr ZZ i2
i 1
25
§9.4 行、列轮廓的坐标

pij pi p j pi p j
这两部分。
pq

i1 j1
pij pi p j pi p j
越大,表明实际频率pij与独立假设下的期
望频率pi•p•j总体上差异越大,也就认为样本数据越是偏离行
、列变量相互独立的情形,从而越应拒绝独立性的原假设。
n越大,表明样本所含的信息越多,越易检测出对原假设的 偏离。
第九章 对应分析
§9.1 引言 §9.2 行轮廓和列轮廓 §9.3 独立性的检验和总惯量 §9.4 行、列轮廓的坐标 §9.5 对应分析图
1
§9.1 引言
对应分析是用于寻找列联表的行和列之间关联的一种低维图 形表示法,它同时可以揭示同一分类变量的各个类别之间的 差异。
对应分析是由法国人Benzecri于1970年提出的,起初在法国 和日本最为流行,然后引入到美国。
的(某种)中心。
类似地,
p
c 1P 1Dr Dr1P piri
i1
即c′是各行轮廓的加权平均,可看成是r1,r2,⋯,rp的 (某种)中心。
10
例9.2.1 将由n=1660个人组成的样本按心理健康状
况与父母社会经济地位进行交叉分类,分类结果见
21
总惯量为零的等价情形

第九章 典型相关分析 《应用多元统计分析》 ppt课件

第九章 典型相关分析 《应用多元统计分析》 ppt课件

aΣ12b ,
(9.14)
式(9.14)说明, 的值就是线性组合U 和V 之间的相关系数。因此,式(9.11)可写成
Σ11a Σ12b 0 ,
(9.15)
Σ21a Σ22b 0 ,
(9.16)
为求解方程,先以
Σ12
Σ1 22
左乘以式(9.16),并将式(9.15)代入式(9.16),得
来度量。当 p 1, q 1 时,对两组变量两两求相关系数,就得到了 ( p q) ( p q)阶相
关阵。在变量数较多的时候,直接通过相关阵研究两组变量之间的相关关系不仅繁琐,同时 也不容易抓住问题的本质。回归分析中的复相关系数给了我们提示,复相关系数可以描述一 个变量与一组变量线性组合之间的相关性。那么是否能够更进一步从每一组变量中构造少数 综合变量,用少数综合变量的相关关系来反映两组变量之间的相关关系呢?
为典型变量,这些变量对之间的相关系数称为典型相关系数。
6
一、总体典型变量与典型相关系数
由典型相关分析原理,典型相关分析希望寻求 a 和 b 使得 UV 达到最大,但是由于随机
变量乘以常数时不改变它们的相关系数,为了防止不必要的结果重复出现,最好的限制是令
D(U ) 1和 D(V ) 1。于是,我们的问题就转化为,在
这里,我们不加证明地直接给出典型变量所具有的性质:
性质 9.1:由 X1, X2, , X p 所组成的典型相关变量U1,U2, ,U p 互不相关;同样地, 由 Y1,Y2, ,Yq 所组成的典型相关变量V1,V2, ,Vp 也互不相关,并且它们的方差均等于 1。
用数学表达式为:
D(Uk ) D(Vk ) 1,
一、典型相关分析的基本思想
假设一组随机变量为 X1, X2, , X p ,另一组随机变量为Y1,Y2, ,Yq ,我们要研究两组

典型相关分析

典型相关分析

引言在一元统计分析中,用相关系数来衡量两个随机变量之间的线性相关关系;用复相关系数研究一个随机变量和多个随机变量的线性相关关系。

然而,这些统计方法在研究两组变量之间的相关关系时却无能为力。

比如要研究生理指标与训练指标的关系,居民生活环境与健康状况的关系,人口统计变量与消费变量(之间是否具有相关关系。

阅读能力变量(阅读速度、阅读才能)与数学运算能力变量(数学运算速度、数学运算才能)是否相关。

典型相关分析(Canonical Correlation )是研究两组变量之间相关关系的一种多元统计方法。

它能够揭示出两组变量之间的内在联系。

1936年霍特林(Hotelling )最早就“大学表现”和“入学前成绩”的关系、政府政策变量与经济目标变量的关系等问题进行了研究,提出了典型相关分析技术。

之后,Cooley 和Hohnes (1971),Tatsuoka (1971)及Mardia ,Kent 和Bibby (1979)等人对典型相关分析的应用进行了讨论,Kshirsagar (1972)则从理论上给出了最好的分析。

典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。

目前,典型相关分析已被应用于心理学、市场营销等领域。

如用于研究个人性格与职业兴趣的关系,市场促销活动与消费者响应之间的关系等问题的分析研究。

第一章、典型相关的基本理论 1.1 典型相关分析的基本概念典型相关分析由Hotelling 提出,其基本思想和主成分分析非常相似。

首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。

然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提取完毕为此。

被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。

典型相关系数度量了这两组变量之间联系的强度。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 例如:业内人士和观众对于一些电视节目的观点 有什么样的关系呢?数据tv.sav是不同的人群对 30个电视节目所作的平均评分。 • 观众评分来自低学历(led)、高学历(hed)和网络 (net)调查三种,它们形成第一组变量; • 而业内人士分评分来自包括演员和导演在内的艺 术家(arti)、发行(com)与业内各部门主管(man) 三种,形成第二组变量。人们对这样两组变量之 间的关系感到兴趣。
假设p q,令 cov(X (1),X (1) )= 11 , (X (2),X (2))= 22 cov cov X (1),X (2))= 12 '21 (
典型相关分析原理及方法
(1) X1 X (1) X (1) p X ( p q )1 ( 2) ( 2) X X1 ( 2) X q 11 12 cov(X, X) 21 22
典型相关系数的检验
• 整体检验:
H 0 : cr1 cr2 crd 0
典型相关系数的检验
• 维度递减检验:仍然是一种多元检验, 但可以提供每对典型变量的典型相关是 否显著的信息。
Dimension Reduction Analysis
Roots 1 to 3 2 to 3 3 to 3
低 学 历 高 学 历 第一组 变量: 观众
艺 术 家
典型相关
第二组 变量: 业内 人士
发 行 人
网 络
主 管
如何进行典型相关
• 如果直接对这六个变量的相关进行两两 分析,很难得到关于这两组变量之间关 系的一个清楚的印象。 • 希望能够把多个变量与多个变量之间的 相关化为两个变量之间的相关。 • 现在的问题是为每一组变量选取一个综 合变量作为代表; • 而一组变量最简单的综合形式就是该组 变量的线性组合。
典型相关模型的基本假设和数据要求
• 所有观测变量为定量数据。同时也可将 定性数据按照一定形式设为虚拟变量后, 再放入典型相关模型中进行分析。 • 检验假设:
H 0 : cr1 cr2 crd 0
典型相关分析说明
• 下面就tv.sav数据进行典型相关分析 的说明
•头两对典型变量(V, W)的累积特征根已经占了总 量的99.427%。它们的典型相关系数也都在0.95 之上。
相关分析的冗余分析
• 通过不同观察变量组的代表比例和解释 比例相乘,可以得到因变量组总方差与 协变量组总方差的共享比例。即: • 因变量组的Var DE×协变量组的Var DE • 或:因变量组的Var CO×协变量组的 Var CO 两个变量组的共享方差
相关分析的冗余分析
• • • • • • 第一典型相关的共享方差为: 0.41078×0.72349=0.29720=29.720% 第二典型相关的共享方差为: 0.43353×0.24575=0.10354=10.654% 第三典型相关的共享方差为: 0.04384×0.03076=0.00135=0.135%
CAN. VAR 1 2 3
Pct Var DE 71.691 22.310 1.249
Cum Pct DE 71.691 94.001 95.251
Pct Var CO 72.349 24.575 3.076
Cum Pct CO 72.349 96.924 100.00
相关分析的冗余分析
• 解释比例=代表比例×典型相关系数的平方 • 对于因变量则有: Var CO=Var DE×Sq.Cor 41.078=41.455×0.991 • 所以典型相关系数高时,并不说明典型变 量对观测组变量的解释程度高,代表程度 高。
典型系数
• 可以看出,头一个典型变量V1相应 于前面第一个(也是最重要的)特 征值,主要代表高学历变量hed; • 而相应于前面第二个(次要的)特 征值的第二个典型变量V2主要代表 低学历变量led和部分的网民变量 net,但高学历变量在这里起负面作 用。
典型系数
• 类似地,也可以得到被称为协变量(covariate) 的标准化的第二组变量的相应于头三个特征值 得三个典型变量W1、W2和W2的系数:
建立第二对典型变量(函数)的原则
• 继续在两组变量剩余的变化中寻找第二 个最大的共变部分,形成第二对典型变 量,并解出第二维度上的典型相关系数。 • 依此类推,直至所有变化部分被剥离完 毕。
典型相关分析原理及方法
• 设有两组随机向量,
X 代表第一组的p个变量,
(1)
X 代表第二组的q个变量,
(2)
典 型 相 关 分 析
第九章
典型相关分析
两组变量的相关问题
• 我们知道如何衡量两个变量之间是 否相关的问题;这是一个简单的公 式就可以解决的问题(Pearson相关 系数、 Kendall’s t、 Spearman 秩相关系数)。 • 如果我们有两组变量,如何表明它 们之间的关系呢?
例9.1(数据tv.sav)
典型相关分析原理及方法
• 显见:
D(U) D(a X (1) ) a cov( X (1) , X (1) )a a 11 a X (2) ) b cov( X (2) , X (2) )b b 22 b D(V ) D(b cov(U , V ) a cov( X (1) , X (2) )b a 12 b a 12 b cov(U , V ) corr (U , V ) D(U ) D(V ) a 11 a b 22 b
典型负载(相关)系数
• 也称为因变量或协变量与典型变量之间 的两两相关系数。
例子结论
• 从这两个表中可以看出,V1主要和变量hed相关,而 V2主要和led及net相关;W1主要和变量arti及man相 关,而W2主要和com相关;这和它们的典型系数是一 致的。 • 由于V1 和W1 最相关,这说明V1 所代表的高学历观众 和W1所主要代表的艺术家(arti)及各部门经理(man) 观点相关;而由于V2 和W2 也相关,这说明V2 所代表 的低学历(led)及以年轻人为主的网民(net)观众和 W2所主要代表的看重经济效益的发行人(com)观点相 关,但远远不如V1 和W1 的相关那么显著(根据特征 值的贡献率)。
x1
y1
X x2 cr1 V1 V2 | Vd cr2 crd
Y W1 W2 | Wd y2
xi (V1=a0+a1x1+…+aixi)
d=min(i, j)
yj (W1=b0+b1y1+…+bjyj)
建立第一对典型变量(函数)的原则
• 尽量使所建的两个典型变量之间的相关 系数最大化,就是在两个变量组各自的 总变化中先寻求他们之间最大的一部分 共变关系,并用一对典型变量所描述。 • 因而,第一维度上的典型相关系数也随 之求的。
典型相关分析原理及方法
• 根据典型相关分析的基本思想,要进行 两组随机向量间的相关分析,首先要计 算出各组变量的线性组合——典型变量, 并使其相关系数达到最大。因此,我们 设两组变量的线性组合分别为:
U aX
(1)
a1X a p X
(1) 1
(1) p
(2) X(1) b1X1 bq X(2) Vb q
Cum Pct DE 41.455 89.208 100.00
Pct Var CO 41.078 43.353 4.384
Cum Pct CO 41.078 84.431 88.814
相关分析的冗余分析
• 其中:DE——因变量组 CO——协变量组
Variance in covariates variables explained by canonical variables
注意
• 严格地说,一个典型相关系数描述的只 是一对典型变量之间的相关,而不是两 个变量组之间的相关。 • 而各对典型变量之间构成的多维典型相 关才共同揭示了两个观测变量组之间的 相关形式。
典型相关模型的基本假设和数据要求
• 要求两组变量之间为线性关系,即每对 典型变量之间为线性关系; • 每个典型变量与本组所有观测变量的关 系也是线性关系。如果不是线性关系, 可先线性化:如经济水平和收入水平与 其他一些社会发展水之间并不是线性关 系,可先取对数。 • 即log经济水平,log收入水平。
典型相关系数的平方
• 与简单相关系数一样,典型相关系数的实际意 义并不十分明确。 • 所以,由经验的研究人员往往更愿意采用典型 相关系数的平方(相当于回归分析中的确定系 数)。 • 由于相关涉及的两个典型变量都是标准化的, 所以双方的方差都等于1 。典型相关系数的平 方的实际意义是一对典型变量之间的共享方差 在两个典型变量各自方差中的比例。
典型系数
• 这些系数以两种方式给出;一种是没有 标准化的原始变量的线性组合的典型系 数(raw canonical coefficient),一种 是标准化之后的典型系数(standardized canonical coefficient) 。 标 准 化 的 典 型系数直观上对典型变量的构成给人以 更加清楚的印象。
Wilks L. F Hypoth 0.00050 141.58046 0.05471 40.94049 0.59382 17.78432
DF 9.00 4.00 1.00
Error DF Sig. of F
58.56 50.00 26.00
0.000 0.000 0.000
典型系数
• 下面表格给出的是第一组变量相应于上 面三个特征根的三个典型变量V1、V2和V3 的 系 数 , 即 典 型 系 数 (canonical coefficient)。 • 注 意 , SPSS 把 第 一 组 变 量 称 为 因 变 量 (dependent variables),而把第二组称为 协变量(covariates);显然,这两组变量 是完全对称的。这种命名仅仅是为了叙 述方便。
相关文档
最新文档