多元统计分析--典型相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
22 1 0
2
是 2 ,相应的特征向 量为 1
1 1 2111 12 1 2 1 0 22
1 M 1 11 12 1 21 22 1 M 2 1 2111 12 22
令
则
M 1 2 M 2 2
t
n( X ) 2 ˆ 显然, t 2 n( X )( 2 ) 1 ( X ), 2 ˆ X ~ N (0,
2
n
),
t 2 ~ F (1, n 1)
7
在一元统计中,若统计量t~t(n)分布,
则
t2~F(1,n)分布,即把t分布的统计量转
化为F统计量来处理,在多元统计分析中T2 统计量也具有类似的性质。
2 2 2
1 2 ~ 2 ( n1 n2 ) 。
2 2 2
在多元统计中,2分布发展为Wishart分布 。 Wishart分布是Wishart为研究样本离差阵S的分布 于1928年推导出来的.
3
定义
若X(a)= (Xa1,Xa2,…,Xap)' ~Np(μa,Σ) ,
可以得到r组变量。
U (u1 ,, ur ) V (v1 ,, vr )
从而达到降维的目的。
二、典型相关的数学描述
(一)想法 考虑两组变量的向量
Z ( x1 , x2 ,, x p , y1 , y2 ,, yq )
其协方差阵为
Σ11 Σ Σ 21 p Σ12 p Σ 22 q q
多元统计中常用的分布
统计分析的目的,概括来讲是要了解总体 分布的特性。统计分析的出发点或依据就是样 本,而样本函数又称统计量即为总体分布的估 计量。 统计量的分布称为抽样分布。 在一元统计中,常用的分布有χ2分布、t分 布和F分布。在多元统计中,它们分别发展 Wishart分布、T2分布和Wilks分布。
引理:AB和BA有相同的非零特征根.A’和A有相同的非零
(二)典型相关系数和典型变量的求法
在约束条件 Var (u1 ) 1111 1 Var (v1 ) 122 1 1
下,求1和1,使uv达到最大。
根据数学分析中条件极值的求法,引入Lagrange乘数, 求极值问题,则可以转化为求
(1, 1 ) 112 1 (1111 1) ( 1 22 1 1) 2 2
定义Wilks分布.
定义 若A1~ Wp(n1, Σ),A2~ Wp(n2, Σ),Σ>0,
nlp, A1和A2且相互独立,则称随机变量
=|A1|/|A1+A2|所服从的分布是维数为p、第一自由
度为n1、第二自由度为n2的Wilks 分布,记为~
(p, n1, n2) .显然, 分布为两个广义方差之比。
Var (u1 ) 1Var ( X )1 11 1
Var (v1 ) 1Var (Y ) 1 1 22 1 1
u1 ,v1 Cov(u1 , v1 ) 1Cov( X , Y ) 1 112 1
所以,典型相关分析就是求1和1,使二者的相关系数 达到最大。
例
家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间的关系。
调查了70个家庭的下面两组变量:
y1:户主的年龄 y2:家庭的年收入 y :户主受教育程度 3
x1:每年去餐馆就餐的频率 x2:每年外出看电影频率
分析两组变量之间的关系。
变量间的相关系数矩阵
X1 X1 X2 y1 y2 y3 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 y1 0.26 0.33 1.00 0.37 0.21 y2 0.67 0.59 0.37 1.00 0.35 y3 0.34 0.34 0.21 0.35 1.00
1 2 k p
(3) 若 X ~ W p ( n, ), C 为非奇异阵,则
p p p p
i 1
CXC ~ W p ( n, cc ) 。
6
1. t分布与HotellingT2分布
在一元统计中,设X~N(μ,Σ),X1,X2,…,Xn来自X的 一组样本,则统计量
n( X ) 1 n 2 ˆ ~ t ( n 1)分布,其中 ( X i X )2 ˆ n 1 i 1
(1)
的极大值,其中和是 Lagrange乘数。
0 12 1 11 1 1 211 22 1 0 1
12 1 111 0 211 22 1 0
1
2分布与Wishart分布 在一元统计中,设总体X~N(0,1), X1,X2 ,…,
Xn 为来自总体X的样本,则
2= X12+X22 +…+ Xn2,
称2服从自由度为n的2分布,记作2~ 2(n).
2
2 分布的性质
(1)E(2)=n, D(2)=2n;
( 2) 若 1 ~ ( n1 ), 2 ~ 2 ( n2 ), 且相 互独立 ,则
在解决实际问题中,这种方法有广泛的应用。如,
在工厂里常常要研究产品的q个质量指标 ( x1 , x2 ,, x p ) P个原材料的指标 ( y1 , y2 ,, yq ) 之间的相关关系;也可 以是采用典型相关分析来解决的问题。如果能够采用 类似于主成分的思想,分别找出两组变量的线性组合 既可以使变量个数简化,又可以达到分析相关性的目 的。
8
定义 若X~Np(μ,Σ) , S~ Wp(n, Σ),np, Σ >0,
X与S相互独立,则称统计量
T2=nX'S-1X 的分布为非中心HotellingT2分布, 记为 记为 T2 ~ T2(p,n,μ); T2 ~ T2(p,n)。 当μ=0时,称为中心HotellingT2分布,
S服从Wishart 分布
4
当μa=0时,称为p维中心化Wishart分布,
记为W~Wp(n, Σ),其中n≥p,Σ>0。
显然当p=1, Σ=σ2时,有
W1(n,σ2)= σ2 2(n) 。
注意到Wishiart分布与2(n) 分布的关系。
5
中心化Wishart分布的三条重要性质
(1)若X(a) ~Np(μa,Σ) , a=1,2,…,n,且相互独立,
典型相关分析的思想:
首先分别在每组变量中找出第一对线性组合,使其具 有最大相关性,然后再在每组变量中找出第二对线性组合, 使其分别与本组内的第一线性组合不相关,第二对本身具 有次大的相关性。如此下去,直至两组变量的相关性被提 取完为止。
u1 a11 x1 a21 x2 a p1 x p
W X ( a ) X (a )
p p a 1 n
a=1,2,…,n 且相互独立。由X(a)组成的随机矩阵:
的分布称为非中心Wishart分布,记为
W~Wp(n,Σ,Z), n Z a a 其中 a 1
非中心参数 a a1,a 2, ,an) (
11
定义 若X~Np(μ , Σ) ,则称协差阵的行列 式|Σ|为X的广义方差。称|S/n|为样本广义方 差。其中
1 n X X (a ) , n a 1 S ( X ( a ) X )( X ( a ) X )
a 1 n
12
有了广义方差定义,我们就可以仿照F分布来
( x1 , x2 ,, x p ) ( y1 , y2 ,, yq )
的相关关系,可以用最原始的方法,分别计 算两组变量之间的全部相关系数,一共有pq 个简单相关系数,这样又烦琐又不能抓住问 题的本质。如果能够采用类似于主成分的思 想,分别找出两组变量的各自的某个线性组 合,讨论线性组合之间的相关关系,则更简 捷。
其中11是第一组变量的协方差矩阵;22是第二组变量的协方差
矩阵;12 和21是X和Y的其协方差矩阵。
如果我们记两组变量的第一对线性组合为:
u1 1 X
v1 1Y
其中: 1 ( a11 , aቤተ መጻሕፍቲ ባይዱ1 ,, a p1 )
1 ( 11 , 21 ,, q1 )
将 12 1 左乘(3)的第二式,得 22
12 1 211 12 1 22 1 0 22 22 12 1 211 12 1 0 22
1 11 12 1 21 的特征根 22
并将第一式代入,得
12 1 211 2111 0 22
在实际应用中,常把特殊的统计量化为
T2再化为F统计量,多为近似计算。
13
一元统计的分布与多元统计分布关系
Wishart分布(多元)
N ( , 2 )
分布
N(0,1)分布
( n)
2
Hotelling T 2
分布(多元)
T(n)分布
F分布
Wilks 分布(多元)
14
典型相关分析
15
一、什么是典型相关分析及基本思想 通常情况下,为了研究两组变量
9
中心HotellingT2分布可化为中心F分布, 其关系为
n p1 2 T ( p, n) F ( p, n p 1) pn
T2分布首先由Hotelling从一元统计推广而 来,故称Hotelling T2分布,简称T2分布.
显然,当p=1时,有T2(1,n)=F(1,n).
10
则样本离差阵
S
(X
a 1
n
(a )
X )( X ( a ) X ) ~ W p ( n 1, )
其中
1 n X X (a ) 。 n a 1
(2)若Si~Wp(ni, Σ), i=1,2,…,k ,且相互独立,则 k nΣ) S=S +S +…+ S ~W ( ,i
( 2)
(3)
将上面的3式分别左乘1 和 1
112 1 1111 0 1 211 1 22 1 0
112 1 1111 1 211 1 22 1
则: 112 1,且是u1和v1之间的相关系数
u1 a11 x1 a21 x2 V1 b11 y1 b21 y2 b31 y3
(u1 , v1 ) ?
x1
y1
u2 a12 x1 a22 x2 v2 b12 y1 b22 y2 b32 y3
y2
y3
x2
(u2 , v2 ) ?
Wilks分布
在一元统计中,设X~2(m),Y~2(n),且X与Y
X /m 相互独立,则随机变量 F , Y /n
则称为服从第一自由度为m,第二自由度为n的F分 布,记作 F~F(m ,n).
在多元统计中,总体Np(μ, Σ)的变异度由协方
阵Σ确定,它不是一个数字,这就产生了如何用与Σ 有关的一个数字来描述总体Np(μ, Σ)的变异度问题, 只有解决了这个问题,才能将F分布推广到多元情 形.
v1 b11 y1 b21 y2 bq1 yq
u2 a12 x1 a22 x2 a p 2 x p
v2 b12 y1 b22 y2 bq 2 yq
u2和v2与u1和v1相互独立,但u2和v2相关。
如此继续下去,直至进行到r步,rmin(p,q),
1 11 12 1 211 21 0 22
是 2 ,相应的特征向 量为 1
1 12 11 左乘(3)的第一式,并将第二式代入,得 将
1 2111 211 121 0 1 2111 12 1
1 11211 21 的特征根 22