[数学]应用多元分析第7章主成分分析
《应用多元分析》第三版(第七章 主成分分析)

其中T t1 , t 2 ,
, t p tik 是正交矩阵。
x Ty
y1 t11
y t
2 12
y p t1 p
t2 p
t p1 x1
t p 2 x2
达到最大。第i主成分为
yi t1i x1 t2i x2
t pi x p tix , i 1, 2,
,p
主成分的几何意义
❖
在几何上,ti表明了第i主成分的方向,yi是x在ti上的
投影值(其绝对值即为投影长度),λi是这些值的
方差,它反映了在ti上投影点的分散程度。
x投影到ti上的值
y1
y2
⋯
yp
x1
t11
t12
⋯
t1p
x2
t21
t22
⋯
t2p
⋮
⋮
⋮
xp
tp1
tp 2
⋮
⋯
tpp
正交变换 y T x 的几何意义
❖
正交变换 y T x 的几何意义是将Rp中由x1,x2, ⋯,xp构
成的原p维坐标轴作一正交旋转,一组正交单位向量
t1,t2, ⋯,tp表明了p个新坐标轴的方向,这些新坐标轴
第七章 主成分分析
❖ §7.1
引言
❖ §7.2 总体的主成分
❖ §7.3 样本的主成分
§7.1 引言
主成分分析(或称主分量分析,principal component
analysis)由皮尔逊(Pearson,1901)首先引入,后
来被霍特林(Hotelling,1933)发展了。
(完整word版)应用多元统计分析习题解答主成分分析

主成分分析6.1 试述主成分分析的基本思想。
答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取止。
这就是主成分分析的基本思想。
6.2 主成分分析的作用体现在何处?答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”6.3 简述主成分分析中累积贡献率的具体含义。
答:主成分分析把p 个原始变量12,,,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。
这里我们()m p <个主成分,则称11pmm kkk k ψλλ===∑∑ 为主成分1,,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,,,p X X X 的能力。
通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。
答:这个说法是正确的。
即原变量方差之和等于新的变量的方差之和6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵出发的,其结果受变量单位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我6.6 已知X =()’的协差阵为 试进行主成分分析。
解:=0计算得当时,同理,计算得时,易知相互正交单位化向量得,,综上所述,第一主成分为第二主成分为第三主成分为6.7 设X=()’的协方差阵(p为, 0<p<1证明:为最大特征根,其对应的主成分为。
证明:==,为最大特征根当时,=所以,6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。
应用多元统计分析课后习题答案高惠璇第七章习题解答

7-4 设总体X=(X1,…,Xp)′~Np(μ,Σ) (Σ>0),等概率密度
椭球为
(X-μ)′Σ-1(X-μ)=C2(C为常数).
试问椭球的主轴方成分分析
7-5 设3维总体X的协差阵为
试求总体主成分.
4 0 0
0 4 0
0 0 2
解:总体主成分为
Zi Xi(i1,2,3)
1
1
(2) 求X
(3) 试问当ρ取多大时才能使第一主成分的贡献率达95%以上.
解:
5
第七章 主成分分析
6
第七章 主成分分析
7-3 设p维总体X的协差阵为
21
1
1
(01).
(1)
Z1 1p(X1X2Xp);
(2) 试求第一主成分的贡献率.
7
第七章 主成分分析
解:
1
8
第七章 主成分分析
2
12
13 14
12 2
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
第七章 主成分分析
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
10
第七章 主成分分析
7-6
设3维总体X的协差阵为
2 2
2 2
多元统计分析第七章主成分分析习题答案

7.1 设随机变量12X(X ,X )'=的协差阵为21,12⎡⎤∑=⎢⎥⎣⎦试求X的特征根和特征向量,并写出主成分。
解:先求X的特征根λ,λ满足方程:21012-λ=-λ,即2(2)10-λ-=,因此两个特征根分别为123, 1.λ=λ=设13λ=对应的单位特征向量为()1121a ,a ',则()1121a ,a '满足:1121a 110a 110-⎛⎫⎡⎤⎛⎫= ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取1121a a ⎛⎛⎫ = ⎪ ⎝⎭ ⎝,其对应主成分为:112F X X 22=+;设21λ=对应的单位特征向量为()1222a ,a ',则()1222a ,a '满足:1222a 110a 110⎛⎫⎡⎤⎛⎫=⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取1222a a ⎛⎫⎛⎫ ⎪= ⎪ ⎝⎭- ⎝,其对应的主成分为:212F 22=-.7.2设随机变量123X (X ,X ,X )'=的协差阵为120250,002-⎡⎤⎢⎥∑=-⎢⎥⎢⎥⎣⎦试求X的主成分及主成分对变量X的贡献率。
解:先求X的特征根λ,λ满足方程:12025002-λ---λ=-λ,即()2(2)610-λλ-λ+=,因此三个特征根分别为1235.8284,2,0.1716λ=λ=λ=设1 5.8284λ=对应的单位特征向量为()112131a ,a ,a ',则它满足:1121314.828420a 020.82840a 000 3.8284a 0--⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥--=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥-⎣⎦⎝⎭⎝⎭,故可以取 112131a 10.38271a 2.41420.92392.6131a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪=-=- ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 112F 0.3827X 0.9239X =-,其贡献率为5.828472.86%5.828420.1716=++;设22λ=对应的单位特征向量为()122232a,a ,a ',则它满足:122232120a 0230a 0000a 0--⎡⎤⎛⎫⎛⎫ ⎪ ⎪⎢⎥-= ⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取122232a 0a 0a 1⎛⎫⎛⎫⎪ ⎪= ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭,其对应主成分为: 23F X =,其贡献率为225%5.828420.1716=++;设30.1716λ=对应的单位特征向量为()132333a ,a ,a ',则它满足:1323330.828420a 02 4.82840a 000 1.8284a 0-⎡⎤⎛⎫⎛⎫⎪ ⎪⎢⎥-=⎪ ⎪⎢⎥ ⎪ ⎪⎢⎥⎣⎦⎝⎭⎝⎭,故可以取132333a 10.92391a 0.41420.38271.0824a 00⎛⎫⎛⎫⎛⎫⎪ ⎪ ⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭,其对应主成分为: 312F 0.9239X 0.3827X =+,其贡献率为0.17162.14%5.828420.1716=++.7.3 设随机变量12X (X ,X )'=的协差阵为14,4100⎡⎤∑=⎢⎥⎣⎦试从∑和相关阵R出发求出总体主成分,并加以比较。
应用多元统计分析课后习题答案详解北大高惠璇 习题解答

第七章 主成分分析
7-10
18
第七章 主成分分析
77--1112
19
主成分向量为
Z ( X 1 ,X 2 ,X 3 ) 或 Z ( X 2 ,X 1 ,X 3 )
三个主成分的方差分别为4,4,2.
10
第七章 主成分分析
7-6
设3维总体X的协差阵为
2 2
2 2
0
2
0 2 2
试求总体主成分,并计算每个主成分解释的方差比例
解:
11
第七章 主成分分析
7-7 设4维随机向量X的协差阵是
2
12
பைடு நூலகம்
13 14
12 2
14 13
13 14 2
12
14
13
12 2
,
其中 1 21 31,421 4 21.3
试求X的主成分.
12
第七章 主成分分析
解:
13
第七章 主成分分析
7-8
14
第七章 主成分分析
15
第七章 主成分分析
7-9
16
第七章 主成分分析
应用多元统计分析
第七章习题解答
第七章 主成分分析
7-1 设X=(X1, X2)′的协方差阵 试从Σ和相关阵R出发求出总体主成分,
14
1040,
并加以比较.
解:
2
第七章 主成分分析
3
第七章 主成分分析
4
第七章 主成分分析
7-2 设X=(X1, X2)′~N2(0,Σ),协方差Σ=
其中ρ为X1和X2的相关系数(ρ>0). (1) 试从Σ出发求X
1
1
最新应用多元统计分析课后习题答案高惠璇PPT课件

(2) 考虑随机变量Y= X1-X2 ,显然有
YX 1X2 0 X 1X 1,当 估计
P{Y0}P{X11或 X11} P{X11}P{X11} (X1~N(0,1)) 2(1)0.317 04
若(X1 , X2 ) 是二元正态分布,则由性质4可知,
31
第三章 多元正态总体参数的检验
证明 记rk(A)=r.
若r=n,由AB=O,知B= On×n,于是 X′AX与X′BX
若r=0时,则A=0,则两个二次型也是独 立的.
以下设0<r<n.因A为n阶对称阵,存在正 交阵Γ,使得
32
第三章 多元正态总体参数的检验
其中λi≠0为A的特征值(i=1,…,r).于是
P { X 2 x } P { X 1 x } ( x )
当x≥1时, P{X2x}
P{X2 1}P{1X2 1}P{1X2 x}
P{X11}P{1X11}P{1X1x}
P{X1x}(x) 17
第二章 多元正态分布及参数的估计
当-1≤x≤1时,
P{X2 x}P{X2 1}P{1X2 x} P{X1 1}P{xX1 1} P{X1 1}P{1X1 x} P{X1 x}(x)
它的任意线性组合必为一元正态. 但Y= X1-X2 不是正态分布,故(X1 , X2 ) 不是二元正态分布.
19
第二章 多元正态分布及参数的估计
2-17 设X~Np(μ,Σ),Σ>0,X的密度函数记为 f(x;μ,Σ).(1)任给a>0,试证明概率密度等高面
f(x;μ,Σ)= a
是一个椭球面. (2) 当p=2且
比较上下式相应的系数,可得:
1
2 2
2
1 2
应用多元统计分析习题解答_因子分析

第七章 因子分析7.1 试述因子分析与主成分分析的联系与区别。
答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。
②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。
因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。
因子分析也可以说成是主成分分析的逆问题。
如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。
而因子分析是从显在变量去提炼潜在因子的过程。
此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
7.2 因子分析主要可应用于哪些方面?答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。
具体来说,①因子分析可以用于分类。
如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。
即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。
对我们进一步研究与探讨指示方向。
在社会调查分析中十分常用。
③因子分析的另一个作用是用于时空分解。
如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。
7.3 简述因子模型中载荷矩阵A 的统计意义。
答:对于因子模型1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p =因子载荷阵为11121212221212(,,,)m m m p p pm a a a a a a A A A a a a ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦Ai X 与j F 的协方差为:1Cov(,)Cov(,)mi j ik k i j k X F a F F ε==+∑=1Cov(,)Cov(,)mikk j i j k aF F F ε=+∑=ij a若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了变量iX对公共因子jF的相对重要性。
多元统计的应用 主成分分析

(5)
(6) (7)
(8) T1 ΣT1 由于 X 的协差阵 Σ 为非负定的,其特征方程(7)的根均大于零, 不 妨设 1 2
p 0 。那么,协差阵 Σ 的最大特征值为 1 ,
其相应的单位化特征向量为 T1 。
在求第二主成分之前,首先明确: 由(6)知 Cov(Y2 , Y1 ) T2ΣT1 T2T1 。 那么,如果 Y2 与 Y1 相互独立,即有 T2T1 0 或 T1T2 0 。这时,我 们可以构造求第二主成分的目标函数,即 (9) 2 (T2 , , ) T2ΣT2 (T2T2 1) 2 (T1T2 ) 对目标函数 2 (T2 , , ) 求导数有: 2 2 ΣT2 2T2 2 T1 0 T2 用 T1 左乘(10)式有 (10)
主成分分析
多元统计分析中由于变量较多,增加了分析 问题的复杂性。实际问题中,变量之间可能存在 一定的相关性,因此,多变量中可能存在信息的 重叠。人们希望通过克服相关性、重叠性,用较 少的变量来代替原来较多的变量,而这种代替可 以反映原来多个变量的大部分信息,这实际上是 一种“降维”的思想。
一般说来,在主成分分析适用的场合,用较 少的主成分就可以得到较多的信息量。以各个主 成分为分量,就得到一个更低维的随机向量;因 此,通过主成分既可以降低数据“维数”又保留 了原数据的大部分信息。
p 0 。
由(12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位化 一般情形,第 k 主成分应该是在 TkTk 1 且 TkTi 0 或 TiTk 0 ( i k )的条件下,使得 D(Yk ) TkΣTk 达到最大的 Yk Tk X 。这 样目标函数为:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、几何解释
y2
x2
y1
y1 x1 cos x2 sin
x1
y2 x1 sin x2 cos
y1 cos y sin 2 sin x1 x cos 2
旋转变换的目的是为了使得n个样本点在 y1轴方向上的离散程度最大,即y1的方差 最大,变量y1代表了原始数据的绝大部分 信息,在研究某经济问题时,即使不考虑 变量y2也损失不多的信息。 y1与y2除起了浓缩作用外,还具有不相 关性。
y1称为第一主成分,y2称为第二主成分。
, , , 推广开来,对于p维总体 ,寻求正交变 1 2 n 换 U (uij ) p p,使得
1 2 U p
2 与 1 在所有正交变换中,所选正交矩阵U,使D(1 )最大; 不 3 与 1 、 1不相关的变量中D( 2 )最大; 相关;并且在所有与 2不相关,同时在所有与 1 、 2不相关的变量中D( 3 )最大;依 次类推。
主成分分析是考察多个数值变量间相关性的 一种多元统计方法,它是研究如何通过少数 几个主成分来解释多变量的方差—协方差结 构。 导出几个主成分,使它们尽可能多地保留原 始变量的信息,且彼此间不相关。
一、主成分分析的基本思想
将原来众多具有一定相关性的指标重新组合 成一组新的相互无关的综合指标来代替原来 指标。 以两个指标为例,信息总量以总方差表示:
p
i
m
主成分y1 ,
, ym的累积贡献率:
i 1 i 1 p
i
.
i
3、原始变量 x j 与主成分 y i的相关系数
x Ty 即x j t jk yk .
故 Cov( x j , yi ) Cov(t ji yi , yi ) t ji i
k 1 p
i ( x j , yi ) t ji , i 1, , p V ( x j )V ( yi ) jj
二主成分…
2为第 1为第一主成分, U 为总体 的主成分,
三、主成分分析的数学原理
对原有变量作坐标变换,
z1 u11 x1 u21 x2 ... u p1 x p z2 u12 x1 u22 x2 ... u p 2 x p ...... z p u1 p x1 u2 p x2 ... u pp x p
则称z1为第一主成分.
如果z2=u2’x满足
cov(z1 , z2 ) 0 u2 1 u2
var( z2 ) max var(u' x)
则称z2为第二主成分.
…
§7.2 总体的主成分
一、主成分的导出
' x = (x ,x , ,x ) 1 2 p 为一p维随机向量,其二 设
E( x), V ( x). 记1 2 p 0 为的 阶矩存在, 特征值, t1, t2 , , t p为相应的单位特征向量, 且相互正交。
计划学时: 4学时 教学课型: 理论课 教学目的与要求:理解主成分的概念,掌握主成分分析 的基本方法 教学重点:主成分分析的方法 教学难点:主成分分析的方法 教学方法、手段与媒介:根据教材用多媒体课件课堂讲授 教学过程与内容:
第七章 主成分分析
(Principal component analysis)
Cov( x j , yi )
11 ( x j , yi )
1 T pp
1 2
. p
1 2
要求满足: u 2 u 2 ... u 2 1 1k 2k pk
var( zi ) D(U ix) U iD( x)U i cov( zi , z j ) U iD( x)U j
如果z1=u1’x满足
u1 1 u1
var( z1 ) max var(ux) max(u' D( x)u)
0 p
2、主成分的总方差ຫໍສະໝຸດ tr () tr (T 'T ) tr (TT ' ) tr ()
V ( y )
i 1 i i 1 i i 1
p
p
p
ii
V ( xi )
i 1
p
第i个主成分yi的贡献率:
i
i 1
§7.1
引 言
主成分概念首先由 Karl Parson在1901年引进, 当时只对非随机变量来讨论的。1933年Hotelling 将这个概念推广到随机变量。 在多数实际问题中,不同指标之间是有一 定相关性。由于指标较多及指标间有一定的相 关性,势必增加分析问题的复杂性。 主成分分析就是设法将原来指标重新组合成 一组新的互相无关的几个综合指标来代替原来指 标。同时根据实际需要从中可取几个较少的综合 指标尽可能多地反映原来的指标的信息。
D( x )
i 1 i
2
Principal component in 2d
One-dimensional projection
其中y1、y2分别都是x1、x2的线性组合,并且 信息尽可能地集中在y1上。在以后的分析中 舍去y2,只用主成分y1来分析问题,起到了 降维的作用。 主成分分析就是通过适当的变量替换,使新 变量成为原变量的线性组合,并寻求主成分 来分析事物的一种方法。
yi t x
' i
i 1,2, , p
则yi为第i个主成分。
二、主成分的性质
1、主成分的均值与协方差
记
1 2 ' y = (y1 , ,y p ) , v E ( y), 0 T (t1, , t p ), v E (T ' x) T ' V ( y) T 'V ( x)T T ' T