医学统计学课件--主成分分析与因子分析(第20章)

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

a
2 21
பைடு நூலகம்
a
2 22
a
2 2m
1
Z 与Z 无关,互相垂直:
1
2
a a 21 11 a a 22 12 a a 2m 1m 0
Var (Z )在所有Zi中为第2大。 2
…… 理论上主成分个数最多为m个(指标个数)
实际工作中确定的主成分个数总是小于m个
2020/12/19
医学统计学
11
相关 变异
-2
2020/12/19
X2
2
1
-1
1
0
-1
-2 医学统计学
2 X1
12
Z2 2
X2
2
1
1
1
2 Z1
-2
-1
1
2
0
X1
-1
-1
-1
-2
-2
-2
2020/12/19
医学统计学
13
相关 变异
Z2 2 1
2 Z1
1
0
-1
-1
-2
-2
2020/12/19
医学统计学
14
三、主成分的求法及性质
表 20-1 主成分分析的原始数据表
主成分分析 与因子分析
PrincipalComponentsAnalysis &FactorAnalysis
2020/12/19
医学统计学
1
讲课内容: 第一节 主成分分析 第二节 因子分析
2020/12/19
医学统计学
2
第一节 主成分分析 Principal Components Analysis
X 11 X 12 X 1m
X = X 21 X 22 X 2m
X
n
1
X n2
X
nm
2020/12/19
医学统计学
17
2. 求出X1 , X2 , … , Xm 的相关矩阵R
R=Cov(X) =
r11 r12 r1m
r21 r22 r2m
rm
1
rm2
r mm
2020/12/19
医学统计学
3
一、基本思想 ➢数据的降维、数据的解释
将原来众多具有一定相关性的指标,组 合成一组新的相互无关的综合指标。 从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。 ➢这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
2020/12/19
医学统计学
标准化后的协方差 19
3. 求出矩阵R的全部特征值(eigenvalue) i, 第i个主成分的组合系数ai1, ai2, , aim满
足方程组:
(r11- i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22- i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm- i) aim =0
2020/12/19
医学统计学
18
( X X )( X X )
n1
协方差
( X X )( Y Y )
n1
r (XX)Y ( Y) lXY Pearson 相关系数 (XX)2(YY)2 lXlXYY
r (XX) (YY) (XX)2 (YY)2
r 1 n1
2020/12/19
XSXXYS 医Y 学Y 统计学
2020/12/19
4
某地 208 名 14 岁男中学生 15 项形态指标测试结果
指标、单位
身高 (X1) cm 坐高 (X2) cm 体重 (X3) kg 肩宽 (X4) cm 骨盆宽 (X5) cm 手长 (X6) cm 上肢长 (X7) cm 小腿加足高 (X8) cm 小腿长 (X9) cm 足长 (X10) cm 胸围 (X11) cm 大腿围 (X12) cm 小腿围 (X13) cm 上臂紧张围 (X14) cm 上臂2放02松0/1围2/1(9X15) cm
208
176.6
89.7
57.7
37.0
26.5
19.0
75.8
48.8
42.0
26.6
79.0
49.0
35.5
24.0
22.0
5
如何利用这些指标对每一儿童的生长发育 作出正确评价?
➢ 仅用单一指标: 结论片面; 没有充分利用原有数据信息。
➢ 利用所有指标: 各指标评价的结论可能不一致,使综合 评价困难; 工作量大。
2020/12/19
医学统计学
20
(r11- i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22- i) ai2+ + r2m aim=0
rm1 ai1+ rm2 ai2+ + (rmm- i) aim =0
i为矩阵R的第i个特征值, 共有m个非负特征值,由大到小的顺序排列为: 1≥ 2≥ ≥ m≥0 i=Var(Zi)
2020/12/19
医学统计学
6
➢ 找出几个综合指标(长度、围度、特体),这些综合指标是原始指标的线性组合,既保留了原始 指标的信息,且互不相关。
➢ 各综合指标提供的“信息”量大小用其方差来衡量。
➢ 衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,一 项指标在个体间的变异越大,提供的信息 量越多。
2020/12/19
医学统计学
7
二、数学模型及几何意义
Z1 a11X1 a12X2 a1mXm Z2 a21X1 a22X2 a2mXm
Zm am1X1 am2X2 ammXm
2020/12/19
医学统计学
8
Z=AX
Z1
a11 a12 … a1m
X1
Z2 =
a21 a22 … a2m
X2



样品号
1 2
观测指
X1
X2
X11
X12
X21
X22
标 Xm X1m X2m
n
2020/12/19
Xn1
Xn2
医学统计学
Xnm
15
(一)主成分的求法 1. 对各原始指标值进行标准化
X'ijXijSjXj j12, ,,m
为了方便,仍用Xij表示Xij’。
2020/12/19
医学统计学
16
标准化后的数据矩阵
…┇

Zm
am1 am2 … amm
Xm
2020/12/19
医学统计学
9
第一主成分
Z 1 a 1 X 1 1 a 1 X 2 2 a 1 m X m a1 21 a1 22 a1 2 m 1
Va(rZ)在所有Zi中最大 1
2020/12/19
医学统计学
10
第二主成分
Z2 a21X1 a22X2 a2m Xm

1
2
140.0
141.6
76.0
76.2
36.3
31.4
32.0
29.0
23.0
22..0
16.1
15.6
61.1
60.6
38.7
38.8
32.4
32.5
23.1
21.8
71.3
65.7
41.8
41.7
31.6
29.0
22.3
19.8
20.5医学统计学 17.5

…… …… …… …… …… …… …… …… …… …… …… …… …… …… …… ……
相关文档
最新文档