多元统计分析讲义(第四章)
Equation Chapter 1 Section 1 Array《多元统计分析》
Multivariate Statistical Analysis
;
^
)
主讲:统计学院许启发()
统计学院应用统计学教研室
School of Statistics
2004年9月
第三章 主成分分析
【教学目的】
1.让学生了解主成分分析的背景、基本思想; 2.掌握主成分分析的基本原理与方法; 3.掌握主成分分析的操作步骤和基本过程; 4.]
5.学会应用主成分分析解决实际问题。
【教学重点】
1.主成分分析的几何意义; 2.主成分分析的基本原理。
§1 概述
一、什么是主成分分析
1.研究背景
在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同。实际上,在很多情况下,众多变量间有一定的相关关系,人们希望利用这种相关性对这些变量加以“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析及典型相关分析便是在这种降维的思维下产生的处理高维数据的统计方法。本章主要介绍主成分分析。
主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。 >
概括地说,主成分分析(principal component analysis )就是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。主成分概念最早是由Karl Parson 于1901年引进的,1933年Hotelling 把这个概念推广到随机向量。在实践中,主成分分析既可以单独使用,也可和其它方法结合使用,如主成分回归可克服多重共线性。
2.基本思想及意义
哲学理念:抓住问题的主要矛盾。
主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这p 个指标进行线性组合作为新的综合指标。问题是:这样的线性组合会很多,如何选择
如果将选取的第一个线性组合即第一个综合指标记为1F ,希望它能尽可能多地反映原来指标的信息,即1()Var F 越大,1F 所包含的原指标信息①就越多,1F 的方差应该最大,称1F 为第一主成分。
如果第一主成分1F 不足以代表原来p 个指标的信息,再考虑选取2F 即选择第二个线性组合。为了有效地反映原来的信息,1F 中已包含的信息,无须出现在2F 中,即12(,)0Cov F F ,称2F 为第二主成分。
仿此可以得到p 个主成分。
①
度量信息最经典的方差是方差。
我们可以发现这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。
二、主成分分析的数学模型及几何意义
[
1.数学模型(总体主成分)
设有n 个样品,每个样品观测p 个指标:12,,
,p X X X ,得到原始数据资料阵:
()1112121
2221
2
1
2
,,
,p p p n n np X X X X X X X X X
X X X X ??
?
?
= ? ? ???
。其中,12i i i ni X X X X ??
? ?= ? ???
。 其协方差矩阵为
()
[][]ij
p p
E X EX X EX σ?'∑
--
它是一个p 阶半正定矩阵。设()12,,,(1,2,,)i i i pi a a a a i p '==为p 个常数向量,考虑如下的线性组合
11111212122
12122221122p p p p p p p p pp p F a X a X a X a X F a X a X a X a X F a X a X a X a X '?=+++?'=+++??
?
?'=+++?
简记为1122i i i i pi p
F a X a X a X a X '=+++(1,2,,)i p =
易知有
()()i i i i Var F Var a X a a ''=∑
(,)(,),i j i j i j
Cov F F Cov a X a X a a i j '''==∑≠(,1,2,,)i j p =
…
如果我们希望用1F 代替原来p 个变量12,,
,p X X X ,这就要求1F 尽可能地反映原p 个变量的信息。这
里,“信息”用1F 的方差来度量,即1()Var F 越大,表示1F 所含的12,,
,p X X X 中的信息越多。但由方差的
表达式可知,必须对i a 加以限制,否则1()Var F 无界。而最方便的限制是要求所有i a 具有单位长度,即
1i i a a '=
因此,我们希望在约束条件111a a '=之下,求1a 使1()Var F 达到最大,由此1a 所确定的随机变量11F a X '=称为12,,,p X X X 的第一主成分。
如果第一主成分1F 还不足以反映原变量的信息,考虑采用2F 。为了有效地反映原变量的信息,1F 中已有的信息就不必要再包含在2F 中,用统计的语言来讲,要求1F 与2F 不相关,即
121
2(,)0Cov F F a a '=∑= 于是,在约束条件221a a '=及120a a '∑=之下,求2a 使2()Var F 达到最大,由此2a 所确定的随机变量22F a X '=称为12,,
,p X X X 的第二主成分。
一般地,在约束条件1i i a a '=及()(,)01,2,,1i k i k Cov F F a a k i '=∑==-之下,求i a 使()i Var F 达到最大,
由此i a 所确定的随机变量i i F a X '=称为12,,
,p X X X 的第i 主成分。
2.主成分的几何意义
从代数学观点看主成分就是12,,
,p X X X 的一些特殊的线性组合,而在几何上这些线性组合正是把
12,,
,p X X X 构成的坐标系旋转产生的新的坐标系,新坐标系使之通过样品方差最大化方向。下面以二元
正态变量为例说明主成分的几何意义。
当2p =时,原变量是12,X X ,设122(,)~(,)X X X N μ'=∑,它们有下图的相关关系:
}
对于二元正态变量,n 个点的散布大致是一个椭圆,在其长轴方向取坐标轴1F ,在其短轴方向取坐标轴2F 。这相当于在平面上作一坐标变换,即按逆时针方向旋转θ角度,得
112
212cos sin sin cos F X X F X X θθθθ=+??
=-+? 或
1122cos sin sin cos F X U X F X θθθθ??????= ? ? ?-??????
这里的U 为正交矩阵,即U U I '=。因此,在12F oF 坐标系中有如下性质:
}
(1)1F 和2F 为12,X X 的线性组合; (2)1F 与2F 不相关;
(3)1X 与2X 的总方差大部分归结为1F 轴上,而2F 轴上很少。
几何意义:一般情况,p 个变量组成p 维空间,n 个样品点就是p 维空间的n 个点,对p 元正态分布变量来说,找主成分的问题就是找p 维空间中椭球体的主轴问题。
§2 主成分的推导及性质
这里首先从理论上给出总体主成分,探讨总体主成分的性质,而后再给出样本主成分。
一、总体主成分
1.总体主成分的推导 设1122p p F
a X a X a X a X '=++
+,其中()12,,
,p a a a a '=且1a a '=,()12,,,p X X X X '=。求主成分的
过程就是寻找X 的线性组合a X ',使相应的方差尽可能地大的过程。
()()()()Var F Var a X a E X EX X EX a a a ''''=--=∑
:
设协差阵∑的特征根为120p λλλ≥≥
≥>,相应的正交单位特征向量为()12,,,p U U U U '=,则
11
p i i i i p U U U U λλλ=?? ?
''∑==
? ??
?
∑
因此,()()()()()2
1
1
1
1
p
p
p
p
i i i i i i i i i i i i i i i a a a U U a a U U a a U a U a U λλλλ===='''''''''∑====∑∑∑∑
所以,()()()2
111111p
i i a a a U a U a U a UU a a a λλλλλ=''''''''∑≤====∑
而事实上,当1a U =时有
()()()2
111111111111p p
i i i i i i i i U U U U U U U U U U U U λλλλ==??''''''∑==== ???
∑∑
由此可知,在约束条件1a a '=之下,当1a U =时,使()Var a X a a ''=∑达到最大值,且1111()Var U X U U λ''=∑=。
同理可求()i i i i Var U X U U λ''=∑=,且
()()()11(,)0
p p i j i j i k k k j k i k k j k k Cov U X U X U U U U U U U U U U i j λλ==????
'''''''=∑===≠????????
∑∑
【
结论:()12,,,p X X X X '=的主成分就是以∑的特征向量为系数的线性组合,它们互不相关,其方差
为∑的特征根,主成分的名次是按照特征根大小的顺序排列的。
2.总体主成分的性质
性质1:设F a X '=为X 的主成分,则其协差阵为由X 的协差所对应特征根组成的对角阵。
性质2:1
1
1
1
()()p
p
p
p
i ii i i i i i i Var X Var F σλ=======∑∑∑∑。
证明:1
1
1
1
()()()()()()p p p p
i ii i i i i i i Var X tr tr U U tr UU tr Var F σλ====''==∑=Λ=Λ=Λ==∑∑∑∑。
NOTE :此性质说明12,,
,p X X X 各变量方差之和等于各个主成分的方差之和,即1
p
i i λ=∑。因此,1
p
k
i
i λλ
=∑描述了第k 个主成分提取的信息占总信息量的份额。为此,可以给出方差贡献率和方差累积贡献率的定义。
定义:称1
p
k
i
i λλ
=∑为第k 个主成分k F 的方差贡献率,称1
1
p
m
i
i
i i λλ==∑∑为前m 个主成分12
,,
,m F F F 的方差
累积贡献率。
累积贡献率表明了前m 个主成分提取了12,,
,p X X X 中的总信息量的份额。在实际应用中,通常选取
m p <,使前m 个主成分的累积贡献率达到一定的比例(如85%)
。这样用前m 个主成分代替原来的变量12,,,p X X X 而不至于损失太多的信息,从而达到减少变量个数的目的。
性质3:1
1
1
1
()()p p p p
i ii i i i i i i Var X Var F σλ=======∑∑∑∑。
.
证明:因为()k k Var F λ=,()i ii Var X σ=
()()(,)(,)()k i k
i k i k i i k i k k k ki Cov F X Cov U X e X U D X e U e e U e U U λλ''''''===∑=∑==①
所以,(,)k i F X ρ=
=
3.标准化变量的主成分②
在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起个变量取值的分散程度差异较大,这时,总体方差则主要受方差较大的变量的控制。若用∑求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令
*1,2,
,i X i p =
=
其中i i EX μ=,()ii i Var X σ=。这时,()***
*12,,,p X X X X '=的协方差矩阵便是()12,,
,p X X X X '=的相关矩阵()
ij p p
ρρ?=,其中
(,)
ij X Cov X X E μρ????-=《
利用X 的相关矩阵ρ作主成分分析,平行于前面的结论,可以有如下的定理。
定理:设()***
*12,,,p X X X X '=为标准化的随机向量,
其协方差矩阵(即X 的相关矩阵)为ρ,则*X 的第i 个主成分
(
)******121,2,,i i i i
pi
pp
X F U X U U U i p μσ-'==+=
并且
*
*
*1
1
1
()()p
p p
i
i i i i i Var F
Var X p λ======∑∑∑
其中**
*120p λλλ≥≥≥≥为相关矩阵ρ的特征值,***12,,
,p U U U 为相应的正交单位化特征向量。这时,
第i 个主成分的贡献为*
/i
p λ,前m 个主成分的累积贡献为*1
m
i i p λ=∑。
4.标准化和非标准化数据的主成分
①
这里i e 为第i 个分量为1其余分量为0的单位向量。并且使用了A ξλξ=这个结论。 ②
一个总体往往由p 个变量所组成,代表不同性质的p 个指标,具有不同的计量单位,使得主成分方差i λ的大小取决于量
纲的选择,从而导致各主成分方差大小排序的偏误。实施标准化后,使得不同变量或指标反映信息量的大小具有可比性。
例:设12(,)X X X '=协方差矩阵和对应的相关矩阵分别为
144100??∑= ???,10.40.41ρ??
= ???
~
如果从∑出发作主成分分析,易求得其特征值和相应的单位正交化特征向量为
1100.16λ=,1(0.040,0.999)U '= 20.84λ=,2(0.999,0.040)U '=- 则X 的两个主成分分别为
1120.0400.999F X X =+,2120.9990.040F X X =- 第一主成分的贡献率为 112100.16
99.2%100.160.84
λλλ==++ 我们看到由于2X 的方差很大,它完全控制了提取信息量占%的第一主成分(2X 在1F 中的系数为),淹没了变量1X 的作用。
如果从相关矩阵ρ出发求主成分,可求得其特征值和相应的单位正交化特征向量为
*1 1.4λ=,*1(0.707,0.707)U '=
。
*20.6λ=,*2(0.707,0.707)U '=-
则*X 的两个主成分分别为
***11211220.7070.7070.707()0.707()F X X X X μμ=+=-+-
***21211220.7070.7070.707()0.707()F X X X X μμ=-=---
此时,第一个主成分的贡献率有所下降,为
*
1 1.4
70%2
p
λ=
=。 由此看到,原变量在第一主成分中的相对重要性由于标准化而有很大的变化。在由∑所求得的第一主成分中的,1X 和2X 的权重系数分别为和,主要由大方差的变量控制。而在由ρ所求得的第一主成分中,1X 和2X 的权重系数反而成了和,即1X 的相对重要性得到提升。此例也表明,由∑和ρ求得的主成分一般是不相同的,而且,其中一组主成分也不是第二组主成分的某简单函数。
在实际应用中,当涉及的各变量的变化范围差异较大时,从ρ出发求主成分比较合理。
二、样本主成分
1.样本主成分的导出
^
面讨论的是总体主成分,但在实际问题中,一般∑(或ρ)是未知的,需要通过样本来估计。设 ()12,,
,1,2,
,i i i ip x x x x i n '==
为取处()12,,,p X X X X '=的一个容量为n 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为:
()
11()()1n ij
i i p p
i S
s x x x x n ?='=---∑ (
)
ij
p p
s R
r ?=其中,
()12,,
,p x x x x '=,11
n
i ij
n
j x x
==
∑1,2,,i p =
()()1
11n
ij ik i jk j k s x x x x n ='=---∑,1,2,,i j p = 分别以S 和R 作为∑和ρ的估计,按照前面所述方法,从样本协差阵S 和相关阵R 出发求出的主成分称为
样本主成分。
定理:设()
ij
p p
S
s ?是样本协方差矩阵,其特征值为12???0p
λλλ≥≥≥≥,相应的正交单位化特征向量为12???,,,p
U U U ,则第i 个样本主成分为 ,
1122?????i i i i ip p
F U x U x U x U x '=+++1,2,,i p = 其中()12,,,p x x x x '=为X 的任一观测值。当依次代入X 的n 个观测值()12,,,1,2,,k k k kp x x x x k n '
==时,
便得到第i 个样本主成分?i F 的n 个观测值?(1,2,,)ki
F k n =。这时 ????1,2,,????0?i i i i
i j i j p p
ii ii
i=1i=1F U SU i p F F U SU i j s =λλ?
?''===??'==≠?????
∑∑的样本方差与的样本协方差样本总方差= 这时,第i 个样本主成分的贡献率定义为:1
1
??p
m
i
i i i λ
λ
==∑
∑。同时为了消除量纲的影响,我们可以对样本进行标准化,即令
*,
1,2,,i
pp x x x x x i n s ??
-?==??
***
11121***21
22
2*
**
*1
2
p p n n np x x x x x x x x x x ?? ? ?= ? ? ???
则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵*R 。由*R 出发所得的样本主成分称为标准化样本主成分。只要求出*R 的特征值及相应的单位正交化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本的样本总方差为p 。
证明:对于标准化数据矩阵*x ,样本相关矩阵为
()()1112121222***1
2
1p p p p pp r r r r r r R x x n
r r r ?? ?' ?
== ? ? ???
)
***?F x U =,其中*U 为相关矩阵R 的单位正交特征向量所组成的矩阵其特征根分别为***12
???,,,p
λλλ,满足()**U U I '=。
现在考察**
1??F F n
'
*1**************2*??111???()()()?p F F x U x U U x x U U RU n n n λλλ?? ?
???
'''''====Λ ? ??? ?
??
? 从而新变量*?i F 的样本方差为*?i
λ,即对于*1?F 有最大的方差;*2?F 有次大的方差,……。并且协方差为 ************111??()()()i j i j i j i j F F x U x U U x x U U RU n n n ??
'''''=== ???,1,2,,i j p =
由于
()**11***
*
***************2
2
1
2
1112221
**???????p
p p p p
i i i i p p U U R U U U
U
U U U U U U U U U U λλλλλλλ=??
'??
? ? ?' ?'''''=Λ==+++= ?
?
? ? ? ? ?'?
???
∑ 所以,新变量的样本协方差
()()
**************111????0p p
i j i j i k k k j k i k k j k k F F U RU U U U U U U U U n λλ==??''''''==== ???
∑∑,1,2,,i j p i j =≠且
结论:由推导过程可以看到,由变量**
*12
,,,p x x x ,
经过正交变换得到的新变量***12???,,,p
F F F 不仅彼此不相关,而且它们的方差是特征根***12???,,,p λλλ。这表明新变量***12???,,,p
F F F 就是所寻求的主成分,为了书写的方便用12,,,p f f f 来表示。
<
2.样本主成分的性质
性质1:第k 个主成分k f 的系数向量是第k 个特征根*k λ所对应的标准化特征向量*k U ,即若
******
**
1122k k k k kp p f U x U x U x U x '==++
+,则
**110p
ki
ki k i j U
U i j
==?'=?≠?∑
性质2:第k 个主成分k f 的方差为第k 个特征根*k λ,且任意两个主成分都是不相关的,也就是主成分12,,,p f f f 的样本协方差矩阵Λ是对角矩阵。
*1*2
*
*p λλλ?? ?
?Λ= ? ? ??
?
性质3:样本主成分的总方差等于原变量样本的总方差,即**1
1
p
p
j
jj j j S λ===∑∑
事实上,*
********
*111
p
p
p
j jj jj j j j tr tr U R U tr R U U trR r S p λ===????''=Λ======????∑∑∑ 性质4:第k 个主成分k f 与第j 个变量样本之间的相关系数为:
()(
)**
,,k j k j kj r f x r f x ==
,1,2,,j p =①
性质4表明特征向量*k U 的第j 个分量*kj U 描述了第j 个变量*()j j x x 对第k 个主成分k f 的重要性。习惯上
称主成分k f 与变量*()j j x x 的相关系数为k f 中变量*()j j x x 的载(负)荷量。
性质5:第k 个主成分k f 对所有变量的载荷量平方之和为主成分k f 的方差,即
()()22*1
1
,,p
p
k
j k j k j j r f
x r f x λ====∑∑,
1,2,,k p =
它表示主成分k f 对()**
*1212,,
,,,
,p p x x x x x x 的总方差贡献,并等于k f 对每个j x 方差贡
献
)
()2
2
*
*
kj
k kj U λ=之和。
性质6:所有主成分对变量*()j j x x 的总方差贡献为
()()()
222
*
*1
1
1
,,p
p
p
k
j k
j
k kj
k j j r f
x r
f x U λ=====∑∑∑,1,2,,j p =
三、主成分个数的选取
—
}
①
证明过程详见孙慧钧P99。
我们知道,主成分分析的根本目的是把复杂的高维空间的(样本)点降至低维空间进行处理分析,这种降维要在尽量不损失原p 维空间信息的基础上进行。而信息总量的多少已经过数据的正交变换集中反映在新变量12,,
,p F F F 的总方差上,
即1
1
()p
p
i i i i Var F λ===∑∑。而根据特征根的性质知道:前面的特征根取值较大。因此,在实际研究过程只取p 个主成分中的前q 个12,,,q F F F 进行讨论,因为它集中了信息总量的绝大部
分。到底选择多少进行分析合适需要确定相应的准则。
1.85%原则①
记方差的累积贡献率为
11
11()q
p
q
i
i i i i i q p ?λλλ=====∑∑∑ 根据我国主成分分析的实践来看,()85%q ?≥通常可以保证分析结果的可靠性。 2.i λλ>的原则②
先计算1
1p
i i p λλ==∑,然后将i λ与之进行比较,选取i λλ>的前q 个变量的主成分。
^
由于i λ由样本数据的相关矩阵R 所求得,所以1λ=,故只要选取1i λ>的前q 个变量作为主成分即可。 3.斯格理(Screet )原则③ 具体做法:计算特征根的差1i i i λλλ+?=-,如果前q 个i λ?比较近,即出现了较为稳定的差值,则后p q -个变量12,,,q q p F F F ++可以确定为非主成分。
4.巴特莱特检验(Bartlet )原则④
检验的原假设是0:H 最后p q -个分量均等于或不显著地大于零。
检验统计量:()2212
ln ~(1)(2)c Q p q p q χχ=---+ 其中:()
111p q p p
j j j q j q Q p q λλ--=+=+????= ???
-?
???∑∏,11
(1)6(25)3c n p q =--+++ 具体做法:从1q =开始,一直检验到最后个p q -个变量不显著为止。
\
① 该原则是在实践中总结出来的,与其它原则相比,通常有选取较多主成分的倾向。 ②
实践中,该准则通常容易选取较少的主成分。 ③
这是从相反的方向来确定主成分的一种做法。实践中,该准则也倾向于选择较多的主成分,而且一般不单独使用。 ④
该检验的精确性受到样本容量n 大小的影响,当n 较小时,有可能低估突出变量的数目;当n 较大时,有可能高估突出变量的数目。
§3 主成分的解释
主成分是原始变量进行线性组合所得到的新变量,对于这些新变量赋予恰当的含义是主成分分析中至关重要的一个环节。同时,应该注意主成分分析的使用场合。
一、主成分的解释
对主成分经济意义的解释,通常只能结合被研究事物的具体指标及其变量系数的大小作出,归纳起来主要有以下几种解释思路或方法。
1.从特征向量的各个分量ij U 数值的大小入手进行分析与概括
ij U 表明了变量*()j j x x 与主成分i F 之间的关系。主成分i F 在变量*()j j x x 上的系数ij U 越大,说明该主成分主要代表了该变量*()j j x x 的信息;反之,若越接近于0,则表明几乎没有该变量什么信息。
2.从特征向量的各个分量ij U 数值的符号入手进行分析与概括
、
主成分系数ij U 的符号表明了变量*()j j x x 与主成分i F 之间的作用关系,一般地,正号表示变量与主成分
的作用同方向;而负号则表示变量与主成分作用是逆向变动关系。
3.如果变量分组较有规则,则从特征向量各分量ij U 数值作出组内、组间对比分析
4.如果主成分中,各变量的系数都大致相同,则要考虑是否存在一个一般性的影响因素
二、主成分分析适应的场合
由主成分分析的基本原理可知,其主要作用就是将若干相关指标进行综合,根据相关程度的高低可以得出主成分的作用效果不完全相同,现将其归纳如下:
}
三、主成分分析的基本步骤(计算过程)
STEP01:将原始数据X 进行标准化,得*X ; STEP02:计算*X 的相关系数矩阵R ;
STEP03:求相关系数矩阵R 的特征根120p λλλ≥≥
≥>及相应的单位正交特征向量12,,,p U U U ;
STEP04:计算方差累积贡献率,确定主成分的个数q ;
STEP05:写出主成分*F X U =,解释其实际经济意义并指导实践。
@
3.不完全相关
主成分分析
@
可以实施主成分分析
高度相关
中度相关 低度相关
1.完全相关
2.完全不相关
不必实施主成分分析
§4 主成分分析法的应用
一、主成分分析在经营管理中的应用
1.企业经济效益分析
某主管局管辖20个工厂,现要对每个工厂作经济效益分析,经研究确定从所取得的生产成果同所消耗的人力、物力、财力的比率,选取五个指标(或变量)作分析。
X:固定资产产值率;
1
X:净产值劳动生产率;
2
X:百元产值流动资金占用率;
3
X:百元产值利润率;
4
X:百元资金利润率;
5
…
对这20个工厂同时按照这五个指标收集数据(孙慧钧P107)。
解答:
X进行标准化,得*X;
|
*0.49485912,,
,p U U U ;
P 107)
…
*****
112345
0.5030.4990.4730.0690.518f x x x x x =+-++ *****212345
0.3450.2870.3840.7470.309f x x x x x =-++++ 表3 前2个主成分的组成
根据分析,1f 在综合其它变量所反映信息的基础上,突出地反映了经营能力的大小。2f 在综合其它变量所反映信息的基础上,突出地反映了企业盈利水平的高低。
2.食品业的经营决策
某食品企业在对“未来开发方针的目标”作出决策之前,要进行广泛的社会调查,以研究广大消费者对各种食品的嗜好程度。通常是将消费者按男、女及年龄共分10个组作调查,如表所示
表 调查对象分组
为了能从每个小组得到充分的信息,每个小组都至少调查50名消费者,共发出785张调查表。在每张调查表中,列出100种食品,要求每个消费者按自己的嗜好程度对每种食品给予评分。最受欢迎的食品给9分,最不受欢迎的给1分。
收回所有调查表后,作出初步汇总,即以小组为单元,在每个小组中,各成员都对这100种食品给予评分,求出每小组对每种食品的评分的均值,这样每个小组就有100个数据。
根据STEP01~STEP04的分析,只需选择前3个主成分即可,这3个主成分为:
在第一主成分1f 中,每个变量的系数都在左右,这表明1f 反映了同年龄、性别无关的公共平均嗜好程度,即人们普遍的嗜好程度。由于1f 的方差贡献达到%,所以如果充分考虑人们普遍的嗜好,作出经营决策就有七成把握。
在第二主成分2f 中,不论男性或女性都有着共同的规律,即年龄小的系数为正值,年龄大的系数为负值,而且随年龄增大而下降。于是2f 在综合了各小组的信息基础上,突出反映了年龄的嗜好程度。
在第三主成分3f 中,男性的系数为正值,女性的系数为负值,因而3f 明显地反映了性别的嗜好程度。 综上所述,食品加工业的经营决策,只需从三个方面充分地考虑:人们喜欢吃与不喜欢吃的;青少年喜欢吃的,成人喜欢吃的;男性喜欢吃的,女性喜欢吃的。
二、主成分分析在经济指标综合评价中的应用
:
在实际工作中,多指标的综合评价不仅要求对被评事物(样本点)给出一个诸多方面的综合描述,更需要用一个总指标来说明被评事物的一般水平,通过排序确定其在总体中的相对位置,以便对被评事物之间作对比分析。主成分分析就满足这样的要求,在多指标综合评价中显示出较强的优越性,主要表现在:
第一,主成分分析在对数据作标准化处理中,抽象掉各变量的异度量性,抽象掉各指标(变量)的实际经济内涵,使各指标不受计量单位、数量级的影响,能够通过数值的大小进行对比分析和综合。
第二,主成分分析通过正交变换寻找主成分,克服了原指标(变量)相关性带来的重叠信息的不足,避免了原指标直接综合会歪曲被评事物(样本点)之间相对位置的弊端,使判断结果更具有综合性。
第三,主成分分析由于消除了指标间的相关关系的影响,使得主成分合成宜采用加权线性和法。 第四,主成分分析能够自动生成信息量权数,避免了人为因素的影响,增强权数的可信度,使评价结果真实、可靠,具有科学性。
但在运用主成分分析作综合评价时,还应注意指标的性质:正指标、适度指标和逆指标,一般地要将适度和逆指标进行适当的转化,才能使用主成分分析作综合评价。
1.一个主成分排序
续前例,利用一个主成分进行排序。
?
2.选用多个主成分排序
选用前2个主成分对各单位进行排序,于是
12*****
112345*****
212345
2.721 1.738(2)550.5030.4990.4730.0690.5180.3450.2870.3840.7470.309f f f f x x x x x f x x x x x ?=+??=+-++??=-++++??
§5 案例分析
例:详见课题《区域经济非均衡增长测度模型研究》,山东省自然科学基金。
【本章思考题】
1.主成分分析的几何意义是什么
2.主成分的实质是什么
3.阐述主成分分析的基本步骤。
【作业】