主成分分析解析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 主成分分析
§ 1 客观背景和数学思想
多元分析研究多维随机变量总体,总体的每一个体都 可用 p 项指标来刻划。指标多固然有其描述详尽、刻 画细腻的一方面,但指标太多,也容易造成主次不清, 难以对所考察对象获得一个直观清晰的把握。
譬如,我们要分析比较若干个地区的经济发展状况,对 每一个地区都可以统计出数十项与经济状况有关的指标,这 数十项指标虽然较详尽地反映了一个地区的经济发展水平, 但若要据此对不同地区的发展状况进行评价、比较、排序, 则因指标太多、主次不明而显的过于复杂,也很难做到客观 公正。
将 的任一特征根i 代入(8.7),有
l1 il1
(8.9)
由线性代数可知,满足上式的单位向量l1 应
该是 的特征根i 所对应的单位特征向量。
显然对应于不同的特征根i ,其单位特征向
量也是不同的。
为了确定哪个特征根所对应的单位特征向量l1 能使
VarY1 l1l1 达到最大,(8.9)两边左l乘1 得
在此模型下,m 项综合指标Y1,Y2,,Ym 的提取问题就具体化为依次
m
ቤተ መጻሕፍቲ ባይዱ确定
个常数向量l1
,
l2
,,
lm
的问题。
在这m 个常数向量l1,l2 ,,lm 确定之后, 原来用 p 项可观测指标
xi xi1, xi2 ,, xip
来刻画的第i 个体xi 就可以用新的m 项综合指标
yi yi1, yi2 ,, yim l1xi ,, lm xm
在主成分分析中采用方差来度量一个随机变量所包含的信息量。
Y1的方差 VarY1 Varl1X l1DX l1 l1l1
因此,用于决定Y1 l1X 的向量l1 ,使l1l1 越大就意味着Y1 所含的 信息越多。但随之而来的问题是:若不对l1 的模 l1 l1l1 施加一定限
制,随着 l1 将有VarY1 ,而无法进行比较。
既然分析的目的是减少指标的个数,我们当然希望 这不多的几项综合性指标每一个都能独立地反映某一 个方面的综合信息。因此从概率的角度我们要求这几 项综合性指标相互间是不相关的。
归纳起来,主成分分析的目的是通过分析原来较多 可观测指标所反映的个体信息,提取出较少的几项综 合性指标,它们互不相关,并且能最大限度地反映出 原来较多指标所反映的信息,进而用这较少的几项综 合性指标来刻划个体。
设有来自某个 p 维总体 X X1, X 2 ,, X p n的 个个体xi
i 1,2., n ,对每一个体都观测记录了其p 项指标的值,分别
为 xi xi1, xi2 ,, xip i 1,2., n .
我们希望通过这 p 项可观测指标 X 1, X 2 ,, X p 提取出m (远 小于 p !)项综合性指标Y1,Y2 ,,Ym .
合理的限制应该是将l1 限定为单位长度向量,在此前提下,选l择1
的适当方向,使l1l1达到最大,即l1 应是如下约束优化问题的解:
sm.ta.xl1ll11l11
(8.5)
为了在约束 l1l1 1 下求l1 ,使VarY1 l1l1 达到最
大,由 Lagrange 乘子法,只需求l1 使
l1, l1l1 l1l1 1
达到最大。
先求驻点。由于 l1
2l1
2l1
,并令它等于零,
得 I l1 0
(8.7)
(8.7)式有非零解的充要条件是 I 0 ,而
I 0 共有 p 个根,且正好是协差阵 的p 个特征
根。又协差阵 对称、非负定,所以 的p 个特征根皆
为实数且非负,按大小顺序依次记为 1 2 p 0
另一方面,这数十项指标中,有些是主要的,有些是次 要的,甚至某些指标间还有一定的相关性。
鉴于此,一个自然的想法是:能否用较少的几项指标来 代替原来较多的指标,而这较少的几项指标仍然能基本上反 映出原来较多的指标所反映的信息。这就是提出主成分分析 方法的客观背景和实际需要。
但主成分分析方法并不是去分析比较各指标的重要 性,将那些不太重要的指标简单地去掉了事,而是通 过全面分析各项指标所携带的信息,从中提取出一些 潜在的综合性指标(称为主成分)。用这不多的几项 综合性指标替代原来较多的可观测指标去刻划每一个 体。
Y1 Y2
l11 X 1 l21X1
l12 X l22 X
2 2
l1 p X p l2 p X p
l1 X l2 X
Ym lm1 X 1 lm2 X 2 lmp X p lm X
其中 li li1,li2 ,,lip 是常向量,
(8.1)
X X1, X 2 ,, X p 是随机向量。
由于这些综合性指标信息蕴藏在那些可观测指标之中,或 者说每一项可观测指标都或多或少携带有某些综合指标的信 息,因而提取各综合性指标的过程,就是将散布在各个可观 测指标中的综合性指标信息分门别类地汇总出来。
从数学角度将上述思想加以体现,就抽象为:将每一综合性指标分
别看成是各可观测指标的某种线性组合,于是建立如下数学模型:
来刻画了。
§2 主成分的提取
下面讨论各项综合性指标Y1,Y2 ,,Ym 的提取(即确 定m 个常数向量l1,l2 ,,lm )问题。
首先讨论第一项综合性指标Y1 的确定。 当然我们希望Y1 能尽可能多地反映原来p 项指标所 反映的信息。那么如何度量一项指标所含的信息就是 首先面临的问题。
“信息”属于形而上的范畴,其“大小、 多少”的计量不可能有规范统一的“度量 衡”。但信息的多少有时又是可以比较的, 因此信息的度量标尺有相当的灵活性、只 要能从一定角度给出相对合理的序关系都 是可以接受的。
l1l1 il1l1 i
注 意 到 X X1, X 2 ,, X p 是 p 维 随 机 向 量 ,
Y1 l1X ,因此Y1 也是一随机变量。一个随机变量所 包含的信息量可以简单地用它取值的分散程度(即方 差的大小)来度量。 试想一门课程的考试成绩Y 就是一随机变量,每个学 生的考试分数是该随机变量的一个取值。Y 的方差越 大,意味着分数散布得越开,因而越能反映出学生们 在学习上的差异,反映的信息就越多。
相关文档
最新文档