第九章 主成分分析PPT课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 主成分分析能起到既减少指标个数,又不影响所要达 到的统计分析的目的。
➢ 要注意的是,主成分分析方法往往是一种 手段,它要与其它方法结合起来使用。
➢ 常与回归分析、因子分析、聚类分析结合 在一起使用
问题的提出
设在一个问题中,有n个个体,对每一个个体测定了p个指 标,其观察值组成了一个矩阵
x11 x12 ... x1p
X
x21
...
x22 ...
... ...
x2
p
...
xn1 xn2 ... xnp
z11 z12 ... z1m
Ζ
z21
z22
...
z2m
... ... ... ...
zn1 zn2 ... znm
这 p 个指标反映了 n 个个体之间的差异,能否从这p个指标 中提取m个综合指标(m<p),使这 m 个综合指标仍然能基 本保持原有的 p 个指标所提供的个体间的差异?
例子(2)
➢ 一项十分著名的工作是美国的统计学家斯通 (stone)在1947年关于国民经济的研究。他 曾利用美国1929一1938年各年的数据,得 到了17个反映国民收入与支出的变量要素, 例如雇主补贴、消费资料和生产资料、纯公 共支出、净增库存、股息、利息、外贸平衡 等等。
➢ 在进行主成分分析后,竟以97.4%的精度, 用三新变量就取代了原17个变量。根据经济 学知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。更有意思的是,这三个变量其实 都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率ΔI以 及时间t因素做相关分析,得到下表:
zk
s
2 j
ห้องสมุดไป่ตู้
1 n 1
n
( zkj
k 1
z j )2
j =1, 2, …, p; k= 1, 2, …, n
➢原指标的相关系数矩阵 R
R 1 X' X n 1
主成分分析的数学模型
➢ 最简单的综合指标是原指标的线性组合,即将原始的 p个 变量进行线性组合,作为新的变量,即
y1 l11x1 l21x2 y2 l12x1 l22x2
y1 y2
y1 y2
➢ 如果我们将xl轴和x2轴先平移,再同时按逆 时针方向旋转θ角度,得到新坐标轴yl和y2。 yl和y2是两个新变量。
➢ 根据旋转变换的公式:
2
L
➢ 旋转变换的目的是为了使得n个样品点在yl轴 方向上的离散程度最大,即yl的方差最大。 变量yl代表了原始数据的绝大部分信息,在 研究某些问题时,即使不考虑变量y2也无损 大局。经过上述旋转变换原始数据的大部分 信息集中到y1轴上,对数据中包含的信息起 到了浓缩作用。
压缩指标的可能性
1、p个指标之间相互独立
压缩不可能
2、两个指标之间完全相关
保留一个指标
3、一般情况
指标之间既不完全独立也不完全相关
即0<r<1
指标压缩才可能
主成分分析的几何解释-以两个变量为例
y1 y2
➢ 设有n个样品,每个样品有两个观测变量xl和 x2,在由变量xl和x2所确定的二维平面中,n 个样本点所散布的情况如椭圆状。由图可以 看出这n个样本点无论是沿着xl轴方向或x2轴 方向都具有较大的离散性,其离散的程度可 以分别用观测变量xl的方差和x2的方差定量 地表示。显然,如果只考虑xl和x2中的任何 一个,那么包含在原始数据中的经济信息将 会有较大的损失。
➢ 因而,人们希望对这些变量加以“改造”,用少数的互 不相关的新变量反映原始变量所提供的绝大部分信息, 通过对新变量的分析解决问题。
前言
➢ 主成分分析是把各变量之间互相关联的复 杂关系进行简化分析的方法。
➢ 在多指标的数据分析中,压缩指标个数的 讨论成为实际工作者关心的问题之一。
➢ 主成分分析就是将多个指标转化为少数几 个综合指标的一种常用的统计方法
前言
➢ 在社会经济的研究中,为了全面系统的分析和研究问题, 必须考虑许多经济指标,这些指标能从不同的侧面反映 我们所研究的对象的特征,但指标太多,不但会增加计 算的复杂性,而且也会给合理分析问题和分析解释问题 带来困难。在很多情况下,在某种程度上这些指标存在 信息的重叠,具有一定的相关性
➢ 在回归分析、聚类分析、判别分析等方法中,经常会有 过多指标问题。处理不当的话,会影响最终统计分析的 结果。
主成分分析的涵义
➢ 主成分分析试图在力保数据信息丢失最少的原则下, 对这种多变量的数据进行最佳综合简化,也就是说, 对高维变量空间进行降维处理。很显然,识辨系统在 一个低维空间要比在一个高维空间容易得多。
➢ 主成分分析的目的就是通过线性变换,将原来的多个 指标组合成相互独立的少数几个能充分反映总体信息 的指标(主成分),从而在不丢掉主要信息的前提下 避开了变量间共线性的问题,便于进一步分析。
➢ yl,y2除了可以对包含在xl,x2中的信息起着 浓缩作用之外,还具有不相关(图形中表 现为正交)的性质,这就使得在研究复杂 的问题时避免了信息重叠所带来的虚假性。 二维平面上的个点的方差大部分都归结在 yl 轴上,而y2轴上的方差很小。 yl 和 y2 称为 原始变量xl和x2的综合变量。 y 简化了系统 结构,抓住了主要矛盾。
主成分分析 Principal Components
本章主要内容
前言 主成分的几何解释 主成分的数学模型 样本主成分的求解及其性质 主成分分析的进一步应用
例子(1)
一个人的身材需要用多项指标完整描述: 身高、体重、臂长、腿长、肩宽、胸围、 腰围、臀围等,但人们购买衣服时一般只 用身高和肥瘦两个综合指标就够了
5维空间在平面上的投影
x2 y2
x1
x3
y1 x4
x5
y1 =l11x1 +l21x2 +…+l51x5 y2 =l21x1 +l22x2 +…+l52x5
x2
y2
x1
x3 y1
x4 x5
标准化变换
➢记原始变量为Z,标准化后的变量记为X。作标准化变换:
z j
1 n
n
zkj
k 1
xkj
zkj sj
lp1xp l1X lp2xp l2X
yp l1px1 l2px2 lppxp lpX
➢ 选择m个主成分:
yi l1i x1 l2i x2 ... l pi x p , i 1, 2,, m, m p
相关文档
最新文档