(新)第5章 主成分分析与经验正交分解
第五章主成分分析(2)(主成分回归经验正交分解EOF)

5.4 主成分聚类与主成分回归5.4.1 变量聚类与样品分类主成分分析可用于聚类:变量聚类与样品聚类。
变量聚类:由主成分系数的差异,可将变量聚类。
例如例5.5中第2主成分中murder,rape, assult系数为负的, burglary,larceny, auto系数是正的。
按系数正负可把7个变量分为两类: murder, rape, assult属于暴力程度严重的一类;burglary,larceny,auto属于暴力程度较轻的一类。
按照这种方法,根据主成分系数的正负可以将变量聚类。
样品聚类:如果2个主成分能很好的概括随机向量的信息,计算每个样品的这两个主成分得分,把他们的散点图画出来,就能从图上将样品分类。
例5.5(续2)按照第一、第二主成分得分,画出散点图data crime; /*建立数据集crime*/input state $ 1-15 murder rape robbery assult burglary larceny auto;/*建立变量state murder rape robbery assult burglary larceny auto。
state $ 1-15表示前15列存州名。
murder rape robbery assult burglary larceny auto 表7种罪的犯罪率*/cards; /*以下为数据体*/Albama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3Arirona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5Arkansas 8.8 34.2 138.2 312.3 2346.1 4467.4 439.5Califonia 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1Conecticat 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4Geogia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3Kentaky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4Loisana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5Masschusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1Michigan 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.3Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2Mew Hampashare 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5New Maxico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1North Dakoda 100.9 9.0 13.3 43.8 446.1 1843.0 144.7Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8Oregan 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9Pennsyvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2Rhode Island 3.6 10.5 86.5 201.0 1849.5 2844.1 791.4South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1South Dakoda 2.0 13.5 17.9 155.7 570.5 1704.4 147.5Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5Vermont 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7Wasinton 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3West Viginia 6.0 13.2 42.2 90.9 597.4 1341.7 163.3Wiskonsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282.0;proc princomp out=crimprin n=2;var murder rape robbery assult burglary larceny auto;run;PROC PLOT data=crimprin;PLOT PRIN2*PRIN1=STATE/VPOS=31;TITLE2 ‘PLOT OF THE FIRST TWO PRINCIPAL COMPONENTS’;RUN;例5.7 (气温分析)本例的输入资料文件(TEMPERA T)是美国六十四个城市一月与七月的平均日温。
高中物理必修一:受力分析—正交分解+课件(共10张PPT)

第三章
相互作用
受力分析—正交分解
学习目标
1.知道什么是正交分解;
2.知道正交分解的步骤; 3.会利用正交分解解决简单的实际问题。
课前学习
力的分解 力的合成 邻边 垂直
Fx
F 1 cos F2 cos F3 sin
F1 sin F2 sin F3 cos
课前学习
B、甲受到的摩擦力最大 C、乙受到的摩擦力最大 D、丙受到的摩擦力最大
目标检测
2、如图所示重20N的物体在斜面上匀速下滑,斜面的倾角为370 ,则:物体与斜面间的动摩擦因数( (sin370=0.6, cos370=0.8 )
B )。
A、0.6
B、0.75 C、0.8 D、0.85
课堂小结
正交分解的步骤: (1)对物体进行 (2)建立
3、正交分解的步骤: (1)对物体进行 (2)建立
受力分析
;
平面直角坐标系 (以力的作用点为坐标原点,恰当地
建立直角坐标系,标出x轴和y轴);
建立原则: a、沿物体的运动方向和 b、沿力的方向,使
垂直
物体的运动方向; 落在坐标轴上;
坐标轴上
尽可能多的力
(3)将不在坐标轴上的力分解在
,并在图上标明;
(4)根据物体沿x轴或y轴所处的状态列方程求解。
例题与变式
例题1、物体放在粗糙的水平地面上,物体重50N,受到斜向上方 向与水平面成300角的力F作用,F = 50N,物体仍然静止在地面上 ,如图1所示,求:物体受到的摩擦力和地面的支持力分别是多少
?
300
图1
例题与变式
变式1、 如图所示,一质量为m的木块静止在倾角为θ的斜面上, y 求物块的摩擦力和弹力? FN Ff 解:对物体受力分析,如图所示
正交分解法课件

01
02
03
选取正交基
选择一组正交基,用于表 示目标向量。
展开目标向量
将目标向量展开为正交基 的线性组合,即每个基底 与对应系数的乘积之和。
求解系数
通过点积运算求解展开式 中的系数,使得目标向量 与正交基之间的点积相等 。
正交分解法的优势与局限性
优势
正交分解法能够将复杂的向量运算转化为简单的代数运算,方便计算。同时, 正交基的选择具有多样性,可以根据具体问题选择合适的基底。
多目标正交分解法
总结词
多目标正交分解法是一种解决多目标优化问 题的有效方法。
详细描述
多目标正交分解法通过将多目标优化问题转 化为一系列单目标优化问题,利用正交分解 技术求解。这种方法能够同时考虑多个目标 ,平衡不同目标之间的冲突,从而找到更全 面的解决方案。
自适应正交分解法
总结词
自适应正交分解法是一种能够自动调整参数 和方法的正交分解方法。
组合优化问题
组合优化问题是一类具有离散特征的 优化问题,如旅行商问题、排班问题 等。正交分解法也可以用于解决组合 优化问题,通过将问题分解为若干个 子问题,降低问题的复杂度,提高求 解效率。
VS
例如,一个简单的组合优化问题可以 表示为:最小化 $f(x)$,满足 $x in {0,1}^n$,其中 $f(x)$ 是一个非线 性函数。通过正交分解法,可以将这 个问题分解为一系列简单的子问题, 从而方便求解。
自适应算法设计
根据不同问题的特性,设 计自适应的正交分解法, 提高算法的适用性和鲁棒 性。
应用领域的拓展
数值分析领域
将正交分解法应用于更广泛的数值分析问题,如 求解偏微分方程、积分方程等。
机器学习领域
什么是主成分分析精选全文

可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析 Word 文档

为了有效的地进行这种评价,我们希望寻找尽量少得m个综合特征值,这m(m<p)个综合特征值应包含p个变量的有关信息,并以这m个综合特征值对此同进行综合评价。
显然,m越小,与之进行综合评价就越方便。
称这样的方法为主成分分析(Principal component Analysis,简称为PCA)。
8.3.1基本原理首先,我们以包含两个变量的教学系统___两门课程的学习成绩为例。
内容扩展设课程x1与x2时两门有一定相关性的课程,如:数学与物理。
N名学生的学习成绩为:(xi1,xi2)i=1~n (8—22)将这n组数据描在x1-x2平面上,则有图8.5(p=2的主成分)所示的图形。
由于x1,x2是两门相关性的课程,学习成绩在x1-x2平面上分布集中在椭圆形的范围内(图a)。
该椭圆是一种狭长形的椭圆,数据在长轴的方向上变化较大。
从图可知,为了评价学生的成绩,x1,x2都是必需的,不能偏废某一个。
由于x1,x2集中在一个狭长的范围内,我们可对这些数据作某种变化,将它变换到z1~z2平面上,则有图b。
从图b可知,在z1~z2坐标中,z1,z2的相关性较小,且数据在Z1轴上的分散较大,在Z2轴上的分散较小。
由于进行了这宗变幻,由Z1就能对学生的成绩进行综合评价,且Z1包含有X1,X2给出的信息。
这样,经过一定的变换后,我们将以两个变量X1,X2评价学生成绩的系统,变换为主要由一个变量Z1对学生的成绩进行评价。
此时,我们称Z1第一主成分。
显然,若X1,X2不是相关的,X1,X2在X1-X2 平面上的分布将是一种随机的均匀分布的图形(图c)。
这些数据经Z变换后,在Z平面上的分布仍是一种均匀的分布,不可能找到上述的主成分。
同样,对于P门课程的成绩,我们进行分析。
内容扩展可用P维空间中的矢量:xi =(xi1,xi2,xip) i=1—n (8-23)来表示。
式中,n为学生数,p为课程门数。
若p门课程具有一定的相关性,通过某种变换,我们可以找到一种新的m维综合变量空间,且有m<p。
主成分分析与PPT资料33页

主成分的几何意义
▪ 对应m个变量的q个主成分如下:
z 1 a 1x 1 a 1x 2 2 .. .a .1 m .x m .
z 2 a 2x 1 a 2x 2 2 .. .a .2 m x .m .
......
z m a m 1 x 1 a m 2 x 2 .. .a m .x .m m .
主因子的解很不稳定。因此,常以 估计的共同度为初始值,构造新的约 化矩阵,再计算其特征根及其特征向 量,并由此再估计因子负荷及其各变 量的共同度和特殊方差,再由此新估 计的共同度为初始值继续迭代,直到 解稳定为止。
▪ 因子载荷(负荷)aij是随机变量xi与公共 因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
称gj2为公共因子fj对x的“贡献”,是衡 量公共因子fj重要性的一个指标。
四、因子旋转
▪ 目的:使因子负荷两极分化,要么 接近于0,要么接近于1。
▪ 常用的旋转方法:
(1)方差最大正交旋转(varimax
orthogonal rotation)
▪ 基本思想:使公共因子的相对负荷 (lij/hi2)的方差之和最大,且保持原 公共因子的正交性和公共方差总和不 变。
(factor loading)矩阵
通常先对x作标准化处理,使其均值为零, 方差为1.这样就有
x i a i1 f1 a i2 f2 g g g a im fm e i
假定(1)fi的均数为 i22 0,方差为1; (2)ei的均数为0,方差为δi; (3) fi与ei相互独立.
则称x为具有m个公共因子的因子模型
解释公共因子; ▪ 7.对公共因子作出专业性的解释。
[统计学]多元统计分析(何晓群 中国人民大学)5第五章主成分分析
![[统计学]多元统计分析(何晓群 中国人民大学)5第五章主成分分析](https://img.taocdn.com/s3/m/71b4f5042f60ddccdb38a008.png)
1 μ 2
则上述二元正态分布的密度函数有如下矩阵形式:
2019/1/20
中国人民大学六西格玛质量管理研究中心
16
目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义
1 1 / 2 ( X μ )'Σ 1 ( X μ ) f ( X1, X 2 ) e 1/ 2 2 | Σ |
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
2019/1/20
中国人民大学六西格玛质量管理研究中心
13
目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义
其矩阵形式为:
Y1 cos Y2 sin sin X1 U X cos X 2
2012318中国人民大学六西格玛质量管理研究中心11目录上页下页返回结束52主成分分析的几何意义由第一节的介绍我们知道在处理涉及多个指标问题的时候为了提高分析的效率可以不直接对个指标构成的随机向量进行分析而是先对向量进行线性变换形成少数几个新的综合变量使得各综合变量之间相互独立且能解释原始变量尽可能多的信息这样在以损失很少部分信息为代价的前提下达到简化数据结构提高分析效率的目的
U 为旋转变换矩阵,由上式可知它是正交阵, 其中, 即满足
U' U1 ,
U 'U I
2019/1/20
中国人民大学六西格玛质量管理研究中心
14
目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义
经过这样的旋转之后,N 个样品点在 Y1 轴上的离散程度最 大,变量 Y1代表了原始数据绝大部分信息,这样,有时在研 究实际问题时,即使不考虑变量 Y2 也无损大局。因此,经过 上述旋转变换就可以把原始数据的信息集中到 Y1 轴上,对数 据中包含的信息起到了浓缩的作用。进行主成分分析的目的 就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义 也就很明了了。下面我们用遵从正态分布的变量进行分析, 以使主成分分析的几何意义更为明显。为方便,我们以二元 正态分布为例。对于多元正态总体的情况,有类似的结论。
第五章主成分分析 (2)PPT课件

12
第二节 总体主成分
主成分分析也称主分量分析,是由Hotelling于 1933年首先提出的。由于多个变量之间往往存在着 一定程度的相关性。人们自然希望通过线性组合的 方式,从这些指标中尽可能快地提取信息。当第一 个线性组合不能提取更多的信息时,再考虑用第二 个线性组合继续这个快速提取的过程,……,直到 所提取的信息与原指标相差不多时为止。这就是主 成分分析的思想。一般说来,在主成分分析适用的 场合,用较少的主成分就可以得到较多的信息量。 以各个主成分为分量,就得到一个更低维的随机向 量;因此,通过主成分既可以降低数据“维数”又 保留了原数据的大部分信息。
假定有n个样本每个样本共有p个变量构成一个np阶的数据矩阵2221121151假设我们所讨论的实际问题中有p个指标我们把这p个指标看作p个随机变量记为x主成分分析就是要把这p个指标的问题转变为讨论p个指标的线性组合的问题而这些新的指标ykp按照保留主要信息量的原则充分反映原指标的信息并且相互不相关
主成分分析
• • •
•
• • •• •
•
• •
• •
•• •
•
•• • • • • •
•
•
•
•
• ••
• • ••
•
•• • •
•
•• •
•• •
•
x1
释
•
••
• •
•
23
为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变 量xl和x2 所确定的二维平面中,n个样本点所散布的情况 如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方 向或x2轴方向都具有较大的离散性,其离散的程度可以分 别用观测变量xl 的方差和x2 的方差定量地表示。显然,如 果只考虑xl和x2 中的任何一个,那么包含在原始数据中的 经济信息将会有较大的损失。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第5章主成分分析与经验正交分解5.1主分量分析的数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。
首先我们看一个例子。
例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。
可是用这4个指标表达学生身材状况不方便。
但若用1y =3.63561x +3.32422x +2.47703x +2.16504x表示学生身体魁梧程度;用2y =-3.97392x +1.35821x +3.73233x -1.57294x表示学生胖瘦程度。
则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。
例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x ,4x )是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,4x 的特性。
类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。
寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。
主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。
但是i c 的模可以无限增大,从而使)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,使)'(X c D i 最大;通常取i c 的模为1最方便。
定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。
但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。
定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y ,0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。
当随机向量方差已知时,定理5.1给出主成分的计算公式。
定理5.1 设随机向量)',...(1p X X X =方差存在为∑。
∑特征值从大到小为p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。
则X 的第j 个主成分为 j c 与X 的内积,即X c Y j j '= (5.1)且i i Y Var λ=)(证明:任取p维单位向量c,必有∑∑==1,2jjj tc t c 。
于是∑=∑=j j t c c X c D λ2')'(,而在条件∑=12j t 下,当11=t ,0...2===p t t 即1c c =时,∑=j j t X c D λ2)'(最大,所以X 的第一主成分是1c 与X 的内积X c Y '11=。
由条件0)',cov(1=X c Y ,可得0''11111===∑t c c c c λλ,于是X c t X c j pj j ''2∑==,从而∑==∑=pj j j t c c X c D 22')'(λ;所以在条件c =1、0)',cov(1=X c Y 下,当2c c =时,c c X c D ∑=')'(最大,所以X 的第2个主成分为2c 与X 的内积X c Y '22=。
对第三,第四……主成分同样可证。
由证明过程可见:i i Y Var λ=)(。
它称为第i 个主成分的方差贡献,表示第i 个主成分变化大小,从而反映第i 个主成分提供的信息的大小。
例5.2 设)',,(321X X X X =,且⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑=210131011)(X Var则1λ=3.87939,'1c =[0.293128,-0.84403,-0.449099]2λ=1.6527,'2c =[0.449099,-0.293128,0.84403] 3λ=0.467911,'3c =[0.84403,0.449099,-0.293128]所以第一主成分就是X c Y '11==0.2931281X -0.84403 2X -0.4490993X ;第二主成分就是X c Y '22==0.4490991X -0.2931282X +0.844033X ; 第三主成分就是X c Y '33==0.844031X +0.4490992X -0.2931283X 。
它们的方差贡献分别是87939.3)(11==λY Var ;6527.1)(22==λY Var ;467911.0)(33==λY Var 。
定义5.3 ∑ji λλ/称为主成分i y 的方差贡献率;∑∑=j i ki λλ/1称为前k 个主成分的累计方差贡献率;i y 与X 第k 个分量的相关系数),(k i x y ρ称为因子负荷量。
当某个主成分的方差贡献率很小时,认为它提供的信息很少,可以略去此主成分。
通常取q,使前q 个主成分的累计方差贡献率达到70%-80%,然后只考虑前q 个主分量,用它们解释随机向量X 的特性,其余主成分认为是观测误差等随机因素造成的。
在实际问题中,X 的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。
为了避免量纲对主成分的影响。
常常将随机变量都标化,即令)(/)(*i i i i X Var EX X X -=,它就是无量纲量,令*)'*,...(*1p X X X =再求X*的主成分,即标准化后的主成分。
将)(/)(*i i i i X Var EX X X -=代入,可求随机向量X 的主成分。
容易证明定理5.2 设随机向量X 的相关阵为ρ,ρ特征值为*...*1p λλ≥≥,j λ对应的彼此正交单位特征向量为*j c ,则标准化后X 的第j 个主成分是***T X c Y jj =。
因此,标准化后的主成分称为由相关阵决定的主成分。
直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。
同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。
这是因为优化的准则(目标函数)不同:前者要求)'(X c D =c c ∑'最大,而后者要求*)'(X c D ==c F F c 2/12/1'--∑最大,其中⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=)(0...)(0)(21p X D X D X D F 。
例 5.3 (协差阵和相关阵决定的主成分不同)设随机变量)',(21X X X =;其协方差阵是⎥⎦⎤⎢⎣⎡=∑100221,特征值和特征向量是)'9998.0,0202.0(,04.10011==c λ,)'0202.0,9998.0(,9596.022-==c λ。
因而由协方差阵决定的主成分是:2119998.00202.0X X Y +=,2120202.09998.0Y Y Y -=。
但随机变量X 标准化后得到)'1.01.0,(*)'*,(*221121μμ--==X X X X X ;其中2211,μμ==EX EX 。
X*的协差阵即X 的相关阵是⎥⎦⎤⎢⎣⎡=12.02.01ρ,其特征值和特征向量是 )'7071.0,7071.0(*,2000.1*11==c λ,)'7071.0,7071.0(*,8000.0*22-==c λ从而由相关阵决定的主成分是:)(07071.0)(7071.0*7071.0*7071.0*2211211μμ-+-=+=X X X X Y )(07071.0)(7071.0*7071.0*7071.0*2211212μμ---=-=X X X X Y 。
由于主成分由方差决定,可以略去常数,因而由相关阵得到的主成分可写为:21107071.07071.0*X X Y += 21207071.07071.0*X X Y -=,可见由协方差阵与相关阵决定的主成分不同。
5.2 样本主成分及其计算5.2.1 样本主成分实际问题中随机向量的协差阵、相关阵都是未知的,只能得到样品)()2()1(,...,n X X X 。
这时总用样本协差阵与样本相关阵代替协差阵、相关阵求主成分。
定义5.4 样本协差阵与样本相关阵的特征向量,计算主成分。
所得的主成分称为样本主成分。
这样求主成分是有道理的:若总体),(~∑μN X ,∑的特征值和正交单位特征向量是j λ和j c ;∧∑是∑的极大似然估计,即)')((1)(1)(-=-∧--=∑∑X X X X n i n i i 。
∧∑的特征值为p τττ≥≥...21,j τ相应正交单位特征向量为j d ,则可证定理5.3 若X 服从正态分布,则j τ是j λ的极大似然估计;j d 是j c 的极大似然估计。
因此,若X 服从正态分布,应当用第j 个样本主成分X d j '作为总体主成分j Y 的估计值。
从样本协差阵或样本相关阵出发,做主成分分析,所得样本主成分通常简称为主成分。
通常取)')((11R )(1)(-=----=∑X X X X n i n i i 为样本协差阵(∑的无偏估计),由∧∑或R 算出的样本相关阵是相同的,所产生(相关差阵决定)的主成分当然相同。
而R 与∧∑有相同的特征向量,R 的特征值是∧∑特征值的n/(n-1)倍。
因而由R 与∧∑所产生的(协方差阵决定的)主成分相同。
若X 不一定服从正态分布,这时仍可由样本协差阵R 或相关阵ρ出发,计算主成分。