第五章 主成分分析(1)(主成分模型)
主成分分析(1)

主成分分析汇报什么?假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。
如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?需要高度概括在如此多的变量之中,有很多是相关的。
人们希望能够找出它们的少数“代表”来对它们进行描述。
需要把这种有很多变量的数据进行高度概括。
主成份分析与因子分析的作用,就是降维主成份分析可看成是因子分析的特例一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。
他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。
根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。
更有意思的是,这三个变量其实都是可以直接测量的。
斯通将他得到的主成分与实际测量的总收入I、总收入变化率ΔI以及时间t因素做相关分析,得到下表:F1F2F3i i t F11F201-0.0410.057l-0.0560.948-0.124-0.102l-0.369-0.282-0.836-0.414-0.1121什么是主成份分析主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。
在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。
第五章 因子分析和主成分分析

3. 子得分
计算因子得分的途径是用原有变量来描述因子, 第j个因子在第i个样本上的值可表示为: Fji = j1xi1 + j2xi2 +…+ jpxip (j = 1,2,…,k) 式中,xi1,xi2,…,xip分别是第1,2,…,p个原 有变量在第i个样本上的取值,j1,j2,…,jp分别 是第j个因子和第1,2,…,k个原有变量间的因子值 系数。可见,它是原有变量线性组合的结果(与因子 分析的数学模型正好相反),因子得分可看作各变量 值的加权(j1,j2,…,jp)总和,权数的大小表示了 变量对因子的重要程度。
用数据矩阵X的p个列向量(即p个指标向量)X1, X2,…,Xp作线性组合,得综合指标向量: F1 a11 X 1 a21 X 2 ... a p1 X p F a X a X ... a X 2 12 1 22 2 p2 p ...... Fp a1 p X 1 a2 p X 2 ... a pp X p 简写成: Fi = a1iX1 + ai2X2 +…+apiXp i = 1,2,…,p
2. 因子旋转(正交变换)
所谓因子旋转就是将因子载荷矩阵A右乘一个正交 矩阵T后得到一个新的矩阵A*。它并不影响变量Xi的 共同度hi2,却会改变因子的方差贡献qj2。因子旋转 通过改变坐标轴,能够重新分配各个因子解释原始 变量方差的比例,使因子更易于理解。
设p维可观测向量X满足因子模型:X = AF +ε。T为 正交阵,则因子模型可写为 X = ATT'F +ε = A*F* +ε 其中A* = AT,F* = T'F。 易知,∑ = AA' + D = A*A*' + D(其中A* = AT)。这 说明,若A,D是一个因子解,任给正交阵T,A* = AT, D也是因子解。在这个意义下,因子解是不惟一的。 由于因子载荷阵是不惟一的,所以可对因子载荷 阵进行旋转。目的是使因子载荷阵的结构简化,使 载荷矩阵每列或行的元素平方值向0和1两极分化, 这样的因子便于解释和命名。
主成分分析模型

来刻画了。
主成分的提取
Y Y 首先讨论第一项综合性指标 1 的确定。希望 1 能尽可能多地反映原来
p 项指标所反映的信息. 在主成分分析中采用方差来度量一个随机变量所包含的信息量。 Y1 的方差 Var Y1 Var l1 X l1D X l1 l1l1
l1 Y 因此,用于决定Y1 l1 X 的向量 ,使l1 l1 越大就意味着1 所含的信 l1 息越多。但如果不对 的模 l1 l1l1 施加一定限制,随着l1 将有 VarY1 ,而无法进行比较。
Y l X l X l X l X 1p p 1 1 11 1 12 2 Y2 l 21 X 1 l 22 X 2 l 2 p X p l 2 X Y l X l X l X l X mp p m m m1 1 m 2 2
主成分的解释与命名 提取的每个主成分
YkLeabharlann 都是原p个变量X 1 , , X p 的特定的线性组合
Yk lk X lk1 X 1 lk 2 X 2 lkp X p ,
主成分Yk 可看成是对原变量 X 1 , , X p 中某一类信息的综合。 原变量 X 1 , , X p 都有明确的实际含义,那么,在对它们进行线性组合后, 得到的新综合变量 有什么含义?如何解释呢? 这只能通过观察各组合系数
l k 1 , l k 2 , , l kp
Yk
的符号、 大小, 并结合原变量
Yk
Xi
的
实际含义加以提炼、归纳、找出共性,然后对主成分 的含义做出解释。
Spss软件实现
1.心血管疾病的主成分分析:spss 数据 :13-02 关注:数据格式、结果解读 2.抑郁症测试的主成分分析:spss 数据 :抑郁症资料
(完整版)主成分分析法的步骤和原理

(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。
[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。
(二)主成分分析法代数模型假设用p 个变量来描述研究对象,分别用X 1,X 2…X p 来表示,这p 个变量构成的p 维随机向量为X=(X 1,X 2…X p )t 。
设随机向量X 的均值为μ,协方差矩阵为Σ。
对X 进行线性变化,考虑原始变量的线性组合: Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1,Z 2……Z p ,并且Z 1是X 1,X 2…X p 的线性组合中方差最大者,Z 2是与Z 1不相关的线性组合中方差最大者,…,Z p 是与Z 1,Z 2 ……Z p-1都不相关的线性组合中方差最大者。
(三)主成分分析法基本步骤第一步:设估计样本数为n ,选取的财务指标数为p ,则由估计样本的原始数据可得矩阵X=(x ij )m ×p ,其中x ij 表示第i 家上市公司的第j 项财务指标数据。
第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。
第三步:根据标准化数据矩阵建立协方差矩阵R ,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。
其中,R ij (i ,j=1,2,…,p )为原始变量X i 与X j 的相关系数。
主成分分析完整版

主成分分析完整版一、主成分分析的原理1.标准化数据:先对原始数据进行标准化处理,以确保不同变量的尺度一致。
2.计算协方差矩阵:对标准化后的数据计算协方差矩阵,矩阵中的元素表示不同变量之间的相关性。
3.计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4.选择主成分:按照特征值的大小选择最重要的k个特征值和它们对应的特征向量,称之为主成分。
5.数据转换:将原始数据投影到选取的主成分上,得到降维后的数据。
二、主成分分析的方法1.方差解释比:主成分分析通过特征值展示了每个主成分的重要性。
方差解释比是计算每个主成分的方差所占总方差的比例。
选择解释总方差的比例较高的主成分,可以保留更多的信息。
2.累计方差解释比:累计方差解释比是计算前n个主成分的方差解释比之和。
通过选择累计方差解释比较高的主成分,可以保留更多的原始数据信息。
3.维度选择:主成分分析可以通过选择合适的主成分数来实现数据降维。
通过观察特征值的大小和累计方差解释比,可以选择合适的主成分数。
三、主成分分析的应用1.数据可视化:主成分分析可以将高维度的数据转换为低维度的数据,从而方便可视化。
通过在二维或三维空间中绘制主成分,可以更好地理解数据的分布和关系。
2.特征提取:主成分分析可以提取数据中的最重要特征,从而减少数据维度并保留主要信息。
特征提取可以在分类、聚类等问题中提高算法的效果。
3.数据压缩:主成分分析可以将高维度的数据压缩为低维度的数据,从而节省存储空间和计算时间。
压缩后的数据可以用于后续分析和处理。
4.噪音过滤:主成分分析通过保留数据中最重要的特征,可以减少噪音的影响。
通过滤波后的数据可以提高实验测量的准确性和稳定性。
综上所述,主成分分析是一种强大的数据降维技术,可以在许多领域中应用。
熟悉主成分分析的原理、方法和应用,对于理解数据和提升数据分析的能力具有重要意义。
主成分分析模型

x n1
21
22
ห้องสมุดไป่ตู้
x
n2
2 p x np
1p
则
S ( sij )
1 n sij ( xai xi )( xaj x j ) n a 1
rij sij sii s jj
而相关系数矩阵: R (rij )
1 S R X X n
p
i
, 。
因此第一主成分的贡献率就是第一主成分的 方差在全部方差 中的比值。这个比值越大, 表明第一主成分综合X1,……,Xp信息的能力越 强。
p i 1 i
前两个主成分的累计贡献率定义为 前k个主成分的累计贡献率定义为
k i 1
1 2
i
,
i 1 i
p
i
i 1
a1i a2i a pi 1
2
2
2
设∑的特征根分别为: 1 2 p 定义: 称第一主成分的贡献率为 Var( F ) 由于, 所以 Var( F ) Var(F1 ) 1
1 1 p p i 1 i i 1 i
1
i 1
(4)写出主成分
Fi a1iY1 a2iY2 a piYp
i 1,, k
(5)将k个主成分进行综合,综合成单个指标, 并得出最后排序结果
主成分进行综合常用的有以下三种方法。
将 k 个主成分综合成单指标评价,通常有以下三种 方法。 第一种方法,将累计贡献率达到 85% 的 k 个主成分 F1,F2,…,Fk做线性组合,并以每个主成分Fi的 方差贡献率i 作为权数构造一个综合评价函数:
《主成分分析模型》课件

主成分分析在实际生活中的应 用
主成分分析在股票价格预测、商品定价、产品优化和质量控制等领域应用广 泛。
主成分分析的局限性和应用前 景
主成分分析模型对输入变量的假定比较苛刻,且容易受到极端值和噪声干扰。 未来,随着数据科学技术的不断发展,这些限制有望得到缓解,主成分分析 模型的应用将更加广泛。
如何使用主成分分析模型?
进行调整。
3
建立回归模型
使用主成分建立回归模型,选择最优 变量。
预测结果分析
对模型预测结果进行分析,了解其背 后的原因。
主成分分析案例分析的结果解读
数据分析
通过主成分分析,我们得出该 公司的收入、成本和利润三个 主成分。
主成分解释
根据主成分系数矩阵,得出每 个主成分与原始数据的权重。
结果解读
解读主成分分析的结果,并提 出下一步优化的方向。
明确目的
确定主成分分析的目的和研 究对象。
选择变量
选择数据集中的相关变量, 并进行处理和标准化。
计算主成分
通过特征分解计算出主成分, 确定最具影响力的成分。
主成分分析的发展趋势
主成分分析在跨领域的交叉应用中将发挥越来越大的作用。未来,主成分分析模型将更加注重真实数据 的建模,有望成为精准数据科学的重要组成部分。
主成分分析的应用领域
金融
主成分分析可用于投资组合的优化、风险控制和股票价格预测。
医学
主成分分析可用于诊断和治疗疾病、分析药物疗效和评估病人风险。
工业
主成分分析可用于制造过程控制和质量管理。
主成分分析的优缺点
1 优点
降低数据维度、简化模型和提高模型准确性。
2 缺点
要求输入变量服从标准正态分布,可能会引入信息损失。
主成分分析

(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1,
X2,202…0/7/7,Xp,得到原始数据资料阵:
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线
性组合(即综合指标向量)为:
2020/7/7
6
简写成
(注意:Xi是n维向量,所以Fi也是 n 维向量) 上述方程组要求:
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不 过当时只对非随机变量来讨论的。1933年Hotelling将 这个概念推广到随机向量:
在实际问题中,研究多指标(变量)问题是经常遇到的,
然而在多数情况下,不同指标之间是有一定相关性。由于
一般情况,p个变量组成p维空间,n个样本就是p维 空间的n个点,对p元正态分布变量来说,找主成分的问 题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中,要用到线性代数中的两个定理先 作一下复习:
定理一 若矩阵A是p阶实对称阵,则一定可以找到 正交阵
定理二 若上述矩阵A的特征根所对应的单位特征向量
X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本,每个样本有p个变量记为X1,…,Xp,
它们的综合变量记为F1,F2,…,Fp。当p=2时,原变
量是X1,X2,设
指标较多再加上指标之间有一定的相关性,势必增加了分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章主成分分析与经验正交分解5.1主分量分析的数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机变量,是很必要的。
首先我们看一个例子。
几个数据集1、(1)身材情况能否用单个指标刻画(2)男女身材之间有什么异同chest waist hips gender chest waist hips gender34 30 32 male 36 24 35 female37 32 37 male 36 25 37 female38 30 36 male 34 24 37 female36 33 39 male 33 22 34 female38 29 33 male 36 26 38 female43 32 38 male 37 26 37 female40 33 42 male 34 25 38 female38 30 40 male 36 26 37 female40 30 37 male 38 28 40 female41 32 39 male 35 23 35 female2、subject maths english history geography chemistry physics1 60 70 75 58 53 422 80 65 66 75 70 763 53 60 50 48 45 434 85 79 71 77 68 795 45 80 80 84 44 463、air pollution in cities in the USA. The following variables were obtained for 1 US cities:SO2: SO 2 content of air in micrograms per cubic metre;temp: average annual temperature in degrees Fahrenheit;manu: number of manufacturing enterprises employing 20 or more workers;popul: population size (1970 census) in thousands;wind: average annual wind speed in miles per hour;precip: average annual precipitation in inches;predays: average number of days with precipitation per year.例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。
可是用这4个指标表达学生身材状况不方便。
但若用1y =3.63561x +3.32422x +2.47703x +2.16504x表示学生身体魁梧程度;用2y =-3.97392x +1.35821x +3.73233x -1.57294x表示学生胖瘦程度。
则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。
例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x , 4x )是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,4x 的特性。
类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。
寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。
主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。
主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。
但是i c 的模可以无限增大,从而使)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,使)'(X c D i 最大;通常取i c 的模为1最方便。
定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。
但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。
定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y , 0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。
当随机向量方差已知时,定理5.1给出主成分的计算公式。
定理5.1 设随机向量)',...(1p X X X =方差存在为∑。
∑特征值从大到小为p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。
则X 的第j 个主成分 为 j c 与X 的内积,即X c Y j j '= (5.1)且i i Y Var λ=)(证明:任取p 维单位向量c,必有∑∑==1,2j j j t c t c 。
于是∑=∑=j j t c c X c D λ2')'(,而在条件∑=12j t 下,当11=t ,0...2===p t t 即1c c =时,∑=j j t X c D λ2)'(最大,所以X 的第一主成分是1c 与X 的内积Xc Y '11=。
由条件0)',cov(1=X c Y ,可得0''11111===∑t c c c c λλ,于是X c t X c j pj j ''2∑==,从而∑==∑=pj j j t c c X c D 22')'(λ; 所以在条件c =1、0)',cov(1=X c Y 下,当2c c =时,c c X c D ∑=')'(最大,所以X 的第2个主成分为2c 与X 的内积X c Y '22=。
对第三,第四……主成分同样可证。
例5.2 设)',,(321X X X X =,且⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑=210131011)(X Var 则1λ=3.87939,'1c =[0.293128,-0.84403,-0.449099]2λ=1.6527,'2c =[0.449099,-0.293128,0.84403]3λ=0.467911,'3c =[0.84403,0.449099,-0.293128]所以第一主成分就是X c Y '11==0.2931281X -0.84403 2X -0.4490993X ; 第二主成分就是X c Y '22==0.4490991X -0.2931282X +0.844033X ; 第三主成分就是X c Y '33==0.844031X +0.4490992X -0.2931283X 。
它们的方差贡献分别是87939.3)(11==λY Var ;6527.1)(22==λY Var ;467911.0)(33==λY Var 。
5.2 相关系数阵和协方差阵的主分量分析在实际问题中,X 的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。
为了避免量纲对主成分的影响。
常常将随机变量都标化,即令)(/)(*i i i i X Var EX X X -=,它就是无量纲量,令*)'*,...(*1p X X X =再求X*的主成分,即标准化后的主成分。
将)(/)(*i i i i X Var EX X X -=代入,可求随机向量X 的主成分。
容易证明定理5.2 设随机向量X 的相关阵为ρ,ρ特征值为*...*1p λλ≥≥,j λ对应的彼此正交单位特征向量为*j c ,则标准化后X 的第j 个主成分是***T X c Y j j =。
因此,标准化后的主成分称为由相关阵决定的主成分。
直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。
同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。
这是因为优化的准则(目标函数)不同:前者要求)'(X c D =c c ∑'最大,而后者要求*)'(X c D ==c F F c 2/12/1'--∑最大,其中⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=)(0...)(0)(21p X D X D X D F 。
例 5.3 (协差阵和相关阵决定的主成分不同)设随机变量)',(21X X X =;其协方差阵是⎥⎦⎤⎢⎣⎡=∑100221,特征值和特征向量是)'9998.0,0202.0(,04.10011==c λ, )'0202.0,9998.0(,9596.022-==c λ。
因而由协方差阵决定的主成分是:2119998.00202.0X X Y +=,2120202.09998.0Y Y Y -=。
但随机变量X 标准化后得到)'1.01.0,(*)'*,(*221121μμ--==X X X X X ;其中2211,μμ==EX EX 。
X*的协差阵即X 的相关阵是⎥⎦⎤⎢⎣⎡=12.02.01ρ,其特征值和特征向量是 )'7071.0,7071.0(*,2000.1*11==c λ,)'7071.0,7071.0(*,8000.0*22-==c λ 从而由相关阵决定的主成分是:)(07071.0)(7071.0*7071.0*7071.0*2211211μμ-+-=+=X X X X Y)(07071.0)(7071.0*7071.0*7071.0*2211212μμ---=-=X X X X Y 。