主成分分析法实例
主成分分析之PCA

95
M
90
85
80
75
70
65
60 64 66 68 70 72 74 76 78 80 82 84
❖ 先假定数据只有二维,即只有两个 变量,它们由横坐标和纵坐标所代表; 因此每个观测值都有相应于这两个坐 标轴的两个坐标值;
❖ 如果这些数据形成一个椭圆形状的 点阵(这在变量的二维正态的假定下 是可能的).
F简化了系统结构,抓住了主要矛盾。
整理课件
35
稍事休息
§3.4 PCA的性质
一、两个线性代数的结论
1、若A是p阶实对称阵,则一定可以找到正交阵U,使
1 0 0
U1AU
0
2
0
0
0
p
pp
其中 i,i1.2. p是A的特征根。
2、若上述矩阵的特征根所对应的单位特征向量 为 u1,,up
例 设 x1,x2,x3的协方差矩阵为
1 2 0
2 5 0 0 0 2
解得特征根为
,,
15.8,32 2.00,30.17
0.383
U1
0 .924
0.000
0
U
2
0
1
0 .924
U
3
0
.383
0 .000
第 一 个 主 成 分 的 贡 献 率 为 5.83/ ( 5.83+2.00+0.17 ) =72.875%,尽管第一个主成分的贡献率并不小,但应该取 两个主成分。97.88%
❖ 注意,和二维情况类似,高维椭球的 主轴也是互相垂直的。这些互相正交 的新变量是原先变量的线性组合,叫 做主成分(principal component)。
主成分分析法实例

主成分分析法实例PCA的基本思想是将原始数据在坐标系下进行变换,使得各个坐标轴之间的相关性最小化。
在变换后的坐标系中,第一个主成分表示数据中方差最大的方向,第二个主成分表示与第一个主成分正交且方差次大的方向,以此类推。
因此,保留前k个主成分就可以达到降维的目的。
下面我们通过一个实例来详细介绍PCA的应用过程。
假设我们有一个二维数据集,其中包含了500个样本点,每个样本点具有两个特征。
我们首先需要对数据进行标准化处理,即对每个特征进行零均值化和单位方差化,这可以通过下面的公式实现:\[x_j' = \frac{x_j - \overline{x_j}}{\sigma_j}\]其中,\(x_j\)表示第j个特征的原始值,\(\overline{x_j}\)表示第j个特征的均值,\(\sigma_j\)表示第j个特征的标准差。
通过标准化处理后,我们可以得到一个均值为0,方差为1的数据集。
接下来,我们计算数据集的协方差矩阵。
协方差矩阵可以帮助我们衡量变量之间的相关性,它的第i行第j列的元素表示第i个特征与第j个特征的协方差。
\[Cov(X) = \frac{1}{n-1}(X - \overline{X})^T(X -\overline{X})\]其中,X是一个n行m列的矩阵,表示数据集,\(\overline{X}\)是一个n行m列的矩阵,表示X的每一列的均值。
协方差矩阵可以通过求解数据集的散布矩阵来得到,散布矩阵的定义如下:\[Scatter(X) = (X - \overline{X})^T(X - \overline{X})\]我们将协方差矩阵的特征值和特征向量求解出来,特征值表示每个特征方向上的方差,特征向量表示每个特征方向上的权重。
我们将特征值按照从大到小的顺序排序,选择前k个特征值对应的特征向量作为主成分。
最后,我们将数据集投影到选取的主成分上,得到降维后的数据集。
投影的过程可以通过下面的公式实现:\[y=XW\]其中,X是一个n行m列的矩阵,表示数据集,W是一个m行k列的矩阵,表示主成分。
利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。

第3题. 利用主成分分析法对我国各地区普通高等教育的发展水平进行综合评价。
近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。
但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异,不同的地区具有不同的特点。
对我国各地区普通高等教育的发展状况进行聚类分析,明确各类地区普通高等教育发展状况的差异与特点,有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状,分类制定相关政策,更好的指导和规划我国高教事业的整体健康发展。
遵循可比性原则,从高等教育的五个方面选取十项评价指标,具体见下图图1. 高等教育的十项评价指标指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值,具体数值见下表见表6,其中:1x 为每百万人口高等院校数;2x 为每十万人口高等院校毕业生数;3x 为每十万人口高等院校招生数;4x 为每十万人口高等院校在校生数;5x 为每十万人口高等院校教职工数;6x 为每十万人口高等院校专职教师数;7x 为高级职称占专职教师的比例;8x 为平均每所高等院校的在校生数;9x 为国家财政预算内普通高教经费占国内生产总值的比重;10x 为生均教育经费。
建模与求解:一构造原始数据矩阵X=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡1021x x x二使矩阵X标准化(程序见附录1)Z= 4.3685 3.9057 4.0909 4.1392 4.5401 4.5748 2.4120 0.39541.98622.6869 2.3854 2.4187 2.0965 1.9157 0.8299 1.13461.0221 1.4520 1.5048 1.3575 0.9509 1.0406 1.4024 1.09910.0952 0.2331 0.1895 0.2072 0.1326 0.1823 0.0558 0.53750.2342 0.3453 0.3790 0.3951 0.0988 0.1823 0.7080 0.72190.3918 0.3133 0.2898 0.2270 0.1495 0.1823 0.5775 -0.2813-0.0717 -0.0556 -0.0111 -0.0169 -0.0536 -0.0533 0.8638 0.2482 -0.1829 0.0086 -0.0223 -0.0136 -0.0649 -0.0701 0.4691 0.7675 -0.2756 -0.0396 0 -0.0466 -0.1383 -0.1374 0.2405 1.0602 -0.5166 -0.4405 -0.2564 -0.3168 -0.3696 -0.3899 0.7418 1.0264 -0.6371 -0.4245 -0.4124 -0.4091 -0.3696 -0.4067 0.4234 1.2987 -0.6279 -0.1358 -0.3344 -0.3959 -0.3922 -0.4235 0.4793 1.3884 -0.4981 -0.3924 -0.3567 -0.3663 -0.3414 -0.3562 -0.3371 0.4664 -0.4703 -0.3924 -0.3678 -0.3531 -0.3696 -0.3899 0.4979 0.4005 -0.3590 -0.3924 -0.2564 -0.3201 -0.3414 -0.3562 -0.0305 -0.03090.0396 -0.3122 -0.2341 -0.1191 -0.0705 -0.0196 -0.7098 -0.5435-0.1922 -0.2160 -0.2564 -0.2740 -0.3584 -0.3562 -0.1881 -0.4775 -0.3683 -0.2160 -0.3233 -0.2740 -0.2850 -0.2889 -0.7606 0.2939 -0.4054 -0.3764 -0.3121 -0.3729 -0.3696 -0.4067 -0.0509 -0.1155 -0.6093 -0.5047 -0.5239 -0.5113 -0.4543 -0.4572 0.4590 0.1806 -0.5444 -0.4886 -0.6019 -0.5640 -0.4656 -0.4740 -0.2660 -0.6889 -0.4425 -0.3764 -0.3455 -0.3531 -0.3358 -0.4067 -0.2220 0.2262 -0.5074 -0.5367 -0.4793 -0.4487 -0.4486 -0.4909 -0.4709 -0.0630 -0.3776 -0.3764 -0.5128 -0.4289 -0.3471 -0.3057 -0.4184 -0.59080.4103 -0.6490 -0.5462 -0.5410 -0.2906 -0.2384 -3.0524 -2.6580-0.6464 -0.5528 -0.5350 -0.5640 -0.4656 -0.5077 -0.2897 -0.0681 -0.6001 -0.6169 -0.5685 -0.5673 -0.4938 -0.5077 0.3065 -0.39800.1322 -0.2962 -0.3567 -0.3070 -0.2793 -0.2216 -1.2569 -1.4908-0.5630 -0.6971 -0.6911 -0.6860 -0.5051 -0.5245 -0.3388 -1.54320.2157 -0.4565 -0.5350 -0.4948 -0.3584 -0.2889 -2.0750 -2.2960三构造矩阵相关系数矩阵R(程序见附录2)R= 1.0000 0.9434 0.9528 0.9591 0.9746 0.9798 0.4065 0.06630.9434 1.0000 0.9946 0.9946 0.9743 0.9702 0.6136 0.35000.9528 0.9946 1.0000 0.9987 0.9831 0.9807 0.6261 0.34450.9591 0.9946 0.9987 1.0000 0.9878 0.9856 0.6096 0.32560.9746 0.9743 0.9831 0.9878 1.0000 0.9986 0.5599 0.24110.9798 0.9702 0.9807 0.9856 0.9986 1.0000 0.5500 0.22220.4065 0.6136 0.6261 0.6096 0.5599 0.5500 1.0000 0.77890.0663 0.3500 0.3445 0.3256 0.2411 0.2222 0.7789 1.00000.8680 0.8039 0.8231 0.8276 0.8590 0.8691 0.3655 0.11220.6609 0.5998 0.6171 0.6124 0.6174 0.6164 0.1510 0.0482四求出R的特征值和累积贡献率(程序见附录3)λ1= 7.5022贡献率τ1=λ1/10=75.0216%λ2= 1.577累积贡献率τ1+τ2=90.7915%λ3= 0.5362累积贡献率τ1+τ2+τ3=96.1536%λ4= 0.2064累积贡献率τ1+τ2+τ3+τ4=98.2174%可以看出,前两个特征根的累计贡献率就达到90%以上,主成分分析效果很好。
主成分分析

主成分分析主成分分析、因子分析等在多元统计分析中属于协方差逼近技术。
主要是从协方差矩阵出发,实现一种正交变换,从而将高维系统表示为低维系统,在此过程中可以揭示研究对象的许多性质和特征。
主成分分析的结果可以用于回归分析、聚类分析、神经网络分析等等。
只要懂得线性代数中二次型化为标准型的原理,就很容易掌握主成分分析的原理,进而掌握因子分析的原理。
在理解正交变换数学原理的基础上,我们可以借助Excel 开展主成分分析。
为了清楚地说明主成分的计算过程,不妨给出一个简单的计算实例。
【例】2000 年中国各地区的城、乡人口的主成分分析。
这个例子只有两个变量(m=2):城镇人口和乡村人口;31 个样品:即中国的31 个省、自治区和直辖市(n=31)。
资料来自2001 年《中国统计年鉴》,为2000 年全国人口普查快速汇总的11 月1 日零时数。
由于变量太少,这个例子仅仅具有教学意义——简单的实例更容易清楚地展示计算过程的细节。
计算步骤5.1.1 详细的计算过程首先,录入数据,并对数据进行适当处理(图5-1-1)。
计算的详细过程如下。
第一步,将原始数据绘成散点图主成分分析原则上要求部分变量之间具有线性相关趋势。
如果所有变量彼此之间不相关(即正交),则没有必要进行主成分分析,因为主成分分析的目的就是用正交的变量代替原来非正交的变量。
如果原始变量之间为非线性关系,则有必要对数据进行线性转换,否则效果不佳。
从图5-1-2 可见,原始数据具有非线性相关趋势,可以近似匹配幂指数函数,且测定系数R2=0.5157,相应地,相关系数R=0.7181(图5-1-2a);取对数之后,点列具有明显的线性趋势(图5-1-2b)。
第二步,对数据进行标准化标准化的数学公式为我们将对对数变换后的数据开展主成分分析,因此只对取对数后的数据标准化。
根据图5-1-1所示的数据排列,应该按列标准化,用xij 代表取对数之后的数据,则下式分别为第j 列数据的均值和标准差,xij 为第i 行(即第i 个样本)、第j 列(即第j 个变量)的数据,xij*为相应于xij 的标准化数据,n=31 为样品数目(参见图5-1-1)。
主成分分析实例及含义讲解PPT课件

.
1
汇报什么?
• 假定你是一个公司的财务经理,掌握了公司的所有数据,比如 固定资产、流动资金、每一笔借贷的数额和期限、各种税费、 工资支出、原料消耗、产值、利润、折旧、职工人数、职工的 分工和教育程度等等。
• 如果让你向上面介绍公司状况,你能够把这些指标和数字都原 封不动地摆出去吗?
• 当然不能。
.
25
• 这些系数所形成的散点图(在SPSS中也称载荷图)为
Component Plot in Rotated Space
.
12
• 对于我们的数据,SPSS输出为
Total Variance Explained
Initial EigenvEaxltureasction Sums of Squared Loadi
ComponT eo nt ta %l of VariCaunmcuelative T%ota %l of VariCaunmcuelative %
• 这些系数称为主成分载荷(loading),它表示主成分和相应的 原先变量的相关系数。
• 比 变量如的y1表相示关式系中数x为1的-0系.80数6。为-0.806,这就是说第一主成分和数学 • 相关系数(绝对值)越大,主成分对该变量的代表性也越大。可
以看得出,第一主成分对各个变量解释得都很充分。而最后的 几个主成分和原先的变量就不那么相关了。
y 1 - 0 .8 0 6 x 1 -0 .6 7 4 x 2 -0 .6 7 5 x 3 0 .8 9 3 x 4 0 .8 2 5 x 5 0 .8 3 6 x 6
y 2 0 .3 5 3 x 1 0 .5 3 1 x 2 0 .5 1 3 x 3 0 .3 0 6 x 4 0 .4 3 5 x 5 0 .4 2 5 x 6
主成分分析法

问题分析:问题2主要是找出金属污染的主要原因,首先要找出污染最严重的金属,结合问题1的求解,我们通过主成分分析法对各种金属污染的严重性进行了判定主成分分析法:重金属对人体的危害由金属元素的化学性质决定,根据十余项指标和九项参数对重金属的潜在毒性进行分类和排序,考评指标和参数如下:电离势、熔点、沸点、熔化热、汽化热、电化当量、结合能、离子半径、密度、电荷离子半径比、氧化性、离子奇偶性、挥发性。
结论如下:重金属潜在毒性排行榜:毒性大:Hg汞〉Cd镉〉Tl铊〉Pb铅〉Cr铬〉In铟〉Sn锡毒性中等:Ag银〉Sb锑〉Zn锌〉Mn锰〉Au金〉Cu铜〉Pr镨〉Ce 铈〉Co钴〉Pd钯〉Ni镍〉V钒〉Os锇〉Lu镥〉Pt铂〉Bi铋〉Yb镱〉Eu铕〉Ga镓〉Fe铁〉Sc钪〉Al铝〉Ti钛〉Ge锗〉Rh铑〉Zr锆毒性较小:Hf铪〉Ru钌〉Ir铱〉Tc锝〉Mo钼〉Nb铌〉Ta钽〉Re铼〉W钨〉Tm铥〉Dy镝〉Nd钕〉Er铒〉Ho钬〉Gd钆〉Tb铽〉La镧〉Y钇砷:一种三价和五价的非金属元素,旧称“砒”。
通常呈金属的铁灰色,结晶形,性脆。
砷常小量地被掺入合金(如用于制造子弹的砷-铅合金),其化合物主要用于制造毒剂(如杀虫剂)、药物和玻璃 [arsenic]——元素符号As由于砷是一种非金属元素,所以在重金属毒性排行榜中没有这个元素但是它的毒性却很强,仅次于汞,我们将它放到了第二位。
Hg>As>Cd>Pb>Cr>Zn>Cu>Ni我们采用主成分分析法来验证我们的猜测:X1、X2、X3、X4、X5、X6、X7、X8分别表示:Hg、As、Cd、Pb、Cr、Zn、Cu、NiZ:标准化矩阵x:采样值x:均值s:标准差R:相关性矩阵:特征值p:维度2s:方差1、对原始指标数据的标准化采集p 维随机向量x =X1,X2,...,X pp(p=8)个影响因素测量值x i = (x i1,x i2,...,x ip)T,i=1,2,…,n 构造样本阵,对样本阵元进行如下标准化变换:计算样本的均值:1nijijx xn==∑计算方差:2 21()1nij jijx x sn=-=-∑得标准化矩阵Z通过MATLAB计算出标准化矩阵Z=zscore(A)见附录12、对标准化阵Z 求相关系数矩阵其中,通过MATLAB计算出相关系数化矩阵R=corrcoef(A)见附录23、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按 确定m 值,使信息的利用率达85%以上,对每个λj ,j=1,2,...,m, 解方程组Rb = λj 得单位特征向量1b 、2b 、3b ……8b贡献率i V :1(1,2,,)ii pkk V i p λλ===∑累计贡献率i Q :11(1,2,,)ikk i pkk Q i p λλ====∑∑i Q =1ni i V =∑ n=1、2、3 (8)通过MATLAB 计算出特征向量,主成分贡献率,见附录3 [COEFF,LATENT,EXPLATNED]=pcacov(R) 表1因子分析结果以85%作为界限,从表1中可以看出只要取四个因子就足够了。
主成分分析实例及含义讲解

成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引 进主成分分析之前,先看下面的例子。
% of Variance Cumulative %
3.735
62.254
62.254
1.133
18.887
81.142
• 这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数 据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。 后面的特征值的贡献越来越少。
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相
关阵R来近似.因此,要寻找向量a使得a’Ra最大(注意相关阵 和协方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
12
• 对于我们的数据,SPSS输出为
T ot a l V ar i an c e E x pl a in e d
Initial Eigenvalues
Component
Total
% of Variance Cumulative %
1
3.735
62.254
62.254
2
1.133
18.887
81.142
3
.457
主成分分析实例及含义讲解

Component
MATH
1 -.806
2 .353
3 -.040
4 .468
PHYS
-.674
.531
-.454
-.240
CHEM
-.675
.513
.499
-.181
LITERAT
.893
.306
-.004
-.037
HISTORY
.825
.435
.002
.079
ENGLISH
.836
.425
.000
f1 11x1 12 x2 1p xp f2 21x1 22 x2 2 p xp
因子得分
fm m1x1 m2 x2 mp xp
20
因子分析的数学
• 因子分析需要许多假定才能够解. 具体来说.
21
• 对于我们的数据,SPSS因子分析输出为
.074
Extraction Method: Principal Component Analysis.
a. 6 components extracted.
5 .021
-.001 .002 .077
-.342 .276
6 .068
-.006 .003 .320
-.083 -.197
• 这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为 数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806, 0.674, -0.675, 0.893, 0.825, 0.836。
• 当然不能。 • 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说
清楚。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、主成分法:用主成分法寻找公共因子的方法如下:假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。
将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系:11111221221122221122....................p p p p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到X 得转换关系为:11112121212122221122....................p p p p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为:1111212112121222221122....................m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。
为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根i λ/i i i F Y λ=,1122m m λγλγλγ,则式子变为:1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致,这样,就得到了载荷A 矩阵和 初始公因子(未旋转)。
一般设A ∧为样本相关矩阵R 的特征根,12,,...,p γγγ为对应的标准正交化特征向量。
设m<p,则因子载荷矩阵A 的一个解为:A ∧=(1122,,...,m m λγλγλγ)共同度的估计为:222212...i i i im h a a a ∧∧∧∧=+++下面用主成分法分析以下数据:步骤:第一步,把Excel 中的数据导入到SPSS 中:File →Open →Data ; 第二步,数据标准化:Analyze →Descriptive Statistics →Descriptives 如图:第三步,检验数据:如图:得到结果如下:KMO 和Bartlett 的检验取样足够度的Kaiser-Meyer-Olkin 度量。
.754 Bartlett 的球形度检验近似卡方df 36Sig. .000Sig小于,所以该数据可用;第四步,用主成分法分析数据:Analyze→Dimension Reduction→Factor 如图:得到结果如下图:相关矩阵Zscore: 100固定资产原值实现值(%)Zscore:100元固定资产原值实现利税(%)Zscore:100元资金实现利税(%)Zscore:100元工业总产值实现利税(%)Zscore:100元销售收入实现利税(%)Zscore(每吨标准煤实现工业产值(元))Zscore(每千瓦时电力实现工业产值(元))Zscore:全员劳动生产率(元/人.年)Zscore:100元流动资金实现产值(元)相关Zscore: 100固定资产原值实现值(%).869 .770 .211 .920 .899 .795 .896Zscore: 100元固定资产原值实现利税(%).869 .978 .387 .472 .886 .804 .814 .849Zscore: 100元资金实现利税(%).770 .978 .523 .531 .797 .736 .740 .811Zscore: 100元工业总产值实现利税(%).387 .523 .323 .115 .125 .051Zscore: 100元销售收入实现利税(%).211 .472 .531 .323 .175 .260 .371 .317Zscore(每吨标准煤实现工业产值(元)).920 .886 .797 .115 .175 .877 .815 .768Zscore(每千瓦时电力实现工业产值(元)).899 .804 .736 .260 .877 .757 .818Zscore: 全员劳动生产率(元/人.年).795 .814 .740 .125 .371 .815 .757 .715Zscore: 100元流动资金实现产值(元).896 .849 .811 .051 .317 .768 .818 .715Communalities其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。
可以看到除100元工业总产值实现利税,100元销售收入实现利税和全员劳动生产率以外,主成分几乎包括了各个原始变量至少80%的信息。
解释的总方差成份初始特征值提取平方和载入合计方差的% 累积% 合计方差的% 累积%123 .6974 .3185 .1906 .1167 .029 .3248 .024 .2709 .002 .027提取方法:主成份分析。
由输出结果看到,前面2个主成分y1,y2的方差和占全部方差的比例为%.我们就选取1y 为第一主成分,2y为第二主成分,且这两个主成分之方差和占全部方差的%,即基本上保留了原来指标的信息,这样由原来的9个指标转化为2个新指标,起到了降维的作用。
Component Matrix aComponent1 2100固定资产原值实现值(%).931100元固定资产原值实现利税(%).976 .163100元资金实现利税(%).931 .322100元工业总产值实现利税(%).232 .863100元销售收入实现利税(%).433 .596每吨标准煤实现工业产值(元).923每千瓦时电力实现工业产值(元).897全员劳动生产率(元/人.年).871100元流动资金实现产值(元).899Extraction Method: Principal Component Analysis.a. 2 components extracted.成份得分系数矩阵成份12Zscore: 100固定资产原值实现值(%).213Zscore: 100元固定资产原值实现利税(%) .114 .156Zscore: 100元资金实现利税(%).072 .256Zscore: 100元工业总产值实现利税(%).567Zscore: 100元销售收入实现利税(%).406Zscore(每吨标准煤实现工业产值(元)).186Zscore(每千瓦时电力实现工业产值(元)) .198Zscore: 全员劳动生产率(元/人.年).148 .005Zscore: 100元流动资金实现产值(元).172提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法。
构成得分。
由上表得到两个主成分,12,y y 的线性组合为:11234567890.2130.1140.0720.1550.0650.1860.1980.1480.172y x x x x x x x x x *********=++--++++21234567890.1530.1560.2560.5670.4060.080.1280.050.051y x x x x x x x x x *********=-++++--+-成份得分协方差矩阵 成份 12 1 .0002.000成份得分协方差矩阵 成份 12 1 .0002.000提取方法 :主成分分析法。
旋转法 :具有 Kaiser 标准化的正交旋转法。
构成得分。
2、主轴因子法:假定m 个公因子只能解释原始变量的部分方差,利用公因子方差(或共同度)来代替相关矩阵对角线上的元素1,并以新得到的这个矩阵为出发点,对其分别求解特征根与特征向量并得到因子解。
在因子模型中,不难得到如下关于X 的相关矩阵R 的关系式:12,,...,m γγγ***式中,A 为因子载荷矩阵;ε∑为一对角阵,其对角元素为相应特殊因子的方差。
则称R R AA ε*'=-∑=为调整相关矩阵,显然R *的主对角元素不再是1,而是共同度2i h 。
分别求解R *的特征值与标准正交特征向量,进而求出因子载荷矩阵A 。
此时,R *有m 个正的特征值。
设12...m λλλ***≥≥≥为R *的特征根,12,,...,m γγγ***为对应的标准正交化特征向量。
m<p ,则因子载荷矩阵A 的一个主轴因子解为:A ∧=(1122,,...,m m λγλγλγ******)用轴因子法分析上述数据:Analyze →Dimension Reduction →Factor 如图:只需在这步把Methoct选择为Principal axis factoring(主轴因子法),其他的方法与主成分法一致。
得到的结果如下图:相关矩阵Zscore: 100固定资产原值实现值(%)Zscore:100元固定资产原值实现利税(%)Zscore:100元资金实现利税(%)Zscore:100元工业总产值实现利税(%)Zscore:100元销售收入实现利税(%)Zscore(每吨标准煤实现工业产值(元))Zscore(每千瓦时电力实现工业产值(元))Zscore:全员劳动生产率(元/人.年)Zscore:100元流动资金实现产值(元)相关Zscore: 100固定资产原值实现值(%).869 .770 .211 .920 .899 .795 .896Zscore: 100元固定资产原值实现利税(%).869 .978 .387 .472 .886 .804 .814 .849Zscore: 100元资金实现利税(%).770 .978 .523 .531 .797 .736 .740 .811Zscore: 100元工业总产值实现利税(%).387 .523 .323 .115 .125 .051Zscore: 100元销售收入实现利税(%).211 .472 .531 .323 .175 .260 .371 .317Zscore(每吨标准煤实现工业产值(元)).920 .886 .797 .115 .175 .877 .815 .768Zscore(每千瓦时电力实现工业产值(元)).899 .804 .736 .260 .877 .757 .818Zscore: 全员劳动生产率(元/人.年).795 .814 .740 .125 .371 .815 .757 .715Zscore: 100元流动资金实现产值(元).896 .849 .811 .051 .317 .768 .818 .715其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。