(新)第5章 主成分分析与经验正交分解

(新)第5章 主成分分析与经验正交分解
(新)第5章 主成分分析与经验正交分解

第5章主成分分析与经验正交分解

5.1

主分量分析的数学模型

当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。首先我们看一个例子。

例5.1 为了调查学生的身材状况,可以测量他们的身高(1x )、体重(2x )、胸围(3x )和坐高(4x )。可是用这4个指标表达学生身材状况不方便。但若用

1y =3.63561x +3.32422x +2.47703x +2.16504x

表示学生身体魁梧程度;用

2y =-3.97392x +1.35821x +3.73233x -1.57294x

表示学生胖瘦程度。则这两个指标(1y ,2y )很好概括了4个指标(1x -4x )。

例中,学生不同,身高(1x )、体重(2x )、胸围(3x )和坐高(4x )不同;(1x , 2x , 3x ,

4x )是4维随机向量;1y ,2y 是他们的2个线性组合,1y ,2y 能很好表示1x , 2x , 3x ,

4x 的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变

量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA 方法,见吴洪宝(2005)。

主成分分析的数学模型是:对于随机向量X ,想选一些常数向量i c ,用X c i '尽可能多反映随机向量X 的主要信息,也即)'(X c D i 尽量大。但是i c 的模可以无限增大,从而使

)'(X c D i 无限变大,这是我们不希望的;于是限定i c 模的大小,而改变i c 各分量的比例,

使)'(X c D i 最大;通常取i c 的模为1最方便。

定义5.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下 使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。

由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含1Y 的信息)。

定义5.2 若常数向量c=2c 在条件c =l ,0)',cov(1=X c Y 下,使)'(X c D 最大, 则称X c Y '22=是 X 的第二主成分;若常数向量c=3c 在条件c =l ,0)',cov(1=X c Y ,

0)',cov(2=X c Y 下,使)'(X c D 最大,则称X c Y '33=是 X 的第三主成分;…。

当随机向量方差已知时,定理5.1给出主成分的计算公式。

定理5.1 设随机向量)',...(1p X X X =方差存在为∑。∑特征值从大到小为

p λλλ≥≥≥...21,j λ对应的彼此正交单位特征向量为j c 。则X 的第j 个主成分

为 j c 与X 的内积,即

X c Y j j '= (5.1)

且i i Y Var λ=)(

证明:任取

p

维单位向量

c,必有∑∑==

1,2

j

j

j t

c t c 。于是

∑=∑=j j t c c X c D λ2')'(,

而在条件∑=12

j t 下,当11=t ,0...2===p t t 即1c c =时,∑=j j t X c D λ2)'(最大,所以X 的第一主成分是1c 与X 的内积X c Y '11=。由条件0)',cov(1=X c Y ,可得0''11111===∑t c c c c λλ,于是X c t X c j p

j j ''2∑==,从而

∑==∑=p

j j j t c c X c D 2

2')'(λ;

所以在条件c =1、0)',cov(1=X c Y 下,当2c c =时,c c X c D ∑=')'(最大,所以X 的第2个主成分为2c 与X 的内积X c Y '22

=。对第三,第四……主成分同样可证。

由证明过程可见:i i Y Var λ=)(。它称为第i 个主成分的方差贡献,表示第i 个主成分变化大小,从而反映第i 个主成分提供的信息的大小。 例5.2 设)',,(321X X X X =,且

????

?

?????--=∑=210131011)(X Var

1λ=3.87939,'1c =[0.293128,-0.84403,-0.449099]

2λ=1.6527,'2c =[0.449099,-0.293128,0.84403] 3λ=0.467911,'3c =[0.84403,0.449099,-0.293128]

所以第一主成分就是X c Y '11==0.2931281X -0.84403 2X -0.4490993X ;

第二主成分就是X c Y '22==0.4490991X -0.2931282X +0.844033X ; 第三主成分就是X c Y '33

==0.844031X +0.4490992X -0.2931283X 。

它们的方差贡献分别是87939.3)(11==λY Var ;6527.1)(22==λY Var ;

467911.0)(33==λY Var 。

定义5.3 ∑j

i λ

λ/

称为主成分i y 的方差贡献率;

∑∑

=j i k

i λλ/1

称为前k 个主成分的累计

方差贡献率;i y 与X 第k 个分量的相关系数),(k i x y ρ称为因子负荷量。

当某个主成分的方差贡献率很小时,认为它提供的信息很少,可以略去此主成分。通常取q,使前q 个主成分的累计方差贡献率达到70%-80%,然后只考虑前q 个主分量,用它们解释随机向量X 的特性,其余主成分认为是观测误差等随机因素造成的。

在实际问题中,X 的每一分量可取不同单位,单位取小时(例如长度单位取毫米,甚至微米)该分量的方差会变大,从而在主成分中变得突出;而单位选取不应影响主成分。为了避免量纲对主成分的影响。常常将随机变量都标化,即令)(/)(*i i i i X Var EX X X -=,它就是无量纲量,令*)'*,...(*1p X X X =再求X*的主成分,即标准化后的主成分。将

)(/)(*i i i i X Var EX X X -=代入,可求随机向量X 的主成分。容易证明

定理5.2 设随机向量X 的相关阵为ρ,ρ特征值为*...*1p λλ≥≥,j λ对应的彼此正交单位特征向量为*j c ,则标准化后X 的第j 个主成分是***T X c Y j

j =。

因此,标准化后的主成分称为由相关阵决定的主成分。直接由随机向量的协方差阵算出的主成分称为由协差阵决定的主成分。

同样一组随机变量,用它们的协差阵和相关阵求出的主成分是不一样的。这是因为优化的准则(目标函数)不同:前者要求)'(X c D =c c ∑'最大,而后者要求

*)'(X c D ==c F F c 2/12/1'--∑最大,其中

??????

????????=)(0...)(0)

(21p X D X D X D F 。

例 5.3 (协差阵和相关阵决定的主成分不同)设随机变量)',(21X X X =;其协方差阵是

?

?

?

???=∑100221,特征值和特征向量是)'9998.0,0202.0(,04.10011==c λ,

)'0202.0,9998.0(,9596.022-==c λ。因而由协方差阵决定的主成分是:

2119998.00202.0X X Y +=,

2120202.09998.0Y Y Y -=。

但随机变量X 标准化后得到)'1.01.0,(*)'*,(*221121μμ--==X X X X X ;其中

2211,μμ==EX EX 。

X*的协差阵即X 的相关阵是?

?

?

???=12.02.01ρ

,其特征值和特征向量是 )'7071.0,7071.0(*,2000.1*11==c λ,)'7071.0,7071.0(*,

8000.0*22-==c λ

从而由相关阵决定的主成分是:

)(07071.0)(7071.0*7071.0*7071.0*2211211μμ-+-=+=X X X X Y )(07071.0)(7071.0*7071.0*7071.0*2211212μμ---=-=X X X X Y 。

由于主成分由方差决定,可以略去常数,因而由相关阵得到的主成分可写为:

21107071.07071.0*X X Y += 21207071.07071.0*X X Y -=,

可见由协方差阵与相关阵决定的主成分不同。

5.2 样本主成分及其计算

5.2.1 样本主成分

实际问题中随机向量的协差阵、相关阵都是未知的,只能得到样品)()2()

1(,...,n X X X 。

这时总用样本协差阵与样本相关阵代替协差阵、相关阵求主成分。

定义5.4 样本协差阵与样本相关阵的特征向量,计算主成分。所得的主成分称为样本主成分。

这样求主成分是有道理的:若总体),(~∑μN X ,∑的特征值和正交单位特征向量是

j λ和j c ;∧

∑是∑的极大似然估计,即)')((1)

(1

)(-=-∧

--=∑∑X X X X n i n i i 。∧∑的特征值为

p τττ≥≥...21,j τ相应正交单位特征向量为j d ,则可证

定理5.3 若X 服从正态分布,则j τ是j λ的极大似然估计;j d 是j c 的极大似然估计。

因此,若X 服从正态分布,应当用第j 个样本主成分X d j '作为总体主成分j Y 的估计值。从样本协差阵或样本相关阵出发,做主成分分析,所得样本主成分通常简称为主成分。

通常取)')((11R )

(1

)(-=----=∑X X X X n i n i i 为样本协差阵(∑的无偏估计),由∧∑或R 算出的样本相关阵是相同的,所产生(相关差阵决定)的主成分当然相同。而R 与∧

∑有相同的特征向量,R 的特征值是∧

∑特征值的n/(n-1)倍。因而由R 与∧

∑所产生的(协方差阵决定的)主成分相同。

若X 不一定服从正态分布,这时仍可由样本协差阵R 或相关阵ρ出发,计算主成分。 同上节指出的一样:样本相关阵和样本协差阵决定的主成分是不同的。

5.2.2 SAS 软件计算样本主成分

样本主成分的计算量很大,通常用软件计算,以下介绍用SAS 软件计算的基本方法。 SAS 调用PRINCOMP 过程(即主成分过程)作主成分分析。PROC PRINCOMP 过程对输入资料文件执行主成分分析。其输入资料文件可以是原始数据,也可以是一个相关系数矩阵,或是协方差阵。输出资料则包括特征根、特征向量及标准化的主成分值。 主成分分析是一个多变量统计程序,可用来鉴定多个数值变量之间的关系。主成分分析除了用来概述变量之间的关系外,还可用来削减回归或集群分析中变量的数目。它的主要目的是求出一组变量的线性组合(即主成分),这些线性组合就是原变量矩阵的特征向量。每个向量的内积就是该向量对原变量群能解释的方差百分比。这些特征向量之间应该是彼此线性独立的。

PROC PRINCOMP 语法

PROC PRINCOMP DATA= SAS-data-set /*输入资料文件名称*/ OUT= SAS-data-set /*输出资料文件名称*/ OUTSTAT= SAS-data-set /*输出资料文件名称*/ NOINT

COVARIANCE(COV) N= n

STANDARD(STD)

PREFIX= name

NOPRINT

SINGULAR= value

VARDEF= DF|N|WEIGHT|WDF; 或N,或WGT,或WDF)

VAR variable-list; /*指明那些数值变量作主成分分析*/ PARTIAL variable-list;

FREQ variable;

WEIGHT variable;

BY variable-list;

调用PRLNCOMP过程时常用两个语句:即PROC PRINCOMP ,VAR。

(1)PROC PRINCOMP语句。

一般形式是 PROC PRINCOMP;其功能是调用PRINCOMP过程。加选项cov指示电脑用协差阵计算样本主成分,不加选项cov则电脑用相关阵计算主成分;加选项out=文件名,指示电脑将每个观测的主成分得分存入一个数据集,即“文件名”所表示的数据集,加选项n=k 指示电脑只计算k个主成分,不加选项n=k则电脑计算全部p个主成分。例如proc princomp data=wang1 out=wang2 n=3;指示电脑对数据集wang1中数据做主成分分析,求3个主成分,并将各次观测的主成分得分存入数据集wang2。

(2)VAR语句

其功能是规定要分析的变量。例如var x1-x3 u1 v2;表示将变量x1,x2,x3,u1,v作为随机向量进行主成分分析。

计算主成分固然重要,解释主成分的意义更重要。下面我们介绍用SAS作主成分分析的实例,并对于算出的主成分加以解释,希望学者对练习题中的主成分也试作解释。

例5.4 北京1951~1976年冬季的气温资料如表5-1,第一列为年度,第二列为该年12月的月平均温度。第三、四列为次年1、2月的月平均温度。试做主成分分析。

表 5-1 北京1951~1976年冬季月平均气温

解:因为所有变量单位相同,可用协方差阵求主成分。以变量year Dec Jan Feb分别表示年度、12月、1月、2月的温度。采用下列程序

data temperat; /*建立数据集temperat*/

input year Dec Jan Feb; /*建立变量year、Dec、Jan和Feb*/

cards; /*以下为数据体*/

1951 1.0 -2.7 -4.3

1952 -5.3 -5.9 -3.5

1953 -2.0 -3.4 -0.8

1954 -5.7 -4.7 -1.1

1955 -0.9 -3.8 -3.1

1956 -5.7 -5.3 -5.9

1957 -2.1 -5.0 -1.6

1958 0.6 -4.3 -0.2

1959 -1.7 -5.7 2.0

1960 -3.6 -3.6 1.3

1961 -3.0 -3.1 -0.8

1962 0.1 -3.9 -1.1

1963 -2.6 -3.0 -5.2

1964 -1.4 -4.9 -1.7

1965 -3.9 -5.7 -2.5

1966 -4.7 -4.8 -3.3

1967 -6.0 -5.6 -4.9

1968 -1.7 -6.4 -5.1

1969 -3.4 -5.6 -2.0

1970 -3.1 -4.2 -2.9

1971 -3.8 -4.9 -3.9

1972 -2.0 -4.1 -2.4

1973 -1.7 -4.2 -2.0

1974 -3.6 -3.3 -2.0

1975 -2.7 -3.7 0.1

1976 -2.4 -7.6 -2.2

; /*空语句,结束数据体*/

proc princomp cov; /* 用协差阵做主成分分析*/

var Dec Jan Feb; /* 对变量Dec Jan Feb 作主成分分析*/ run;

执行上述程序,得到得许多表,主要的是:基本统计量(Simple Statistic);协方差矩阵(Covariance Matrix);样本协差阵的特阵值表(Eigenvalues of the Covariance Matrix)、方差贡献、方差贡献率及累计方差贡献率;样本协差阵的特征向量表(即主成分的系数表,Eigenvectors)。这些表及分析如下

Eigenvalues

Eigenvalue Difference Proportion Cumulative

PRIN1 4.79742 2.06927 0.552919 0.55292

PRIN2 2.72815 1.57720 0.314429 0.86735

PRIN3 1.15095 . 0.132652 1.00000 上表是样本协差阵的特征值表(表头为Eigenvalues),其中PRIN1、PRIN2、PRIN3表示3个主成分,上表第2列给出样本协差阵的特征值,第4列给出方差贡献,第5列给出方差贡献累计百分比。由于前两个特阵值方差贡献累计百分比等于0.867354,它大于0.7,所以只需取两个主成分。

Eigenvectors

PRIN1 PRIN2 PRIN3

DEC 0.643587 0.709882 -.286116

JAN 0.213039 0.192899 0.957812

FEB 0.735126 -.677390 -.027085

上表是特征向量表(表头为Eigenvectors)上表给出所考察变量样本协差阵的特征向量(0.643587,0.213039,0.735126)’、(0.709882,0.192899,-0.677390)’和(-0.286116,0.957812,-0.027085)’。因此第一、二、三主成分分别是

y=0.643587Dec+0.213039Jan+0.735126Feb,

1

y=0.709882Dec+0.192899Jan-0.677390Feb,

2

y=-0.286116Dec+0.957812Jan-0.027085Feb

3

由于第一主成分中Dec,Feb系数是较大正数,Jan系数是较小正数,说明第一主成分主要表示冬季气温偏高的程度,由于1月分的系数变化较小,冬季气温偏高主要由12月,2月温度的偏高形成。第二主成分Dec系数与Feb系数反号较大,反映第二主成分主要表示12月与2月温度距平的反差,即12月温度距平减去2月温度距平所得值的反差。

例5.5 美国各州犯罪率情况如表5-2。试以murder(谋杀),rape(强奸),robbery(抢劫),assult(斗殴),burglary(夜盗),larceny(偷窃),auto(汽车犯罪)为7元随机向量,做主成分分析。

表 5-2 美国各州犯罪率(十万人中犯罪人数)

解:评估美国各州犯罪率时,用7种犯罪率为7维随机向量,以50个州的统计数据为50次观测。考虑不同犯罪的犯罪率差异很大,用相关阵计算主成分。采用程序

data crime; /*建立数据集crime*/

input state $ 1-15 murder rape robbery assult burglary larceny auto;

/*建立变量state murder rape robbery assult burglary larceny auto。state $ 1-15表示前15列存州名。murder rape robbery assult burglary larceny auto 表7种罪的犯罪率*/

cards; /*以下为数据体*/

Albama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7 Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3

Arirona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5

Arkansas 8.8 34.2 138.2 312.3 2346.1 4467.4 439.5

Califonia 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5

Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1 Conecticat 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2

Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0

Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4

Geogia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9

Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4

Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6

Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6

Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4

Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9

Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3

Kentaky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4

Loisana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7 Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9

Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5 Masschusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1

Michigan 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5

Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1

Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4

Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4

Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.3

Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1

Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2 Mew Hampashare 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4

New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5

New Maxico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5

New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8

North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1

North Dakoda 100.9 9.0 13.3 43.8 446.1 1843.0 144.7

Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4

Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8

Oregan 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9 Pennsyvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2

Rhode Island 3.6 10.5 86.5 201.0 1849.5 2844.1 791.4

South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1

South Dakoda 2.0 13.5 17.9 155.7 570.5 1704.4 147.5

Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0

Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6

Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5

Vermont 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2

Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7

Wasinton 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3 West Viginia 6.0 13.2 42.2 90.9 597.4 1341.7 163.3

Wiskonsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7

Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282.0

proc princomp out=crimprin; /*调用PRINCOMP过程,用相关阵做主成分分析*/ var murder rape robbery assult burglary larceny auto; /*对这7个变量做分析*/ run;

执行以上程序,电脑按相关阵做主成分分析;输出主要数表有:样本相关阵的特征值(表头为Eigenvalues of the Correlation Matrix)表,方差贡献、方差贡献率及累计方差贡献率;样本相关阵的特征向量(表头为Eigenvectors)。表及解释如下

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 3.81730007 2.78454963 0.5453 0.5453

2 1.03275044 0.22145080 0.1475 0.6929

3 0.81129963 0.14770303 0.1159 0.8088

4 0.66359660 0.35782066 0.0948 0.9036

5 0.30577594 0.06348335 0.0437 0.9472

6 0.24229259 0.11530785 0.0346 0.9819

7 0.12698474 0.0181 1.0000

Eigenvectors

Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 murder -.094836 0.893895 0.335604 0.264209 0.087862 0.037372 -.020129 rape 0.433768 0.218170 -.298382 -.102754 -.033667 -.772201 -.259286 robbery 0.398823 0.091935 0.367321 -.422729 -.696268 0.173693 0.062497 assult 0.39223 0.2585 -.37199 -.431946 0.445511 0.353752 0.361585 burglary 0.463531 -.067937 -.044742 0.305199 0.096792 0.445645 -.690946

larceny 0.402967 -.071041 -.14078 0.678773 -.216768 -.005623 0.55226 auto 0.335705 -.261558 0.709373 -.021882 0.501519 -.219929 0.123736

由特征值表(表头为 Eigenvalues of the Correlation Matrix ),第5列可见,前3个特征值所占比例之和为0.80,只要取3个主成分就够了。由特征向量表(表头为

Eigenvectors ),从第2列起,每列是1个特征向量。第1个特征向量各个分量值大体相同,近似于7/1=0.38;所以第1主成分表示各州犯罪程度的严重性。第2个特征向量各分量对应murder,rape , assult ,分量值为负的,对应burglary,larceny,auto 分量是正的,murder,rape, assult 暴力程度重, burglary,larceny,auto 暴力程度轻,因此第二主成分反映暴力程度的轻重,第二主成分的值越大,暴力成分越轻。第三主成分的特性不明显,不考虑。第一、第二主成分分别为:

y 1=0.303311murder+0.432675rape+0.391443robbery+0.401331assult +0.4434023burglary+0.361074larceny+0.29296226auto;

y 2=-0.6634076murder-0.167388rape+0.019456robbery-0.335621assult +0.237752burglary+0.391665 arceny+0.496972 auto

许多统计资料简化成样本协差阵,或样本相关阵;这时仍可用SAS 的princomp 过程计算,只是在data 步输入数据时要用“_type_=COV ”语句说明。

例5.6 测量雄龟甲的长、宽、厚,并求其自然对数,得到变量321,,X X X ;所得24只龟数据的协方差阵如下表,试作主成分分析。

表5.3 龟甲数据的协方差阵

??

??

?

?????=773.6005.6160.8005.6417.6019.8160.8019.8072.11*001.0S

由于观测资料已被处理为协方差阵,而协方差阵是对称的,只需要输入下三角阵即可,

协差阵乘以常数不改变特征向量和累积方差贡献率,所以0.001不用输入。我们采用如下程序

data turtle(type=cov); /*建立数据集turtle*/ _type_='cov'; /*数据集为协方差阵类型*/ input name $ x1-x3; /*建立变量name x1 x2 x3 */ cards; /*以下是数据体*/

x1 11.072 . . x2 8.019 6.417 . x3 8.160 6.005 6.773

; /*空语句,结束数据体*/

proc princomp COV; /*用协方差阵计算3个主成分*/ var x1-x3; /*对变量x1 x2 x3求主成分*/ run;

执行后电脑按相关阵做主成分分析;输出主要数表有:协方差阵的特征值(表头为Eigenvalues ),特征向量表(表头为Eigenvectors )。解释如下

Eigenvalues

Eigenvalue Difference Proportion Cumulative PRIN1 23.3035 22.7048 0.960493 0.96049

PRIN2 0.5987 0.2389 0.024676 0.98517

PRIN3 0.3598 . 0.014831 1.00000

上表是特征值表,由表第2列可见,特征值分别是23.303496、0.5986906、0.3598188;由上表第5列可见,第1特征值占总变差的96%,所以只需1个主成分,就能解释全部变化。

Eigenvectors

PRIN1 PRIN2 PRIN3

X1 0.683103 -.158344 -.712950

X2 0.510212 -.595012 0.621002

X3 0.522546 0.787964 0.325666

上是特征向量表,由表可见,第1主成分的系数0.683103、0.510212、0.522546相差不多,所以第1主成分表示龟甲的尺寸的自然对数和,即龟甲体积的自然对数。

5.3 主成分得分

实际问题中常需要知道主成分的值,例如例3中需要知道哪个州犯罪程度严重,哪个州犯罪程度较轻,这就需要计算每个州第一主成分的值;需要知道哪个州暴力犯罪严重,哪个州暴力犯罪较轻,这就需要计算每个州第二主成分的值。同时由于经验正交分解的需要和计算等原因,我们也往往要计算主成分得分。

将各变量值代入主成分的表达式,就能计算主成分的值。例如例2中北京气温的第一主成分是

prin1=0.643587Dec +0.213039Jan+0.735126Feb,

而1951年Dec、Jan、Feb的值分别是1.0、-2.7、-4.3;所以1951年第一主分量的值就是prin1=0.643587*1.0+0.213039*(-2.7)+0.735126*(-4.3)。

定义5.5当用样本协方差阵求主成分时,求各观测值距平(观测值减去其平均值),再代入主成分的公式,所得称为(协方差阵生成的)主成分得分。

例如例2中第一主成分是0.643587*Dec+0.213039*Jan+0.735126*Feb; Dec,Jan,Feb的样本均值分别是-2.74,-4.59,-2.27;1951年Dec,Jan,Feb的值分别是1.0,-2.7,-4.3;所以1951年(协方差阵生成的)的第一主成分得分就是

0.643587*(1.0+2.74)+0.213039*(-2.7+4.59)+0.735126*(-4.3+2.27)=1.32。

定义5.6当用样本相关阵阵求主成分时,将各观测标准化(观测值减去其平均值,除以样本标准差)再代入主成分的公式,所得称为(相关阵生成的)主成分得分。

例如例2用相关阵计算时,第一主成分是0.6388*Dec+0.5734*Jan+0.5129*Feb。而1951年标准化的Dec,Jan,Feb的值分别是2.013,1.613,-1.034;于是1951年的(相关阵生成的)第一主成分得分就是

6388*2.013+0.5734*1.613 +0.5129*(-1.034)=1.681

由主成分得分的值很容易算出主成分的值,但由于主成分得分与主成分的值差一常数,因而在比较各次观测主成分的值时,只需比较主成分得分的值即可。

SAS-PRINCOMP过程作主成分分析时,能计算主成分得分,在PROC PRINCOMP语句中加选

项OUT=文件名,主成分得分的值即存在该文件中。

例5.4(续)北京1951~1976年冬季的气温资料,求(协方差阵生成的)各年主成分得分。解:采用下列程序

data temperat;

input year Dec Jan Feb;

cards;

1951 1.0 -2.7 -4.3

1952 -5.3 -5.9 -3.5

1953 -2.0 -3.4 -0.8

1954 -5.7 -4.7 -1.1

1955 -0.9 -3.8 -3.1

1956 -5.7 -5.3 -5.9

1957 -2.1 -5.0 -1.6

1958 0.6 -4.3 -0.2

1959 -1.7 -5.7 2.0

1960 -3.6 -3.6 1.3

1961 -3.0 -3.1 -0.8

1962 0.1 -3.9 -1.1

1963 -2.6 -3.0 -5.2

1964 -1.4 -4.9 -1.7

1965 -3.9 -5.7 -2.5

1966 -4.7 -4.8 -3.3

1967 -6.0 -5.6 -4.9

1968 -1.7 -6.4 -5.1

1969 -3.4 -5.6 -2.0

1970 -3.1 -4.2 -2.9

1971 -3.8 -4.9 -3.9

1972 -2.0 -4.1 -2.4

1973 -1.7 -4.2 -2.0

1974 -3.6 -3.3 -2.0

1975 -2.7 -3.7 0.1

1976 -2.4 -7.6 -2.2

;

proc princomp cov out=prin; /*各次观测的主成分值存入数据集prin。*/

var Dec Jan Feb; /* 对变量Dec Jan Feb 作主成分分析*/

proc print data=prin; /* 打印数据集prin所存各次观测的的主成分得分*/ run;

proc sort data=prin; /*将主成分得分按第一主成分得分排序*/

by prin1;

proc print; /* 打印数据集排序后的各次观测的主成分得分*/ run;

proc sort data=prin; /*将主成分得分按第二主成分得分排序*/

by prin2;

proc print; /* 打印数据集排序后的各次观测的主成分得分*/

run;

执行上述程序,与例5.4相比,增加的SAS输出是下表,其中PRIN1、PRIN2、PRIN3分别表示第1、2、3主成分得分。

表5-4 北京冬季气温主成分得分

OBS YEAR DEC JAN FEB PRIN1 PRIN2 PRIN3

1 1951 1.0 -2.7 -4.3 1.32159 4.39464 0.79664

2 1952 -5.

3 -5.9 -3.5 -2.82663 -1.23681 -0.48750

3 1953 -2.0 -3.

4 -0.8 1.81464 -0.24090 0.88972

4 1954 -5.7 -4.7 -1.1 -1.06412 -2.91502 0.71132

5 1955 -0.9 -3.8 -3.1 0.74659 2.02081 0.25417

6 1956 -5.

7 -5.3 -5.9 -4.72054 0.22071 0.26664

7 1957 -2.1 -5.0 -1.6 0.82132 -0.07862 -0.59250

8 1958 0.6 -4.3 -0.2 3.73731 1.02475 -0.73246

9 1959 -1.7 -5.7 2.0 3.57608 -2.36830 -1.47492

10 1960 -3.6 -3.6 1.3 2.28606 -2.83781 1.09907

11 1961 -3.0 -3.1 -0.8 1.23497 -0.89291 1.46318

12 1962 0.1 -3.9 -1.1 2.83912 1.35662 -0.18190

13 1963 -2.6 -3.0 -5.2 -1.72085 2.39084 1.56369

14 1964 -1.4 -4.9 -1.7 1.21963 0.50533 -0.69429

15 1965 -3.9 -5.7 -2.5 -1.14787 -0.88178 -0.72358

16 1966 -4.7 -4.8 -3.3 -2.05911 -0.73417 0.38901

17 1967 -6.0 -5.6 -4.9 -4.24241 -0.72751 0.03805

18 1968 -1.7 -6.4 -5.1 -1.79244 2.30614 -1.95308

19 1969 -3.4 -5.6 -2.0 -0.43721 -0.84625 -0.78440

20 1970 -3.1 -4.2 -2.9 -0.60750 0.24643 0.49508

21 1971 -3.8 -4.9 -3.9 -1.94226 0.29187 0.05198

22 1972 -2.0 -4.1 -2.4 0.48932 0.70789 0.26259

23 1973 -1.7 -4.2 -2.0 0.95514 0.63061 0.07014

24 1974 -3.6 -3.3 -2.0 -0.07594 -0.54455 1.47579

25 1975 -2.7 -3.7 0.1 1.96183 -1.40534 0.77828

26 1976 -2.4 -7.6 -2.2 -0.36673 -0.38669 -2.98072

Obs year Dec Jan Feb Prin1 Prin2 Prin3

1 1956 -5.7 -5.3 -5.9 -4.72054 0.22071 0.26664

2 1967 -6.0 -5.6 -4.9 -4.24241 -0.72751 0.03805

3 1952 -5.3 -5.9 -3.5 -2.82663 -1.23681 -0.48750

4 1966 -4.7 -4.8 -3.3 -2.05911 -0.73417 0.38901

5 1971 -3.8 -4.9 -3.9 -1.9422

6 0.2918

7 0.05198

6 1968 -1.

7 -6.4 -5.1 -1.79244 2.30614 -1.95308

7 1963 -2.6 -3.0 -5.2 -1.72085 2.39084 1.56369

8 1965 -3.9 -5.7 -2.5 -1.14787 -0.88178 -0.72358

9 1954 -5.7 -4.7 -1.1 -1.06412 -2.91502 0.71132

10 1970 -3.1 -4.2 -2.9 -0.60750 0.24643 0.49508

11 1969 -3.4 -5.6 -2.0 -0.43721 -0.84625 -0.78440

12 1976 -2.4 -7.6 -2.2 -0.36673 -0.38669 -2.98072

13 1974 -3.6 -3.3 -2.0 -0.07594 -0.54455 1.47579

14 1972 -2.0 -4.1 -2.4 0.48932 0.70789 0.26259

15 1955 -0.9 -3.8 -3.1 0.74659 2.02081 0.25417

16 1957 -2.1 -5.0 -1.6 0.82132 -0.07862 -0.59250

17 1973 -1.7 -4.2 -2.0 0.95514 0.63061 0.07014

18 1964 -1.4 -4.9 -1.7 1.21963 0.50533 -0.69429

19 1961 -3.0 -3.1 -0.8 1.23497 -0.89291 1.46318

20 1951 1.0 -2.7 -4.3 1.32159 4.39464 0.79664

21 1953 -2.0 -3.4 -0.8 1.81464 -0.24090 0.88972

22 1975 -2.7 -3.7 0.1 1.96183 -1.40534 0.77828

23 1960 -3.6 -3.6 1.3 2.28606 -2.83781 1.09907

24 1962 0.1 -3.9 -1.1 2.83912 1.35662 -0.18190

25 1959 -1.7 -5.7 2.0 3.57608 -2.36830 -1.47492

26 1958 0.6 -4.3 -0.2 3.73731 1.02475 -0.73246

Obs year Dec Jan Feb Prin1 Prin2 Prin3

1 1954 -5.7 -4.7 -1.1 -1.0641

2 -2.91502 0.71132

2 1960 -3.6 -3.6 1.

3 2.28606 -2.83781 1.09907

3 1959 -1.7 -5.7 2.0 3.57608 -2.36830 -1.47492

4 197

5 -2.7 -3.7 0.1 1.96183 -1.40534 0.77828

5 1952 -5.3 -5.9 -3.5 -2.82663 -1.23681 -0.48750

6 1961 -3.0 -3.1 -0.8 1.2349

7 -0.89291 1.46318

7 1965 -3.9 -5.7 -2.5 -1.14787 -0.88178 -0.72358

8 1969 -3.4 -5.6 -2.0 -0.43721 -0.84625 -0.78440

9 1966 -4.7 -4.8 -3.3 -2.05911 -0.73417 0.38901

10 1967 -6.0 -5.6 -4.9 -4.24241 -0.72751 0.03805

11 1974 -3.6 -3.3 -2.0 -0.07594 -0.54455 1.47579

12 1976 -2.4 -7.6 -2.2 -0.36673 -0.38669 -2.98072

13 1953 -2.0 -3.4 -0.8 1.81464 -0.24090 0.88972

14 1957 -2.1 -5.0 -1.6 0.82132 -0.07862 -0.59250

15 1956 -5.7 -5.3 -5.9 -4.72054 0.22071 0.26664

16 1970 -3.1 -4.2 -2.9 -0.60750 0.24643 0.49508

17 1971 -3.8 -4.9 -3.9 -1.94226 0.29187 0.05198

18 1964 -1.4 -4.9 -1.7 1.21963 0.50533 -0.69429

19 1973 -1.7 -4.2 -2.0 0.95514 0.63061 0.07014

20 1972 -2.0 -4.1 -2.4 0.48932 0.70789 0.26259

21 1958 0.6 -4.3 -0.2 3.73731 1.02475 -0.73246

22 1962 0.1 -3.9 -1.1 2.83912 1.35662 -0.18190

23 1955 -0.9 -3.8 -3.1 0.74659 2.02081 0.25417

24 1968 -1.7 -6.4 -5.1 -1.79244 2.30614 -1.95308

25 1963 -2.6 -3.0 -5.2 -1.72085 2.39084 1.56369

26 1951 1.0 -2.7 -4.3 1.32159 4.39464 0.79664

以上是26年观测资料与每年没排序和排序后的第1,2,3主成分得分,分别用变量

prin1,prin2,prin3表示。

从主成分得分表可见1958,1959年第1主成分最强(冬季温度偏高),1956年第1主成分负方向最强(冬季温度偏低),1974年第1主成分绝对值最小(冬季温度最接近常年);1951年第2主成分最强(12月比2月温度高得多),1954年第2主成分负方向最强(12月温度比2月温度低得多),1957年第2主成分绝对值最小(12月温度与2月温度差接近历年平均值)。

例5.5(续)对于例5-5美国各州犯罪率数据求主成分得分。为了比较各州犯罪轻重程度和比较各州暴力犯罪轻重程度,分别按第一、第二主成分得分排序后输出,采用下列程序:data crime; /*建立数据集crime*/

input state $ 1-15 murder rape robbery assult burglary larceny auto;

/*建立变量state murder rape robbery assult burglary larceny auto。state $ 1-15表示前15列存州名。murder rape robbery assult burglary larceny auto 表7种罪的犯罪率*/

cards; /*以下为数据体*/

Albama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7

Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3

Arirona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5

Arkansas 8.8 34.2 138.2 312.3 2346.1 4467.4 439.5

Califonia 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5

Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1

Conecticat 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2

Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0

Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4

Geogia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9

Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4

Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6

Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6

Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4

Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9

Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3

Kentaky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4

Loisana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7

Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9

Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5

Masschusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1

Michigan 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5

Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1

Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4

Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4

Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.3

Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1

Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2

Mew Hampashare 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4

New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5

New Maxico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5

New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8

North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1

North Dakoda 100.9 9.0 13.3 43.8 446.1 1843.0 144.7

Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4

Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8

Oregan 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9

Pennsyvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2

Rhode Island 3.6 10.5 86.5 201.0 1849.5 2844.1 791.4

South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1

South Dakoda 2.0 13.5 17.9 155.7 570.5 1704.4 147.5

Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0

Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6

Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5

Vermont 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2

Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7

Wasinton 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3

West Viginia 6.0 13.2 42.2 90.9 597.4 1341.7 163.3

Wiskonsin 2.8 12.9 52.2 63.7 846.9 2614.2 220.7

Wyoming 5.4 21.9 39.7 173.9 811.6 2772.2 282.0

proc princomp out=crimprin n=2;

var murder rape robbery assult burglary larceny auto;

run;

proc sort data=crimprin out=sortprin1;

by prin1; /*将数据集crimprin第一主成分按照从小到大顺序,重新排序*/ run;

proc print data=sortprin1;

var state prin1; /*打印第一主成分和州名*/

run;

proc sort data=crimprin out=sortprin2;

by prin2; /*将数据集crimprin第二主成分按照从小到大顺序,从新排序*/ run;

proc print data=sortprin2;

var state prin2; /*打印第二主成分和州名*/

run;

执行此程序计算了2个主成分得分,存入数据集crimprin,分别记为 PRIN1、PRIN2。按主成分大小顺序相同将第1主成分得分从小到大排序后打印,得到的输出是

表 5-5美国各州犯罪第一主成分得分排序表(从小到大)

Obs state Prin1

1 North Dakoda -4.24229

2 West Viginia -3.18590

3 South Dakoda -2.86744

4 Mississippi -2.26684

……………………

47 Arkansas 2.83175

48 New York 3.18532

49 Califonia 3.94339

50 Nevada 4.56461

由上表可见North Dakoda州的犯罪程度最轻,Nevada州的犯罪程度最重。

将第2主成分得分排序后打印,得到的主要输出是

表5-6 美国各州犯罪第二主成分得分排序表(从小到大)

Obs state Prin2

1 Masschusetts -1.44958

2 Rhode Island -1.40935

3 Conecticat -1.00923

4 Mew Hampashare -0.97043

. . .

47 Nevada 0.90345

48 Loisana 0.93489

49 South Carolina 1.15880

50 North Dakoda 5.60596

由上表可见Masschusetts州的暴力犯罪趋势最轻,North Dakoda州的暴力犯罪趋势最重。

5.4 主成分聚类与主成分回归

5.4.1 变量聚类与样品分类

主成分分析可用于聚类:变量聚类与样品聚类。

变量聚类:由主成分系数的差异,可将变量聚类。例如例5.5中第2主成分中murder,rape, assult系数为负的, burglary,larceny, auto系数是正的。按系数正负可把7个变量分为两类: murder, rape, assult属于暴力程度严重的一类;burglary,larceny,auto属于暴力程度较轻的一类。按照这种方法,根据主成分系数的正负可以将变量聚类。

样品聚类:如果2个主成分能很好的概括随机向量的信息,计算每个样品的这两个主成分得分,把他们的散点图画出来,就能从图上将样品分类。

例5.5(续2)按照第一、第二主成分得分,画出散点图

data crime; /*建立数据集crime*/

input state $ 1-15 murder rape robbery assult burglary larceny auto;

/*建立变量state murder rape robbery assult burglary larceny auto。state $ 1-15表示前15列存州名。murder rape robbery assult burglary larceny auto 表7种罪的犯罪率*/

cards; /*以下为数据体*/

Albama 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7

Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3

Arirona 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5

Arkansas 8.8 34.2 138.2 312.3 2346.1 4467.4 439.5

Califonia 11.5 49.4 287.0 358.0 2139.4 3499.8 663.5 Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1 Conecticat 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2 Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0 Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4 Geogia 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9 Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 489.4 Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6 Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6 Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4 Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 219.9 Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3 Kentaky 10.1 19.1 81.1 123.3 872.2 1662.1 245.4 Loisana 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7 Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9 Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5 Masschusetts 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1 Michigan 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5 Minnesota 2.7 19.5 85.9 85.8 1134.7 2559.3 343.1 Mississippi 14.3 19.6 65.7 189.1 915.6 1239.9 144.4 Missouri 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4 Montana 5.4 16.7 39.2 156.8 804.9 2773.2 309.3 Nebraska 3.9 18.1 64.7 112.7 760.0 2316.1 249.1 Nevada 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2 Mew Hampashare 3.2 10.7 23.2 76.0 1041.7 2343.9 293.4 New Jersey 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5 New Maxico 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5 New York 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8 North Carolina 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1 North Dakoda 100.9 9.0 13.3 43.8 446.1 1843.0 144.7 Ohio 7.8 27.3 190.5 181.1 1216.0 2696.8 400.4 Oklahoma 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8 Oregan 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9 Pennsyvania 5.6 19.0 130.3 128.0 877.5 1624.1 333.2 Rhode Island 3.6 10.5 86.5 201.0 1849.5 2844.1 791.4 South Carolina 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1 South Dakoda 2.0 13.5 17.9 155.7 570.5 1704.4 147.5 Tennessee 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0 Texas 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6 Utah 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5 Vermont 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2 Virginia 9.0 23.3 92.1 165.7 986.2 2521.2 226.7 Wasinton 4.3 39.6 106.2 224.8 1605.6 3386.9 360.3 West Viginia 6.0 13.2 42.2 90.9 597.4 1341.7 163.3

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

PCA主成分分析计算步骤

主成分分析( Principal Component Analysis , PCA )是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n*m 的数据矩阵, n 通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面, PCA 就是这样一种分析方法。 PCA 的目标是寻找 r ( r

经验模态分解和算法

经验模态分解和算法 摘要——黄提出了经验模态分解(EMD)的数据处理方法,也对这种技术应用的有效性进行了讨论。许多变种算法(新的停止准则,即时版本的算法)也产生出来。数值模拟用来作经验性的评估执行单元运用于语音识别和分离方面,得出的实验结果认为这种方法是根据自适应的常数Q的滤波器组提出的。 1.介绍 近来,一种被称为EMD的新的非线性方法被黄等人提出,这种方法能够自适应的把非平稳信号分解成一系列零均值的AMFM信号(调频调幅) 的总和。尽管这种方法经常有着显著的效果,但是这个方法在算法方面的定义是困难的,因此这种方法没有作为一种分析方法得到承认,一般一种分析方法是需要有理论分析和性能评估。因此本文的目的是用实验的方式使得该算法更容易理解,并且提出了基于原算法的各种各样的改进的算法。设置实验性能评估的许多初始条件是为了获取一种有效的分解并且使得该算法更容易理解。 2.EMD基础 EMD的出发点是把信号内的震荡看作是局部的。实际上,如果我们要看评估信号x(t)的2个相邻极值点之间的变化(2个极小值,分别在t-和t+处),我们需要定义一个(局部)高频成分{d(t),t-<=t<=t+}(局部细节),这个高频成分与震荡相对应,震荡在2个极小值之间并且通过了极大值(肯定出现在2极小值之间)。为了完整这个图形,我们还需要定义一个(局部)低频成分m(t)(局部趋势),这样x(t)=m(t)+d(t),(t-<=t<=t+)。对于整个信号的所有震动成分,如果我们能够找到合适的方法进行此类分解,这个过程可以应用于所有的局部趋势的残余成分,因此一个信号的构成成分能够通过迭代的方式被抽离出来。 对于一个给定的信号x(t),进行有效的EMD分解步骤如下: 1)找出想x(t)的所有极值点 2)用插值法对极小值点形成下包络emint(t),对极大值形成上包络emax(t) 3)计算均值m(t)=(emint(t)+emax(t))/2 4)抽离细节d(t)=x(t)-m(t) 5)对残余的m(t)重复上诉步骤 在实际中,上述过程需要通过一个筛选过程进行重定义,筛选过程的第一个迭代步骤是对细节信号d(t)重复从1-4步,直到d(t)的均值是0,或者满足某种停止准则才停止迭代。一旦满足停止准则,此时的细节信号d(t)就被称为IMF,d(t)对应残量信号用第5步计算。通过以上过程,极值点的数量伴随着残量信号的产生而越来越少,整个分解过程会产生有限个模函数(IMF)。 模函数和残量信号可以进行谱分析,但是这个谱分析不能从狭隘的角度来看。首先,需要强调一下,即使是谐振荡,应用上述方法产生的高频和低频也只是局部的,没办法产生一个预设的频带过滤(例如小波变换)进行辨识。选择的模函数对应了一个自适应(依赖于信号自身的)的时变滤波器。一个这方面的例子:一个信号由3个部分组成(这3个部分是时间频率上都明显叠加的信号),用上述方法成功的分解了。分解如图1所示。这个例子的程序是emd_fmsin2.m 另外一个例子(emd_sawtooth.m)强调了EMD潜在的非谐振性质如图2所示。在这些例子中,线性的非线性的震荡都能被有效的识别和分离。因而,任何谐振分析(傅里叶,小波,…)可能结束在同类文章中,更少的紧凑和更少的实际意义的分解。 3.算法的改进 正如第二部分所定义的,EMD算法依赖于一系列的选项,这些选项需要用户控制,并且需要专业的知识。在此我们的目的找出更准确的选项,并且给予原来的算法进行改进。3.1采样率,插值方法和边缘效应

主成分分析

确定权重方法之一:主成分分析 什么是权重呢?所谓权重,是指某指标在整体评价中的相对重要程度。权重越大则该指标的重要性越高,对整体的影响就越高。 权重要满足两个条件:每个指标的权重在0、1之间。所有指标的权重和为1。 权重的确定方法有很多,这里我们学习用主成分分析确定权重。 一、主成分基本思想: 图1 主成分基本思想的问与答

二、利用主成分确定权重 如何利用主成分分析法确定指标权重呢?现举例说明。 假设我们对反映某卖场表现的4项指标(实体店、信誉、企业形象、服务)进行消费者满意度调研。调研采取4级量表,分值越大,满意度越高。现回收有效问卷2000份,并用SPSS 录入了问卷数据。部分数据见下图(详细数据见我的微盘,下载地址为 https://www.360docs.net/doc/347524636.html,/s/yR83T)。 图2 主成分确定权重示例数据(部分)

1、操作步骤: Step1:选择菜单:分析——降维——因子分析 Step2:将4项评价指标选入到变量框中 Step3:设置选项,具体设置如下: 2、输出结果分析 按照以上操作步骤,得到的主要输出结果为表1——表3,具体结果与分析如下:表1 KMO 和Bartlett 的检验

表1是对本例是否适合于主成分分析的检验。KMO的检验标准见图3。 图3 KMO检验标准 从图3可知,本例适合主成分分析的程度为…一般?,基本可以用主成分分析求权重。 表2 解释的总方差 从表2可知,前2个主成分对应的特征根>1,提取前2个主成分的累计方差贡献率达到94.513% ,超过80%。因此前2个主成分基本可以反映全部指标的信息,可以代替原来的4个指标(实体店、信誉、企业形象、服务)。

主成分分析法的原理应用及计算步骤..

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不

经验模态分解及其雷达信号处理

0引言 当今信息时代,快速、高效的数据处理技术在科学研究、 工程应用乃至社会生活的方方面面都起着重要的作用。伴随着计算机技术的兴起,频谱分析被广泛应用于工程实践。但 Fourier 变换要求信号满足Dirichlet 条件,即对信号进行平稳 性假设,而现实中大量存在的是非平稳信号。针对Fourier 变换的不足,短时Fourier 变换(Short Time Fourier Transform , STFT ),即通过对一个时间窗内的信号进行Fourier 变换,分 析非平稳信号。虽然STFT 具有时频分析能力,但它具有固定 的时频分辨率,且难以找到合适的窗函数。而时频分析方法中的Wigner-Ville 分布存在严重的交叉项,会造成虚假信息的出现。小波变换具有可变的时频分析能力,在图像压缩和边缘检测等领域得到成功应用。但小波基不能自动更换,而且对众多小波基的合理选取也是一个难题。小波变换本质上是一种可变窗的Fourier 变换[1]。总之,这些方法没有完全摆脱 Fourier 变换的束缚,从广义上说都是对Fourier 变换的某种修 正,而且其时频分辨能力受到Heisenberg 不确定原理的制约。 Huang 等[1]在1998年提出了经验模态分解(Empirical 经验模态分解及其雷达信号处理 摘要 为了准确估计信号的瞬时频率,可用经验模态分解(EMD )将信号分解成有限个窄带信号。该方法因具有很强的自适应性及 处理非平稳信号的能力而引起广泛关注,已在众多工程领域得到应用。但EMD 是基于经验的方法,数值仿真和试验研究仍是分析 EMD 算法的主要方法。本文总结了EMD 算法存在的问题,并指出深入挖掘支持该方法的理论基础是消除制约EMD 算法进一步发 展和应用推广的关键。针对所存在的问题,从改进筛分停止准则、抑制端点效应、改进包络生成方法和解决模态混叠问题等诸方面阐述了改进EMD 算法的研究进展。综述了EMD 在雷达信号处理领域的应用。最后分析指出了进一步研究EMD 的几个主要方向。 关键词经验模态分解(EMD );希尔伯特-黄变换(HHT );时频信号分析;雷达信号处理 中图分类号TN911.7文献标识码A 文章编号1000-7857(2010)10-0101-05 杨彦利,邓甲昊 北京理工大学机电学院;机电工程与控制重点实验室,北京100081 Empirical Mode Decomposition and Its Application to Radar Signal 收稿日期:2010-03-24 作者简介:杨彦利,博士研究生,研究方向为探测、制导与控制,电子信箱:yyl070805@https://www.360docs.net/doc/347524636.html, ;邓甲昊(通信作者),教授,研究方向为中近程目标探测、 信号处理及感知与自适应控制,电子信箱:bitdjh@https://www.360docs.net/doc/347524636.html, YANG Yanli,DENG Jiahao Laboratory of Mechatronic Engineering &Control,School of Mechatronical Engineering,Beijing Institute of Technology,Beijing 100081,China Abstract In order to better estimate the instantaneous frequency of signals,the empirical mode decomposition (EMD)algorithm,proposed by Huang et al.,is used to break multi-component signals into several narrow subbands.EMD is an adaptive method and can be used to analyze nonstationary signals,so it has been widely applied to many engineering fields.However,EMD is still considered as an empirical method because it lacks a rigorous mathematical foundation,and its analysis depends largely on numerical simulations and experimental investigations.In this paper,related problems of the EMD algorithm are discussed,including its theoretical foundation and its applications.Some modified EMD algorithms are considered to overcome problems,such as stopping criterion,end effect,envelope of signals and mode aliasing.The applications of EMD to the processing of radar signals are reviewed.Some directions for further research on the EMD algorithm are suggested. Keywords empirical mode decomposition (EMD);Hilbert-Huang transform (HHT);time-frequency signal processing;radar signal processing 综述文章(Reviews )

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析的计算步骤

主成分分析的计算步骤 样本观测数据矩阵为: ??????? ??=np n n p p x x x x x x x x x X 21 2222111211 第一步:对原始数据进行标准化处理 )var(*j j ij ij x x x x -= ),,2,1;,,2,1(p j n i == 其中 ∑==n i ij j x n x 1 1 21 )(11)var(j n i ij j x x n x --=∑= ),,2,1(p j = 第二步:计算样本相关系数矩阵 ?????? ????????=pp p p p p r r r r r r r r r R 212222111211 为方便,假定原始数据标准化后仍用X 表示,则经标准化处理后的数据的相关系数为: tj n t ti ij x x n r ∑=-=1 11 ),,2,1,(p j i = 第三步:用雅克比方法求相关系数矩阵R 的特征值(p λλλ 21,)和相应的特征向量()p i a a a a ip i i i 2,1,,,21==。 第四步:选择重要的主成分,并写出主成分表达式 主成分分析可以得到p 个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取p 个主成分,而是根据各个主成分累计贡献率的大小选取前k 个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,

实际也就是某个特征值占全部特征值合计的比重。即 贡献率=∑=p i i i 1λ λ 贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数k 的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。 另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合,在这个线性组合中个变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的实际意义,这要结合具体实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。 第五步:计算主成分得分 根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下。 ?????? ? ??nk n n k k F F F F F F F F F 212222111211 第六步:依据主成分得分的数据,则可以进行进一步的统计分析 其中,常见的应用有主成份回归,变量子集合的选择,综合评价等。

经验模态分解(EMD)在地球物理资料中的应用(附MATLAB程序)

经验模态分解(EMD)在地球物理资料中的应用(附MATLAB程序) 摘要经验模态分解(EMD)是由Huang等人提出的一种新的分析非线性、非平稳信号的方法。本文研究经验模态分解原理及其在地球物理资料中的应用。首先研究经验模态分解的基本原理和算法,对地球物理资料(地震资料,重磁资料)进行EMD分解试验分析,然后研究基于...

摘  要
经验模态分解(EMD)是由Huang等人提出的一种新的分析非线性、非平稳信号的方法。本文研究经验模态分解原理及其在地球物理资料中的应用。首先研究经验模态分解的基本原理和算法,对地球物理资料(地震资料,重磁资料)进行EMD分解试验分析,然后研究基于EMD的Hilbert变换原理及其在提取地震属性信息中的应用,对实际地震时间剖面和时间切片进行EMD时频分析试验。
本文的方法研究和数据试验分析表明:经EMD分解变换得到的IMF序列是直接从原始时序数据中分离出来的,事先无需确定分解阶次,能更好反映原始数据固有的物理特性,每阶IMF序列都代表了某种特定意义的频带信息;EMD分解获得的IMF序列具有稳态性,对IMF进行Hilbert变换,就可以得到单个固有模态函数的瞬时振幅、瞬时相位和瞬时频率,这些信息可以清楚的显示信号的时频特征;EMD分析方法用于分解地球物理资料和作时频分析是有效的。
关键词:经验模态分解;地球物理;Hilbert变换;固有模态函数;时频分析
 
ABSTRACT
Empirical Mode Decomposition(EMD), which was developed by huang, is a new method to analyse nonlinear and nonstationary signals. In this paper, we study the theory of EMD and its applications in handling geophysical data. Firstly, we introduce the theory and the Methodology about EMD ,then we will use this method to analyse the geophysical information, including the g ravity anomaly data and seism’s data. Based on the EMD, we will study the theory of the Hilbert transform, and then use it to obtain the images,from which we can deal with the seism’s slice by time- frequency analysis in order to distill the seism’s information.


The studying of EMD and the data testing in this paper indicate: intrinsic mode functions(IMF) is comes from the original signal by the EMD, in this course, we need not fix on the Decomposition number and would not influenced by some men’s factors. Every intrinsic mode function stand for some given information and can reflect the

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

spss进行主成分分析的步骤图文)

主成分分析の操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析の各个原始变量放入变量框,如下图所示: 单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选の,保持默认即可),如下图所示,然後点击Continue按钮,回到主对话框: 其他の次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子の方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到の主要结果如下面几张表。 ①KMO和Bartlett球形检验结果: KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验の显着性P值为0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量の共同度,Extraction下面各个共同度の值都大於0.5,说明提取の主成分对於原始变量の解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大於1の两个主成分,两个主成分の方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下: 根据数理统计の相关知识,主成分分析の变换矩阵亦即主成分载荷矩阵U与因子载荷矩阵A以及特征值λの数学关系如下面这个公式: 故可以由这二者通过计算变量来求得主成分载荷矩阵U。 新建一个SPSS数据文件,将因子载荷矩阵中の各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables)の公式分别如下二张图所示: 计算变量得到の两个特征向量U1和U2如下图所示(U1和U2合起来就是主成分载荷矩阵): 所以可以得到两个主成分Y1和Y2の表达式如下:

主成分分析原理

主成分分析原理 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ?? ? ? ? ? ? ??=np n n p p x x x x x x x x x X 2 1 22221 11211 ()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1, 21=???? ?? ? ??= 主成分分析就是将 p 个观测变量综合成为p 个新的变量(综合变量),即 ?? ???? ?+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

主成分分析操作步骤

主成分分析操作步骤 1)先在spss中录入原始数据。 2)菜单栏上执行【分析】——【降维】——【因子分析】,打开因素分析对话框,将要分析的变量都放入【变量】窗口中。

3)设计分析的统计量 点击【描述】:选中“Statistics”中的“原始分析结果”和“相关性矩阵”中的“系数”。(选中原始分析结果,SPSS自动把原始数据标准差标准化,但不显示出来;选中系数,会显示相关系数矩阵)然后点击“继续”。 点击【抽取】:“方法”里选取“主成分”;“分析”、“输出”、“抽取”均选中各自的第一个选项即可。

点击【旋转】:选取第一个选项“无”。(当因子分析的抽取方法选择主成分法时,且不进行因子旋转,则其结果即为主成分分析) 点击【得分】:选中“保存为变量”,方法中选“回归”;再选中“显示因子得分系数矩阵”。 点击【选项】:选择“按列表排除个案”。

4)结果解读 5)A. 相关系数矩阵:是6个变量两两之间的相关系数大小的方阵。通过相关系 数可以看到各个变量之间的相关,进而了解各个变量之间的关系。 相關性矩陣 食品衣着燃料住房交通和通讯娱乐教育文化相關食品 1.000 .692 .319 .760 .738 .556 衣着.692 1.000 -.081 .663 .902 .389 燃料.319 -.081 1.000 -.089 -.061 .267 住房.760 .663 -.089 1.000 .831 .387 交通和通讯.738 .902 -.061 .831 1.000 .326 娱乐教育文化.556 .389 .267 .387 .326 1.000 B. 共同度:给出了这次主成分分析从原始变量中提取的信息,可以看出交通和 通讯最多,而娱乐教育文化损失率最大。 Communalities 起始擷取 食品 1.000 .878 衣着 1.000 .825 燃料 1.000 .841 住房 1.000 .810 交通和通讯 1.000 .919 娱乐教育文化 1.000 .584 擷取方法:主體元件分析。 C. 总方差的解释:系统默认方差大于1的为主成分。如果小于1,说明这个主 因素的影响力度还不如一个基本的变量。所以只取前两个,且第一主成分的方差 为3.568,第二主成分的方差为1.288,前两个主成分累加占到总方差的80.939%。 說明的變異數總計 元件 起始特徵值擷取平方和載入 總計變異的% 累加% 總計變異的% 累加% 1 3.568 59.474 59.474 3.568 59.474 59.474 2 1.288 21.466 80.939 1.288 21.466 80.939 3 .600 10.001 90.941 4 .358 5.97 5 96.916 5 .142 2.372 99.288 6 .043 .712 100.000 擷取方法:主體元件分析。

用SPSS进行详细的主成分分析步骤

怎样用SPSS进行主成分分析 怎样用SPSS进行主成分分析 一、基本概念与原理 主成分分析(principal component analysis) 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。 (1)主成分分析的原理及基本思想。 原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来

主成分分析原理

第七章主成分分析 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1,21=?????? ? ??= 主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量),即 ???????+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

相关文档
最新文档