主成分分析SPSS操作步骤

主成分分析SPSS操作步骤
主成分分析SPSS操作步骤

主成分分析SPSS操作步骤

————————————————————————————————作者: ————————————————————————————————日期:

?

SPSS进行主成分分析的步骤(图文)精编版

主成分分析的操作过程 原始数据如下(部分) 调用因子分析模块(Analyze―Dimension Reduction―Factor),将需要参与分析的各个原始变量放入变量框,如下图所示:

单击Descriptives按钮,打开Descriptives次对话框,勾选KMO and Bartlett’s test of sphericity选项(Initial solution选项为系统默认勾选的,保持默认即可),如下图所示,然后点击Continue按钮,回到主对话框: 其他的次对话框都保持不变(此时在Extract次对话框中,SPSS已经默认将提取公因子的方法设置为主成分分析法),在主对话框中点OK按钮,执行因子分析,得到的主要结果如下面几张表。 ①KMO和Bartlett球形检验结果:

KMO为0.635>0.6,说明数据适合做因子分析;Bartlett球形检验的显著性P值为 0.000<0.05,亦说明数据适合做因子分析。 ②公因子方差表,其展示了变量的共同度,Extraction下面各个共同度的值都大于0.5,说明提取的主成分对于原始变量的解释程度比较高。本表在主成分分析中用处不大,此处列出来仅供参考。 ③总方差分解表如下表。由下表可以看出,提取了特征值大于1的两个主成分,两个主成分的方差贡献率分别是55.449%和29.771%,累积方差贡献率是85.220%;两个特征值分别是3.327和1.786。 ④因子截荷矩阵如下:

根据数理统计的相关知识,主成分分析的变换矩阵亦即主成分载荷矩阵U 与因子载荷矩阵A 以及特征值λ的数学关系如下面这个公式: λi i i A U = 故可以由这二者通过计算变量来求得主成分载荷矩阵U 。 新建一个SPSS 数据文件,将因子载荷矩阵中的各个载荷值复制进去,如下图所示: 计算变量(Transform-Compute Variables )的公式分别如下二张图所示:

SPSS进行主成分分析报告地步骤(图文)

主成分分析の操作過程 原始數據如下(部分) 調用因子分析模塊(Analyze―Dimension Reduction―Factor),將需要參與分析の各個原始變量放入變量框,如下圖所示:

單擊Descriptives按鈕,打開Descriptives次對話框,勾選KMO and Bartlett’s test of sphericity選項(Initial solution選項為系統默認勾選の,保持默認即可),如下圖所示,然後點擊Continue按鈕,回到主對話框: 其他の次對話框都保持不變(此時在Extract次對話框中,SPSS已經默認將提取公因子の方法設置為主成分分析法),在主對話框中點OK按鈕,執行因子分析,得到の主要結果如下面幾張表。 ①KMO和Bartlett球形檢驗結果:

KMO為0.635>0.6,說明數據適合做因子分析;Bartlett球形檢驗の顯著性P值為0.000<0.05,亦說明數據適合做因子分析。 ②公因子方差表,其展示了變量の共同度,Extraction下面各個共同度の值都大於0.5,說明提取の主成分對於原始變量の解釋程度比較高。本表在主成分分析中用處不大,此處列出來僅供參考。 ③總方差分解表如下表。由下表可以看出,提取了特征值大於1の兩個主成分,兩個主成分の方差貢獻率分別是55.449%和29.771%,累積方差貢獻率是85.220%;兩個特征值分別是3.327和1.786。 ④因子截荷矩陣如下:

根據數理統計の相關知識,主成分分析の變換矩陣亦即主成分載荷矩陣U 與因子載荷矩陣A 以及特征值λの數學關系如下面這個公式: λ i i i A U = 故可以由這二者通過計算變量來求得主成分載荷矩陣U 。 新建一個SPSS 數據文件,將因子載荷矩陣中の各個載荷值複制進去,如下圖所示: 計算變量(Transform-Compute Variables )の公式分別如下二張圖所示:

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

spss进行主成分分析及得分分析

spss进行主成分分析及得分分析 1 将数据录入spss 1. 2 数据标准化:打开数据后选择分析→描述统计→描述,对数据进行标准化,选中将标准化得分另存为变量: 2.3 进行主成分分析:选择分析→降维→因子分析,

3.4设置描述性,抽取,得分和选项:

4.5 查看主成分分析和分析: 相关矩阵表明,各项指标之间具有强相关性。比如指标GDP总量与财政收入、固定资产投资总额、第二产业增加值、第三产业增加值、工业增加值的相关系数较大。这说明他们之间指标信息之间存在重叠,适合采用主成分分析法。(下表非完整呈现)

5.6 由Total Variance Explained(主成分特征根和贡献率)可知,特征根λ1=9.092,特征根λ2=1.150前两个主成分的累计方差贡献率达93.107%,即涵盖了大部分信息。这表明前两个主成分能够代表最初的11个指标来分析河南各个城市经济综合实力的发展水平,故提取前两个指标即可。主成分,分别记作F1、F2。 6.7

指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10在第一主成分上有较高载荷,相关性强。第一主成分集中反映了总体的经济总量。X11在第二主成分上有较高载荷,相关性强。第二主成分反映了人均的经济量水平。但是要注意: 这个主成分载荷矩阵并不是主成分的特征向量,也就是说并不是主成分1和主成分2的系数,主成分系数的求法是:各自主成分载荷向量除以各自主成分特征值的算术平方根。

7.8 成分得分系数矩阵(因子得分系数)列出了强两个特征根对应的特征向量,即各主要成分解析表达式中的标准化变量的系数向量。故各主要成分解析表达式分别为:F1=0.32ZX11+0.33ZX12+0.31ZX13+0.31ZX14+0.32ZX15+0.32ZX16+0.32ZX17+0.32ZX18+0. 32ZX19+0.21ZX110+0.15ZX111 F2=8.46ZX21+0.02ZX22-0.02ZX23-0.20ZX24-0.23Z25-0.04ZX26-0.15ZX27-0.02ZX28+0.10Z X29+0.47ZX210+0.78ZX211 8.9 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即:主成分1得分=因子1得分乘以9.092的算术平方根主成分2得分=因子2得分乘以1.150的算术平方根例如郑州:主成分因子=FAC1_1*9.092的算术平方根=3.59386*9.092的算术平方根=10.83,将各指标的标准化数据带入个主成分解析表达式中,分别计算出2个主成分得分(F1、F2),再以个主成分的贡献率为全书对主成分得分进行加权平均,即:H=(82.672*F1+10.497*F2)/93.124,求得主成分综合得分。

用SPSS进行详细的主成分分析步骤

怎样用SPSS进行主成分分析 怎样用SPSS进行主成分分析 一、基本概念与原理 主成分分析(principal component analysis) 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。 (1)主成分分析的原理及基本思想。 原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 基本思想:主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来

主成分分析在SPSS中的操作应用(详细步骤

主成分分析在SPSS中的操作应用(2) SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。 图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表 主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。 主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注:特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过图表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从图表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息,所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到,因为“Component Matrix”是指初始因子载荷矩阵,每一个载荷量表示主成分与对应变量的相关系数。 用图表5(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1、B2),然后利用“TransformàCompute Variable”,在Compute Variable对话框中输入 “A1=B1/SQR(7.22)” [注:第二主成分SQR后的括号中填1.235],即可得到特征向量A1(见图表6)。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式[注:因本例只是为了说明如何在SPSS进行主成分分析,故在此不对提取的主成分进行命名,有兴趣的读者可自行命名]: F1=0.353ZX1+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX

SPSS中主成分分析的基本操作1

SPSS 中主成分分析的基本操作 Xiaowenzi22与pinksss 共同制作 阐述主成分分析法的原理 主成分分析是设法将原来众多具有一定相关性(比如P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F 1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F 1)越大,表示F 1包含的信息越多。因此在所有的线性组合中选取的F 1应该是方差最打的,故称F 1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F 2即选第二个线性组合,为了有效地反映原来信息,F 1已有的信息就不需要再出现再F 2中,用数学语言表达就是要求Cov(F 1, F 2)=0,则称F 2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分。 主成分模型: F 1=a 11X 11+a 21X 21+……+a p1X p F 2=a 12X 12+a 22X 22+……+a p2X p …… F p =a 1m X 11+a 2m X 22+……+a pm X p 其中a 1i, a 2i, ……,a pi (i=1,……,m)为X 的协差阵Σ的特征值多对应的特征向量,X 1, X 2, ……, X p 是原始变量经过标准化处理的值(因为在实际应用中,往往存在指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化)。 A=(ij a )m p ×=(,1α,2α…,m α),i i i R αλα=, R 为相关系数矩阵, i i αλ、是相应的特征值和单位特征向量, 1λ≥2λ≥…≥p λ≥0 上述方程组要求: 1、a 21i +a 22i +……+a 2pi =1 (i=1,……,m) 2、m I A A =′ (A=(ij a )m p ×=(,1α,2α…,m α),A 为正交矩阵) 3、Cov(F i ,F j )=ij i δλ, =01 ij δj i j i ≠= 操作步骤: 一、 数据标准化

主成分分析在SPSS中的操作应用

主成分分析在SPSS中的操作应用 一、引言 主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法。现在SPSS、SAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并列处理[注:主成分分析与因子分析二者是又有着区别与联系,最主要的不同在于它们的数学模型的构建上,具体区别请见参考文献2],而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分析程序,却为主成分分析的计算带来不便。且国内许多SPSS教程并没有详细讲解如果应用SPSS进行主成分分析,如何使用SPSS对主成分分析进行计算呢?为使读者能够正确使用SPSS软件进行主成分分析,本文将通过一个实例来详细介绍如何用SPSS做主成分分析。接下来先简单介绍主成分分析原理与模型,以便读者对主成分分析有个大致的了解。 二、主成分分析原理和模型[1] (一)主分成分析原理 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F 1 (选取的第 一个线性组合,即第一个综合指标)的方差来表达,即Var(F 1)越大,表示F 1 包 含的信息越多。因此在所有的线性组合中选取的F 1应该是方差最大的,故称F 1 为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取 F 2即选第二个线性组合,为了有效地反映原来信息,F 1 已有的信息就不需要再出 现再F 2中,用数学语言表达就是要求Cov(F 1 , F 2 )=0,则称F 2 为第二主成分,依 此类推可以构造出第三、第四,……,第P个主成分。(二)主成分分析数学模型 F 2=a 12 ZX 1 +a 22 ZX 2 ……+a p2 ZX p …… F p =a 1m ZX 1 +a 2m ZX 2 +……+a pm ZX p 其中a 1i , a 2i , ……,a pi (i=1,……,m)为X的协方差阵Σ的特征值多对应的 特征向量,ZX 1, ZX 2 , ……, ZXp是原始变量经过标准化处理的值,因为在实际 应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。

SPSS软件进行主成分分析的应用例子修订版

S P S S软件进行主成分分析的应用例子 集团标准化小组:[VVOPPT-JOPP28-JPPTL98-LOPPNN]

SPSS软件进行主成分分析的应用例子 2002年16家上市公司4项指标的数据[5]见表2,定量综合赢利能力分析如下: 1. 第一,将EXCEL中的原始数据导入到SPSS软件中; 【1】“分析”|“描述统计”|“描述”。 【2】弹出“描述统计”对话框,首先将准备标准化的变量移入变量组中,此时,最重要的一步就是勾选“将标准化得分另存为变量”,最后点击确定。 【3】返回SPSS的“数据视图”,此时就可以看到新增了标准化后数据的字段。 进行因子分析(指标之间的相关性判定略)。 【1】“分析”|“降维”|“因子分析”选项卡,将要进行分析的变量选入“变量”列表; 【2】设置“描述”,勾选“原始分析结果”和“KMO与Bartlett球形度检验”复选框;

【3】设置“抽取”,勾选“碎石图”复选框; 【4】设置“旋转”,勾选“最大方差法”复选框; 【5】设置“得分”,勾选“保存为变量”和“因子得分系数”复选框;【6】查看分析结果。

【1】将初始因子载荷矩阵中的两列数据输入( 可用复制粘贴的方法) 到数据编辑窗口( 为 中输入“F 1”,然后在数字表达式中输入“V 1 /SQR(λ 1 )”[注:λ 1 =1.897], 即可得到特征向量F 1 ; 【3】然后利用“转换”|“计算变量”, 打开“计算变量”对话框,在“目标变量”文本框 中输入“F 2”,然后在数字表达式中输入“V 2 /SQR(λ 2 )”[注:λ 1 =1.550], 即可得到特征向量F 2 ; 【4】最后得到特征向量矩阵(主成分表达式的系数)。 【1】将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分函数的表达式; 中输入“Z 1 ”,然后在数字表达式中输入“0.531* Z (销售净利率)+0.594*Z (资产净利 率)+0.261*Z (净资产收益率)+0.546*Z (销售毛利率)” [注:F 1 =0.531,0.594,0.261,0.546], 即可得到特征向量Z 1 ; 【3】同理[注:F 2=-0.412,0.404,0.720,-0.383], 可得到特征向量Z 2 ; 【4】求出16家上市公司的主成分值。

如何利用SPSS进行主成分分析

利用SPSS进行主成分分析 【例子】以全国31个省市的8项经济指标为例,进行主成分分析。第一步:录入或调入数据(图1)。 图1 原始数据 ⒋其它。

图8 主成分分析的结果 第四步,结果解读。 在因子分析结果(Output )中,首先给出的Descriptive Statistics ,第一列Mean 对应的变量的算术平均值,计算公式为 ∑==n i ij j x n x 1 1 第二列Std. Deviation 对应的是样本标准差,计算公式为 2/11 2])(11[∑=--=n i j ij j x x n σ 第三列Analysis N 对应是样本数目。这一组数据在分析过程中可作参考。

接下来是Correlation Matrix(相关系数矩阵),一般而言,相关系数高的变量,大多会进入同一个主成分,但不尽然,除了相关系数外,决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。相关系数阵下面的Determinant=1.133E-0.4是相关矩阵的行列式值,根据关系式0)d e t (=-R I λ可知,det(λI )=det(R ),从而Determinant=1.133E-0.4=λ *λ*λ*λ*λ*λ*λ*λ。这一点在后面将会得到验证。 在Communalities(公因子方差)中,给出了因子载荷阵的初始公因子方差(Initial )和提取公因子方差(Extraction ),后面将会看到它们的含义。 在Total Variance Explained(全部解释方差) 表的Initial Eigenvalues (初始特征根)中,给出了按顺序排列的主成分得分的方差(Total),在数值上等于相关系数矩阵的各个特征根λ,因此可以直接根据特征根计算每一个主成分的方差百分比(% of Variance )。由于全部特征根的总和等于变量数目,即有m =∑λi =8,故第一个特征根的方差百分比为λ1/m =3.755/8=46.939,第二个特征根的百分比为λ2/m =2.197/8= 27.459,……,其余依此类推。然后可以算出方差累计值(Cumulative %)。在Extraction Sums of Squared Loadings ,给出了从左边栏目中提取的三个主成分及有关参数,提取的原则是满足λ>1,这一点我们在图6所示的对话框中进行了限定。

spss主成分分析报告

实用标准文档 实验目的:原始数据中每一所高校具有20个相关性很高的变量,利用主成分分析法用较少的变量去解释原来资料中的大部分变异,将手中的众多变量转化成彼此相互独立或不相关的个数较少的变量,即所谓主成分,并用以解释资料的综合性指标,其实质的目的是降维 原始数据截屏: 操作方法: 1.描述性统计 SPSS在调用因子分析过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,然后后期的计算需得到标准化数据,则需调用“描述”过程进行计算,为了看到标准化数据,所以采用描述性统计下的描述操作获得标准化后的变量数据 标准化数据: 文案大全

因子分析操作过程: 选取变量: X1:科研经费得分 X2:国家人文社科重点研究基地得分 X3:院士总数得分 X4:生均图书得分 X5:研究中心数得分 X6:国家重点实验室得分

X7:生均教学科研仪器设备得分 X8:生均教育事业经费得分 X9:精品课程得分 X10:优秀博士生论文总分 X11:人才得分 X12:二级学科建设得分 X13:生均固定资产得分 X14:科研论文得分 X15:博导及相关合计得分 X16:教师中博士学位比重得分 X17:一级学科得分 X18:高级职称比重得分 X19:师资总分 X20:SCI数量 这里分析采用相关系数矩阵,输出选择为未旋转的因子解,并选择碎石图,抽取过程选择基于特征值(特征值大于1),最大收敛迭代次数:25,点击确定。

原数据中有较多的缺失值,选择按列表排除个案,点击继续。 分析结果: KMO越接近1,说明变量之间的相关性越强,原有变量适合做因子分析;Bartlett的球度检验值越小于显著性水平0.05,越说明变量间存在相关关系。 本数据中KMO值为0.736,sig.值为0,符合因子分析条件,可进行因子分析,并进一步进行主成分分析

主成分分析在SPSS中的操作应用(详细步骤

主成分分析在SPSS中的操作应用(1) 一、引言 主成分分析和因子分析在社会经济统计综合评价中是两个常被使用的统计分析方法。现在SPSS、SAS等统计软件使用越来越普遍,但SPSS并未像SAS一样,将主成分分析与因子分析作为两个独立的方法并列处理[注:主成分分析与因子分析二者是又有着区别与联系,最主要的不同在于它们的数学模型的构建上,具体区别请见参考文献2],而是根据二者之间的关系有机地将主成分分析嵌入到因子分析之中,这样虽然简化了分析程序,却为主成分分析的计算带来不便。且国内许多SPSS教程并没有详细讲解如果应用SPSS进行主成分分析,如何使用SPSS对主成分分析进行计算呢?为使读者能够正确使用SPSS软件进行主成分分析,本文将通过一个实例来详细介绍如何用SPSS做主成分分析。接下来先简单介绍主成分分析原理与模型,以便读者对主成分分析有个大致的了解。 二、主成分分析原理和模型[1] (一)主分成分析原理 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F 1 (选取的第 一个线性组合,即第一个综合指标)的方差来表达,即Var(F 1)越大,表示F 1 包 含的信息越多。因此在所有的线性组合中选取的F 1应该是方差最大的,故称F 1 为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取 F 2即选第二个线性组合,为了有效地反映原来信息,F 1 已有的信息就不需要再出 现再F 2中,用数学语言表达就是要求Cov(F 1 , F 2 )=0,则称F 2 为第二主成分,依 此类推可以构造出第三、第四,……,第P个主成分。(二)主成分分析数学模型 F2=a12ZX1+a22ZX2……+a p2ZX p …… F p =a 1m ZX 1 +a 2m ZX 2 +……+a pm ZX p 其中a 1i , a 2i , ……,a pi (i=1,……,m)为X的协方差阵Σ的特征值多对应的 特征向量,ZX 1, ZX 2 , ……, ZXp是原始变量经过标准化处理的值,因为在实际 应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。

利用SPSS进行主成分分析

利用SPSS进行主成分分析 采用数据:同一时刻所有基站,剔除了数据全为0以及基站名字重复的(实际处理是加上自行标度可区分,为方便此次直接剔除) 共7个变量。 操作过程: 1、对数据进行标准化处理(z-score) 略 2、分析-降维-因子分析 选择标准化处理后的7个变量

单击“抽取” 基于特征值大于0(也可省略,默认值为1)单击“描述”弹出如下窗口:

设置好后单击确定得如下表格:

成份矩阵a 成份 1 2 3 4 5 6 7 Zscore: Mean Number of RRC .871 .203 -.406 .146 -.063 .101 .000 Connection User Zscore: Maximum Number of .875 .208 -.398 .137 -.052 -.103 .000 RRC Connection User Zscore: PRB on PUSCH .821 .216 .232 -.397 -.261 .000 .000 Channel 资源利用率 Zscore: PRB on PDSCH .843 -.469 .213 .152 -.032 .000 .014 Channel 资源利用率 Zscore: PRB on Uplink .562 .631 .473 .202 .147 .001 .000 Channel资源利用率 Zscore: PRB on Downlink .847 -.461 .217 .150 -.025 -.001 -.014 Channel 资源利用率 Zscore: CCE on PDCCH .867 -.121 -.135 -.335 .323 .002 .000 Channel 资源利用率 提取方法 :主成份。 a. 已提取了 7 个成份。 3、分析 (1)观察表“解释的总方差” 发现提取三个主成分就达到91.147%,大于85%的一般标准,所以我们决定提取 三个主成分。 (2)由上可知,我们选取“成分矩阵”的前三个变量1、2、3.将数据提取到数 据编辑框中,对应B1、B2、B3列: (3)由上可知选取前三个变量,通过表“解释的总方差”,我们提取前三个方 差的合计值:

SPSS进行主成分分析报告

实验七、利用SPSS进行主成分分析 【例子】以全国31个省市的8项经济指标为例,进行主成分分析。 第一步:录入或调入数据(图1)。 图1 原始数据(未经标准化) 第二步:打开“因子分析”对话框。 沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。 图2 打开因子分析对话框的路径

图3 因子分析选项框 第三步:选项设置。 首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。在本例中,全部8个变量都要用上,故全部调入(图4)。因无特殊需要,故不必理会“Value ”栏。下面逐项设置。 图4 将变量移到变量栏以后 ⒈设置Descriptives描述选项。 单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。

图5 描述选项框 在Statistics 统计 栏中选中Univariate descriptives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。 在Correlation Matrix 栏中,选中Coefficients 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant 复选项,则会给出相关系数矩阵的行列式,如果希望在Excel 中对某些计算过程进行了解,可选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。 设置完成以后,单击Continue 按钮完成设置(图5)。 ⒉ 设置Extraction 选项。 打开Extraction 对话框(图6)。因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(Principal Components ),因此对此栏不作变动,就是认可了主成分分析方法。 在Analyze 栏中,选中Correlation matrix 复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covariance matrix 复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。 在Display 栏中,选中Unrotated factor solution (非旋转因子解)复选项,则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析,选择此项,可将旋转前后的结果同时给出,以便对比。 选中Scree Plot (“山麓”图),则在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。 在Extract 栏中,有两种方法可以决定提取主成分(因子)的数目。一是根据特征根(Eigenvalues )的数值,系统默认的是1=c λ。我们知道,在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1=c λ,则所有方差大于等于1的主成分将被保留,其余舍弃。如果觉得最后选取的主成分数量不足,可以将c λ值降低,例如取9.0=c λ;如果认为最后的提取的主成分数量偏多,则可以提高c λ值,例如取 1.1=c λ。主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值 的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临

(仅供参考)SPSS中的主成分分析与因子分析

主成分分析与因子分析及SPSS实现(一):原理与方法 一、主成分分析 (1)问题提出 在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线性引起较大的误差。有没有一种办法能对信息进行浓缩,减少变量的个数,同时消除多重共线性? 这时,主成分分析隆重登场。 (2)主成分分析的原理 主成分分析的本质是坐标的旋转变换,将原始的n个变量进行重新的线性组合,生成n个新的变量,他们之间互不相关,称为n个“成分”。同时按照方差最大化的原则,保证第一个成分的方差最大,然后依次递减。这n个成分是按照方差从大到小排列的,其中前m个成分可能就包含了原始变量的大部分方差(及变异信息)。那么这m个成分就成为原始变量的“主成分”,他们包含了原始变量的大部分信息。 注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新组合后的“综合变量”。 我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个变量X1、X2,在坐标上画出散点图如下:

可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针旋转45°,变成新的坐标系Y1、Y2,如下图: 根据坐标变化的原理,我们可以算出:

Y1 = sqrt(2)/2 * X1 + sqrt(2)/2 * X2 Y2 = sqrt(2)/2 * X1 - sqrt(2)/2 * X2 其中sqrt(x)为x的平方根。 通过对X1、X2的重新进行线性组合,得到了两个新的变量Y1、Y2。 此时,Y1、Y2变得不再相关,而且Y1方向变异(方差)较大,Y2方向的变异(方差)较小,这时我们可以提取Y1作为X1、X2的主成分,参与后续的统计分析,因为它携带了原始变量的大部分信息。 至此我们解决了两个问题:降维和消除共线性。 对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩阵变换求解,但是本质思想是一样的。 二、因子分析 (一)原理和方法: 因子分析是主成分分析的扩展。 在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经过线性(坐标)变换得到新的变量。 因子分析中,是对原始变量间的内在相关结构进行分组,相关性强的分在一组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)。通过原始变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。将原始变量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特征,而特殊因子则是原始变量所特有的部分。因子分析强调对新变量(因子)的实际意义的解释。

SPSS在主成分分析中的应用

SPSS 在主成分分析中的应用 摘要 主成成分分析是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。本文首先对主成成分分析方法的原理进行了简单的阐述。介绍了进行主成成分分析的工具SPSS ,并以分析全国31个省市的8项经济目标为例,给出了详尽的分析。实验结果表明,主成成分分析能有效的将原有的复杂数据降维,同时包含原数据的大部分信息。 关键词 SPSS 主成分分析 经济发展指标 一.主成分分析的原理。 主成分分析是设法将原来众多具有一定相关性(比如P 个指标),重新组合 成一组新的互相无关的综合指标来代替原来的指标。 通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1 (选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最打的,故称 F1为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息,再考虑选取F2 即选第二个线性组合,为了有效地反映原来信息,F1 已有的信息就不需要再出现再 F2 中,用数学语言表达就是要求 Cov(F1, F2)=0,则称 F2 为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分。 主成分模型: ????? ??++=++=++=p p 221p 1p p p2*******p 1p 2211111a a a a a a a a a X X X F X X X F X X X F p p 满足以下条件: 1.每个主成分系数平方和为1即:),2,1(1 2 2221m i a a a pi i i ==++ 2.主成分之前互不相关 即:0),cov(=i i F F 3.主成分方差依次递减,即)()()(21p F Var F Var F Var ≥≥ 二.利用SPSS 进行主成成分分析实例 以全国31个省市的8项经济指标为例,进行主成分分析。 第一步:录入或调入数据(图1)。

相关主题
相关文档
最新文档