SPSS因子分析法-例子解释

因子分析的基本概念和步骤

一、因子分析的意义

在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:

计算量的问题

由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。

变量间的相关性问题

收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。

为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。

因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。

因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点:

因子个数远远少于原有变量的个数

原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。

因子能够反映原有变量的绝大部分信息

因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。

因子之间的线性关系并不显著

由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。

因子具有命名解释性

通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

释性有助于对因子分析结果的解释评价,对因子的进一步应用有重要意义。例如,对高校科研情况的因子分析中,如果能够得到两个因子,其中一个因子是对科研人力投入、经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成果数等变量的综合,那么,该因子分析就是较为理想的。因为这两个因子均有命名可解释性,其中一个反映了科研投入方面的情况,可命名为科研投入因子,另一个反映了科研产出方面的情况,可命名为科研产出因子。

总之,因子分析是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。

二、因子分析的基本概念

1、因子分析模型

因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors )和唯一因子(unique factors )。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings )表示。

因子分析最常用的理论模式如下: j m jm j j j j U F a F a F a F a Z ++⋅⋅⋅+++=332211(j=1,2,3…,n ,n 为原始变量总数)

可以用矩阵的形式表示为U AF Z +=。其中F 称为因子,由于它们出现在每个原始变量的线性表达式中(原始变量可以用j X 表示,这里模型中实际上是以F 线性表示各个原始变量的标准化分数j Z ),因此又称为公共因子。因子可理解为高维空间中互相垂直的m 个坐标轴,A 称为因子载荷矩阵,)...3,2,1,...3,2,1(m i n j a ji ==称为因子载荷,是第j 个原始变量在第i 个因子上的负荷。如果把变量j Z 看成m 维因子空间中的一个向量,则ji a 表示j Z 在坐标轴i F 上的投影,相当于多元线性回归模型中的标准化回归系数;U 称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。

其中,

(1)j Z 为第j 个变量的标准化分数;

(2)i F (i=1,2,…,m )为共同因素;

(3)m 为所有变量共同因素的数目;

(4)j U 为变量j Z 的唯一因素;

(5)ji a 为因素负荷量。

2、因子分析数学模型中的几个相关概念

因子载荷(因素负荷量factor loadings )

所谓的因子载荷就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。可以证明,在因子不相关的前提下,因子载荷ji a 是变量j Z 和因子i F 的相关系数,反映了变量j Z 与因子i F 的相关程度。因子载荷ji a 值小于等于1,绝对值越接近1,表明因子i F 与变量j Z 的相关性越强。同时,因子载荷ji a 也反映了因子i F 对解释变量j Z 的重要作用和程度。因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共同因子之间的相关关系。因素分析的理想情况,在于个别因素负荷量ji a 不是很大就是很小,这样每个变量才能与较少的共同因素产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则j U 彼此间或与共同因素间就不能有关联存在。一般说来,负荷量为0.3或更大被认为有意义。所以,当要判断一个因子的意义时,需要查看哪些变量的负荷达到了0.3或0.3以上。

变量共同度(共同性,Communality )

变量共同度也就是变量方差,就是指每个原始变量在每个共同因子的负荷量的平方和,也就是指原始变量方差中由共同因子所决定的比率。变量的方差由共同因子和唯一因子组成。共同性表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量能被因子说明的程度越高,即因子可解释该变量的方差越多。共同性的意义在于说明如果用共同因子替代原始变量后,原始变量的信息被保留的程度。因子分析通过简化相关矩阵,提取可解释相关的少数因子。一个因子解释的是相关矩阵中的方差,而解释方差的大小称为因子的特征值。一个因子的特征值等于所有变量在该因子上的负荷值的平方总和。变量j Z 的共同度2h 的数学定义为:∑==m

i ji a h 12

2,该式表明变量j Z 的共同度是因子载荷矩阵A 中第j 行元素的平方和。由于变量j Z 的方差可以表示成122=+u h ,因此变量j Z 的方差可由两个部分解释:第一部分为共同度2h ,是全部因子对变量j Z 方差解释说明的比例,体现了因子全体对变量j Z 的解释贡献程度。变量共同度2h 越接近1,说明因子全体解释说明了变量j Z 的较大部分方差,如果用因子全体刻画变量j Z ,则变量j Z 的信息丢失较少;第二部分为特殊因子U 的平方,反应了变量j Z 方差中不能由因子全体解释说明的比例,2u 越小则说明变量j Z 的信息丢失越少。

总之,变量d 共同度刻画了因子全体对变量j Z 信息解释的程度,是评价变量j Z 信息丢失程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分信息(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。因子,变量共同度是衡量因子分析效果的重要依据。

因子的方差贡献(特征值eigenvalue )

因子的方差贡献(特征值)的数学定义为:2

12

∑==n j ji i a S ,该式表明,因子i F 的方差贡献是因子载荷矩阵A 中第i 列元素的平方和。因子i F 的方差贡献反映了因子i F 对原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。

为了便于说明,以三个变量抽取两个共同因素为例,三个变量的线性组合分别为: 12121111U F a F a Z ++=

22221212U F a F a Z ++=

32321313U F a F a Z ++=

素负荷量的平方和),也就是个别变量可以被共同因素解释的变异量百分比,这个值是个别变量与共同因素间多元相关的平方。从共同性的大小可以判断这个原始变量与共同因素之间关系程度。而各变量的唯一因素大小就是1减掉该变量共同性的值。(在主成分分析中,有多少个原始变量便有多少个“component ”成分,所以共同性会等于1,没有唯一因素)。

至于特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素负荷量的平方和)。在因素分析之共同因素抽取中,特征值大的共同因素会最先被抽取,其次是次大者,最后抽取的共同因素之特征值最小,通常会接近0(在主成分分析中,有几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)。将每个共同因素的特征值除以总题数,为此共同因素可以解释的变异量,因素分析的目的,即在因素结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取的因素越少越好,但抽取因素之累积解释的变异量则越大越好。

3、社会科学中因素分析通常应用在三个层面:

(1)显示变量间因素分析的组型(pattern )

(2)侦测变量间之群组(clusters ),每个群组所包括的变量彼此相关很高,同构型较大,亦即将关系密切的个别变量合并为一个子群。

(3)减少大量变量数目,使之称为一组涵括变量较少的统计自变量(称为因素),每个因素与原始变量间有某种线性关系存在,而以少数因素层面来代表多数、个别、独立的变量。

因素分析具有简化数据变量的功能,以较少层面来表示原来的数据结构,它根据变量间彼此的相关,找出变量间潜在的关系结构,变量间简单的结构关系称为“成份”(components )或“因素”(factors ).

三、因素分析的主要方式

围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:

1、因子分析的前提条件

由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。

SPSS 提供了四个统计量可帮助判断观测数据是否适合作因子分析:

(1)计算相关系数矩阵Correlation Matrix

在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,也不方便在结果汇报中给出原始分析报表。

(2)计算反映象相关矩阵Anti-image correlation matrix

反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控制了这些影响后的偏相关系数必然很小。

反映象相关矩阵的对角线上的元素为某变量的MSA (Measure of Sample Adequacy )统计量,其数学定义为:

∑∑∑≠≠≠+=i j i j ij ij i j ij

i p r

r MSA 222

,其中,ij r 是变量i x 和其他变量j x (i j ≠)间的简单相关系

数,ij p 是变量j x (i j ≠)在控制了剩余变量下的偏相关系数。由公式可知,某变量i x 的i MSA 统计量的取值在0和1之间。当它与其他所有变量间的简单相关系数平方和远大于偏相关系数的平方和时,i MSA 值接近1。i MSA 值越接近1,意味变量i x 与其他变量间的相关性越强;当它与其他所有变量间的简单相关系数平方和接近0时,i MSA 值接近0。i MSA 值越接近0,意味变量i x 与其他变量间的相关性越弱。

观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均小,对角线上元素的值越接近1,则说明这些变量的相关性较强,适合进行因子分析。与(1)中最后所述理由相同,一般少采用此方法。

(3)巴特利特球度检验Bartlett test of sphericity

Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。

(4)KMO(Kaiser-Meyer-Oklin Measure of Smapling Adequacy)

KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本。

综上所述,经常采用的方法为巴特利特球度检验Bartlett test of sphericity和KMO (Kaiser-Meyer-Oklin Measure of Smapling Adequacy)。

2、抽取共同因子,确定因子的数目和求因子解的方法

将原有变量综合成少数几个因子是因子分析的核心内容。本步骤正是研究如何在样本数据的基础上提取和综合因子。决定因素抽取的方法,有“主成份分析法”(principal components analysis)、主轴法、一般化最小平方法、未加权最小平方法、最大概似法、Alpha因素抽取法与映象因素抽取法等。使用者最常使用的是主成份分析法与主轴法,其中,又以主成份分析法使用最为普遍,在SPSS使用手册中,也建议研究者多采用主成份分析法来估计因素负荷量(SPSS Inc,1998)。所谓主成份分析法,就是以较少的成份解释原始变量方差的较大部分。进行主成份分析时,先要将每个变量的数值转换成标准值。主成份分析就是用多个变量组成一个多维空间,然后在空间内投射直线以解释最大的方差,所得的直线就是共同因子,该直线最能代表各个变量的性质,而在此直线上的数值所构

F)。但是在空间内还有剩余的方差,成的一个变量就是第一个共同因子,或称第一因子(

1

所以需要投射第二条直线来解释方差。这时,还要依据第二条准则,即投射的第二条直线与第一条直线成直交关系(即不相关),意为代表不同的方面。第二条直线上的数值所

F)。依据该原理可以求出第三、第四或更多的因子。构成的一个变量,称为第二因子(

2

原则上,因子的数目与原始变量的数目相同,但抽取了主要的因子之后,如果剩余的方差很小,就可以放弃其余的因子,以达到简化数据的目的。

因子数目的确定没有精确的定量方法,但常用的方法是借助两个准则来确定因子的个数。一是特征值(eigenvalue)准则,二是碎石图检验(scree test)准则。特征值准则就是选取特征值大于或等于1的主成份作为初始因子,而放弃特征值小于1的主成份。因为每个变量的方差为1,该准则认为每个保留下来的因子至少应该能解释一个变量的方差,否则达不到精简数据的目的。碎石检验准则是根据因子被提取的顺序绘出特征值随因子个数变化的散点图,根据图的形状来判断因子的个数。散点曲线的特点是由高到低,先陡后平,最后几乎成一条直线。曲线开始变平的前一个点被认为是提取的最大因子数。后面的散点类似于山脚下的碎石,可舍弃而不会丢失很多信息。

3、使因子更具有命名可解释性

通常最初因素抽取后,对因素无法作有效的解释。这时往往需要进行因子旋转

(rotation),通过坐标变换使因子解的意义更容易解释。转轴的目的在于改变题项在各因素负荷量的大小,转轴时根据题项与因素结构关系的密切程度,调整各因素负荷量的大小,转轴后,使得变量在每个因素的负荷量不是变大(接近1)就是变得更小(接近0),而非转轴前在每个因素的负荷量大小均差不多,这就使对共同因子的命名和解释变量变得更容易。转轴后,每个共同因素的特征值会改变,但每个变量的共同性不会改变。常用的转轴方法,有最大变异法(Varimax)、四次方最大值法(Quartimax)、相等最大值法(Equamax)、直接斜交转轴法(Direct Oblimin)、Promax转轴法,其中前三者属于“直交转轴法”(orthogonal rotations),在直交转轴法中,因素(成份)与因素(成份)间没有相关,亦即其相关为0,因素轴间夹角为90°;而后二者(直接斜交转轴、Promax转轴法)属“斜交转轴”(oblique rotations),采用斜交转轴法,表示因素与因素间彼此有某种程度的相关,亦即因素轴间的夹角不是90°。

直交转轴法的优点是因素间提供的信息不会重叠,观察体在某一个因素的分数与在其它因素的分数,彼此独立不相关;而其缺点是研究者迫使因素间不相关,但在实际情境中,它们彼此有相关的可能性很高。因而直交转轴方法偏向较多人为操控方式,不需要正确响应现实世界中自然发生的事件(Bryman&Cramer,1997)。

所谓直交旋转法(orthogonal rotations),就是要求各个因子在旋转时都要保持直角关系,即不相关。在直交旋转时,每个变量的共同性(commonality)是不变的。不同的直交旋转方法有不同的作用。在直交旋转法中,常用于社会科学研究的方式是Varimax旋转法。该方法是在旋转时尽量弄清楚在每一个因子上各个变量的因子负荷情况,也即让因子矩阵中每一列的 的值尽可能变成1或0,该旋转法的作用是突出每个因子的性质,可以更清楚哪些变量是属于它的。由此可见,Varimax旋转法可以帮助找出多个因子,以澄清概念的内容。Quartimax旋转法可以则可以尽量弄清楚每个变量在各个因子上的负荷情况,即让每个变量在某个因子上的负荷尽可能等于1,而在其它因子上则尽可能等于0。该方法可以增强第一因子的解释力,而使其它因子的效力减弱。可见Quartimax旋转法适合于找出一个最强效力的因子。Equamax旋转法则是一种折中的做法,即尽可能简化因子,也可弄清楚负荷情况。其缺点是可能两方面都未照顾好。

斜交旋转(oblique rotarion)方法是要求在旋转时各个因子之间呈斜交的关系,表示允许该因子与因子之间有某种程度上的相关。斜交旋转中,因子之间的夹可以是任意的,所以用斜交因子描述变量可以使因子结构更为简洁。选择直接斜交旋转时,必须指定Delta值。该值的取值范围在0~-1之间,0值产生最高相关因子,大的负数产生旋转的结果与直交接近。Promax斜交旋转方法也允许因子彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。

综上所述,不同的因子旋转方式各有其特点。因此,究竟选择何种方式进行因子旋转取决于研究问题的需要。如果因子分析的目的只是进行数据简化,而因子的确切含义是什么并不重要,就应该选择直交旋转。如果因子分析的目的是要得到理论上有意义的因子,应该选择斜交因子。事实上,研究中很少有完全不相关的变量,所以,从理论上看斜交旋转优于直交旋转。但是斜交旋转中因子之间的斜交程度受研究者定义的参数的影响,而且斜交选装中所允许的因子之间的相关程度是很小的,因为没有人会接受两个高度相关的共同因子。如果两个因子确实高度相关,大多数研究者会选取更少的因子重新进行分析。因此,斜交旋转的优越性大打折扣。在实际研究中,直交旋转(尤其是Varimax 旋转法)得到更广泛的运用。

4、决定因素与命名

转轴后,要决定因素数目,选取较少因素层面,获得较大的解释量。在因素命名与结果解释上,必要时可将因素计算后之分数存储,作为其它程序分析之输入变量。

5、计算各样本的因子得分

因子分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因子代替原有变量参与数据建模。本步骤正是通过各种方法计算各样本在各因子上的得分,为进一步的分析奠定基础。

此外,在因素分析中,研究者还应当考虑以下几个方面(Bryman&Cramer,1997):(1)可从相关矩阵中筛选题项

题项间如果没有显著的相关,或相关太小,则题项间抽取的因素与研究者初始构建的层面可能差距很大。相对的题项间如果有极其显著的正/负相关,则因素分析较易构建成有意义的内容。因素分析前,研究者可从题项间相关矩阵分布情形,简扼看出哪些题项间有密切关系。

(2)样本大小

因素分析的可靠性除与预试样本的抽样有关外,预样本数的多少更有密切关系。进行因素分析时,预试样本应该多少才能使结果最为可靠,学者间没有一致的结论,然而多数学者均赞同“因素分析要有可靠的结果,受试样本数要比量表题项数还多”,如果一个分量表有40个预试题项,则因素分析时,样本数不得少于40。

此外,在进行因素分析时,学者Gorshch(1983)的观点可作为参考:

①题项与受试者的比例最好为1:5;

②受试总样本总数不得少于100人。如果研究主要目的在找出变量群中涵括何种因素,样本数要尽量大,才能确保因素分析结果的可靠性。

(3)因素数目的挑选

进行因素分析,因素数目考虑与挑选标准,常用的准则有两种:一是学者Kaiser所提的准则标准:选取特征值大于1的因素,Kaiser准则判断应用时,因素分析的题项数最好不要超过30题,题项平均共同性最好在0.70以上,如果受试样本数大于250位,则平均共同性应在0.60以上(Stevens,1992),如果题项数在50题以上,有可能抽取过多的共同因素(此时研究者可以限定因素抽取的数目);二为CATTELL(1996)所倡导的特征值图形的陡坡检验(scree test),此图根据最初抽取因素所能解释的变异量高低绘制而成。

“陡坡石”(scree)原是地质学上的名词,代表在岩石斜坡底层发现的小碎石,这些碎石价值性不高。应用于统计学之因素分析中,表示陡坡图底端的因素不具重要性,可以舍弃不用。因而从陡坡图的情形,也可作为挑选因素分析数目的标准。

在多数的因素分析中,根据Kaiser选取的标准,通常会抽取过多的共同因素,因而陡坡图是一个重要的选取准则。在因素数目准则挑选上,除参考以上两大主要判断标准外,还要考虑到受试者多少、题项数、变量共同性的大小等。

四、因素分析的操作说明

Statistics/Data Reduction/Factor…

(统计分析/数据缩减/因子…)

出现“Factor Analysis”(因子分析)对话框,将左边框中鉴别度达显著性的a1~a22选如右边“Variables”(变量)下的空框中。

其中五个按钮内的图标意义如下:

Descriptives(描述性统计量)按钮,会出现“Factor

Analysis:Descriptives”(因子分析:描述性统计量)对话窗口

1.“Statistics”(统计量)选项框

(1)“Univariate descriptives”(单变量描述性统计量):显示每一题项的平均数、标准差。

(2)“Initial solution”(未转轴之统计量):显示因素分析未转轴前之共同性(communality)、特征值(eigenvalues)、变异数百分比及累积百分比。

2.“Correlation Matric”(相关矩阵)选项框

(1)“Coefficients”(系数):显示题项的相关矩阵;

(2)“Significance levels”(显著水准):求出前述矩阵的显著水准;

(3)“Determinant”(行列式):求出前述相关矩阵的行列式值;

(4)“KMO and Bartlett’s test of sphericity”(KMO与Bartlett的球形检定):显示KMO抽样适当性参数与Bartlett的球形检定;

(5)“Inverse”(倒数模式):求出相关矩阵的反矩阵;

(6)“Reproduced”(重制的):显示重制相关矩阵,上三角形矩阵代表残差值;而主对角线及下三角形代表相关系数;

(7)“Anti-image”(反映象):求出反映象的共变量及相关矩阵;

在“Factor Analysis:Descriptives”对话窗口中,选取“Initial solution”、“KMO and Bartlett’s test of sphericity”二项。

Extraction…(萃取…)按钮,会出现“Factor Analysis:Extraction”

(因子分析:萃取)对话窗口

1.“Method”(方法)选项框:下拉式选项内有7种选取因素的方法

(1)“Principal components”法:主成份分析法抽取因素,此为SPSS内定方法;

(2)“Unweighted least squares”法:未加权最小平方法;

(3)“Ggeneralized least square”法:一般化最小平方法;

(4)“Mmximum likelihood”法:最大概似法;

(5)“Principal-axis factoring”法:主轴法;

(6)“Alpha factoring”法: 因素抽取法;

(7)“Image factoring”法:映象因素抽取法;

2.“Analyze”(分析)选项方框

(1)“Correlation matrix”(相关矩阵):以相关矩阵来抽取因素;

(2)“Covariance matrix”(共变异系数矩阵):以共变量矩阵来抽取因素。

3.“Display”(显示)选项方框

(1)“Unrotated factor solution”(未旋转因子解):显示未转轴时因素负荷量、特征值及共同性;

(2)“Screet plot”(陡坡图):显示陡坡图

4.“Extract”(萃取)选项方框

(1)“Eigenvalue over:”(特征值):后面的空格内定为1,表示因素抽取时,只抽取特征值大于1者,使用者可随意输入0至变量总数之间的值;

(2)“Number of factors”(因子个数):选取此项时,后面的空格内输入限定之因

素个数。

在“Factor Analysis:Extraction”对话窗口中,抽取因素方法选择“Principal components”,选取“Correlation matrix”、并勾选“Unrotated factor solution”、Screet plot”等项,在抽取因素时限定在特征值大于1者,在“Eigenvalue over:”后面的空格内输入1。

Rotation…(萃取…)按钮,会出现“Factor Analysis:Rotation”(因

子分析:旋转)对话窗口

1.“Method”(方法)选项框内有6中因素转轴方法

(1)“None”:不需要转轴;

(2)“Varimax”:最大变异法,属正交转轴法之一;

(3)“Quarimax”:四次方最大值法,属正交转轴法之一;

(4)“Equamax”:相等最大值法,属正交转轴法之一;

(5)“Direct Oblimin”:直接斜交转轴法,属斜交转轴法之一;

(6)“Promax”:Promax转轴法,属斜交转轴法之一。

2.“Display”(显示)选项框:

(1)“Rotated solution”(转轴后的解):显示转轴后的相关信息,正交转轴显示因素组型(pattern)矩阵及因素转换矩阵;斜交转轴则显示因素组型、因素结构矩阵与因素相关矩阵。

(2)“Loading plot”(因子负荷量):绘出因素的散布图。

3.“Maximum Iterations for Convergence”:转轴时执行的叠代(iterations)最多次数,后面内定的数字25(算法执行转轴时,执行步骤的次数上限)。

在“Factor Analysis:Rotation”对话窗中,选取“Varimax”、“Rotated solution”等项。研究者要勾选“Rotated solution”选项,才能显示转轴后的相关信息。

Score…(分数)按钮

1.“Save as variable”(因素存储变量)框

勾选时可将新建立的因素分数存储至数据文件中,并产生新的变量名称(内定为fact_1、fact_2等)。在“Method”框中表示计算因素分数的方法有三种:(1)“Regression”:使用回归法;

(2)“Bartlett”:使用Bartlette法;

(3)“Anderson-Robin”:使用Anderson-Robin法;

2.“Display factor score coefficient matrix”(显示因素分数系数矩阵)选项勾选时可显示因素分数系数矩阵。

Options…(选项)按钮,会出现“Factor Analysis:Options”(因子分析:选项)对话窗口

1.“Missing Values(遗漏值)框选项:遗漏值的处理方式。

(1)“Exclude cases listwise”(完全排除遗漏值):观察值在所有变量中没有遗漏者才加以分析;

(2)“Exclude cases pairwise”(成对方式排除):在成对相关分析中出现遗漏值的观察值舍弃;

(3)“Replace with mean”(用平均数置换):以变量平均值取代遗漏值。

2.“Coefficient Display Format(系数显示格式)框选项:因素负荷量出现的格式。

(1)“Sorted by size”(依据因素负荷量排序):根据每一因素层面之因素负荷量的大小排序;

(2)“Suppress absolute values less than”(绝对值舍弃之下限):因素负荷量小于后面数字者不被显示,内定的值为0.1。

在“Factor Analysis:Options”对话窗口中,勾选“Exclude cases listwise”、“Sorted by size”等项,并勾选“Suppress absolute values less than”选项,正式的论文研究中应呈现题项完整的因素负荷量较为适宜。

按Continue按钮,再按OK确定。

五、因素分析的结果解释

1.报表1——KMO测度和Bartlett球形检验表

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling

Adequacy.

.857

Bartlett's Test of Sphericity Approx. Chi-Square 1187.740 df 231 Sig. .000

KMO是Kaiser-Meyer-Olkin的取样适当性量数。KMO测度的值越高(接近1.0时),表明变量间的共同因子越多,研究数据适合用因子分析。通常按以下标准解释该指标值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好,0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO测度的值低于0.5时,表明样本偏小,需要扩大样本,此处的KMO值为0.857,表示适合进行因素分析。Bartlett球体检验的目的是检验相关矩阵是否是单位矩阵(identity matrix),如果是单位矩阵,则认为因子模型不合适。Bartlett球体检验的虚无假设为相关矩阵是单位阵,如果不能拒绝该假设的话,就表明数据不适合用于因子分析。一般说来,显著水平值越小(<0.05)表明原始变量之间越可能存在有意义的关系,如果显著性水平很大(如0.10以上)可能表明数据不适宜于因子分析。本例中,

Bartlett球形检验的2 值为1187.740(自由度为231),伴随概率值为0.000<0.01,达到了

显著性水平,说明拒绝零假设而接受备择假设,即相关矩阵不是单位矩阵,代表母群体的相关矩阵间有共同因素存在,适合进行因素分析。

2.报表2——共同因子方差(共同性)表

Communalities

Initial Extraction

a1 1.000 .719

a2 1.000 .656

a3 1.000 .734

a4 1.000 .675

Extraction Method: Principal Component Analysis.

上表报告的是共同因子方差,即表明每个变量被解释的方差量。初始共同因子方差(Initial Communalities)是每个变量被所有成份或因子解释的方差估计量。对于主成份分析法来说,它总是等于1,因为有多少个原始变量就有多少个成份(Communalitie),因此共同性会等于1。

抽取共同因子方差是指因子解中每个变量被因子或成份解释的方差估计量。这些共同因子方差是用来预测因子的变量的多重相关的平方。数值小就说明该变量不适合作因子,可在分析中将其排除。

3.报表3.1——旋转前总的解释方差

Total Variance Explained

Extraction Method: Principal Component Analysis.

上表叫做总的解释方差表。左边第一栏为各成份(Component)的序号,共有22个变量,所以有22个成份。第二大栏为初始特征值,共由三栏构成:特征值、解释方差和累积解释方差。Total栏为各成份的特征值,栏中只有5个成份的特征值超过了1;其余成份的特征值都没有达到或超过1。%of Variance栏为各成份所解释的方差占总方差的百分比,即各因子特征值占总特征值总和的百分比。Cumulative%栏为各因子方差占总方差的百分比的累计百分比。如在%of Variance栏中,第一和第二成份的方差百分比分别为37.024、12.400,而在累计百分比栏中,第一成份的累计百分比仍然为37.024,第二成份的累计方差百分比为49.424,即是两个成份的方差百分比的和(37.024+12.400)。

第三大栏为因子提取的结果,未旋转解释的方差。第三大栏与第二大栏的前五行完全相同,即把特征值大于1的四个成份或因子单独列出来了。这四个特征值由大到小排列,所以第一个共同因子的解释方差最大。

3.报表3.2——旋转后总的解释方差

Total Variance Explained

Extraction Method: Principal Component Analysis.

第四大栏为旋转后解释的方差。(方便显示起见,放在了表3.1下面,作为表3.2)Total栏为旋转后的特征值。与旋转前的Total栏相比,不难发现,四个成份的特征值有所变化。旋转前的特征值从8.145到1.066,最大特征值与最小特征值之间的差距比较大,而旋转后的特征值相对集中。尽管如此,旋转前、后的总特征值没有改变,最后的累计方差百分比也没有改变,让然为65.913%。

4.表4——碎石图

碎石图和结果3的被解释的总方差的作用相同,都是为了确定因子的数目。从碎石图可以看出,从第6个因子开始,以后的曲线变得比较平缓,最后接近一条直线。据此,可以抽取5个因子。最后决定抽取多少个因子,还要看后面的结果。

5.表5——未旋转成份矩阵(显示全部载荷)

Component Matrix(a)

Component

1 2 3 4 5

a6 .796 .273 .065 -.194 .071

a12 -.734 .354 .253 .178 .119

a3 .731 .419 -.030 -.150 .019

a1 .730 .391 -.104 -.137 .061

a8 .727 .108 -.137 -.040 .106

a10 -.726 .355 -.145 .332 .014

a2 .682 .397 -.139 -.118 -.011

a20 .653 .042 .095 .544 -.184

a11 -.637 .505 .216 .158 .156

a5 .635 .413 -.171 -.005 .094

a7 .598 .270 -.295 .236 .242

a22 .567 .115 -.223 .164 -.243

a17 .567 -.181 .426 .247 -.390

a9 -.547 .094 -.378 .193 .467

a19 .527 .053 .397 .146 .206

a13 -.527 .509 .066 .052 -.142

a14 -.545 .607 -.030 .164 -.113

a15 -.455 .561 .332 -.142 -.093

a4 .501 .556 .255 -.224 -.003

a18 .375 -.130 .469 .083 .413

a21 .516 .031 -.116 .599 -.123

a16 -.366 .278 -.209 -.196 -.455

Extraction Method: Principal Component Analysis.

a 5 components extracted.

上表的成份矩阵是每个变量在未旋转的成份或因子上的因子负荷量。比如

543216071.0194.0065.0273.0796.0F F F F F a +-++=。如果如下图所示,在因子分析的

options 选项卡选项中选择Suppress absolute values less than 选项,则其中小于0.10的因子负荷量将不被显示,这样将使得表格更加清晰、明了。比如每个数字代表了该变量与未旋转的因子之间的相关,这些相关有助于解释各个因子。也就是说,如果一个变量在某个因子上有较大的负荷,就说明可以把这个变量纳入该因子。但是常常会有这种情况,很多的变量同时在几个未旋转的因子上有较大的负荷,这就使得解释起来比较困难,因此查看旋转以后的结果能较好地解决这个问题。

7.表7——旋转的成份矩阵

Rotated Component Matrix(a)

Component

1 2 3 4

5 a3 .819 -.109 .122 .164

a1 .815 -.152 .135 a2 .778 -.129 .160

a6 .772 -.231

.221

.227

a5 .742 .222

a4 .718 .192 .162 .305

a8 .616 -.352 .207 .157 a7 .598 -.156 .403 .149

-.256 a11 -.176 .814 -.142 -.204 a12 -.356

.769 -.157

-.174 a14 .767 -.299

-.165 a15 .737 -.300

.140

a13

.691

-.262

a10 -.336 .669 -.260 -.387

a21 .216 -.137 .758 .110

a20 .289 -.139 .737 .226 .265

a22 .428 -.238 .441 -.133 .137

a18 .120 -.120 .715 .121

a16 .289 -.138 -.623

a19 .313 .188 .557 .233

a9 -.250 .259 -.755

a17 -.215 .437 .242 .667

Extraction Method: Principal Component Analysis.

Rotation Method: Varimax with Kaiser Normalization.

A Rotation converged in 7 iterations.

上表为旋转后的成份矩阵表,表中各变量根据负荷量的大小进行了排列。旋转后的因子矩阵与旋转前的因子矩阵有明显的差异,旋转后的负荷量明显地向0和1两极分化了。从旋转后的矩阵表中,可以很容易地判断哪个变量归入哪个因子(上表中用黑体数字标出的变量分属不同的因子)。从上表看出,最后一个因子只有两个变量,包含的变量不多,因此删除这个因子可能更为合适。但是删除了一个因子后,因素结构会有所改变,需要重新进行因子分析。

六、因素分析的命名和结果汇报

因子分析通过Varimax旋转之后得出的因子,可根据量表项目的含义进行命名。一般说来,给因子命名应该简明扼要,反映出该因子中所有变量所表达的潜在结构。如果进行的是探索性因素分析,就可以根据量表的内容进行命名。如果要验证已有的理论结构,那么对于得出的因子应采用该研究领域已被广为接受的术语进行命名,与其他研究保持一致,以免引起概念上不必要的混乱。

SPSS的因子分析产生了大量的表格结果,在研究报告或论文写作中显然不大可能有足够的篇幅对所有分析结果进行汇报,但可摘要汇报。一般的做法是,把各因子旋转后的特征值、解释方差、累计解释方差,以及各因子所包含的问卷问题及其对因子的负荷量等主要统计量汇总并制表,格式见下两表。

SPSS因子分析法-例子解释

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

SPSS案例 因子分析结果聚类

对因子分析结果进行聚类分析 一、指标选取 由因子分析结果可得,我国城市设施可以由三个方面来综合体现。因子 1主要解释的是城市用水普及率,每万人拥有公共交通车辆,命名为保障因子;而因子 2 主要解释的是人均城市道路面积,人均公园绿地面积3个指标,命名为环境因子,而因子 3主要解释的是每万人拥有公共厕所,命名为卫生因子。以全国31个城市为研究对象,以这三个因子为指标进行聚类分析。 地区F1 F2 F3 北京 2.36728 -1.68575 0.91094 天津 1.35165 0.00992 -0.9577 河北0.62336 1.34702 0.93879 山西-0.0897 -0.25653 -0.25885 内蒙古-1.65337 1.15093 2.04044 辽宁0.45876 -0.3989 -0.50817 吉林-0.8115 -0.24987 0.85291 黑龙江-1.14711 -0.30999 2.50788 上海 1.11609 -2.02566 -0.84024 江苏0.87137 1.43234 0.72032 浙江 1.03937 0.57022 1.09306 安徽-0.12794 0.75959 -0.70182 福建0.75177 0.10651 -0.3275 江西0.09848 0.64879 -0.82126 山东0.74226 2.18502 -0.99359 河南-1.37868 -0.88058 0.29946 湖北0.36699 -0.08188 -0.31494 湖南-0.2581 -0.54059 -0.89428 广东0.42696 0.31341 -0.8834 广西-0.61419 0.15371 -0.78088 海南-0.05918 0.84454 -1.28128 重庆-0.71603 1.09208 -1.16201 四川-0.55238 -0.47152 0.09303 贵州-1.62862 -1.86191 -0.88865 云南-1.01009 -0.63952 -0.7554 西藏-1.17799 -0.0862 0.38722 陕西0.51087 -0.2481 0.80618 甘肃-1.28138 -0.90858 -0.57849 青海 1.27055 -0.97516 1.7782 宁夏-0.39119 1.45719 0.34234 新疆0.90167 -0.45055 0.1777

SPSS因子分析法例子解释

因子分析的基本概念与步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握与认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”与“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量与海量数据仍就是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠与高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单与最直接的解决方案就是削减变量的个数,但这必然又会导致信息丢失与信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson与Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富与完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不就是原有变量的简单取舍,而就是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解释

SPSS因子分析法-例子解释 (2)

一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力

spss因子分析案例

[例11-1]下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该 资料进行因子分析。

8.21 9.41 3.08 6.44 2.42 5.11 9.10 12.50 3.75 2.45 4.66 3.10 1.72 0.91 11.2.1 数据准备 激活数据管理窗口,定义变量名:分别为X1、X2、X3、X4、X5、X6、X7,按 顺序输入相应数值,建立数据库,结果见图11.1。 图11.1 原始数据的输入 11.2.2 统计分析 激活Statistics菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框(图11.2)。在对话框左侧的变量列表中选变量X1至X7,点击?钮使之进入Variables框。

图11.2 因子分析对话框 点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框(图11.3),在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验。点击Continue钮返回Factor Analysis对话框。 图11.3 描述性指标选择对话框 点击Extraction...钮,弹出Factor Analysis:Extraction对话框(图11.4),系统提供如下因子提取方法:

spss因子分析案例

spss因子分析案例 SPSS因子分析是一种用于探索或验证潜在结构的数据分析方法。它将一组观测变量分解为几个潜在变量(或因子),以便更好地理解这些变量之间的关系。 假设我们有一个数据集,其中包含了一些心理测量量表的数据。我们对这些测量量表进行因子分析,以了解是否可以将它们归类为几个互相关联的潜在因子。 我们将使用SPSS进行因子分析。首先,我们打开SPSS,并 加载数据集。然后,我们选择'Analyze'菜单下的'Dimension Reduction',再选择'Factor'。 在'Factor'对话框中,我们将选择要进行因子分析的测量量表变量,并将它们添加到'Variables'框中。然后,我们单击 'Extraction'选项卡。 在'Extraction'选项卡中,我们需要选择一个因子抽取方法。常 用的方法包括主成分分析和最大似然估计。在本例中,我们选择最大似然估计。 然后,我们单击'Rotation'选项卡。因子旋转是为了使因子之间 更易解释。我们可以选择'Varimax'或'Promax'旋转方法。在本 例中,我们选择'Varimax'。 接下来,我们单击'Summary'选项卡,然后单击'Continue'。最后,我们单击'OK'按钮开始进行因子分析。

SPSS将计算因子分析,并提供一个结果表。在结果表中,我们可以看到每个测量量表变量在每个因子上的载荷值。载荷值表示变量与因子之间的关联强度。 我们还可以看到每个因子的解释方差比例。这个比例表示每个因子解释了多大比例的变量的方差。我们希望尽可能多的方差被解释,以便更好地理解数据。 此外,结果表还提供了每个因子的特征值。特征值表示因子的重要性,越大的特征值表示该因子在解释数据中起到更重要的作用。 通过对结果表的分析,我们可以确定潜在因子的数量和含义。我们可以根据载荷值的大小,将变量归到不同的因子中,并为每个因子命名。这样,我们可以更好地理解测量量表之间的关系,并提供有关潜在结构的洞察。 在以上案例中,我们使用了SPSS进行因子分析,以了解心理测量量表之间的潜在结构。通过解释载荷值、解释方差比例和特征值,我们可以得出测量量表变量之间的关联关系,并将它们归类到不同的因子中。这样,我们可以更好地理解数据集的结构。

SPSS分析因子

从上表可以看到:大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公公因 巴特利特球度检验统计量的观测值为302.62,相应的概率P-值接近0。所以认为相关系数矩阵 由图可以看出食品衣着、家庭设备、交通及服务、文教娱乐、医疗保健绝大部分信息(大于86.6%)可被因子解释,信息失真较少,本次因子提取的效果较好。

第一个因子的特征根为6.571,解释原有7个变量总方差的82.14%,累计方差贡献率为82.14%,第二个因子的特征根为0.546,解释原有7个变量总方差的6.829%,累计方差贡献率为6.829%。第三组数据项描述了最终因子解的情况。可见,因子旋转后,累计方差比没有改变,也就是没有影响原有变量的共同度,但却重新分配了各个因子解释又有变量的方差,改变了各个银子的方差贡献,是的因子更易于解释。

根据上表可以写出本次分析的因子分析模型: 交通及服务=0.974f1-0.082f2 食品=0.948f1 -0.229f2 文教娱乐=0.929f1+0.043f2 家庭设备=0.910f1 -0.259f2 其他商品=0.890f1 -0.193f2 居住=0.887f1 -0.079f2 衣着=0.864f1+0.393f2 医疗保健=0.841f1+0.469f2 八个变量在第一个因子上的载荷都很高,意味着他们与第一个因子的相关程度很高,第1因子 因子正交后可以看出食品、家庭设备、其他商品、交通及服务、居住在第一个因子上有较高的载荷,第一个因子主要解释了这几个变量,可解释为家庭生活必要开支;文教娱乐、医疗保险、衣着主要在第二个因子上较高的载荷,第二个因子主要解释了这几个变量,可解释为文教医疗提高性开支。因子的含义较清晰了。

SPSS因子分析(因素分析)——实例分析

SPSS因子分析(因素分析)——实例分析 SPSS因子分析(因素分析)——实例分析 SPSS(Statistical Package for the Social Sciences)是一种广泛应用于 数据分析的软件工具,其中的因子分析(Factor Analysis)被广泛用于 统计学和社会科学领域的研究。本文将通过一个实例分析来介绍SPSS 因子分析的基本原理和步骤。 1.研究背景 在实施因子分析之前,首先需要明确研究背景和目的。假设我们 正在研究消费者购物行为,并希望确定出不同因素对于购物偏好的影响。 2.数据收集和准备 在进行因子分析前,需要收集并准备相关数据。假设我们已经收 集到了100位消费者的关于购物行为的调查问卷数据,包括10个关于 购物偏好的变量。在SPSS中,我们可以将这些数据输入到一个数据矩 阵中,每一行代表一个消费者,每一列代表一个变量。 3.因子分析设置 在SPSS中,通过导航菜单选择适当的分析工具来进行因子分析。在设置选项中,我们可以选择因子提取方法(如主成分分析、极大似 然法等)和旋转方法(如方差最大旋转、斜交旋转等)等。根据实际 情况,我们可以调整这些参数以获得最佳结果。

4.因子提取 在因子分析的第一步中,SPSS会计算每个变量的因子载荷矩阵, 并根据设定的准则提取出主要因子。因子载荷表示了每个变量与每个 因子之间的关联程度,值越大表示关联程度越高。通过因子载荷矩阵,我们可以判断每个变量对于哪个因子具有较高的影响。 5.因子旋转 因子旋转可用于调整因子载荷矩阵,以使其更易于解释。旋转后 的因子载荷矩阵通常会呈现出更简洁、更有意义的结果。在SPSS中, 我们可以选择合适的旋转方法并进行旋转操作。 6.因子解释和命名 在完成因子分析后,我们需要对结果进行解释和命名。根据因子 载荷矩阵和旋转结果,我们可以确定每个因子代表了哪些变量,并为 每个因子赋予一个描述性的名称,以便于后续的数据分析和报告撰写。 7.结果解读 最后,根据因子分析的结果,我们可以进行一系列的统计推断和 解读。我们可以观察到不同因子的解释方差比例,以及每个因子对应 变量的权重情况。这些结果可以帮助我们理解和解释购物行为的因素 结构和影响因素。 总结:

SPSS操作方法:因子分析

S P S S操作方法:因子分析09(总 9页) --本页仅作为文档封面,使用时请直接删除即可-- --内页可以根据需求调整合适字体及大小--

实验指导之四 因子分析的SPSS操作方法 以例为例进行因子分析操作。 1.在SPSS的数据编辑窗口(见图1)点击Analysize →Data Reduction →Factor,打开Factor Analysis对话框如图 2. 图1 因子分析操作 图2 Factor Analysis 对话框

将参与因子分析的变量依次选入Variables框中。例中有8个参与因子分析的变量,故都选入变量框内。 2.单击Descriptives 按钮,打开Descriptives对话框如图3所示。 Statistics栏,指定输出的统计量。 图3 Descriptives对话框 Univariate descriptives 输出每个变量的基本统计描述; Initial solution 输出初始分析结果。输出主成分变量的相关或协方差矩阵的对角元素。(本例选择) Correlation Matrix栏指定输出考察因子分析条件和方法。 Coefficients相关系数矩阵; Significance levels 相关系数假设检验的P值; Determinant 相关系数矩阵行列式的值; KMO and Bartlett′s test of Sphericity KMO和巴特利检验(本例选择) 巴特利检验是关于研究的变量是否适合进行因子分析的检验. 拒绝原假设意味着适合进行因子分析. KMO值等于变量间单相关系数的平方和与单相关系数平方和加上偏相关系数平方和之比, 值越接近1, 意味着变量间的相关性越强,越适合进行因子分分析, KMO值越接近0, 则变量间的相关性越弱. 越不适合进行因子分析. Inverse 相关系数矩阵的逆矩阵; Reproduced 再生相关阵; Anti-image 反映象相关矩阵。 3.单击Extraction 按钮,打开Extraction对话框选项,见图4。

SPSS因子分析实例操作步骤

SPSS因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2. Opening excel data source——OK.

第二步: 1.数据标准化:在最上面菜单里面选中Analyze——Descriptive Statistics——OK (变量选择除年份、合计以外的所有变量). 2.降维:在最上面菜单里面选中Analyze——Dimension Reduction——Factor ,变量选择标准化后的数据.

3.点击右侧Descriptive,勾选Correlation Matrix选项组中的Coefficients和 KMO and Bartlett’s text of sphericity,点击Continue. 4.点击右侧Extraction,勾选Scree Plot和fixed number with factors,默认3个,点击Continue.

5.点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display选项组中的Loding Plot(s);点击Continue. 6.点击右侧Scores,勾选Method选项组中的Regression;勾选Display factor score coefficient matrix;点击Continue.

利用spss进行因子分析(r型)

利用SPSS进行因子分析(R型) 【例】与主成分分析的数据相同:全国30个省市的8项经济指标。 因子模型是一个封闭方程,通常采用主成分求解,称为“主因解”。上次讲述的“利用SPSS进行主成分分析”的过程,实际上是因子分析的第一步。在主成分分析基础上,加上因子旋转,就可完成基于主成分分析的所谓因子分析。当然也可通过另外的途径进行因子分析,在此暂不涉及。 第一步:录入或调入数据(见图1)。 图1 录入工作表中的原始数据 第二步,进行主成分分析(参见主成分分析部分,在此从略)。 第三步,因子正交旋转的系统设置。 沿着主菜单的“Analyze→Data Reduction→Factor…”路径打开因子分析选项框(图2),完成主成分分析的设置或过程以后,单击Rotation(旋转)按钮,打开“Factor Analysis: Rotation”(因子分析:旋转)选项单(图3),在Method(方法)栏中选中Varimax(方差极大正交旋转)复选项,此时Display(展示)栏中的Rotated Solution(旋转解)将被激活为系统默认态,选中Loading Plot(s)(载荷图)复选项,将会在输出结果中给出

因子载荷图式。注意此时的Maximum Iterations for Convergence(迭代收敛的最大次数)为系统默认的25次,如果数据变量较多或样本较大,经过25次迭代可能计算过程仍然未能收敛,需要改为50次、100次乃至更多,否则SPSS无法给出计算结果。迭代次数越多,计算时间也就越长。在多数情况下,不足25次迭代计算过程就会收敛。 图2 因子分析选项框 图3 因子旋转对话框 注意:与上述Maximum Iterations for Convergence(迭代收敛的最大次数)有关的设置是Extraction(提取)对话框中的迭代次数设置(图4),如果今后工作中修改了图3所示的迭代次数仍然未能给出结果,那就意味着图4所示的迭代次数设置没有增加;反过来也是一样。有时候,计算过程或数据自身特殊,改正一个地方的迭代次数设置就够了。熟能生巧,诸位多多练习,就会熟谙其中奥妙。

SPSS因子分析实例操作步骤

SPSS因子分析实例操作步骤

SPSS因子分析实例操作步骤 实验目的: 引入2003~2013年全国的农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业7个产业的投资值作为变量,来研究其对全国总固定投资的影响。 实验变量: 以年份,合计(单位:千亿元),农、林、牧、渔业,采矿业,制造业电力、热力、燃气及水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业作为变量。 实验方法:因子分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open; 2. Opening excel data source——OK.

第二步: 1.数据标准化:在最上面菜单里面选中Analyze——Descriptive Statistics——OK (变量选择除年份、合计以外的所有变量). 2.降维:在最上面菜单里面选中Analyze——Dimension Reduction——Factor ,变量选择标准化后的数据.

3.点击右侧Descriptive,勾选Correlation Matrix选项组中的 Coefficients和KMO and Bartlett’s text of sphericity,点击 Continue. 4.点击右侧Extraction,勾选Scree Plot和fixed number with factors,默认3个,点击Continue.

5.点击右侧Rotation,勾选Method选项组中的Varimax;勾选Display 选项组中的Loding Plot(s);点击Continue. 6.点击右侧Scores,勾选Method选项组中的Regression;勾选Display factor score coefficient matrix;点击Continue.

SPSS学习系列3因子分析

31.因子分析 一、根本原理 因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据, 表达一组相互关联的变量.通常情况下,这些相关因素并不能直观观测. 因子分析是从研究相关系数矩阵内部的依赖关系出发, 把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法.简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系. 因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大局部的信息;原始局部变量之间多存在较显著的相关关系,重组变量〔因子变量〕之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映. 主成分分析是因子分析的特例.主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子. 因子分析模型在形式上与线性回归模型相似, 但两者有着本质的区别:回归模型中的自变量是可观测到的, 而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同. 得到估计的因子模型后,还必须对得到的公因子进行解释. 即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性.该公因子的重要程度就是在因子模型矩 阵中相应于这个因子的系数.

由于因子载荷阵不惟一,故可对因子载荷阵进行旋转.目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1 两极分化,这样的因子便于解释和命名. 每个样本都可以计算其在各个公因子上的得分, 利用因子得分以及该公因子的方差奉献比例,又可以计算每个样本的综合得分. 二、因子分析实例 例1 〔综合评价问题〕对我国30个省市经济开展的8个指标进 行分析和排序.数据文件如下: x1=GDP 乂2=居民消费水平;x3=®定资产投资; 乂4=职工平均工资;x5瞪物周车^量;乂6=居民消费价格; x7=商品价格指数;x8= 工业总产值. 1.【分析】一一【降维】一一【因子分析】,翻开“因子分析〞窗口,将变量“ x1-x8'选入【变量】框;

SPSS因子分析法-例子解释

SPSS因子分析法-例子解释

所谓的因子载荷就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。可以证明,在因子不相关的前提下,因子载荷ji a 是变量j Z 和因子i F 的相关系数,反映了变量j Z 与因子i F 的相关程度。因子载荷ji a 值小于等于1,绝对值越接近1,表明因子i F 与变量j Z 的相关性越强。同时,因子载荷ji a 也反映了因子i F 对解释变量j Z 的重要作用和程度。因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共同因子之间的相关关系。因素分析的理想情况,在于个别因素负荷量ji a 不是很大就是很小,这样每个变量才能与较少的共同因素产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则j U 彼此间或与共同因素间就不能有关联存在。一般说来,负荷量为0.3或更大被认为有意义。所以,当要判断一个因子的意义时,需要查看哪些变量的负荷达到了0.3或0.3以上。 ↓变量共同度(共同性,Communality ) 变量共同度也就是变量方差,就是指每个原始变量在每个共同因子的负荷量的平方和,也就是指原始变量方差中由共同因子所决定的比率。变量的方差由共同因子和唯一因子组成。共同性表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量能被因子说明的程度越高,即因子可解释该变量的方差越多。共同性的意义在于说明如果用共同因子替代原始变量后,原始变量的信息被保留的程度。因子分析通过简化相关矩阵,提取可解释相关的少数因子。一个因子解释的是相关矩阵中的方差,而解释方差的大小称为因子的特征值。一个因子的特征值等于所有变量在该因子上的负荷值的平方总和。变量j Z 的共同度2h 的数学定义为:∑==m i ji a h 1 2 2,该式表明变量j Z 的共同度是因子载荷矩阵A 中第j 行元素的平方和。由于变量j Z 的方差可以表示成122=+u h ,因此变量j Z 的方差可由两个部分解释:第一部分为共同度2h ,是全部因子对变量j Z 方差解释说明的比例,体现了因子全体对变量j Z 的解释贡献程度。变量共同度2h 越接近1,说明因子全体解释说明了变量j Z 的较大部分方差,如果用因子全体刻画变量j Z ,则变量j Z 的信息丢失较少;第二部分为特殊因子U 的平方,反应了变量j Z 方差中不能由因子全体解释说明的比例,2u 越小则说明变量j Z 的信息丢失越少。 总之,变量d 共同度刻画了因子全体对变量j Z 信息解释的程度,是评价变量j Z 信息丢失程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分信息(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。因子,变量共同度是衡量因子分析效果的重要依据。 ↓因子的方差贡献(特征值eigenvalue )

SPSS因子分析法

因子分析 一、基础理论知识 1 概念 因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多 的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

3 类型 根据研究对象的不同,把因子分析分为R型和Q型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q型因子分析。 但有的因子分析方法兼有R 型和Q型因子分析的一些特点,如因子分析中的对应分析方 法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n×p 阶的地理数据矩阵: 当p 较大时,在p 维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。 线性组合:记x1,x2,⋯,xP 为原变量指标,z1,z2,⋯,zm(m≤p)为新变量指标 (主成分),则其线性组合为: Lij 是原变量在各主成分上的载荷 无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。 zi 与zj 相互无关;

SPSS因子分析法

因子分析 因子分析 一、基础理论知识 1 概念 因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法.从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映. 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多. 3 类型 根据研究对象的不同,把因子分析分为R型和Q型两种。 当研究对象是变量时,属于R型因子分析; 当研究对象是样品时,属于Q型因子分析. 但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。

SPSS因子分析报告法-内容与案例

实验课:因子分析 实验目的 理解主成分(因子)分析的基本原理,熟悉并掌握SPSS^的主成分(因子)分析方法及其主要应用。 因子分析 一、基础理论知识 1概念 因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分 析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多 的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外 一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的 目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或 主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

3类型 根据研究对象的不同,把因子分析分 为R 型和Q 型两种。 当研究对象是变量时,属于 R 型因子分析; 当研究对象是样品时,属于 Q 型因子分析。 但有的因子分析方法兼有 R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方 法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 _ X ii A 12 X ip 1 X 2i 9 入22 9 * X 2p ?ni ・・・ 入n2 X np _ 当p 较大时,在p 维空间中考察问题比较麻烦。 这就需要进行降维处理, 即用较少几个 综合指标代替原来指标, 而且使这些综合指标既能尽量多地反映原来指标所反映的信息, 同 时它们之间又是彼此独立的。 线性组合:记x1 , x2,…,xP 为原变量指标,z1 , z2,…,zm ( m < p )为新变量指标 (主成分),则其线性组合为: gm =1耐为 +-2%2 + …+ I mp X p Lij 是原变量在各主成分上的载荷 N =I ii X i +I 12X 2 + …+I ip X p Z 2 = 12i X i I 22X ^ I 2p X p i Z m —山 x i * I m2 x 2 * * 1 mp x p 无论是哪一种因子分析方法, 其相应的因子解都不是唯一的, 主因子解仅仅是无数因子 解中之一。 zi 与zj 相互无关; zi 是xi , x2,…,xp 的一切线性组合中方差最大者 ,z2是与zi 不相关的xi , x2 , •- 的所有线性组合中方差最大者。则,新变量指标 zi , z2,…分别称为原变量指标的第一, 第二,…主成分。 Z 为因子变量或公共因子,可以理解为在高维空间中互相垂直的 m 个坐标轴。 主成分分析实质就是确定原来变量 xj (j=i , 2 ,…,p )在各主成分zi (i=i , 2,…, m )上的荷载Iij 。 从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的 m 个较大的特征值所 对应的特征向量。 假定:有n 个地理样本,每个样本共有 p 个变量,构成一个 n x p 阶的地理数据矩阵: Z | =怙治• l 12x 2 ::;…川'I ip X Z 二 I 21% I 22X 2 l 2p X

相关主题
相关文档
最新文档