浅谈主成分分析与因子分析-基本思想-主要性质-应用举例-计算步骤-主要区别

浅谈主成分分析与因子分析

1、主成分分析

主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息.这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。

1.1基本思想

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分.这些主成分不仅不相关,而且他们的方差依次递减。

1.2计算步骤

设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。

(1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再除以这个指标的标准差。

(2)建立变量的相关系数阵:。

(3)求R的特征根及相应的单位特征向量。

在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个,称第一主成分的贡献率为,这个值越大,表明第一主成分综合信息的能力越强。前k个主成分的累计贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息。

1。3算法原理

(1)对资料阵标准化,得

其中 i=1,2……n, j=1,2,……P。

(2)求出相关矩阵

式中i为标本编号,j,k=1,2,…P。其中,。

此相关矩阵为一对称矩阵,所以在下面的计算中取上三角阵R上=

(3)求出R上的特征及特征向量。

求R上矩阵的特征值及特征向量有许多方法,特征方程法、迭代法等

(4)求出主成分.

将求出的特征值按大小依次排列,使得,根据原则确定m,并依次排列特征向量就可得出我们所需的主成分。

1.4主要性质

主成分性质主要包括以下几点:

(1)设p个n维随机向量X1,X2…。Xp协方差矩阵为∑,∑的特征值为λ1≥λ2≥…≥λp>0,相应的单位特征向量为:则x的主成分可表示为:Fi=μ'iX=μi1X1+μi2X2+…+μipXp,i=1,2,…,p

记μi=(μi1,μi2,…μip)T

(2)p个主成分均值为0,且p个主成分不相关。

(3)主成分的方差之和与原始变量的方差之和相等,也就是说,经过变化后,变量间的变异性没有改变,信息没有损失。

(4)称为第k个主成分的方差贡献率,称为前k个主成分的累积方差贡献率.

在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到85%,明取前k个主成分基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有利于对实际问题的分析和研究。

(5) 若Fi=μ’iX是数据矩阵x的主成分则(i=1,2,...p)是Yi与Xk的相关系数。

1。5主成分分析方法应用实例

实例:对流域系统的主成分分析

下表给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,x9代表流域盆地面积(km2)。

分析过程:

①将表3.5.1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2)。

②由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表

3.5.3)。由表3。5。3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。

z3上的载荷.

2、因子分析

因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.

2。1基本思想

因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。

2。2计算步骤

(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同;

(2)求标准化数据的相关矩阵;

(3)求相关矩阵的特征值和特征向量;

(4)计算方差贡献率与累积方差贡献率;

(5)确定因子:设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原指标。

2.3算法原理

因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法.它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.

因子分析的数学模型如下:

(1)符号与假定

设有n个样本,每个样本观测p个变量,记:

原始变量矩阵为X:,公共因子变量矩阵为F: ,

特殊因子矩阵为E:

假定因子模型具有以下性质:

1。 E(x)=0,cov(x)=∑

2。 E(F)=0,cov(F)=I

3. E(E)=0,cov(e)=diag(σ12,σ22,…,σp2)

4. Cov(F,E)=0

若用矩阵形式表示,则为:X=AF+E

式中的A,称为因子载荷矩阵,并且称为第i个变量在第j个公共因子上的

载荷,反映了第i个变量在第j个公共因子上的相对重要性。

可以证明因子载荷为第i个变量与第j个公共因子的相关系数,即反映了变量与公共因子的关系密切程度,越大,表明公共因子与变量的线性关系越密切。

模型中F1,F2,…,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。,,…,叫做特殊因子,是向量x的分量(i=1,2,…,p)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素()是为因子载荷。因子载荷是与的协方差,也是与的相关系数,它表示依赖的程度。可将看作第i个变量在第j公共因子上的权,的绝对值越大(||£1),表明与的相依程度越大,或称公共因子对于的载荷量越大。为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。

因子载荷矩阵A中第i行元素之平方和记为,称为变量的共同度.它是全部公共因子对的方差所做出的贡献,反映了全部公共因子对变量的影响.大表明x 的第i个分量对于F的每一分量F1,F2,…,Fm的共同依赖程度大。

将因子载荷矩阵A的第j列(j=1,2,…,m)的各元素的平方和记为,称为公共因子对x的方差贡献。就表示第j个公共因子对于x的每一分量(i=1,2,…,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。越大,表明公共因子对x的贡献越大,或者说对x的影响和作用就越大.如果将因子载荷矩阵A的所有(j=1,2,…,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。

2。4主要性质

因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量解释原始变量之间的相关关系。

因子性质主要表现变量之间关联度上,根据关联度可以划分为特殊因子和公共因子,利用因子分析,减少分析变量个数,通过对变量的相关关系探测,将原始变量进行分类。其中共同度表明x的第i个分量对于F的每一分量F1,F2,…,Fm 的共同依赖程度。如果它的值越大,依赖程度就越大。方差贡献是衡量公共因子相对重要性的指标。越大,表明公共因子对x的贡献越大,或者说对x的影响和作用就越大。

2.5因子分析方法的应用举例

实例:因子分析在教师教学效果评价中的应用

本文选用某校网上评教数据,选取的课程均为必修课程(没有考虑选修课和实验课等),且为了排除课程性质和班级容量对教师排名的影响,本文选取了教授相似课程,所教班级容量相近的10名教师,通过统计软件SAS 9.0对其进行因子分析,发现每位教师究竟在教学环

节的哪个方面存在着不足。

2。5.1因子分析过程

第一步:数据标准化与数据相关性检验。检验结果如下,KMO值很大,Bart lett 球体检验值很小,说明数据适合做因子分析。.

第二步:提取因子.用SAS统计软件进行分析,并计算出特征值的贡献率及累计贡献率。前5个因子,反映了原指标17%的信息量,可以对所分析问题作出较好的解释,故选取了5个公因子。

第三步:因子解释。采用最大方差旋转法得出旋转后因子载荷矩阵.

从上面的因子载荷矩阵中可以看出

因子F1主要支配:u10(教师能把本课程在学生知识结构中的地位、目的讲授给学生),u11(教师能为人师表,从严执教,能把传授知识与塑造人的全面素质结合起来),u12(通过教师的讲授,学生基本掌握本课程的内容),可解释为教师传授知识的能力;

因子F2主要支配u7(教师授课内容充实、信息量大)、u8(教师使用教学辅助手段),u9(教师授课能理论联系实际),可解释为教学手段;

因子F3主要支配u3(教师能启发学生的思路,激发学生的学习兴趣)、u4(教师教给学生掌握知识、方法,鼓励学生独立思考),可解释为教师引导学生和发掘学生潜力的能力;

因子F4主要支配u5(教师能培养学生分析问题和解决问题的能力)、u6(教师重视与学生交流,达到师生互动的效果),教师调动学生听课的能力.

因子F5主要支配u1(教师对教学工作很有热情,讲课认真、投入)、u2(教师讲课思路清晰,表达清楚,重点难点、突出),可解释为教师讲课能力;

第四步:因子得分。将所有同学的十二个指标评分数值经标准化后与因子得分矩阵相乘可得每位同学对每位教师的五个因子得分数值,十位教师的按5个因子得分见表3,十位教师按5分因子的排名情况如图1所示。

通过因子分析得出的因子得分(表3)及其排名情况(图2),可以一目了然的看出教师方面的教学效果和某位教师在教学中的哪个方面存在不足,比如教高级语言程序设计这位教师在因子2教学手段方面和因子3引导学生和发掘学生潜力的能力方面相比其他教师要落后一些,教路基工程的这位教师在因子4教师调动学生听课能力方面存在明显不足,教授机械设计基础的教师在因子1教师传授知识能力方面相比其他教师要落后,而各个教师在因子5教师讲课能力方面差距不大.另外,通过因子分析也可以给出每位教师的总得分,按总得分的排名情况如表4,可以看出它和目前普遍采用的直接平均法排名是大体一致的,但是由于因子分析在降维的过程中舍弃了一小部分信息,所以按总得分的排名只具有一定的参考价值

.

2。5.2 结论

目前教师教学效果的评价,大都通过计算网上评价数据的平均值,然后按其排名来进行考核教师教学效果.但是这种传统取平均值的方法受到课程性质,班级人数多少等因素的影响,光靠名次来决定教师的水平高低,具有一定的片面性. 于是,本文将统计中因子分析模型引入教师教学效果评价中,在给出教师排名的同时,还能分析出教师在教学的具体哪个环节存在不足,从而清醒找到自己排名落后的原因,这样可以达到以评促教.但是,因子分析在降维过程中会损失一小部分信息,所以按因子总得分得到的排名只具有参考价值.总之,在教师评价过程中,

排名不是关键,通过因子分析找到不足之处并得以改进才是真正目的。

3、两者的主要区别

3。1主要联系

两种方法的出发点都是变量的相关系数矩阵(或相似系数矩阵),在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关.它们都属于多元分析中处理降维的统计方法。

3.2主要区别

(1)从概念上看

主成分分析是将多个指标化为少数互相无关的综合指标的统计方法。

因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合数量较少的几个因子,再现原始变量与因子之间的相互关系同时根据不同因子还可以对变量进行分类。

(2)从基本思想上看

主成分分析是设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。

因子分析通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)大小将变量分组,使得同组内的变量(或样品)之间相关性(或相似性)较高但不同组内相关性(或相似性)较低.

(3)从数学模型上看

1)主成分分析的数学模型实质上是一种变换,通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是把注意力集中在少数不可观测的潜在变量(即公共因子)上,而舍弃特殊因子.

2 )主成分分析是将主成分表示为原观测变量的线性组合。

其实质是p维空间的坐标变换,不改变原始数据的结构。

因子分析则是描述原指标X协方差阵结构的一种模型。对原观测变量分解成公共因子和特殊因子两部分。

当公共因子的个数m=原变量的个数p时就不能考虑,此时因子分析也对应于一种变量变换。但在实际应用中m都小于p,且为经济起见总是越小越好。3)主成分的各系数aij是唯一确定的、正交的。不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的,且该矩阵表明了原变量和公共因子的相关程度。

(4)从计算过程看

1)主成分分析中可以通过可观测的原变量X直接求得主成分F,并具有可逆性;其中aij是X的协差阵的特征值所对应的特征向量。因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子。bij是因子载荷矩阵中的元素,是第i变量Xi与第j个公共因子Zj的相关系数,即表示Xi依

赖Zj的份量,是第i变量在第j个公共因子上的负荷,它反映了第i变量在第j 个公共因子上的相对重要性。是第j个原观测变量的特殊因子,且此处的Xi与Zj的均值都为0,方差都为1.

2)公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。

3 )主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等。此时综合得分=∑(各主成分得分*各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到.而因子分析的综合得分=∑(各因子得分*各因子所对应的方差贡献率),因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。

4、结语

本文很详细地从理论和应用角度,分析了主成分分析和因子分析这两种方法的基本思想、算法原理、主要性质、应用举例和主要区别等。从分析结果看,运用主成分分析和因子分析进行综合定量分析时,不但综合排名结果存在差异,而且定量值也存在较大差异,这必然会影响后面的综合定性分析结果.每种方法都有各自的优势,我们具体情况具体分析,正确理解和运用这两种方法,使其发挥出各自最大的优势。

聚类分析、判别分析、主成分分析、因子分析

聚类分析、判别分析、主成分分析、因子分析 主成分分析与因子分析的区别 1. 目的不同:因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同:因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS 根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 1 、聚类分析 基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

因子分析是主成分分析的推广和发展

因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。 因子分析的内容十分丰富,这里仅介绍因子分析常用一种类型:R型因子分析(对变量做因子分析)。 基本思想:因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。 R 型因子分析数学模型: 用矩阵表示:= 简记为 且满足: 即和是不相关的; Digg 排行 主成 分分 析 动态 分析 法 判别 分析 聚类 分析 因子 分析 密切 值法 综述 综合 评价 分析 相关 分析 法 因素 分析 法 平衡 分析 法 热门

即不相关且方差皆为1。 即 不相关,且方差不同。 其中 是可实测的个指标所构成 维随机向量, 是不可观测的向量,称为的公共因子或潜因子。称为 因子载荷是第个变量在第个公共因子上的负荷。矩阵称为因子载荷矩阵; 称为的特殊因子,通常理论上要求的斜方差阵是对角阵,中包括了随 机误差。 因子分析和主成分分析的区别:主成分分析的数学模型实质上是一种变换, 而因子分析模型是描述原指标斜方差阵结构的一种模型。另外,在主成分分 析中每个主成分相应的系数是唯一确定的。与此相反,在因子分析中每个因 子的相应系数不是唯一的,即因子载荷不是唯一的。 因子模型中公共因子,因子载荷和变量共同度的统计意义: 假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均 值为0,方差为1)的变量。 (1)因子载荷的统计意义:因子载荷的统计意义就是第个变量与第 个公共因子的相关系数即表示依附于的分量(比重)。它反映第个变量 评论

浅谈主成分分析与因子分析-基本思想-主要性质-应用举例-计算步骤-主要区别

浅谈主成分分析与因子分析 1、主成分分析 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息.这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。 1.1基本思想 主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分.这些主成分不仅不相关,而且他们的方差依次递减。 1.2计算步骤 设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。 (1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再除以这个指标的标准差。 (2)建立变量的相关系数阵:。 (3)求R的特征根及相应的单位特征向量。 在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个,称第一主成分的贡献率为,这个值越大,表明第一主成分综合信息的能力越强。前k个主成分的累计贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息。 1。3算法原理 (1)对资料阵标准化,得

主成分分析与因子分析的联系与区别

一、问题的提出 在科学研究或日常生活中,常常需要判断某一事物在同类事物中的好坏、优劣程度及其发展规律等问题。而影响事物的特征及其发展规律的因素(指标)是多方面的,因此,在对该事物进行研究时,为了能更全面、准确地反映出它的特征及其发展规律,就不应仅从单个指标或单方面去评价它,而应考虑到与其有关的多方面的因素,即研究中需要引入更多的与该事物有关系的变量,来对其进行综合分析和评价。多变量大样本资料无疑能给研究人员或决策者提供很多有价值的信息,但在分析处理多变量问题时,由于众变量之间往往存在一定的相关性,使得观测数据所反映的信息存在重叠现象。因此为了尽量避免信息重叠和减轻工作量,人们就往往希望能找出少数几个互不相关的综合变量来尽可能地反映原来数据所含有的绝大部分信息。而主成分分析和因子分析正是为解 因子分 相关。 1. 2. ), 3. 主成分的各系数,是唯一确定的、正交的。不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。 4. 主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。还有,主成分分析不可以像因子分析那样进行因子旋转处理。 5.综合排名。主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,此时综合得分=∑(各主成分得分×各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而

主成分分析和因子分析-回归分析和相关分析的区别

主成分分析和因子分析的区别 通过主成分分析所得来的新变量是原始变量的线性组合,每个主成分都是由原有P个变量线组合得到,在诸多主成分z中,Z1在总方差中占的比重最大,说明它综合原有变量的能力最强,其余主成分在总方差中占的比重依次递减,说明越往后的主成分综合原信息的能力越弱。以后的分析可以用前面几个方差最大的主成分来进行,一般情况下,要求前几个z所包含的信息不少于原始信息的85%,这样既减少了变量的数目,又能够用较少的主成分反映原有变量的绝大部分信息。如利用主成分来消除多元回归方程的多重共线性,利用主成分来筛选多元线性回归方程中的变量等。 通过因子分析得来的新变量是对每一个原始变量进行内部剖析。打比喻来说,原始变量就如成千上万的糕点,每一种糕点的原料都有面粉、油、糖及相应的不同原料,这其中,面粉、油、糖是所有糕点的共同材料,这正好象是因子分析中的新变量即因子变量。正确选择因子变量后,如果想考虑成千上万糕点的物价变动,只需重点考虑面粉、油、糖等公共因子的物价变动即可。所以因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。即因子分析就是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它把原始变量分解为两部分因素,一部分是由所有变量共同具有的少数几个公共因子构成的,另一部分是每个原始变量独自具有的因素,即特殊因子。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:1)、了解数据(screening the data);2)、和cluster analysis一起使用;3)、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分分析对变量简化(reduce dimensionality);4)、在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数CI),还可以用来处理共线性。

06-第六章因子分析

第六章 因子分析 一.基本原理 因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。 因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。 1.正交因子模型 设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述: x Lf με=++ 其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。 其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I == (3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。 由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。 在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。 L 称为载荷阵(Loading Matrix )。 如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。A 为载荷阵。 X 的方差是由载荷阵和特殊因子的方差构成的。即()Var X AA '=+ψ。 2.因子分析与其他多元分析方法的区别 与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。 与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。 二.计算模型 1.因子载荷的含义 假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。 已知模型1122i i i im m i x a F a F a F ε=++++ 对两端右乘j F ,得 1122i j i j i j im m j i j x F a F F a F F a F F F ε=++ ++

因子分析与主成分分析的区别与应用

因子分析与主成分分析的区别与应用因子分析与主成分分析是统计学中常用的多变量分析方法,用于降 维和提取数据中的主要信息。虽然它们都可以用于数据分析,但在方 法和应用上存在一些区别。本文将介绍因子分析与主成分分析的区别,并讨论它们各自的应用。 一、因子分析与主成分分析的定义 因子分析是一种用于研究多个观测变量之间的内在相关性结构的统 计技术。它通过将多个变量组合为少数几个“因子”来解释数据的方差。每个因子代表一组相关性高的变量,可以帮助我们理解数据背后的潜 在结构。 主成分分析是一种通过将原始变量转换为线性组合(即主成分)来 降低多维数据维度的技术。它通过找到数据中的最大方差方向来确定 主成分,并逐步提取主成分,以解释数据的最大方差。主成分分析可 以帮助我们发现数据中的主要特征。 二、因子分析与主成分分析的区别 1. 目的不同: 因子分析的目的是确定一组能够最好地描述观测数据之间关系的因子,并解释数据中的方差。因子分析更加关注变量之间的共同性和相 关性,希望通过较少的因子来解释数据。

主成分分析的目的是通过寻找数据中的主要结构和主要特征来降低数据的维度。主成分分析着重于方差的解释,通过线性组合来减少变量数量,提取出主要成分。 2. 基本假设不同: 因子分析基于观察变量之间的共同性,假设观测变量是由一组潜在因子决定的。它假设每个观测变量都与每个因子有一个固定的因子载荷。 主成分分析假设原始变量之间是线性相关的,并且通过线性变换,可以找到解释大部分数据方差的新变量。 3. 输出结果不同: 因子分析输出因子载荷矩阵,该矩阵显示每个因子与每个观测变量之间的关系。因子载荷表示每个因子对每个变量的贡献程度,可用于解释观测变量之间的共同性。 主成分分析输出的是主成分,每个主成分是原始变量的线性组合。主成分按照解释的方差大小排序,因此前几个主成分更能代表原始数据的方差。 三、因子分析与主成分分析的应用 因子分析的应用广泛,可以用于心理学、社会科学、市场调研等领域。在心理学中,因子分析可以用于测量和评估人的个性特征、态度和情绪等潜在因子。在社会科学中,因子分析可以帮助研究人们对政府服务和社会公平的看法。

主成分分析与因子分析的异同

主成分分析与主成分分析与因子分析的异同 --------------------------------------------------------------------------------------------------------------------- ABSTRACT 设=(X1,…,X P为标准化随机向量(p≥2),R为相关系数矩阵,=(F1,…,F m为主成分向量, =(Z1 ,…,Z m为因子向量,m≤p,为方便,因子、因子估计、因子得分用同一记号。 一、问题的提出 主成分分析与R-型因子分析是多元统计分析中的两个重要方法,同是降维技术,应用范围十分广泛,但通过流行甚广的SPSS软件调用这两种方法的过程命令,有些使用者容易出现混淆性错误,如《统计研究》2003年第12期发表的论文《经济全球化程度的量化研究》(以下称《刘文》)、电子工业出版社2002年9月出版的《SPSS for Windows 统计分析(第二版)》(以下称《卢书》)就是这种情况。是什么原因造成这些错误呢?主成分分析与R-型因子分析到底有何异同呢? 经过对一些论文和一些SPSS软件教科书仔细查证分析、比较我们发现出错的主要原因在于有些使用者和SPSS软件教科书作者对怎样用SPSS软件得出主成分分析与R-型因子分析的结果掌握不全面,对主成分分析与R-型因子分析异同的认识不透彻。 经过仔细查证出现的错误有: 使用主成分分析时①叙述主成分分析概念出错。②主成分F求解出错,如=中( 为单位矩阵,的意义见表1)。③找不到主成分F的命名依据,对主成分F命名出错。④某变量X k被丢失。 ⑤对错误地进行旋转。⑥错误地进行回归求F。⑦错误地把因子分析法(含初始因子分析法)当作主成分分析法。 使用因子分析时①将因子分析的思想叙述为主成分分析的思想。②因子Z i的命名出错,如用因子得分函数对因子Z i进行命名。③某变量X k被丢失。④将主成分或因子错误地表示为(的意义见表1)。⑤不知相关系数矩阵特征值与因子贡献v i的区 别,如综合因子得分函数Z综 =Z i 中的v i错误地取为特征值。

主成分分析,聚类分析,因子分析

主成分分析,聚类分析,因子分析的基本思想以及他们各自的优缺点。 主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。 聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。 (二) 不同之处

主成分分析、聚类分析、因子分析的基本思想及优缺点

欢迎共阅 主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。 相似。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类; 2. K-均值法要求分析人员事先知道样品分为多少类; 3. 对变量的多元正态性,方差齐性等要求较高。 应用领域:细分市场,消费行为划分,设计抽样方案等

优点:聚类分析模型的优点就是直观,结论形式简明。 缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。 因子分析:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错 会出现问题); 3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显着差异时,判别函数不相同)。 4. 相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。 应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。

欧阳学文 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。 (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法; 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; 3.主成分分析不要求数据来源于正态分布; 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现

象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 常用聚类方法:系统聚类法,K均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 注意事项:1. 系统聚类法可对变量或者记录进行分类,K均值法只能对记录进行分类; 2. K均值法要求分析人员事先知道样品分为多少类; 3. 对变量的多元正态性,方差齐性等要求较高。 应用领域:细分市场,消费行为划分,设计抽样方案等

主成分因子分析

一主成分分析法的原理 主成分分析法是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法这些综合指标通常被称为主成分,主成分相比原始变量而言,具有更多的优越性,即在研究许多复杂问题时不至于丢失太多信息,从而使我们更容易抓住事物的主要矛盾,提高分析效率该方法的核心就是通过主成分分析,选择n个主分量Y1,Y2,…,Yn,其中Yi (i=1,2,,n)为第i个主成分的得分,以主分量Yi 的方差贡献率ai 作为权数,构造综合评价函数:Y=a1Y2+a2Y2+ +anYn,这样当我们把第i个主成分的得分算出来后,便可以很快求出综合得分,并且按照得分的高低来排序同时我们可以根据第i个主成分的得分来衡量某地区或某企业在第i个主成分所代表的经济效益方面的地位二、主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 三、主成分分析方法的原理

因子分析和主成分分析在数据降维中的应用

因子分析和主成分分析在数据降维中的应用 一、背景介绍 数据降维是一种对高维数据进行简化的方法,它可以减少数据分析过程中的计算量,提高模型效率。在实际数据分析中,数据的维度常常是非常高的,而且高维数据具有许多不规则的特征,如噪声、缺失值等,这需要运用合适的降维技术来针对这些问题进行处理。 因子分析和主成分分析是两种经典的统计降维技术,它们被广泛应用于数据降维领域,并在实际中取得了良好的效果。下面将对这两种降维技术的原理、方法及应用进行详细介绍。 二、因子分析 因子分析是一种基于相关性分析的统计方法,它可以从数据中提取出不同因子之间的潜在关系,并将数据转化为具有较少、更为有表达的因子变量。因此,因子分析适用于探索多个变量之间的结构,从而更好地理解它们之间的关系。 1.原理和方法 因子分析的基本原理是将多个测量指标转化为少量的有意义的因子变量,这些因子变量在互相独立的前提下反映了原始变量的大部分信息。因子分析还建立在一种假设之上,即每个因子都与一组变量具有一定的相关性,并且因子直接不相关。

基本思路是先对测量指标进行因子旋转,使得每个因子只与少数相关系数较大的测量指标相关,然后从转化后的因子中寻找最能解释总变异的因子。在因子分析中,通常可采用主成分分析、极大似然估计等方法来进行因子提取,并通过旋转方法来增强提取到的因子与原始数据的解释性。 2.应用 因子分析主要应用于探索潜在的结构,在社会、心理、医学等领域中非常常见。例如,在心理学中,心理学家用问题问卷来测量个体的特定人格特征,因为人格是一种非常复杂的概念,通常需要通过因子分析来找到能够代表人格的因子。因子分析还可以应用于方差分析、路径分析、结构方程模型等多种统计分析方法中。 三、主成分分析 主成分分析是一种数学方法,是一种基于线性关系的多元统计分析方法,通过对变量之间的相关性进行分解,以生成一组线性无关的新变量(主成分)保留原始数据的最大变异量来实现数据降维的目的。 1.原理和方法 主成分分析主要的思路是找到一个比原始变量更基础,或更本质的概念,来代替原来的所有变量,从而简化问题。主成分分析

因子分析方法

因子分析法 1。因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息.运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 因子分析法与其他一些多元统计方法的区别: 2。主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的.主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合. 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

因子分析方法

因子分析法 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 因子分析法与其他一些多元统计方法的区别: 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。 3.聚类分析(Cluster Analysis) 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。 在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。

主成分分析与因子分析的比较及其应用

主成分分析与因子分析的比较及其应用 摘要:主成分分析法和因子分析法都是从变量的方差一协方差结构入手,在尽可能多地保留原始信息的基础上,用少数新变量来解释原始变量的多元统计分析方法。教学实践中,发现学生运用主成分分析法和因子分析法处理降维问题的认识不够淸楚,木文针对性地从主成分分析法、因子分析法的基木思想、使用方法及统汁量的分析等多角度进行比较,并辅以实例。 关键词:主成分分析二因子分析二比较二应用 主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求岀少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。这两种方法是处理多变量、大样木时经常采用的方法,英一者的最终目的都是降维,而且在处理方法上,许多参考文献上都强调因子分析法是主成分方法的扩展,也就是因子分析的基础是主成分方法,所以对初学者来说,这两种方法在使用时很可能会用混,木文将对两者的异同进行比较。 一、基本思想上的异同比较 从_者表达的含义上看,主成分分析法和因子分析法都是寻求少数的几个变疑成因子)来综合反映全部变量因子)的大部分信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的s5%以上,用这些新变量来分析经济问题,其可信度仍然很髙,而且这些新的变量彼此间互不相关,消除了多重共线}円。对新变量的认识,不能错误简单地认为所寻求来的这几个少数变虽C}7子)是原始变屋经过筛选后剩余的变量,我们要淸楚地认识到,对通过主成分分析所得来的新变量是原始变量的线性组合,如原始变疑为、〃xz,…,、},经过坐标变换,将原有的P个相关变量x;作线性变换,转换成另一组不相关的变量z;,我们每个主成分都是由原有P个变量线性组合得到,矩阵U满足U} U = 1的条件,在诸多主成分z; 中,z、在总方差中占的比重最大,说明它综合原有变量x,, x 中占的比重依次递减,说明越往后的主成分综合原信J息的能力越弱。以后的分析可以用前而几个方差最大的主成分,来进行,一般情%}下,要求前几个z;(i

主成分分析和因子分析的区别

主成分分析和因子分析的区别 一、二者在SPSS中的实现 (一)、因子分析在SPSS中的实现 进行因子分析主要步骤如下: 1. 指标数据标准化(SPSS软件自动执行); 2. 指标之间的相关性判定; 3. 确定因子个数; 4. 综合得分表达式; 5. 各因子Fi命名; 例子:对沿海10个省市经济综合指标进行因子分析 (一)指标选取原则 本文所选取的数据来自《中国统计年鉴2003》中2002年的统计数据,在沿海10省市经济状况主要指标体系中选取了10个指标: X1——GDP X2——人均GDP X3——农业增加值X4——工业增加值 X5——第三产业增加值X6——固定资产投资 X7——基本建设投资X8——国内生产总值占全国比重(%) X9——海关出口总额X10——地方财政收入 图1:沿海10个省市经济数据

(二)因子分析在SPSS中的具体操作步骤 运用SPSS统计分析软件Factor过程[2]对沿海10个省市经济综合指标进行因子分析。具体操作步骤如下: 1. Analyzeà Data Reductionà Factor Analysis,弹出Factor Analysis对话框 2. 把X1~X10选入Variables框 3. Descriptives: Correlation Matrix框组中选中Coefficients等选项,然后点击Continue,返回Factor Analysis对话框 4. 点击“OK” 图2:Factor Analyze对话框与Descriptives子对话框 SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。我们可以通过Analyze-Descriptive Statistics- Descriptives对话框来实现:弹出Descriptives对话框后,把X1~X10选入Variables框,在Save standardized values as variables前的方框打上钩,点击“OK”,经标准化的数据会自动填入数据窗口中,并以Z开头命名。Descriptives对话框 图3:相关系数矩阵 从图表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,

相关主题
相关文档
最新文档