06-第六章因子分析
因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明:
11
12
因子分析的五大基本步骤
第一步:因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将 原有变量中的信息重叠部分提取和综合成因子,进而最终实 现减少变量个数的目的。因此它要求原有变量之间应存在较 强的相关关系。否则,如果原有变量相互独立,相关程度很 低,不存在信息重叠,它们不可能有共同因子,那么也就无 法将其综合和浓缩,也就无需进行因子分析。本步骤正是希 望通过各种方法分析原有变量是否存在相关关系,是否适合 进行因子分析。
2
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
18
第四步:决定因素与命名
• 转轴后,要决定因素数目,选取较少因素 层面,获得较大的解释量。在因素命名与 结果解释上,必要时可将因素计算后之分 数存储,作为其它程序分析之输入变量。
19
第五步:计算各样本的因子得分
• 因子分析的最终目标是减少变量个数,以 便在进一步的分析中用较少的因子代替原 有变量参与数据建模。本步骤正是通过各 种方法计算各样本在各因子上的得分,为 进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之 间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方 法 主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标 变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相 关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少 变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信 息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降 低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子 分析的一个特例
第六章 因子分析

k 1 m m
= Cov( = aij
a
k 1
ik
Fk , Fj ) Cov( i , Fj )
如果对 X i 作了标准化处理, X i 的标准差为 1,且 Fj 的标准差 为 1,因此
rX i , Fj
m * ij
i j i j
i, j 1, 2,, p
(6.10) 我们知道 A 的解是不唯一的,可以有许多。这种方法要求得 到的解使得第一公共因子 F1 对 X 的贡献 g1
2
ai2 达到最 1
i 1
p
大,第二共因子 F2 对 X 的贡献 g 2
2
ai22 达到次之, ,
第一,变量 X 的协差阵 Σ 的分解式为
D( X ) D( AF ε) E[( AF ε)( AF ε)] AE (FF ) A AE (Fε) E (εF ) A E (εε) AD(F ) A D(ε )
由模型(6.2)式所满足的条件知
第六章 因子分析
第一节
引言
一般认为因子分析是从Charles Spearman在 1904年发表的文章《对智力测验得分进行统 计分析》开始,他提出这种方法用来解决智 力测验得分的统计方法。目前因子分析在心 理学、社会学、经济学等学科中都取得了成 功的应用,是多元统计分析中典型方法之一 。
因子分析(factor analysis)也是一种降维、 简化数据的技术。它通过研究众多变量之间 的内部依赖关系,探求观测数据中的基本结 构,并用少数几个“抽象”的变量来表示其 基本的数据结构。这几个抽象的变量被称作 “因子”,能反映原来众多变量的主要信息 。原始的变量是可观测的显在变量,而因子 一般是不可观测的潜在变量。
第六章 因子分析

2
4
6
8
10 t
12
14
16
18
20
主因子的概念
如果对m个原变量(x1, x2,…, xm)进行n次观测,则各主成分的时间序列可表示为:
x11 x Y LT X LT 21 xm1 x12 ... x1n y11 y x22 ... x2 n = 21 xm 2 ... xmn ym1 y12 ... y1n y22 ... y2 n ym 2 ... ymn
第1主成分y1 第2主成分y2 第m主成分ym
主成分的方差,即X的协方差阵的特征值,按照y1、y2、…、ym的顺序从大到小进 行排列。 为了分析各主成分对原变量的作用、研究原变量与各主成分的关系:
对各主成分进行标准化,使它们的方差都等于1,这时的主成分称为“主因子”。
第i个主因子就是第i个主成分yi的标准化,记为fi, 有:
为了提高因子的利用率,需要将公共信息与独立信息尽可能地分离开来,以
便采取公共信息作为新的因子变量(少于原变量的个数m)建立预报方程,从而 达到减少误差,提高预报准确率的效果。 简言之,从数量较多的因子变量中分离出数量较少的新因子,并分析原变量 与各个新因子之间的关系,这称为“因子分析”。
例: x1和x2两个变量,存在相关性,寻找它们的共同信息和独立信息,并分离。 对x1和x2做了20次观测, 如右图所示20个散点,两样本的相关系 数为0.92。 可见,第一主成分y1可以表征x1和x2的共同的成分; 所以因子分析与主成分分析(或经验正交函数分解)有密切联系。
第六章 温度因子分析

不同生态系统生产力
化,形成与此相应的植物发育节律,称为物候。 • 植物发芽、生长、现蕾、开花、结实、落叶、 休
眠等生长发育阶段的开始和结束称为物候期。 • 植物物候具有稳定性,可以用来指导林业生产。
影响物候的因素
• 纬度、经度和海拔 • 霍普金斯通过研究发现: • 在北美洲温带,每向北移动纬度1度,或向
东移动经度5度,或海拔上升124m,植物 在春天和初夏 物候会延迟4天。这一规律称 为霍普金斯定律。 • 南京和北京,纬度相差6度,桃、李开花 间 差19天;但到4、5月间,两地物候相差9天。
二、关于温度的一些生态概念
• (一)三基点温度 • 最适温度:生物生长发育或生理活动得以
正常进行的温度范围。 • 最低温度和最高温度:植物生长发育和生
理活动的低温和高温限度。 • 合称为三基点温度。
• (二)积温: 积温既能说明某一地区的热 量条件,又能说明生物各生长发育阶段或 整个生长期所需要的热量条件。
• *昼夜变温与种子萌发
•
有一些植物的种子在变温下萌发良好。
低温有利于增加氧在细胞中的溶解度;提
高透性。
• 昼夜变温与生长发育 • 较低的夜温和适宜的昼温对植物生长、开花、结
实和物质的贮藏有利。 • 云南松林:1000m 3/ha。 • 波密云杉林:2000m 3/ha。 • (二)物候 • 季节明显地区,植物适应于气候条件的节律性 变
第六章因子分析

第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足:(1)(2),即公共因子与特殊因子是不相关的(3),即各公共因子不相关且方差为1(4),即各个特殊因子不相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低变量维数的方法。
但因子分析的本质是从显在变量去“提炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,的标准差为1,且的标准差为1则(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要性。
第六章 因子分析

9
寻找基本结构
在多元统计中,经常遇到诸多变量之间存在强相关的问题,它 会对分析带来许多困难。通过因子分析,可以找出几个较少的有实
际意义的因子,反映出原来数据的基本结构。
例如:调查汽车配件的价格中,通过因子分析从 20 个指标中概 括出原材料供应商、配件厂商、新进入者、后市场零部件厂商、整 车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用 的几个指标。
本包含了原来变量的所有信息。
12
主成分分析的数学模型
13
主成分分析与因子分析公式上的区别
y1 a11 x1 a12 x2 a1 p x p
主成分分析
y2 a21 x1 a22 x2 a2 p x p y p a p1 x1 a p 2 x2 a pp x p
由于umn为随机向量X的相关矩阵的特征值对 应的特征向量的分量,特征向量之间彼此正交, 实际上从X到F的转换关系是可逆的,即:
x1 11 F1 21 F2 p1 Fp x2 12 F1 22 F2 p 2 Fp x F F F 1p 1 2p 2 pp p p
1、因子分析的核心:用较少的、相互独立的因 子反映原有变量的绝大部分信息。 因子分析的数学模型:设有p个变量,每个变量 的均值为0,标准差为1。将每个原有变量用k个 (k<p)因子f1,f2,…,fk 的线性组合表示,即
x1 a11 f1 a12 f 2 a1k f k 1 x2 a21 f1 a22 f 2 a2 k f k 2 x p a p1 f1 a p 2 f 2 a pk f k p
因子分析

因子应用
在市场调研中,研究人员关心的是一些研究指标的集成或者组合,这些概念通常是通过等级评分问题来测量 的,如利用李克特量表取得的变量。每一个指标的集合(或一组相关联的指标)就是一个因子,指标概念等级得 分就是因子得分。
因子分析
统计学方法
01 简介
03 得到因子 05 分析描述
目录
02 隐性变量 04 验证因子 06 因子应用
因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学 生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某 些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代 表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
简介
因子分析是简化、分析高维数据的一种统计方法。假定p维随机向量满足 是q维随机变量,,满足,它的分量称为公共因子,对X的每个分量都起作用。是p维不可观测的随机向量, 满足 且,e的分量称为特殊因子,它仅对X的分量起作用。 μ和A为参数矩阵。若X满足上式,则称随机向量X具有因子结构。这时,容易算得 矩阵A称为因子载荷,其元素是第i个分量在第j个因子上的载荷。记,则有 由此可见,反映了公共因子对的影响,称为公共因子对的“贡献”。当时,表明公共因子对的影响大于特殊 因子的影响,也可以看出反映了分量对公共因子的依赖程度。 另一方面,对一个指定的公共因子,记,称为公共因子对X的贡献。的值越大,反映了公共因子对X的影响也 越大,所以是衡量公共因子重要性的一个尺度。
第六讲 因子分析

第五讲 因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p 维变量:),...,,(21'=p X X X x它的均值向量μ=)(x E ,协方差矩阵V =(σij )p ⨯p 都存在。
第一节 正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F 1, F 2, … , F m (m <p )称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i 的特殊因子,记为:εi 。
于是,我们有:变量X i 的信息=公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1.2 正交因子模型设总体),...,,(21'=pX X X x ,均值向量μ=)(x E ,协方差矩阵p p V x Va r ⨯=)( 。
因子模型有形式:其中m<p ,F 1,F 2,…,F m 称为所有变量的公共因子;εi 称为变量X i 的特殊因子。
如果引入以下向量与矩阵:),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为:εμ+=-F A x 对于正交的因子模型,还要进一步要求:z 1. m m I F Var F E ⨯==)(,0)(。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 因子分析一.基本原理因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。
起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。
因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。
1.正交因子模型设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述:x Lf με=++其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。
其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I ==(3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。
由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。
在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。
L 称为载荷阵(Loading Matrix )。
如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。
A 为载荷阵。
X 的方差是由载荷阵和特殊因子的方差构成的。
即()Var X AA '=+ψ。
2.因子分析与其他多元分析方法的区别与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。
与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。
二.计算模型1.因子载荷的含义假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。
已知模型1122i i i im m i x a F a F a F ε=++++对两端右乘j F ,得1122i j i j i j im m j i j x F a F F a F F a F F F ε=++++求期望,有()()()()1122()i j i j i j im m j i j E x F a E F F a E F F a E F F E F ε=++++在标准化条件下,有()()()()a b ab a ba b E ab E r μμσσ--==所以原式化为11i j j m j i j j j x F i F F im F F F ij F F ij r a r a r r a r a ε=+++==由此可见,因子载荷反映的是第I 个变量与第j 个公共因子之间的相关系数,或者说第I 个变量依赖第j 个公共因子的比重。
因子载荷阵不是唯一的,假定存在Γ为q q ⨯正交阵,则因子分析模型可以转化为()()X A f με'=+ΓΓ+将A Γ视为因子载荷阵,将f 'Γ作为公共因子,仍然满足原假设。
2.估计因子载荷阵的方法解因子分析的问题,就是求因子载荷阵的问题。
(1)主成分方法相当于在主成分分析中,使用前m 个主成分去表示潜在的m 个因子。
当m=p 时,主成分分析与因子分析就是相同的。
(2)主因子方法主成分分析法是从解释变量的方差入手,假设变量的方差能够完全被主成分解释。
主因子分析法是从变量之间的相关系数入手,认为变量间的相关性能够完全被公因子解释。
在因子分析模型中,有()2i R AA D '=+ψ,如果能够估计出特征方差2i ψ,则可构造矩阵*R AA '=,称为约相关阵,设*R 中的元素为*ij r 。
在因子载荷阵A 中,各列元素的平方和反映出公共因子j 对于原向量X 的贡献。
因子分析的目的,应当是寻找贡献最大的因子。
构造221pjiji g a==∑,原问题变为2*1 .. jmijik jkk Max g s t r a a ==∑求此极值的结果,有()2*0j j g I R a -=,其中2j g 为约相关阵*R 的第j 个特征根,j a 则为对应的特征向量。
相关阵R 可以由样本数据进行估计,但特征方差阵2i ψ的估计是很困难的。
常见的有如下一些处理方法● 定义2i ψ为0,则主因子解就是主成分解;● 定义22,ˆi i i jh R ≠=为变量i x 对X 中其他1p -个变量线性回归的判定系数; ● 定义2ˆmax i ij j ih r ≠=,即变量ix 对其他变量的相关系数中的最大值; ● 定义21,ˆ1pij ij j ir h p =≠=-∑,即变量i x 对其他变量相关系数的平均值。
公因子分析法中,包括主轴因子法、最小二乘法、最大似然法、α因子提取法、映象分析法等。
3.因子旋转建立因子分析模型的目的,在于简化分析,便于对变量进行分组。
因此,模型中的各个因子应当有现实的含义。
根据因子载荷阵的不唯一性,我们可以对因子载荷阵进行一个旋转,即用一个正交阵右乘载荷阵L ,相当于对坐标系进行一次旋转。
旋转的目的,在于使每个变量仅在一个公共因子上有较大的载荷,而在其他的公共因子上只有较小的载荷。
也就是说,希望旋转后各个变量的因子载荷向0和1两极转化。
因子旋转包括正交旋转和斜交旋转两类 (1)正交旋转(Orthogonal rotation )保持因子之间不相关的特点,要求因子轴相互垂直。
包括四次方最大法(Quartimax )、方差最大法(Varimax)和等量最大法(Equimax)等。
方差最大法:凯瑟(Kaiser )于1958年提出一个寻找理想因子结构的准则,称为方差最大准则(Varimax criterion ):记21ˆˆm i ij j h l ==∑,用()224**211ˆˆ11p p ij ij ji i i i l l V p h p h ==⎡⎤⎛⎫⎛⎫⎢⎥ ⎪=- ⎪⎢⎥ ⎪ ⎪ ⎪⎢⎥⎝⎭⎝⎭⎣⎦∑∑来度量第j 个因子在P 个变量上载荷的离散度。
理论上说,V 越大越好,因此旋转的要求是使1mjj V V==∑达到最大。
(2)斜交旋转(Oblique rotation)放弃了因子间保持独立的要求,能够使因子结构更为简洁。
到目前为止,尚没有理论能够帮助分析者选择最优的旋转方式,一般只是观察哪种方式更能够使最终的分析结果变得简洁。
4、判断观测数据是否属于适合于做因子分析的指标(1)反映象相关矩阵(Anti-image correlation matrix ):其元素为负的偏相关系数。
如果变量之间存在公因子,则任何一个变量都与其他多个变量具有相关性,而与其中某一个变量的偏相关性会比较弱。
如果反映象相关矩阵的值较大,则说明变量间缺乏公因子,不适宜进行因子分析。
(2)巴特莱特球体检验(Bartlett test of sphericity ):该统计量用于检验整个相关矩阵。
原假设为相关矩阵是单位阵。
如果不能拒绝原假设,则不适宜使用因子分析。
(3)KMO (Kaiser-Meyer-Olkin Measure of Sampling Adequacy )测度:用于比较观察变量之间的简单相关系数和偏相关系数的相对大小,取值范围为0至1。
当所有变量之间的偏相关系数的平方和,远小于简单相关系数的平方和时,KMO 值为1,反之为0。
KMO 值较小时,观测变量不适合做因子分析。
三.因子得分在求得了因子模型后,就可以计算每个样品在各个因子上的取值。
假定标准化样本数据求得的因子分析模型为x Af ε=+利用x 的取值,可以对f 进行计算,常见的方法有汤姆生(Thompson )法和巴特莱特(Bartlett )法。
1.汤姆生因子得分基于最小二乘法的思想得出的方法。
由因子分析模型可知,样本原始变量公共因子的线性函数,反过来,公共因子也可以表示为原始变量的线性函数。
构造线性模型f Bx u =+对于样本容量为n 的X 矩阵来说,有f X u β'=+运用最小二乘估计法,可以得到估计量1ˆ()X X X f β-'''=,其中由于样本变量和公共因子已经标准化,则有11X X R n '=-和11X f A n ''=-。
代入原式有 11ˆˆ()fX XR A X A A A β--''===+ψ 2.巴特莱特因子得分基于极大似然法计算的因子得分。
(略) 3.评价巴特莱特得分满足无偏性,但方差较大;汤姆生得分虽然有偏,但方差较小。
四.计算步骤1.将原始数据标准化2.建立变量的相关系数阵()ij p p R r ⨯=3.求R 的特征根及相应的单位特征向量,分别记为i λ和i u 。
取前m 个特征根和特征向量写出因子载荷阵11111111m m m p pm p pm a a u u A a a u u λλλ⎛⎫⎛⎫ ⎪ ⎪== ⎪⎪ ⎪ ⎝⎭⎝ 4.对A 施行方差最大正交旋转 5.计算因子得分。