第六章因子分析

合集下载

因子分析-PPT

因子分析-PPT
小或增大。所以“方差极大” 旋转就是使载荷值按照列向0,1 两极分化,同时也包含着按行向 两极分化。
因子 得分
因子分析
什么 叫因 子分

定义解释
因子分析就是主成分分析得推广和发展, 她就是把具有复杂关系得多个变量(或样 品)综合为少数几个因子,并给出原始变量 与综合因子之间得相关关系得多元统计 分析方法
种类
R型因子分析(对变量进行因子分析) Q型因子分析(对样品进行因子分析)
应用意义
应用范围
表示得形式不同。
因子 分析 得统 计意

假定因子模型中,各个变量、 公共因子、特殊因子都已经进 行了标准化处理
因子载荷矩阵得统计意义
变量共同度得统计意义
公因子方差贡献得统计意义
因子 载荷 矩阵 得估 计方

方法一:流
应用类型
基本思想 数学模型
因子 分析 得模

主成 分分 析与 因子 分析 得区

主成分分析就是一种数学变换 (正交变换)不能称为一种数学 模型;而因子分析需要构造数 学模型。
主成分得个数与原始数据个数 相等,就是把原始变量变换成 为相互独立得新得变量;而因 子个数一般要求小于原始数据 个数,目得在于得到一个结构 简单得因子模型。
可以互相讨论下,但要小声点
因子 旋转
含义:
因子旋转就是根据因子载荷矩阵 得不唯一性,用一个正交矩阵右乘 因子载荷矩阵,实行旋转(由线性代 数,一次正交变换,对应坐标系得一 次旋转),使旋转后得因子载荷矩阵 结构简化,以便对公共因子进行合 理得解释。
所谓结构简化就就是使得每个变 量仅在一个公共因子上有较大得 载荷,而在其她得公共因子上得载 荷比较小。
常用得方法有:

06 第六章 R-Q型因子分析

06 第六章  R-Q型因子分析

X = nW
于是有
(6.24)
F=
nWU
∧−1 2
=
nF R
∧−1 2

(6.24)
FR =
1
F
∧−1 2
n
(6.25)
其中各记号同前文一致。 现在用图 4-9 中汇水盆地的样本为例说明R-Q型因子分析的计算与应用。由样本中 25
个样品 6 个变量作R型因子分析后得因子负载矩阵A于表 5-2。它就是R-Q型因子分析中要求 的R型负载AR。表 5-2 对应的R型因子得分矩阵F列表 5-3,由(6.25)式可求得R-Q型因子分 析中要求的Q型的负载AQ=FR,所得结果列于表 6-1。
三、R-Q 型因子分析的图示
矩阵AR和AQ都是p列的,这意味着m维变量空间和n维样品空间样品都可用一p维因子空
3
间代替,因为p<<min(n,m),故原始空间维数约简了许多。 由于下面的关系成立
AR ARΤ = W ΤW
AQ AQΤ = WW Τ
可见,变量间关系完全保留在ARARΤ中,样品间关系完全保留在AQAQΤ中。
一、R-Q 型因子分析的相似性矩阵
我们考虑用相关系数作为变量间相似性的度量,用欧氏距离作为样品间的相似性度量,并
以此建立起变量间相似性矩阵与样品间相似性矩阵的联系。设原始数据矩阵为如下的形式:
Xn×m=(xij)n×m 其中xij为样品i变量j的观测值;并对数据作如下变换,即类似与标准化变换:
(6.1)
n
j =1
j =1
∑ (xij − x j )2
i =1
(6.8)
∑m
=
(xkj − xLj ) 2
n
= hkk + hLL − 2hkL

第六章 因子分析

第六章 因子分析
Cov( X i , Fj ) Cov( aik Fk i , Fj )
k 1 m m
= Cov( = aij
a
k 1
ik
Fk , Fj ) Cov( i , Fj )
如果对 X i 作了标准化处理, X i 的标准差为 1,且 Fj 的标准差 为 1,因此
rX i , Fj
m * ij
i j i j
i, j 1, 2,, p
(6.10) 我们知道 A 的解是不唯一的,可以有许多。这种方法要求得 到的解使得第一公共因子 F1 对 X 的贡献 g1
2
ai2 达到最 1
i 1
p
大,第二共因子 F2 对 X 的贡献 g 2
2
ai22 达到次之, ,
第一,变量 X 的协差阵 Σ 的分解式为
D( X ) D( AF ε) E[( AF ε)( AF ε)] AE (FF ) A AE (Fε) E (εF ) A E (εε) AD(F ) A D(ε )
由模型(6.2)式所满足的条件知
第六章 因子分析
第一节

引言
一般认为因子分析是从Charles Spearman在 1904年发表的文章《对智力测验得分进行统 计分析》开始,他提出这种方法用来解决智 力测验得分的统计方法。目前因子分析在心 理学、社会学、经济学等学科中都取得了成 功的应用,是多元统计分析中典型方法之一 。

因子分析(factor analysis)也是一种降维、 简化数据的技术。它通过研究众多变量之间 的内部依赖关系,探求观测数据中的基本结 构,并用少数几个“抽象”的变量来表示其 基本的数据结构。这几个抽象的变量被称作 “因子”,能反映原来众多变量的主要信息 。原始的变量是可观测的显在变量,而因子 一般是不可观测的潜在变量。

第六章 因子分析

第六章 因子分析


因此:因子也是综合变量;因子具有更 明确的指标意义;具有不同意义的因子 便于揭示事物变化的内在结构;提取少 量重要因子可以达到降维和简化分析的 作用。
(二)因子分析的一般模型:
令因子为 F(factor),当我们研究 m 个因子对实 际问题的影响时可以建立因子模型,即
X i ai1F1 ai 2 F2 aim Fm + i 。 其中的 F 是对所有
(三)基本思想:

基于对因子的认识,因子分析的基本思想就是通过变 量(或样品)的相关系数矩阵(或相似系数矩阵)内 部结构的研究,找出能控制所有变量(或样品)的少 数几个随机变量去描述多个变量(或样品)之间的相 关(或)相似关系。在分解原始变量的基础上,从中 归纳出潜在的“类别”,相关性较强的变量归为一类, 不同类间变量的相关性则较低。从而实现因子分析的 两个目的:一简化分析,二将原变量分类,对公因子 的意义作出合理可信的解释。

而进行因子分析的起点就是因子模型,我们通 过估计因子模型中的参数即因子负荷和方差对 各因子的重要程度进行衡量,并利用因子负荷 矩阵所体现的各变量或样品之间的相关程度提 取出具有明确意义的公因子F,赋予其有实际 背景的解释进而给以命名,从而达到降维和分 类的目的。
三、因子分析的数学原理。
因R型因子分析应用广泛,故本章的解释均是 以R型因子分析为对象。 (一)正交因子模型: 因子分析的一般模型为:

X 1 a11F1 a12 F2 a1m Fm 1 X 2 a21F1 a22 F2 a2 m Fm 2 X p a p1F1 a p 2 F2 a pm Fm p
i

可将上式写成简单的矩阵形式

6-因子分析

6-因子分析

上式是假定了因子模型中特殊因子是不重要的,因而 从∑的分解中忽略掉特殊因子的方差 如果考虑了特殊因子以后,协差阵为:
当∑未知,可用样本协差阵S去代替,要经过标准化 处理,则S与相关阵R相同,仍然可作上面类似的表示。 一般设 则因子载荷阵的估计 即 为样本相关阵尺的特征根, 设 m < p, 相应的标准正交化特征向量为;
所以
也是公共因子,
ቤተ መጻሕፍቲ ባይዱ
也是因子载荷阵。
因子载荷这个不唯一性,从表面上看是不利的,但后面将 会看到当因子载荷阵A的结构不够简化时,可对A实行变 换以达到简化目的,使新的因子更具有鲜明的实际意义。 从因子分析的数学模型上看,它与多变量回归分析也有类 似之处,但本质的区别是因子分析模型作为“自变量”的 F是不可观测的。 2 因子模型中公共因子、因子载荷和变量共同度的 统计意义 为了便于对因子分析计算结果做解释,将因子分析数 学模型中各个量的统计意义加以说明是十分必要的, 假定因子模型中,各个变量以及公共因子、特殊因子 都已经是标准化(均值为0,方差为1)的变量。 (1)因子载荷的统计意义 已知模型:
为了说明它的统计意义,将下式两边求方差,即
由于
已标准化了,所以有
此式说明变量 的方差由两部分组成:第一部分为共 度 它刻划全部公共因子对变量 的总方差所作的贡 献, 越接近1,说明该变量的几乎全部原始信息都被 所选取的公共因子说明了,如 则说明 的 97%的信息被m个公共因子说明了,也就是说由原始变量 空间转为因子空间转化的性质越好, 保留原来信息量
A经过Tk j ,旋转(变换)后,矩阵A=A T k j ,其元素为
其中旋转角度
仍按下面公式求得:
m个因子,每次取两个全部配对进行旋转,共需旋转

第六章 因子分析

第六章 因子分析
由EOF分解可知,每个原变量都可以用各主成分来线性表示: x1 l11 l12 l11 y1 l12 y2 l y l y y y = x 1 1 2 2 l 1 l 2 l y l y 2 21 22 21 1 22 2
2
4
6
8
10 t
12
14
16
18
20
主因子的概念
如果对m个原变量(x1, x2,…, xm)进行n次观测,则各主成分的时间序列可表示为:
x11 x Y LT X LT 21 xm1 x12 ... x1n y11 y x22 ... x2 n = 21 xm 2 ... xmn ym1 y12 ... y1n y22 ... y2 n ym 2 ... ymn
第1主成分y1 第2主成分y2 第m主成分ym
主成分的方差,即X的协方差阵的特征值,按照y1、y2、…、ym的顺序从大到小进 行排列。 为了分析各主成分对原变量的作用、研究原变量与各主成分的关系:
对各主成分进行标准化,使它们的方差都等于1,这时的主成分称为“主因子”。
第i个主因子就是第i个主成分yi的标准化,记为fi, 有:
为了提高因子的利用率,需要将公共信息与独立信息尽可能地分离开来,以
便采取公共信息作为新的因子变量(少于原变量的个数m)建立预报方程,从而 达到减少误差,提高预报准确率的效果。 简言之,从数量较多的因子变量中分离出数量较少的新因子,并分析原变量 与各个新因子之间的关系,这称为“因子分析”。
例: x1和x2两个变量,存在相关性,寻找它们的共同信息和独立信息,并分离。 对x1和x2做了20次观测, 如右图所示20个散点,两样本的相关系 数为0.92。 可见,第一主成分y1可以表征x1和x2的共同的成分; 所以因子分析与主成分分析(或经验正交函数分解)有密切联系。

第六章 温度因子分析

第六章 温度因子分析
植物对生长所必须的水分、CO2、养分吸收增多, 酶活性增强、促进细胞分裂、伸长,因此生长量 增 加。 • 3.影响生产力 • 温度是影响生产力的主要因素之一。怀梯克认 为, 沿温度梯度,生产力从热带到到北极逐渐降低。 对生产力而言,最适温度为15~25,与光合作用 的 适宜范围一致。
不同生态系统生产力
化,形成与此相应的植物发育节律,称为物候。 • 植物发芽、生长、现蕾、开花、结实、落叶、 休
眠等生长发育阶段的开始和结束称为物候期。 • 植物物候具有稳定性,可以用来指导林业生产。
影响物候的因素
• 纬度、经度和海拔 • 霍普金斯通过研究发现: • 在北美洲温带,每向北移动纬度1度,或向
东移动经度5度,或海拔上升124m,植物 在春天和初夏 物候会延迟4天。这一规律称 为霍普金斯定律。 • 南京和北京,纬度相差6度,桃、李开花 间 差19天;但到4、5月间,两地物候相差9天。
二、关于温度的一些生态概念
• (一)三基点温度 • 最适温度:生物生长发育或生理活动得以
正常进行的温度范围。 • 最低温度和最高温度:植物生长发育和生
理活动的低温和高温限度。 • 合称为三基点温度。
• (二)积温: 积温既能说明某一地区的热 量条件,又能说明生物各生长发育阶段或 整个生长期所需要的热量条件。
• *昼夜变温与种子萌发

有一些植物的种子在变温下萌发良好。
低温有利于增加氧在细胞中的溶解度;提
高透性。
• 昼夜变温与生长发育 • 较低的夜温和适宜的昼温对植物生长、开花、结
实和物质的贮藏有利。 • 云南松林:1000m 3/ha。 • 波密云杉林:2000m 3/ha。 • (二)物候 • 季节明显地区,植物适应于气候条件的节律性 变

第六章 因子分析

第六章 因子分析

9
寻找基本结构
在多元统计中,经常遇到诸多变量之间存在强相关的问题,它 会对分析带来许多困难。通过因子分析,可以找出几个较少的有实
际意义的因子,反映出原来数据的基本结构。
例如:调查汽车配件的价格中,通过因子分析从 20 个指标中概 括出原材料供应商、配件厂商、新进入者、后市场零部件厂商、整 车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用 的几个指标。
本包含了原来变量的所有信息。
12
主成分分析的数学模型
13
主成分分析与因子分析公式上的区别
y1 a11 x1 a12 x2 a1 p x p
主成分分析
y2 a21 x1 a22 x2 a2 p x p y p a p1 x1 a p 2 x2 a pp x p
由于umn为随机向量X的相关矩阵的特征值对 应的特征向量的分量,特征向量之间彼此正交, 实际上从X到F的转换关系是可逆的,即:
x1 11 F1 21 F2 p1 Fp x2 12 F1 22 F2 p 2 Fp x F F F 1p 1 2p 2 pp p p
1、因子分析的核心:用较少的、相互独立的因 子反映原有变量的绝大部分信息。 因子分析的数学模型:设有p个变量,每个变量 的均值为0,标准差为1。将每个原有变量用k个 (k<p)因子f1,f2,…,fk 的线性组合表示,即
x1 a11 f1 a12 f 2 a1k f k 1 x2 a21 f1 a22 f 2 a2 k f k 2 x p a p1 f1 a p 2 f 2 a pk f k p
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章因子分析
第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。

每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共
因子。

此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的
特殊因子。

目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。


、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因
子分析是对变量作因子分析。

R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足
:(1)(2),即公共因子与特殊因子是不相关的(3)
,即各公共因子不相关且方差为1(4),即各个特殊因子不
相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量
看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。

(二)Q型因
子分析Q型因子分析是对样品作因子分析。

模型同上注:主成分分析与因子分析的区别主成
分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变
异的方向,归纳重要信息。

因子分析与主成分分析一样都属降低
变量维数的方法。

但因子分析的本质是从显在变量去“提
炼”潜在因子的过程。

模型中应注意的问题:(1)变量的协方差阵的分解式为
即(2)因子载荷不是唯一的。

三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,
的标准差为1,且的标准差为1则
(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示
的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要
性。

(二)变量共同度的统计意义设因子载荷矩阵为,称第行元素的平方和,即
为变量的共同度。

由因子模型,知即变量
的方差由两部分组成:第一部分为共同度,它描述了全部公共因子对变量的总方差所作的贡献,反映了公共因子对
变量的影响程度。

第二部分为特殊因子对变量的方差的贡献,通常称为个性方差如果对变量作了标准化处理,则(
三)公因子的方差贡献的统计意义设因子载荷矩阵,称第列元素的平方和,即
为公共因子对的贡献,即表示同一公共因子对各变量所提供的方差
贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。

§6.2因子分析的步骤因子分析的一般步骤可以分为确
定因子载荷矩阵、因子旋转和计算因子得分三步。

一、因子载荷的求解对于因子载荷阵的求解方法有很多,在这里介绍主
成分法和主轴因子法。

(一)、主成分法主成分法确定因子载荷是在进行因子分析前先对数据进行一次主成分分析。

假定从相关矩阵出发求解主成分,设有个变量,则可以找出个主成分。

将这个主成分按大到小顺序排列为
,则主成分与原始变量之间存在以下关系:由于为随机向量的相关矩阵的特征值所
对应的特征向量的分量,且特征向量间彼此正交,之间的转换关系是可逆的,由此解出由得转换关系如
下:将上式中每一等式只保留前个主成分而把后面的部分用代替,则:将
转化为合适的公共因子,只需要把主成分变成方差为1的变量,即将除以其标准差()即可。

于是令
则:需指出:这样得到的
之间并不独立,因此它并不完全符合因子模型的假设前提,也就是说所得的因子载荷矩阵并不完全正确。

但是当共同度较大时,特殊因子
所起的作用很小,因而特殊因子间的相关性所带来的影响几乎可以忽略。

(二)、主轴因子法假定原始变量
已作了标准化处理,的相关矩阵令
则称为的约相关阵。

中的主对角线元素是,非主对角线元素和的完全一样,并且是
一个非负定矩阵记(特点,限制条件)
利用这种方法求得的的解使得第一公共因子的贡献
达到最大,第二公因子的贡献达到次之,....,第m个公共因子
的贡献最小。

即相应的“贡献”依次为。

求解过程:利用
极值定理,构造函数求偏导获得。

二、因子旋转因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合
理解释。

有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。

例如,可能有些变量在多个公共因子上都有较大的载荷
,有些公共因子对许多变量的载荷也不小,说明它对多个变量都有较明显的影响作用。

这时需要通过因子旋转的方法,使每一个变量仅在
一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比
较小,至多达到中等大小。

而对于公共因子而言,它在大部分变量上的载荷较
大,在其他变量上的载荷较小,使同一列上的载荷尽可能地靠近1和0,两极分离。

因子旋转方法有正交旋转和斜交旋转两类正交旋转是指对载荷矩阵作一正交变换,右乘正交矩阵,使得,旋转后的公共因子向量为
,它的各个分量是互不相关的公共因子。

这里介绍最大方差旋转法。

令则的第j列元素平方的相对方差可定义为:所谓最大方差旋转法就是选择正
交矩阵,使得矩阵所有m个列元素平方的相对方差之和达到最大。

三、因子得分在因子分析模型中,如果不考虑特殊因子的影响,当
可逆时,可以非常方便地从每一个样品的指标取值计算出其在因子上的相应取值:,即
该样品在因子上的“得分”情况,简称为该样品的因子得分。

但因子分析模型在实际应用中要求因此不能精确计算
出因子的得分情况,只能对因子得分进行估计,通常采用汤姆孙回归法。

假设公共因子可对个原始变量作回归,即
如果都标准化了,回归的常数项为0,即由因子载荷的统计意义知,对于任意的
都有
记为因子得分系数矩阵,则上式可写成矩阵形式为于
是即得因子得分的估算式其中的相关系数矩阵,一般为标准化变
量。

§6.3实例分析例6.1为研究消费者对购买牙膏的偏好程度,通过市场拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不满意,7表示非常同意)。

V1:购买预防蛀牙的牙膏是重要的V2:我喜欢使牙齿亮泽的牙膏V3:牙膏应当保护牙龈V4:我喜欢使口气清新的牙膏V5:预防坏牙不是牙膏提供的一项重要利益V6:购买牙膏时最重要的考虑是富有魅力的
牙膏例6.22001年我国其中的31个省、市和自治区的城镇居民家
庭平均每人全年消费性支出(单位:元)的8个主要变量数据是x1(食品)、x2(衣着)、x3(家庭设备用品及服务)、x4(医疗保健)、x5(交通和通信)、x6(娱乐教育文化服务)、x7(居住)、x8(杂项商品和服务)。

使用因子分析方法对不同地区进行综合评价。

(可以根据因子得分系数矩阵,求出各地区的因子得分,从而对全国31个省、市和自治区的城镇居民的生活水平进行简要的综合评价。

,其中为因子得分系数矩阵,为标准化变量)。

相关文档
最新文档