第六章 因子分析 (1)
第六章 因子分析

因此:因子也是综合变量;因子具有更 明确的指标意义;具有不同意义的因子 便于揭示事物变化的内在结构;提取少 量重要因子可以达到降维和简化分析的 作用。
(二)因子分析的一般模型:
令因子为 F(factor),当我们研究 m 个因子对实 际问题的影响时可以建立因子模型,即
X i ai1F1 ai 2 F2 aim Fm + i 。 其中的 F 是对所有
(三)基本思想:
基于对因子的认识,因子分析的基本思想就是通过变 量(或样品)的相关系数矩阵(或相似系数矩阵)内 部结构的研究,找出能控制所有变量(或样品)的少 数几个随机变量去描述多个变量(或样品)之间的相 关(或)相似关系。在分解原始变量的基础上,从中 归纳出潜在的“类别”,相关性较强的变量归为一类, 不同类间变量的相关性则较低。从而实现因子分析的 两个目的:一简化分析,二将原变量分类,对公因子 的意义作出合理可信的解释。
而进行因子分析的起点就是因子模型,我们通 过估计因子模型中的参数即因子负荷和方差对 各因子的重要程度进行衡量,并利用因子负荷 矩阵所体现的各变量或样品之间的相关程度提 取出具有明确意义的公因子F,赋予其有实际 背景的解释进而给以命名,从而达到降维和分 类的目的。
三、因子分析的数学原理。
因R型因子分析应用广泛,故本章的解释均是 以R型因子分析为对象。 (一)正交因子模型: 因子分析的一般模型为:
X 1 a11F1 a12 F2 a1m Fm 1 X 2 a21F1 a22 F2 a2 m Fm 2 X p a p1F1 a p 2 F2 a pm Fm p
i
可将上式写成简单的矩阵形式
6-因子分析

上式是假定了因子模型中特殊因子是不重要的,因而 从∑的分解中忽略掉特殊因子的方差 如果考虑了特殊因子以后,协差阵为:
当∑未知,可用样本协差阵S去代替,要经过标准化 处理,则S与相关阵R相同,仍然可作上面类似的表示。 一般设 则因子载荷阵的估计 即 为样本相关阵尺的特征根, 设 m < p, 相应的标准正交化特征向量为;
所以
也是公共因子,
ቤተ መጻሕፍቲ ባይዱ
也是因子载荷阵。
因子载荷这个不唯一性,从表面上看是不利的,但后面将 会看到当因子载荷阵A的结构不够简化时,可对A实行变 换以达到简化目的,使新的因子更具有鲜明的实际意义。 从因子分析的数学模型上看,它与多变量回归分析也有类 似之处,但本质的区别是因子分析模型作为“自变量”的 F是不可观测的。 2 因子模型中公共因子、因子载荷和变量共同度的 统计意义 为了便于对因子分析计算结果做解释,将因子分析数 学模型中各个量的统计意义加以说明是十分必要的, 假定因子模型中,各个变量以及公共因子、特殊因子 都已经是标准化(均值为0,方差为1)的变量。 (1)因子载荷的统计意义 已知模型:
为了说明它的统计意义,将下式两边求方差,即
由于
已标准化了,所以有
此式说明变量 的方差由两部分组成:第一部分为共 度 它刻划全部公共因子对变量 的总方差所作的贡 献, 越接近1,说明该变量的几乎全部原始信息都被 所选取的公共因子说明了,如 则说明 的 97%的信息被m个公共因子说明了,也就是说由原始变量 空间转为因子空间转化的性质越好, 保留原来信息量
A经过Tk j ,旋转(变换)后,矩阵A=A T k j ,其元素为
其中旋转角度
仍按下面公式求得:
m个因子,每次取两个全部配对进行旋转,共需旋转
第六章 因子分析

2
4
6
8
10 t
12
14
16
18
20
主因子的概念
如果对m个原变量(x1, x2,…, xm)进行n次观测,则各主成分的时间序列可表示为:
x11 x Y LT X LT 21 xm1 x12 ... x1n y11 y x22 ... x2 n = 21 xm 2 ... xmn ym1 y12 ... y1n y22 ... y2 n ym 2 ... ymn
第1主成分y1 第2主成分y2 第m主成分ym
主成分的方差,即X的协方差阵的特征值,按照y1、y2、…、ym的顺序从大到小进 行排列。 为了分析各主成分对原变量的作用、研究原变量与各主成分的关系:
对各主成分进行标准化,使它们的方差都等于1,这时的主成分称为“主因子”。
第i个主因子就是第i个主成分yi的标准化,记为fi, 有:
为了提高因子的利用率,需要将公共信息与独立信息尽可能地分离开来,以
便采取公共信息作为新的因子变量(少于原变量的个数m)建立预报方程,从而 达到减少误差,提高预报准确率的效果。 简言之,从数量较多的因子变量中分离出数量较少的新因子,并分析原变量 与各个新因子之间的关系,这称为“因子分析”。
例: x1和x2两个变量,存在相关性,寻找它们的共同信息和独立信息,并分离。 对x1和x2做了20次观测, 如右图所示20个散点,两样本的相关系 数为0.92。 可见,第一主成分y1可以表征x1和x2的共同的成分; 所以因子分析与主成分分析(或经验正交函数分解)有密切联系。
06 第六章 R-Q型因子分析

4
图 6-1 25 个沉积物样本 6 个变量的 R-Q 型分析图
在R-Q型因子分析中,我们定义了这样的矩阵W,使得WΤW反映变量间的相似性,WWΤ 反映样品间的相似性,并且只作R型分析便可由对偶性得到Q型分析的结果。
一般地也是这样,如果我们能找到这样一种W的定义方式,使得WΤW是合适的变量间的 相似性度量,同时WWΤ是合适的样品间的形似性度量,则总可以象上节那样找到R型分析与 Q型分析间的对偶性,并实现R-Q型因子分析。关键是定义矩阵是要同时保证WΤW和WWΤ具 有实际意义。
2 Lj
n
=
m
(xkj − xLj ) 2
m
∑ j=1
(xij − x j )2
∑ j=1 (xij − x j )2
i =1
i =1
考虑样品 k 与 L 间的欧氏距离,即矩阵 W 中各行的欧氏距离有
∑ ∑ d
2 kL
=
m
(Wkj − WLj ) =
m
(xkj − x j − xKj + x j )2
(6.10)
且有λ1≥λ2≥…≥λp,其对应的p个单位特征向量构成矩阵
U=(u1,u2,…,up)=(uij)m×p
其中第 j 列
uj=(u1j,u2j,…,umj)Τ=(uij)m×p
j=1,2,…,p
为λj对应的单位特征向量,它们满足
u Τj uk
第六章 温度因子分析

不同生态系统生产力
化,形成与此相应的植物发育节律,称为物候。 • 植物发芽、生长、现蕾、开花、结实、落叶、 休
眠等生长发育阶段的开始和结束称为物候期。 • 植物物候具有稳定性,可以用来指导林业生产。
影响物候的因素
• 纬度、经度和海拔 • 霍普金斯通过研究发现: • 在北美洲温带,每向北移动纬度1度,或向
东移动经度5度,或海拔上升124m,植物 在春天和初夏 物候会延迟4天。这一规律称 为霍普金斯定律。 • 南京和北京,纬度相差6度,桃、李开花 间 差19天;但到4、5月间,两地物候相差9天。
二、关于温度的一些生态概念
• (一)三基点温度 • 最适温度:生物生长发育或生理活动得以
正常进行的温度范围。 • 最低温度和最高温度:植物生长发育和生
理活动的低温和高温限度。 • 合称为三基点温度。
• (二)积温: 积温既能说明某一地区的热 量条件,又能说明生物各生长发育阶段或 整个生长期所需要的热量条件。
• *昼夜变温与种子萌发
•
有一些植物的种子在变温下萌发良好。
低温有利于增加氧在细胞中的溶解度;提
高透性。
• 昼夜变温与生长发育 • 较低的夜温和适宜的昼温对植物生长、开花、结
实和物质的贮藏有利。 • 云南松林:1000m 3/ha。 • 波密云杉林:2000m 3/ha。 • (二)物候 • 季节明显地区,植物适应于气候条件的节律性 变
第六章因子分析

第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足:(1)(2),即公共因子与特殊因子是不相关的(3),即各公共因子不相关且方差为1(4),即各个特殊因子不相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低变量维数的方法。
但因子分析的本质是从显在变量去“提炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,的标准差为1,且的标准差为1则(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要性。
7.因子分析

1 0.32 1 0.33 0.24 1 0.18 0.34 0.24 1 0.01 0.02 0.17 0.02 1
38
变量
F1
0.691 0.789 0.702 0.674 0.62 0.687 0.621 0.538 0.434 0.147
的含义不清,则不便于进行实际背景的解释。由于因
子载荷阵是不惟一的,所以应该对因子载荷阵进行旋 转。目的是使因子载荷阵的结构简化,使载荷矩阵每 列或行的元素平方值向0和1两极分化。 有三种主要的正交旋转法:四次方最大法、方差
最大法和等量最大法。
36
例:奥运会十项全能运动项目得分数据的因子分析
百米跑成绩 X 1 跳远成绩 X 2 铅球成绩 X 3 跳高成绩 X 4 400米跑成绩 X 5 百米跨栏 X 6 铁饼成绩 X 7 撑杆跳远成绩 X 8 标枪成绩 X9 1500米跑成绩 X
1 u1
2 u 2
1 u1 2 u2 ˆ ˆ ˆ ˆ m u m D AA D p um 因子载 荷矩阵
注:残差矩阵
17
主成分法中,原变量可用公因子表示为:
上式有一个假定,模型中的特殊因子是不重要的, 因而从的分解中忽略了特殊因子的方差。
第六章 因子分析
1
主要内容
§1 §2 §3 §4 §5 §6 什么是因子分析 因子分析模型 因子载荷矩阵的估计方法 因子旋转(正交变换) 因子得分 因子分析的步骤、展望和建议
2
§1 什么是因子分析
因子分析(factor analysis)是一种数据简化的技 术。它通过研究众多变量之间的内部依赖关系,探求 观测数据中的基本结构,并用少数几个假想变量来表 示其基本的数据结构。这几个假想变量能够反映原来 众多变量的主要信息。原始的变量是可观测的显在变 量,而假想变量是不可观测的潜在变量,称为因子。
因子分析

因子分析因子分析是一种常用的统计方法,广泛应用于社会科学、经济学、心理学等领域。
它可以帮助研究者找出数据中的主要因素,并将原始变量转化为更少的几个综合指标,从而简化数据分析和解释。
本文将介绍因子分析的基本原理、应用场景以及一些常见的因子分析方法。
一、因子分析的基本原理因子分析基于一种潜在变量模型,假设观察到的一组变量是由少数几个潜在的因子所决定的。
这些潜在因子无法直接观察到,但可以通过观察到的变量来推断。
通过因子分析,我们可以找出这些潜在因子,并将原始变量转化为这些因子的得分。
在因子分析中,我们假设每个潜在因子与一组观察到的变量相关联,这些变量称为因子载荷。
因子载荷可以解释变量之间的协方差结构,反映了变量与潜在因子之间的相关程度。
我们可以通过计算因子载荷矩阵来评估这种关系。
同时,我们还假设观察到的变量之间相互独立,即不存在多重共线性。
多重共线性会使得因子分析的结果不准确,因此在进行因子分析之前,我们需要先进行相关性分析和多重共线性检验。
二、因子分析的应用场景因子分析在许多领域都有广泛的应用。
以下是其中一些常见的应用场景:1.心理学研究:因子分析可以帮助心理学家理解人类行为的潜在因素。
例如,在人格心理学中,我们可以使用因子分析来研究人格特征的结构,并找出彼此相关的因素。
2.市场研究:因子分析可以帮助市场研究人员理解消费者行为的背后因素。
例如,在消费者调查中,我们可以使用因子分析来提取消费者购买决策中的主要影响因素,并根据这些因素进行市场定位和目标群体选择。
3.经济学研究:因子分析可以帮助经济学家理解经济变量之间的关系。
例如,在宏观经济学中,我们可以使用因子分析来提取经济增长、通货膨胀和失业率等变量的主要因素,并分析它们之间的相互作用。
4.社会科学研究:因子分析可以帮助社会科学家理解社会现象的潜在因素。
例如,在教育研究中,我们可以使用因子分析来研究学生学习成绩的主要影响因素,并提供相应的教学策略。
三、常见的因子分析方法在因子分析中,有许多不同的方法可以选择。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 因子分析首先通过主因子分析(factor),得到主成分因子:Factor | Eigenvalue Difference Proportion Cumulative -------------+------------------------------------------------------------Factor1 | 4.75929 3.71841 0.6954 0.6954 Factor2 | 1.04088 0.38315 0.1521 0.8475 Factor3 | 0.65773 0.37761 0.0961 0.9436 Factor4 | 0.28012 0.09188 0.0409 0.9845 Factor5 | 0.18825 0.19040 0.0275 1.0120 Factor6 | -0.00216 0.01548 -0.0003 1.0117 Factor7 | -0.01764 0.04472 -0.0026 1.0091 Factor8 | -0.06236 . -0.0091 1.0000 从上面的分析可以看出,只有两个成分大于1大于的特征值,同时两个成分解释了全部八个变量组合的方差还多。
不重要的第2 到8个主成分在随后的分析中可以放心地省略去。
运行factor 命令后,我们可以接着运行screeplot 命令画出碎石图。
碎石图中特征值等于1处的水平线标示了保留主成分的常用分界点,同时再次强调了本例中的成分3到成分6并不重要。
Variable | Factor1 Factor2 Factor3 Factor4 Factor5 -------------+--------------------------------------------------x1 | 0.9611 0.0193 0.2412 -0.0637 0.0013 x2 | 0.9119 0.3828 -0.1409 0.0380 0.0786 x3 | 0.8626 -0.0724 0.3816 0.0792 -0.2719 x4 | 0.9395 0.3468 -0.0299 -0.0313 0.0137 x5 | 0.7542 -0.0828 -0.2302 0.3307 0.1499E i g e n v a l u e sx6 | -0.3772 0.6987 0.2923 -0.1118 0.1221x7 | -0.6108 0.0367 0.4572 0.3336 0.0883x8 | 0.5416 -0.5217 0.2929 -0.1850 0.2505--------------------------------------------------------------------------------------------Variable | Uniqueness-------------+--------------x1 | 0.0136x2 | -0.0055x3 | 0.0249x4 | -0.0049x5 | 0.2396x6 | 0.2567x7 | 0.2975x8 | 0.2518----------------------------Variable | kmo-------------+---------x1 | 0.7491x2 | 0.5483x3 | 0.4993x4 | 0.5778x5 | 0.8127x6 | 0.2958x7 | 0.5122x8 | 0.4569-------------+---------Overall | 0.5671-----------------------Variable | smc-------------+---------x1 | 0.9726x2 | 0.9965x3 | 0.9662x4 | 0.9972x5 | 0.7447x6 | 0.7280x7 | 0.6925x8 | 0.7463根据kmo and smc,数据反映良好旋转会进一步简化因子结构。
在提取因子之后,键入rotate命令进行旋转。
Factor | Variance Difference Proportion Cumulative -------------+------------------------------------------------------------Factor1 | 3.29837 2.02383 0.4819 0.4819Factor2 | 1.27454 0.18586 0.1862 0.6682Factor3 | 1.08868 0.26654 0.1591 0.8272Factor4 | 0.82213 0.37958 0.1201 0.9473Factor5 | 0.44256 . 0.0647 1.0120 --------------------------------------------------------------------------LR test: independent vs. saturated: chi2(28) = 145.13 Prob>chi2 = 0.0000Rotated factor loadings (pattern matrix) and unique variances----------------------------------------------------------------Variable | Factor1 Factor2 Factor3 Factor4 Factor5 -------------+--------------------------------------------------x1 | 0.70950.5683 -0.1027 0.3740 -0.0975x2 | 0.9676 0.2217 -0.0499 0.0474 -0.1241x3 | 0.5061 0.8027 -0.1636 0.2187 -0.0040x4 | 0.9214 0.3453 -0.0091 0.1006 -0.1627x5 | 0.6915 0.1199 -0.4893 0.1292 0.1084x6 | -0.0084 -0.1536 0.8052 -0.2130 0.1608x7 | -0.5039 -0.0349 0.2985 -0.0838 0.5926x8 | 0.1457 0.3158 -0.2682 0.7436 -0.0486 --------------------------------------------------------------------------------------------Variable | Uniqueness-------------+--------------x1 | 0.0136x2 | -0.0055x3 | 0.0249x4 | -0.0049x5 | 0.2396x6 | 0.2567x7 | 0.2975x8 | 0.2518----------------------------Factor rotation matrix-----------------------------------------------------------| Factor1 Factor2 Factor3 Factor4 Factor5-------------+---------------------------------------------Factor1 | 0.7938 0.4425 -0.2719 0.2768 -0.1535Factor2 | 0.4893 -0.1208 0.7125 -0.4862 0.0433 Factor3 | -0.2264 0.6171 0.4956 0.3824 0.4197 Factor4 | 0.1336 0.0421 -0.3949 -0.3813 0.8240 Factor5 | 0.2477 -0.6380 0.1298 0.6287 0.3456 -----------------------------------------------------------载荷图根据载荷图主因子1是,1245项是高载荷指标,把他作为盈利因子 主因子2是3,作为收入因子因子分是通过将每个变量标准化为平均数等于0和方差等于1,然后以因子分系数进行加权合计为每个因子构成的线性组合。
基于最近的rotate 或factor 结果,predict 会自动进行这些计算。
通过命令predict f1 f2,我们得到了各个观察变量的主因子1、主因子2的得分情况。
| com f1 f2 | |-----------------------------|1. | 1 -.5668753 .0989984 |2. | 2 -.2911694 -.3330244 |3. | 3 -.5543 .6418742 |4. | 4 -1.632766 -.9359169 |5. | 5 1.737429 .6392142 | |-----------------------------|6. | 6 .3500338 2.000377 |F a c t o r 27. | 7 .4818828 .1623446 |8. | 8 -.9290398 -.1175181 |9. | 9 -.1907071 .3500897 |10. | 10 .124752 1.297857 ||-----------------------------|11. | 11 -.2882031 -.3848062 |12. | 12 -.1015409 -1.14786 |13. | 13 -.064743 .3978167 |14. | 14 2.454457 -1.63357 |15. | 15 -.5292097 -1.035877 |+-----------------------------+. summarize f1 f2V ariable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------f1 | 15 2.98e-09 1.002487 -1.632766 2.454457f2 | 15 -2.98e-09 .964788 -1.63357 2.000377在这些因子分之间是存在着相关,在默认选项中,promax旋转允许因子分之间存在相关。