g 第八章 因子分析
因子分析-PPT

因子 得分
因子分析
什么 叫因 子分
析
定义解释
因子分析就是主成分分析得推广和发展, 她就是把具有复杂关系得多个变量(或样 品)综合为少数几个因子,并给出原始变量 与综合因子之间得相关关系得多元统计 分析方法
种类
R型因子分析(对变量进行因子分析) Q型因子分析(对样品进行因子分析)
应用意义
应用范围
表示得形式不同。
因子 分析 得统 计意
义
假定因子模型中,各个变量、 公共因子、特殊因子都已经进 行了标准化处理
因子载荷矩阵得统计意义
变量共同度得统计意义
公因子方差贡献得统计意义
因子 载荷 矩阵 得估 计方
法
方法一:流
应用类型
基本思想 数学模型
因子 分析 得模
型
主成 分分 析与 因子 分析 得区
别
主成分分析就是一种数学变换 (正交变换)不能称为一种数学 模型;而因子分析需要构造数 学模型。
主成分得个数与原始数据个数 相等,就是把原始变量变换成 为相互独立得新得变量;而因 子个数一般要求小于原始数据 个数,目得在于得到一个结构 简单得因子模型。
可以互相讨论下,但要小声点
因子 旋转
含义:
因子旋转就是根据因子载荷矩阵 得不唯一性,用一个正交矩阵右乘 因子载荷矩阵,实行旋转(由线性代 数,一次正交变换,对应坐标系得一 次旋转),使旋转后得因子载荷矩阵 结构简化,以便对公共因子进行合 理得解释。
所谓结构简化就就是使得每个变 量仅在一个公共因子上有较大得 载荷,而在其她得公共因子上得载 荷比较小。
常用得方法有:
因子分析 PPT课件

同时假定随机向量 X 满足以下模型: X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
设 X ( X1 , X 2 ,
E( F ) 0 , Cov( F ) I m (即 F 的各分量方差为 1,且互不相关) 。又设 (1, 2 , , p ) 与 F 互不相关,且
2 E ( ) 0 , Cov( ) diag(12 ,2 , 2 , p )。
之因子分析
SPSS软件
• 因子分析(Factor Analysis)是多元统计 分析中处理降维问题的一种重要方法。变 量的共线性很多是都对分析结果具有显著 的影响。所谓降维,就是独钓共线性,剩 下的,或者合并的都是线性无关的,或者 正交的,或者垂直的。
一、什么是主成分分析和因子分析?
• 主成分分析(Principal Components Analysis)也是多元统计分析中简化数据 结构(降维问题)的一种重要方法。简化 数据结构是指将某些较复杂的数据结构通 过变量变换等方法使相互依赖的变量变成 互不相关的;或把高维空间的数据投影到 低维空间,使问题得到简化而损失的信息 市的实证 设施建设情况。
案例1
• 中国统计年鉴,2005,各地区城市市政设施数据。 变量有: • City—城市名称; • X1—年末实有道路长度(公里); • X2—年末实有道路面积(万平方公里); • X3—城市桥梁(座); • X4—城市排水管道长度(公里); • X5—城市污水日处理能力(万立方米); • X6—城市路灯(盏);
因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明:
11
12
因子分析的五大基本步骤
第一步:因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将 原有变量中的信息重叠部分提取和综合成因子,进而最终实 现减少变量个数的目的。因此它要求原有变量之间应存在较 强的相关关系。否则,如果原有变量相互独立,相关程度很 低,不存在信息重叠,它们不可能有共同因子,那么也就无 法将其综合和浓缩,也就无需进行因子分析。本步骤正是希 望通过各种方法分析原有变量是否存在相关关系,是否适合 进行因子分析。
2
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
18
第四步:决定因素与命名
• 转轴后,要决定因素数目,选取较少因素 层面,获得较大的解释量。在因素命名与 结果解释上,必要时可将因素计算后之分 数存储,作为其它程序分析之输入变量。
19
第五步:计算各样本的因子得分
• 因子分析的最终目标是减少变量个数,以 便在进一步的分析中用较少的因子代替原 有变量参与数据建模。本步骤正是通过各 种方法计算各样本在各因子上的得分,为 进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之 间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方 法 主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标 变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相 关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少 变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信 息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降 低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子 分析的一个特例
8因子分析

因子分析,相较于主成分分析而言,通过对因子的旋转处理,使得我们可以更直观的认识到数据内部之间的关系,其目的即用有限个不可观测的因变量来解释原始变量间的相关关系。
即用几个少数的综合因子来取代错综复杂关系的变量。
因子分析函数:factanal(X,factors,scores=”none”,rotation=”varimax”)这个函数是基于极大似然方法求解X为数据,矩阵或者数据框factors为因子个数scores为因子得分的计算方法,”regression”,”Bartlett”rotation为因子旋转方法自编因子分析函数:factpc(X,m,scores=”none”,rotation=”varimax”)这个函数是基于主成分方法来求解的。
极大似然法要求数据来自多元正态分布,这一点一般是很难满足的。
而主成分法没有正态总体的要求。
对于数据d9.1 水泥行业运营因素做因子分析。
输入:> X=read.table("clipboard",header=T)> cor(X) #计算相关系数矩阵#极大似然法进行因子分析> FA0=factanal(X,3,rotation="none")> FA0Call:factanal(x = X, factors = 3, rotation = "none") Uniquenesses:x1 x2 x3 x4 x5 x60.005 0.005 0.005 0.271 0.005 0.548Loadings: #因子载荷矩阵Factor1 Factor2 Factor3x1 0.950 -0.307x2 0.948 -0.310x3 -0.340 -0.782 0.517x4 0.363 0.561 -0.531x5 0.454 0.693 0.556x6 0.383 0.163 0.527Factor1 Factor2 Factor3SS loadings 2.402 1.623 1.140Proportion Var 0.400 0.271 0.190 #方差贡献率Cumulative Var 0.400 0.671 0.861 #累计方差贡献率The degrees of freedom for the model is 0 and the fit was 1. 1422#主成分法进行因子分析> library(mvstats)> FA1=factpc(X,3)$Vars#方差方差贡献率累计方差贡献率Vars Vars.Prop Vars.CumFactor1 2.570 0.4283 42.83Factor2 1.713 0.2855 71.38Factor3 1.249 0.2082 92.19$loadings #载荷矩阵Factor1 Factor2 Factor3x1 0.7829 0.5029 -0.3624x2 0.7811 0.4964 -0.3756x3 -0.5786 0.7685 0.0802x4 0.5951 -0.6990 -0.2415x5 0.6317 -0.1457 0.6557x6 0.5084 0.3367 0.6943$scores #因子得分Factor1 Factor2 Factor3冀东水泥 1.10805 0.19287 -0.40233大同水泥 -1.07195 1.46385 -0.37413四川双马 -0.58577 -0.49848 0.24193牡丹江 -1.17442 -0.77791 0.08986西水股份 -0.05264 -0.46073 2.31615狮头股份 -1.05007 2.04151 0.25174太行股份 0.20807 0.48809 -0.23430海螺水泥 2.20745 0.32524 1.16336尖峰集团 -1.11541 -1.53235 0.39013四川金顶 0.09714 -0.60602 -1.45691祁连山 0.66096 1.03293 0.04173华新水泥 0.41359 -1.08331 0.19805福建水泥 0.86840 -0.53255 -1.82104天鹅股份 -0.51340 -0.05315 -0.40422$Rank #得分排名F Ri冀东水泥 0.48359 3大同水泥 -0.12910 8四川双马 -0.37184 11牡丹江 -0.76615 13西水股份 0.35587 4狮头股份 0.20127 5太行股份 0.19490 6海螺水泥 1.38882 1尖峰集团 -0.90457 14四川金顶 -0.47152 12祁连山 0.63632 2华新水泥 -0.09863 7福建水泥 -0.17273 9天鹅股份 -0.34622 10$commonx1 x2 x3 x4 x5 x60.9971 0.9976 0.9318 0.9011 0.8502 0.8539从上面结果来看,用极大似然法解释的方差为86%,基本可以全面反映六项财务指标的信息。
因子分析PPT课件

对于有些研究,还需要下一步: 4.对每个Case,计算F1 ’, F2 ’, F3 ’值,(称为
因子得分值) 用F1 ’, F2 ’, F3 ’值取代原始变量X1, X2 ,…… ,
X20 之值。实现变量精简目的。
8
三、因子分析应用举例
9
例1(变量精简)
对公司业绩评价,选取了11个指标。 (详见“因子分析”数据文件) 本例目的: 将11个指标进行简化综合
本步骤称为提取因子,也称求初始解。
5
3.进行因子旋转 上述所得出的综合变量F1, F2, F3,通常没
有直观的经济意义,因此还难于直接应 用(,坐为标此旋需转要 )将 ,变F1,成F2F, F1 3’进,一F步2 ’,进行F3变’,换 变换后的变量具有明确的经济意义,并 且本变换不存在信息损失。 F的1 层’,面F(2 将’,20F个3 ’通原常始也变反量映概出括原为始3个变大量方 面)
.131
净利 润
-.009 1.000
.239 .812 .789 .811 .563 -.061 -.062 .056 -.064
净资 产 .684 .239
1.000 .190 .173 .151 .162 .025 .025 .080 .027
营 业 收 益 率 .087 .812 .190 1.000 .978 .984 .650 -.076 -.080 -.007 -.079
率 .226 .056 .080 -.007 .009 .009 .177 .707 .710 1.000 .709
固定 资产 增长
率 .131 -.064 .027 -.079 -.058 -.061 -.111 1.000 1.000
第八章因子分析-新

In conjunction with his famous two-factor theory of intelligence
因子分析的目的:用少数几个不可观测的隐变 量来解释原始变量间的协方差关系
Origins of Factor Analysis
Wanted to estimate intelligence of 24 children in a village school.
短跑速度
因子得分计算公式
11x1s 12 x2 s 1, x10s 10
爆发性臂力 21x1s 22 x2 s 2, x10s 10 爆发性腿力 31x1s 32 x2 s 3, x10s 10 耐力 41x1s 42 x2 s 4, x10s 10
对10个变量标准化后的因子分析表明,十项得 分基本上可归结于他们的短跑速度、爆发性臂 力、爆发性腿力和耐力这四个方面,每一方面 都称为一个公共因子。
因子分析的类型
探索性因子分析exploratory Factor Analysis
根据变量间相关关系探索因子结构 实例2
确认性因子分析Confirmatory Factor Analysis
注意:因子分析是一种用来分析隐藏在表象背后的潜在因 子作用的统计模型,这些共同因素通常是不可直接观测的
收缩压
舒张压
心跳间隔
呼吸间隔
舌下温度
实例1
交感神经
负交感神经
考查人体的五项生理指标:收缩压、舒张压、 心跳间隔、呼吸间隔和舌下温度。
从生理学知识可知,这五项指标是受植物神经 支配的,植物神经又分为交感神经和负交感神 经,因此这五项指标至少受到两个公共因子的 影响,也可用因子模型去处理。
第八章 因子分析

F1 0.073 X 1 0.1X 2 0.129 X 3 0.335 X 4 0.322 X 5 0.365 X 6 F 2 0.407 X 1 0.296 X 2 0.426 X 3 0.031 X 4 0.044 X 5 0.116 X 6
以各因子的方差贡献率为权重,可以计算总 的因子得分
成 分 矩 阵a 成分 数学 物理 化学 语文 历史 英语 1 -.646 -.892 -.531 .861 .798 .767 2 .680 .325 .770 .416 .422 .576
提取方法 :主 成分分析法。 a. 已提取了 2 个成分。
X 1 0.646 F1 0.68 F 2 1 X 2 0.892 F1 0.325 F 2 2 X 3 0.531F1 0.77 F 2 3 X 4 0.861F1 0.416 F 2 4 X 5 0.798 F1 0.422 F 2 5 X 6 0.767 F1 0.576 F 2 6
历史Байду номын сангаас
81 70 67 74 81 71 65 86 67 70 67
英语
79 55 57 63 74 64 57 71 50 65 63
计算主成分贡献率和累积贡献率并确定共因子
说明的总方差 初始特征值 合计 方差的 % 3.463 57.709 1.843 .368 .219 .082 .026 30.723 6.132 3.650 1.361 .425 累积 % 57.709 88.432 94.564 98.214 99.575 100.000 提取平方和载入 合计 方差的 % 累积 % 3.463 57.709 57.709 1.843 30.723 88.432
第八章因子分析

看作由一个公因子(与智力相一致)和一个特殊 因子之和组成。
例2 考虑人的五个生理指标:收缩压(x 1 ),舒 张压( x 2 ),心跳间隔( x 3 ),呼吸间隔( x 4 ),舌 下温度( x 5 )。从生理学的知识知道这五个指标
是受植物神经的交感神经和副交感神经这两个
(8.1)
神经和副交感神经,那么可以设想变量
xp ap1F1 ap2F2 apmFm p
用矩阵表示:
x1 a11 a12 a1m F1 1
x2
a21
a22
a2m
F2
2
x
p
a
p1
ap2
a
pm
Fm
p
X AF ε
高维空间中的互相垂直的m个坐标
例1
1
2
3
4
5
6
1.古典语 1
2.法语 0.83
1
3.英语 0.78 0.67
1
4.数学 0.70 0.67 0.64
1
5.判别 0.66 0.65 0.54 0.54 1
6.音乐 0.63 0.57 0.51 0.51 0.4 1
表中课程是按照相关系数从上到下递减排列的。 Spearman注意到相关矩阵中一个有趣的规律: 如果不考虑对角元素的话,任意两列的元素大致
Y1 11X1 12X2 Y2 21X1 22X2
1p X p 2pXp
Yp p1X1 p2X2 pp X p
(8.2)
其中, i j 为随机向量 X 的相关矩阵的特征值 所对应的特征向量的分量,因为特征向量之 间彼此正交,从X 到 Y 的转换关系是可逆的, 即有
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、计算所选原始变量的相关系 数矩阵
相关系数矩阵描述了原始变量之间的相关关
系。可以帮助判断原始变量之间是否存在相关关
系,这对因子分析是非常重要的,因为如果所选
变量之间无关系,做因子分析是不恰当的。并且
相关系数矩阵是估计因子结构的基础。
3、提取公共因子
这一步要确定因子求解的方法和因子的个数。 需要根据研究者的设计方案或有关的经验或知识 事先确定。因子个数的确定可以根据因子方差的 大小。
例如,在企业形象或品牌形象的研究中,消费者
可以通过一个有24个指标构成的评价体系,评价百货
商场的24个方面的优劣。
但消费者主要关心的是三个方面,即商店的环境 、商店的服务和商品的价格。因子分析方法可以通过24 个变量,找出反映商店环境、商店服务水平和商品价格 的三个潜在的因子,对商店进行综合评价。而这三个公 共因子可以表示为:
因子分析通常包括以下五个步骤
1、选择分析的变量
2、计算所选原始变量的相关系数矩阵
3、提取公共因子
4、因子旋转
5、计算因子得分
1、选择分析的变量
用定性分析和定量分析的方法选择变量,
因子分析的前提条件是观测变量间有较强
的相关性,因为如果变量之间无相关性或
相关性较小的话,他们不会有共享因子,所
以原始变量间应该有较强的相关性。
x4
x5
0.92204
0.95149
0.16655
0.15728
x4
x5
0.35108
0.36366
-0.02506
-0.03493
在这个例子中我们得到了两个因子,第一个因子是社会经济 发展水平因子,第二个是计划生育因子。有了因子得分值后,则 可以利用因子得分为变量,进行其他的统计分析。
§ 6 因子分析的步骤、展望和建议
第八章 因子分析
§1 引言
因子分析 (factor analysis) 是一种数据简化的
技术。它通过研究众多变量之间的内部依赖关系,探
求观测数据中的基本结构,并用少数几个假想变量来 表示其基本的数据结构。这几个假想变量能够反映原 来众多变量的主要信息。原始的变量是可观测的显在
变量,而假想变量是不可观测的潜在变量,称为因子。
(二)旋转方法
变换后因子的共同度没有发生变化! 变换后因子的贡献发生了变化!
§ 5 因子得分
(一)因子得分的概念 前面我们主要解决了用公共因子的线性组合来表示一
组观测变量的有关问题。如果我们要使用这些因子做其他
的研究,比如把得到的因子作为自变量来做回归分析,对 即给出公共因子的值。
样本进行分类或评价,这就需要我们对公共因子进行测度,
人均要素变量因子分析。对我国 32 个省市自治区的要素状 况作因子分析。指标体系中有如下指标: X1 :人口(万人) X2 :面积(万平方公里) X3 :GDP(亿元) X4 :人均水资源(立方米/人) X5:人均生物量(吨/人) X6:万人拥有的大学生数(人) X7:万人拥有科学家、工程师数(人) Rotated FACTOR1 -0.21522 0.63973 -0.15791 0.95898 0.97224 -0.11416 -0.11041 Factor Pattern FACTOR2 FACTOR3 -0.27397 0.89092 -0.28739 -0.28755 0.06334 0.94855 -0.01501 -0.07556 -0.06778 -0.17535 0.98328 -0.08300 0.97851 -0.07246
高载荷指标 因子1 X2;面积(万平方公里) X4:人均水资源(立方米/人) X5:人均生物量(吨/人) X6:万人拥有的大学生数(人) X7:万人拥有的科学家、工程师数(人) X1;人口(万人) X3:GDP(亿元) 因子命名 自然资源因子
人力资源因子
因子2 因子3
经济发展总量因子
Standardized Scoring Coefficients FACTOR1 FACTOR2 FACTOR3 X1 0.05764 -0.06098 0.50391 X2 0.22724 -0.09901 -0.07713 X3 0.14635 0.12957 0.59715 X4 0.47920 0.11228 0.17062 X5 0.45583 0.07419 0.10129 X6 0.05416 0.48629 0.04099 X7 0.05790 0.48562 0.04822
行的元素平方值向 0和 1两极分化。有三种主要的正交
旋转法。四次方最大法、 方差最大法 和等量最大法。
奥运会十项全能运动项目 得分数据的因子分析
百米跑成绩 X 1 跳远成绩 X 2 铅球成绩 X 3 跳高成绩 X 4 400米跑成绩 X 5 百米跨栏 X 6 铁饼成绩 X 7 撑杆跳远成绩 X 8 标枪成绩 X9 1500米跑成绩 X
X1 X2 X3 X4 X5 X6 X7
X1=-0.21522F1-0.27397F2+0.89092F3 X2=0.63973F1-0.28739F2-0.28755F3 X3=-0.15791F1+0.06334F2+0.94855F3 X4=0.95898F1-0.01501F2-0.07556F3 X5=0.97224F1-0.06778F2-0.17535F3 X6=-0.11416F1+0.98328F2-0.08300F3 X7=-0.11041F1+0.97851F2-0.07246F3
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 10
共同度 0.84 0.7 0.81 0.65 0.87 0.62 0.72 0.66 0.57 0.89
*
0.075 0.153 0.814* 0.176 0.735* -0.041
*
0.762* 0.11 0.112
通过旋转,因子有了较为明确的含义。X百米跑, 1
求出各样本的因子得分,有了因子得分
值,则可以在许多分析中使用这些因子, 例如以因子的得分做聚类分析的变量,做 回归分析中的回归因子。
因子分析是十分主观的,在许多出版的资料中, 因子分析模型都用少数可阐述因子提供了合理解释。 实际上,绝大多数因子分析并没有产生如此明确的结 果。不幸的是,评价因子分析质量的法则尚未很好量 化,质量问题只好依赖一个
只取方差大于1(或特征值大于1)的那些因子, 因为方差小于1的因子其贡献可能很小; 按照因子的累计方差贡献率来确定,一般认 为要达到60%才能符合要求;
4、因子旋转
通过坐标变换使每个原始变量在尽可
能少的因子之间有密切的关系,这样因子
Байду номын сангаас
解的实际意义更容易解释,并为每个潜在因
子赋予有实际意义的名字。
5、计算因子得分
“哇!”准则 如果在仔细检查因子分析的时候,研究人员能够喊 出“哇,我明白这些因子”的时候,就可看着是成功运 用了因子分析方法。
谢 谢 !
§ 4 因子旋转(正交变换)
(一)为什么要旋转因子
建立了因子分析数学目的不仅仅要找出公共因子以
及对变量进行分组,更重要的要知道每个公共因子的
意义,以便进行进一步的分析,如果每个公共因子的
含义不清,则不便于进行实际背景的解释。由于因子
载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或
变量
F1
0.844* 0.631 0.243 0.239 0.797 0.404 0.186 -0.036 -0.048 0.045
* *
F2
0.136 0.194 0.825 0.15
*
F3
0.156 0.515 0.223 0.750 0.102 0.635 0.147
*
F4
-0.113 -0.006 -0.148 0.076 0.468 -0.17 -0.079 0.217 0.141 0.934*
F4
-0.206 0.092 -0.175 0.396 -0.419 0.345 -0.234 0.44 -0.235 -0.279
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
共同度 0.84 0.7 0.8 0.65 0.87 0.62 0.72 0.66 0.57 0.89
因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子 上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太 容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速 度的对比。于是考虑旋转因子,得下表
方差最大旋转后的因子结构
Factor1 Factor2
标准化得分函数
Factor1 Factor2
x1
x2 x3
-0.35310
0.07757 0.89114
-0.87170
0.95154 0.25621
x1
x2 x3
-0.05897
-0.05805 0.33042
-0.49252
0.58056 0.03497
X 2 跳远和 X 5400米跑,需要爆发力的项目在 F1 有较大的 F1 可以称为短跑速度因子; 载荷,
X 3 铅球, X 7铁饼和 X 9标枪在F2上有较大的载荷,可以
称为爆发性臂力因子;
X 6百米跨栏,X 8 撑杆跳远, X 2 跳远和为 X 4跳高在 F3上
有较大的载荷,F3 爆发腿力因子; F4 长跑耐力因子。
xi i i1F1 i 2 F2 i 3 F3 i
i 1,,24
F1、F2、F 3 称 是不可观测的潜在因子。 24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 i ,称为特殊因子。