第11章 因子分析
因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明:
11
12
因子分析的五大基本步骤
第一步:因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将 原有变量中的信息重叠部分提取和综合成因子,进而最终实 现减少变量个数的目的。因此它要求原有变量之间应存在较 强的相关关系。否则,如果原有变量相互独立,相关程度很 低,不存在信息重叠,它们不可能有共同因子,那么也就无 法将其综合和浓缩,也就无需进行因子分析。本步骤正是希 望通过各种方法分析原有变量是否存在相关关系,是否适合 进行因子分析。
2
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
18
第四步:决定因素与命名
• 转轴后,要决定因素数目,选取较少因素 层面,获得较大的解释量。在因素命名与 结果解释上,必要时可将因素计算后之分 数存储,作为其它程序分析之输入变量。
19
第五步:计算各样本的因子得分
• 因子分析的最终目标是减少变量个数,以 便在进一步的分析中用较少的因子代替原 有变量参与数据建模。本步骤正是通过各 种方法计算各样本在各因子上的得分,为 进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之 间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方 法 主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标 变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相 关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少 变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信 息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降 低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子 分析的一个特例
计量地理学 第十一章 因子分析地理模型

第十一章因子分析地理模型因子分析因子分析的主要应用1、寻求基本结构、简化观测系统给定一组变量或观测数据,我们要问,变量的维数是否一定需要这么多,是否存在一个子集,特别是一个加权子集,来解释整个问题。
通常采用因子分析法将为数不多的变量减少为几个新因子,以再现它们之间的内在联系。
2、用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。
因子分析与主成分分析的区别第一节因子分析法的数学模型因子分析的结果完全的因子解因子分析的基本问题是用变量之间的相关系数来决定因子载荷。
因子模型的求解过程如下:设原始数据矩阵为:X =p表示变量数,n表示样本数。
将原始数据进行标准化变换:x ij-x ix ij’=(I=1,2,…p;j=1,2,…n)经标准化变换后的数据,其均值为0,方差为1,这样相关矩阵R 和协方差矩阵S完全一样,这里相关矩阵:R=X*X’(为方便计,假定标准化处理后的矩阵仍记为X)。
求解R矩阵的特征方程|R=λI|=0,记特征值为λ1>λ2…>λp>=0,特征向量矩阵为U,这样有关系:R=U U’U为正交矩阵,并且满足U’U=UU’=I令F=U’X,则得FF’=F为主因子阵,并且Fα=U’Xα(α=1,2…n),即每一个Fα为第α个样品主因子观测值。
在因子分析中,通常只选m(m<p)其中主因子。
根据变量的相关选出第一主因子F1,使其在各变量的公共因子方差中所占的方差贡献最大。
R型的因子模型为X1=α11F1+α12F2+…+α1m F m +α1ε 1 X2=α21F1+α22F2+…+α2m F m +α2ε 2… …X P=αP1F1+αP2F2+…+αPm F m +αmεm在因子模型中2、αij叫因子载荷,它是第I个变量在第j个主因子上的负荷,或者叫第I个变量在第j个主因子上的权,它反映了第I个变量在第j个主因子上的相对重要性。
如果把x i看成m维因子空间上的一个向量,则αij表示x i在坐标轴F j上的投影。
管理统计SPASS第11章主成分分析与因子分析资料

主成分的计算流程
步骤三:
按如下方法得到主成分 Yi :
Y1 b1T X ,Y2 b2T X ,,Yk bkT X
பைடு நூலகம்
式中,X ( X1, X 2 ,, X k )T 。
Yi (i 1,, k) 是相互正交的综合变量。将k个主成分放到一
起可得矩阵表达式: Y BT X
Y1 b11 b1k X1
简记为
Y AX
向量 Y 满足如下条件:
指标 Yi 之间不相关。
方差尽可能大,即对 n 个对象的分辨率尽可能强,信息损
失尽可能的少。
主成分分析小结:
(1)从相关的多个指标 X1, X 2 ,, X k 中,求出相互独立 的多个指标 Y1,Y2 ,,Yk 。
(2) Y (Y1,Y2 ,,Yk )T 的方差信息不损失,尽可能等同于 X ( X1, X 2 ,, X k )T 的方差。
Yk bk1 bkk X k
主成分的计算流程
主成分更为明晰的表达式:
Y1 b11X1 b21 X 2 bk1 X k Y2 b12 X1 b22 X 2 bk 2 X k
Yk bk1 X 1 bk 2 X 2 bkk X k
主成分的计算流程
结语:
X 与 Y 的转换关系为:
Y1 a11 a1k X 1
Yk ak1 akk X k
几何解释
在下图 X1 O X 2 的坐标中,散点大致为椭圆状。经过 线性变换可以得到新的坐标 Y1 O Y2 。Y1 在椭圆的长轴上, 反映出了散点在这个方向的最大方差。 Y2 在椭圆的短轴上,反 映出了散点在这个方向的方差。
X2
Y2
X1
Y1
主成分的计算流程
《统计分析与SPSS的应用》课后练习答案(第11章)

《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第11章SPSS的因子分析1、简述因子分析的主要步骤是什么因子分析的主要步骤:一、前提条件:要求原有变量之间存在较强的相关关系。
二、因子提取。
三、使因子具有命名解释性:使提取出的因子实际含义清晰。
四、计算样本的因子得分。
2、对“基本建设投资分析.sav ”数据进行因子分析。
要求:1)利用主成分方法,以特征根大于1为原则提取因子变量,并从变量共同度角度评价因子分析的效果。
如果因子分析效果不理想,再重新指定因子个数并进行分析,对两次分析结果进行对比。
2)对比未旋转的因子载荷矩阵和利用方差极大法进行旋转的因子载荷矩阵,直观理解因子旋转对因子命名可解释性的作用。
“基本建设投资分析”因子分析步骤:分析降维因子分析导入全部变量到变量框中详细设置描述、抽取的设置如下: -相黄性舸阵[3□逆模型迥)显1F 性水平逞)□再生迟) □柠別式也)上厦映象追)V 邕M 。
和Bartiettm 形度橙验旋转、得分、选项的设置如下:./丘示圜子卷敘粗胖I 』[ai~J匚淙存n 欝童海© BarJet瞅■!圖丽药亟T 矗匸Q 脚dii*A3R 迟》0晰平即口甘描因亶除■£洞&式E 卜曲/ 牺削'■:诩|型J®J(3S1T ;■■ ■昌同子分疔信辻统计Statistics(1)表一是原有变量的相关系数矩阵。
由表可知,一些变量的相关系数都较高,呈较强的线由表二可知,巴特利特球度检验统计量的观测值为,相应的概率 性水平为,由于概率P-值小于显著性水平a,则应拒绝原假设,认为相关系数矩阵与单位P-值接近0.如果显著阵有显著差异,原有变量适合做因子分析。
同时, 量可以进行因子分析。
KMO 直为,根据KMC 度量标准可知原有变由表三可知,利用外资、自筹资金、其他投资等变量的绝大部分信息(大于 因子解释,这些变量的信息丢失较少。
但国家预算内资金这个变量的信息丢失较为严重(近80%。
4--主成分因子

比如,第一个主成分的特征根为3.963,占总特征根的的 比例(方差贡献率)为66.052%,这表示第一个主成分解释 了原始6个变量66.052%的信息,可见第一个主成分对原 来的6个变量解释的已经很充分了
2008年8
11 - 43
根据什么选择主成分?
根据主成分贡献率
一般来说,主成分的累计方差贡献率达到 80% 以上的前 几个主成分,都可以选作最后的主成分 比如表13.3中前两个主成分的累计方差贡献率为95.57%
长度占所有主轴长度之和的大约85%即可,其实,这只
是一个大体的说法;具体选几个,要看实际情况而定。
11 - 22
不难想像这些主成分之间不仅不相关,而且 它们的方差依次递减。 因此在实际工作中,就挑选前几个最大主成 分,虽然这样做会损失一部分信息,但是 由于它使我们抓住了主要矛盾,并从原始 数据中进一步提取了某些新的信息,因而 在某些实际问题的研究中得益比损失大, 这种既减少了变量的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
11 - 24
2008年8
主成分分析的数学模型
11 - 25
主成分分析的数学模型
数学上的处理是将原始的p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分) 设p个原始变量为 x1,x 2, ,y p ,主成分和原始变量之间的关系表示为 为 y1,y 2,
y1 a11 x1 a12 x 2 a1 p x p y 2 a 21 x1 a 22 x 2 a 2 p x p y a x a x a x p1 1 p2 2 pp p p
11 - 27
上述方程组简写成:
Fi a1i X 2 a2i X 2 ... a pi X p
因子分析ppt课件

(3)因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解 释性。
(4)计算因子得分
通过各种方法求解各样本在各因子上的得分,为进 一步分析奠定基础。
❖ 2、因子分析前提条件——相关性分析:
分析方法主要有:
(1)计算相关系数矩阵(correlation coefficients matrix)
1 2 为p的特0 征根,
标准化特征向量,则
为u对1 , 应u2 的,, up
1
Σ = U
2
U AA + D
p
u1 u2
up
1
0
1u1u1 2u2u2
0
u1 u2
p
up
mumum m1um1um1
1u1
2u2
pu p
1u1
2
u2
p
因子分析的基本理论 ❖ 3、因子分析的目的:
因子分析的目的之一,简化变量维数。即要使因素结 构简单化,希望以最少的共同因素(公共因子),能 对总变异量作最大的解释,因而抽取得因子愈少愈好, 但抽取因子的累积解释的变异量愈大愈好。
在因子分析的公共因子抽取中,应最先抽取特征值最 大的公共因子,其次是次大者,最后抽取公共因子的 特征值最小,通常会接近0。
(3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释; 而主成分分析对提取的主成分的解释能力有限。
因子分析的基本理论
❖ 5、因子分析模型: 设 Xi (i 1,2,个,变p)量p,如果表示为
X i i ai1F1 aimFm i (m p)
X1 1 11 12
或
X
2
11效度分析与因子分析

样本数量:样 本数量要足够 大,才能保证 结果的稳定性
和可靠性。
样本随机性: 样本应该在目 标总体中随机 抽取,以确保 样本具有代表
性。
样本多样性: 样本应该涵盖 目标总体的各 种不同类型和 特征,以提高
代表性。
样本质量:样 本数据的质量 和准确性对效 度分析和因子 分析的结果有
重要影响。
因子数量确定
心理特质。
评估方法:专 家评审、统计 分析、试测反
馈等。
影响因素:测 验内容的选取、 编制和组织等 都会影响内容
效度。
效度分析中的 地位:内容效 度是效度分析 中的基础,其 他效度分析方 法都是在内容 效度的基础上
进行的。
结构效度
定义:指测验 是否真实地测 量了所要测量
的内容
评估方法:比 较测验的内容 效度和验证效
01
效度分析与因子分析的应用
心理学研究
效度分析在心理学研究中用于评估测量工具的准确性 因子分析在心理学中用于探索变量之间的关系和结构 效度分析与因子分析在心理学研究中的结合使用 心理学研究中效度分析与因子分析的应用案例
市场调研
效度分析:用于评估市场调 研工具的准确性和可靠性, 确保收集的数据真实反映目 标群体的观点和行为。
度
影响因素:测 验的长度、难
度和区分度
提高方法:不 断改进和优化
测验的设计
验证效度
内容效度:专家 评审和实际应用 评估
结构效度:因子 分析、聚类分析 等方法
校标效度:与其 他已知效度高的 测验对比
验证效度:长期 追踪和跨文化比 较
01
因子分析
因子提取
因子提取的原理:通过数学变换将原始变量转换为因子,以解释原始变量之间的相关性。
市场调查方法与技术 第5版 第十一章 定量调查资料的分析

表11-1数据类型及其适用的分析方法
4
01
单变量的 描述统计分析
描述统计分析
描述统计是市场调查分析中最常用的分析方法,关键是如何选择适当的图表或统计量使数据更易于解释。不同的 描述统计分析方法适用于不同的研究目的,适合不同的测量尺度数据。 下面我们以表11-2中的数据为例,介绍常用的描述统计方法
• 四分位差较小说明数据比较集中于中位数附近;反之 分布较分散。
• 四分位差常与中位数一起描述定距或定序变量分布。 缺点是四分位差没有充分利用所有数据信息。
10
数据的特征描述③ 离散趋势分析b
反映各数值远离其中心的程度,即数据分布的分散程度。数据的离散程度越大,则集中趋势测度值对该组数据的代 表性越差;离散程度越小,则其代表性就越好。
变异系数
全距
• 也称为离散系数,即标准差与均值的比值,主要用于 不同类别数据离散程度的比较,记为CV。公式如下:
• 也称极差,是一组数据中最大值与最小值之差, 计算公式是
• 标准差大小不仅与数据测度单位有关,也与观测值 的均值大小有关,不能直接用标准差比较离散程度, 而变异系数消除了测度单位和观测值水平不同的影 响,因而可以直接用来比较数据的离散程度。
图 11-1 显示公司员 工的年薪多在3.5万 元左右,但也有少数 员工的年薪达到10万 元以上,分布呈现一 定的右偏。
7
数据的特征描述①
• 频数分析和直方图可以清晰展示数据的取值分布情况,但有时这些信息过于详细,我们可能希望用一些统 计量对其信息进行概括性描述,例如用众数、中位数、均值描述数据的集中位置,用异众比例、四分位差、 标准差描述数据分布的变异性,同偏度与峰度描述分布的形态。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
将这些特征根分别代入特征方程,然后求解各个相 应的线性齐次方程,就得到了3个相应的特征向量, 将这些特征向量单位化,得到相应于上述3个特征根 的3个单位特征向量分别为 a = ( 0.54 0.59 0.59)
(1) T
a(2) = ( 0.84 0.39 0.39) a(3) = ( 0 0.71 0.71)
1 2 n
T
L(, Σ) =
1 (2π)np/2 Σ
exp(1/2tr[Σ n/2
1
(xj x)(xj x)T +n(x )(x )T)] ∑
j= j=1
n
但并不能惟一确定A,为此,添加如下条件: 这里Λ是一个对角矩阵,用数值极大化的方法可以 得到极大似然估计
21
AT D 1 A = Λ
四、正交旋转
i =1 2 im i =1
p
p
令
g
2 j
=
∑
p
i =1
a i2j
p
,于是有
i 2 1
∑V(X ) = g
i =1
+ g ++ g + ∑σi2
2 2 2 m i =1
p
反映了公共因子 F 对 X , X , , X 的影响,是衡量公 共因子 F 重要性的一个尺度,可视为公共因子 F 对 的 X , X , , X 的总方差贡献。
k =1 m
即 a 是 X i 与 F 之间的协方差。若X为各分量已标准 化了的随机变量,则 a 为 X 与 F 之间的相关系数
ij
j
ij
i
j
7
二、A的行元素平方和的统计意义 的行元素平方和的统计意义
2 V ( X i ) = ai2V (F1 ) + ai22V (F2 ) + + aimV (Fm ) + V (εi ) 1 2 = ai2 + ai22 + + aim + σ i2 , i = 1,2,, p 1
17
因子分析模型为 X
1
= 0.833F1 + 0.544 F2
X 2 = 0.91F1 0.253F2 + 0.3175 F3 X 3 = 0.91F1 + 0.253F2 + 0.3175 F3
可取前两个因子 F1,F2为公共因子,第一个因子 对X的贡献为2.38, 第二个因子对X的贡献为0.42。
由上述相关矩阵,可写出其特征多项式为:
λ 1 λI R =
2 10 2 10 2 10 2 10 4 1 14 = (λ )( λ 2 λ + 1) 5 5 5
λ 1
4 5
λ 1
令此特征多项式等于0,得到特征方程,由此特征 方程可解得3个特征根分别为
λ1 =
7+2 6 = 2.38 5 72 6 λ2 = = 0.42 5 1 λ3 = = 0.20 5
T 1 2 p
(1)
( p)
X = AY
12
且
0 λ1 AT V (X ) = A 0 λ2
令
λ 1 A = A 0
0 λp
,并令
1/ λ 0 1 F = Y 0 1/ λp
则有 并且有 V (F ) = I 显然,这就形成了一个不包含 任何特殊因子的因子分析模型。
t1* , t 2* , , t m
λ * t* ,
1 1
λ2* t2* , ,
* * λm tm )
20
三、极大似然法
如果假定公共因子 F 和特殊因子 ε 服从正态分布, 则我们能够得到因子载荷和特殊因子方差的极大似然 估计。设 X , X ,, X 为来自正态总体N ( , Σ)的随机变量, Σ= 其中 AA +D ,那么似然函数为:
18
二、主因子法
主因子法是对主成分的修正,我们这里假定原始 向量X的各分量已作了标准化变化。如果随机变量X 满足因子模型(11.1.2)式,则有
R = AAT + D
其中R为X的相关矩阵,令
R* = R D = AAT
则称 R 为X的约相关矩阵(reduced correlation hi2 ,而不是1, matrix)。易见, R 的对角线元素是 非对角线元素和R中是完全一样的,并且也是一个非 负定矩阵。
即可得 如果X为各分量已标准化了的随机变量,则Σ就是 相关矩阵R,既有 R = AAT + D 因子模型具有两个重要的性质: 1. 模型不受变量量纲的影响 2. 因子载荷不是惟一的。
6
Σ = AAT + D
§11.2 模型参数的统计意义
一、A的元素 aij 的统计意义
COV ( X i , Fj ) = ∑ aik COV ( Fk , Fj ) + COV (ε i , Fj ) = aij
j
1 p p
g2 j
j
j
1
p
p
9
变量X §11.3变量 1,X2,…,Xp之间的相关性检验 变量
样 本 测 度 (Kaiser-Meyer-Olkin Measure of Sampling Adequacy)。 它是所有变量 X , X , , X 的简单相关系数的平方和 与这些变量之间偏相关系数的平方和之差。 相关系数实际上反映的是公共因子起作用的空间。 偏相关系数放映的是特殊因子起作用的空间。KMO接 近于1,越适合于作公共因子分析。KMO过小,不适合 于作因子分析。数据是否作因子分析,一般采用如下 主观判断:KMO在0.9以上,非常适合;0.8~0.9,很 适 合 ; 0.7~0.8 , 适 合 ; 0.6~0.7 , 不 太 适 合 ; 0.5~0.6,很勉强;0.5以下,不适合。
m
令
h =
2 i
∑a
j =1
σ ii = hi2 + σ i2 , i = 1, 2, , p
i
2 ij
i = 1, 2, , p
,于是
的影响,可以看成是公共 X 因子对 的方差贡献,称为共性方差(communality); 而 σ i2 是 特 殊 因 子 对 的 方 差 贡 献 , 称 为 特 殊 方 差 (specific variance)。当X为各分量已标准化了的随 σ 机向量时, = 1 ,此时有
本章内容重点: 本章内容重点:
因子分析的概念; 模型的参数估计方法;上机实现
2
§10.0 概述
因子分析最初是由英国心理学家C.Spearman提出的。 1904年他在美国心理学刊物上,发表了第一篇有关因 子分析的文章。以后逐渐扩展到社会学、气象学、政 治学、医学、地理学及管理学的领域。 因子分析和主成分分析有很大的不同,主成分分析 不能作为一个模型来描述,它只能作为一般的变量变 换,主成分分析是可观测变量的线性组合;而因子分 析需要构造一个因子模型,公共因子一般不能表示为 原始变量的线性组合。因子分析中的因子一般能够找 到实际意义,主成分分析的主成分综合性太强,一般 找不出实际意义。
X = AY = AF
V ( X ) = AA T
13
当然,假定原始观测变量完全由公共因子决定, 不存在特殊因子,可能是不合适,因此我们给定公共 因子数目m<p,只取 A 的前m列为因子载荷矩阵,而将 p-m列留给特殊因子,这时共性方差 h = ∑ (a λ ) 。一般 p m p 地取: 2 hi ∑ ∑1 aij2 λ j ∑ i =1 j = i =1 85% = p p ∑ λi ∑ λi ≥ i =1 i =1
m 2 i 2 j =1 ij j
这种解法称为因子模型的主成分分解。
14
【例11.1】 】
市场上肉类、鸡蛋、水果3种商品的月份资料的相 关矩阵为:
R= 1 2 10 2 10 2 10 1 4 5 2 10 4 5 1
试用主成分法求解因子分析模型。
15
解
Σ
其中 = ( , ,, ) 为均值,F , F , , F ε = (ε1 , ε 2 , , ε p )T 为特殊因子,它们 为公共因子, 都是不可观测的随机变量。上式可用矩阵表示为
T 1 2 p
1 2 m
X = + AF + ε
5
二、因子模型的性质
X的协方差矩Σ可以进行如下分解:
COV(X, X) = COV(AF + ε, AF + ε) = E(AF + ε)(AF + ε)T = AE(FFT )AT + AE(FεT ) + E(εFT )AT + E(εεT ) = AAT + D
A = (a(1) λ1 , a(2) λ2 , a(3) λ3 ) 0.54× 2.38 = 0.59× 2.38 0.59× 2.38 0.833 0.544 = 0.91 0.253 0.91 0.253
T
T
因子载荷矩阵为
0.39× 0.42 0.71× 0.20 0.39× 0.42 0.71× 0.20 0 0.3175 0.3175 0.84× 0.42 0
i
hi2 反映了公共因子对X
2 ii
hi2 + σ i2 = 1, i = 1, 2, , p
8
三、A的列元素平方和的统计意义 的列元素平方和的统计意义
∑V ( X ) = ∑ a V ( F ) + ∑ a
i =1 i i =1 2 i1 1 i =1 p p p 2 i2
V ( F2 ) + + ∑ a V ( Fm ) + ∑ V (ε i )
4
一、因子分析模型
因子分析的一般模型
X1 = 1 + a11F + a12 F2 +, a1m Fm + ε1 1 X = + a F + a F +, a F +ε 2 2 21 1 22 2 2m m 2 X p = p + ap1F 1+ap2 F2 +, apm Fm + ε p