第十一讲 因子分析
因子分析ppt课件剖析

样本总方差
归因于第 个j =
因子的比例
lˆ12j lˆ22j s11 s22
lˆp2j s pp
*因子旋转
为什么要旋转因子? 建立因子分析模型的目的不仅是找出公共因子,
更重要的是知道每个公共因子的意义,以便对实际问 题进行分析。如果求出因子解后,各个因子的典型代 表变量不很突出,还需要进行因子旋转,通过适当的 旋转得到比较满意的公共因子。
假设公共因子F和特殊因子 是正态分布的,则可以根
据极大似然的思想得到因子载荷和特殊方差的极大似然 估计。
当 Fj 和 j 是联合正态时,观测值 X j LFj j
就是正态的。它通过 LL 依赖于 L 和 。
**正因为正交变化而使 Lˆ 的多重选择成为可能,仍然不
能很好的确定这个模型。施加可方便计算的唯一性条件
因子分析的思想和目的:
把每个研究变量分解为几个影响因素变量,将每个 原始变量分解成两部分因素,一部分是由所有变量 共同具有的少数几个公共因子组成的,另一部分是 每个变量独自具有的因素,即特殊因子。
因子分析的目的之一,简化变量维数。即要使因素 结构简单化,希望以公共因子,能对总信息量作最 大的解释,因而抽取得因子愈少愈好,但抽取因子 的累积解释的信息量愈大愈好。
利用谱分解,令 有特征值-特征向量 i,ei ,且
1 2 p 0 则
1e1e1 2e2e2
p
ep
e
p
=
1 e1 2 e2
p
ep
1 e1
2 e2
p ep
令 m p是公共因子的个数,则所估计的因子载荷矩
阵 l为ij
L [ ˆ1eˆ1 ˆ2 eˆ2
因子分析法(自己整理)

因子分析法1.因子分析法简介:1)因子分析法的提出“因子分析”的名称于1931年由Thurstone 首次提出,但它的概念起源于二十世纪初Karl Pearson 和Charles Spearmen 等人关于智力测验的统计分析。
近年来,随着电子计算机的高速发展,人们将因子分析方法成功地应用于各个领域,使得因子分析的理论和方法更加丰富。
2)因子分析的定义因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
3)与主成分分析的联系主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。
主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
因子分析(研究生课程)

⑤ Reproduced 再生相关阵,选择此项给出因子分析后的相关阵,还 给出残差,即原软关与再生相关之间的差值。 ⑥ Anti-image 反映像相关阵。包括偏相关系数的负数;反映像协方差 阵,包括偏协方差的负数;在一个好的因子模型中除对角线上的系 数较大外,远离对角线的元素应该比较小。 ⑦ KMO and Bartlett's test of sphericity KMO和球形 Bartlett检验。选 择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。检验变量间 的偏相关是否很小。Bartlett球形检验,检验的书相关阵是否是单 位阵。它表明因子模型是否是不合适宜的。
因子分析
暨南大学管理学院企业管理系
陈晓曦
历史
1947年,美国统计学家Stone关于国民经济的 研究。
1927-1938年的数据,得到了17个反映国民收入与 支出的变量, 后来通过因子分析发现,只需要用3个新的综合变 量,就可以解释95%的原始信息。
总收入 总收入率 积极发展或衰退趋势
案例
在企业形象或品牌形象的研究中,消费者可以 通过一个有24个指标构成的评价体系,评价百 货商场的24个方面的优劣。
但消费者主要关心的是三个方面,即商店的 环境、商店的服务和商品的价格。因子分析方法可 以通过24个变量,找出反映商店环境、商店服务水 平和商品价格的三个潜在的因子,对商店进行综合 评价。而这三个公共因子可以表示为:
F3
-0.58 -0.193 0.047 0.139 -0.084 -0.161 0.109 0.411 0.372 0.658
F4
-0.206 0.092 -0.175 0.396 -0.419 0.345 -0.234 0.44 -0.235 -0.279
因子分析(因子评价)

因子分析一.因子分析原理因子分析是根据相关性大小把原始变量进行分组,使得同组内的变量之间相关性高,而不同组的变量之间的相关性低。
每组变量代表一个基本结构(即公共因子),并用一个不可观测的综合变量来表示。
对于所研究的某一具体问题,原始变量分解为两部分之和。
一部分是少数几个不可观测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
从全部计算过程来看作R 型因子分析与作Q 型因子分析都是一样的,只不过出发点不同,R 型从相关系数矩阵出发,Q 型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定用哪一类型的因子分析因子模型的性质:模型不受变量量纲的影响;因子载荷不是唯一的。
二.因子分析的数学模型设有p 个指标,则因子分析数学模型为:11111221221122221122p p p pp p p pp p X r Y r Y r Y X r Y r Y r Y X r Y r Y r Y=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 其中,12,,,p X X X 是已标准化的可观测的评价指标。
12,,,k F F F 出现在每个指标i X 的表达式中,称为公共因子,公共因子是不可观测的,其含义要根据具体问题来解释。
i ε是各个对应指标i X 所特有的因子,故称为特殊因子,它与公共因子之间彼此独立。
ij r 是指标i X 在公共因子j F 上的系数,称为因子载荷,因子载荷ij r 的统计含义是指标i X 在公共因子j F 上的相关系数,表示i X 与j F 线性相关程度。
用矩阵形式表示为:X AF ε=+其中12(,,,)p X X X X '=,12(,,,)k F F F F '=,12(,,,)p εεεε'=,111212122212m m p p pm r r r r r r A rr r ⎛⎫⎪⎪= ⎪ ⎪ ⎪⎝⎭,A 称为因子载荷矩阵。
其统计含义是:A 中的第i 行元素12,,,i i im r r r 说明了指标i X 依赖于各个公共因子的程度。
因子分析ppt课件

xi ai1 f1 ai2 f2 ... ui
特殊因子(unique factor)观测变量所
特有的因子,表示
公因子(common因fa子ct负or载s)(是factor load该in变gs量):不表能示被i公个因 观测变量所共有的变因量子在,第解j个释公因子上子的所负解载释,的是部因分子。
因子抽取方法的选择一般考虑因子分 析的目的和对变量方差的了解程度:
如果因子分析的目的是用最少的因子 最大程度地解释原始数据中的方差,或特 殊因子、误差带来的方差很小,则用主 成分分析法。
如果目的是确定数据结构,但不了解 变量方差的情况,则用公因子分析法。
五、解释因子(rotation)
初始因子很难解释,大多数因子都和很多变 量有关,因子的实际意义难以理解和把握。 因子旋转使因子结构更简单、更易于理解。
当公因子间不相关时,某变量 xi 的公因子方差
h2i
a2i1
a2i2
...
a
பைடு நூலகம்
2 im
即等于与该变量有关的公因子负载的平方和。
因子贡献率(contributions) 表示每个公因子对数据的解释能力, 它等于和该因子有关的因子负载的平 方和,能衡量公因子的相对重要性。
公因子个数 ≤ 观测变量数
能代表观测变量较多信息的公因子是 研究感兴趣的;求因子解时,第一个因 子代表信息最多,随后的因子代表性逐 渐衰减。
0.6以上,差; 0.5,很差;0.5以下不能接受;
KMO 用于检测变量之间的简单相关系数和偏 相关系数的相对大小,取值在0--1间,一般认 为KMO在0.9以上很适合做因子分析,0.8以上 比较适合做因子分析;
Bartlett's 球形检验虚无假设“相关矩 阵是单位矩阵”,拒绝该假设(P<.001)表明 数据适合进行因子分析。
因子分析的原理与方法

因子分析的原理与方法因子分析是一种多变量分析方法,它用于揭示一组观测变量之间潜在的共同因素或维度。
在因子分析中,我们希望通过分析观测变量之间的相关性,找到更少的潜在因子来解释数据的结构。
本文将介绍因子分析的原理和方法。
一、因子分析的原理因子分析的核心原理是将一组观测变量解释为潜在因子的线性组合。
假设我们有n个观测变量和m个潜在因子,那么可以用下面的数学模型表示:X = AF + E其中,X是一个n×1的观测变量向量,A是n×m的因子载荷矩阵,F是一个m×1的因子向量,E是一个n×1的误差向量。
因子载荷矩阵A 表示了每个观测变量与每个因子之间的关系程度。
因子向量F表示每个样本在每个因子上的得分。
误差向量E表示了不能被因子解释的观测变量的部分。
基于以上数学模型,因子分析的目标是找到一个合适的因子载荷矩阵A和因子向量F,使得误差向量E最小。
换句话说,我们希望通过降低数据的维度,找到能够最大程度解释观测变量之间关系的因子。
这样一来,我们可以简化数据的分析和解释,并且更好地理解观测变量背后的潜在结构和因素。
二、因子分析的方法因子分析方法可以大致分为两种类型:探索性因子分析和确认性因子分析。
下面将分别介绍这两种方法。
1. 探索性因子分析(Exploratory Factor Analysis,EFA)探索性因子分析是一种无先验假设的因子分析方法,它旨在通过自动化算法发现数据中存在的潜在因子结构。
具体步骤如下:(1)选择合适的因子提取方法,常用的包括主成分分析法和最大似然法。
(2)确定因子数目,可以依据一些统计指标(如特征值大于1、解释方差比例)或人的经验判断。
(3)估计因子载荷矩阵,可以使用方法如最小二乘法、主成分法或最大似然法。
(4)旋转因子载荷矩阵,常用的旋转方法包括方差最大旋转法和斜交旋转法。
(5)解释因子载荷矩阵,通过解释载荷矩阵的模式和大小,识别出观测变量与潜在因子的关系。
(完整版)方法:因子分析法

因子分析基础理论知识1 概念因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211当p 较大时,在p 维空间中考察问题比较麻烦。
因子分析-PPT

因子 得分
因子分析
什么 叫因 子分
析
定义解释
因子分析就是主成分分析得推广和发展, 她就是把具有复杂关系得多个变量(或样 品)综合为少数几个因子,并给出原始变量 与综合因子之间得相关关系得多元统计 分析方法
种类
R型因子分析(对变量进行因子分析) Q型因子分析(对样品进行因子分析)
应用意义
应用范围
表示得形式不同。
因子 分析 得统 计意
义
假定因子模型中,各个变量、 公共因子、特殊因子都已经进 行了标准化处理
因子载荷矩阵得统计意义
变量共同度得统计意义
公因子方差贡献得统计意义
因子 载荷 矩阵 得估 计方
法
方法一:流
应用类型
基本思想 数学模型
因子 分析 得模
型
主成 分分 析与 因子 分析 得区
别
主成分分析就是一种数学变换 (正交变换)不能称为一种数学 模型;而因子分析需要构造数 学模型。
主成分得个数与原始数据个数 相等,就是把原始变量变换成 为相互独立得新得变量;而因 子个数一般要求小于原始数据 个数,目得在于得到一个结构 简单得因子模型。
可以互相讨论下,但要小声点
因子 旋转
含义:
因子旋转就是根据因子载荷矩阵 得不唯一性,用一个正交矩阵右乘 因子载荷矩阵,实行旋转(由线性代 数,一次正交变换,对应坐标系得一 次旋转),使旋转后得因子载荷矩阵 结构简化,以便对公共因子进行合 理得解释。
所谓结构简化就就是使得每个变 量仅在一个公共因子上有较大得 载荷,而在其她得公共因子上得载 荷比较小。
常用得方法有:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.3 使用FACTOR过程进行因子分析
FACTOR过程简介
PROC FACTOR DATA = <数据集> <选项>; VAR <原始变量>; RUN;
(1) PROC FACTOR语句
PROC FACTOR语句标志FACTOR过程的开始, 同时还可通过设置其他语句定义数据集、指定具体 分析方法和过程等。通常只需要VAR语句作为 PROC FACTOR语句的附加选项。
Xi:观测指标(标准化数据) Fi:公因子 ei:特殊因子 aij:因子载荷(计算关键项)
四、因子分析与主成分分析的区别
(1).主成分分析不能作为一个模型,只是变量变换,而因 子分析需要构造模型。 (2).主成分的个数和变量的个数相同,它是将一组具有相 关的关系的变量变换为一组互不相关的变量,而因子分析 是要用尽可能少的的公因子,以便构造一个简单的因子模 型 (3).主成分表示为原始变量的线性组合,而因子分析是将 原始变量表示为公因子和特殊因子的线性组合。
( h1* ) 2 r21 * R r p1 r12 * 2 ( h2 ) rp 2 r1 p r2 p * 2 (h p )
3. 因子载荷矩阵的估计方法
给定p个相关变量X1,...,Xp的观测数据阵X,由 X = AF + ε易推出 ∑ = AA' + D 其中∑ = D(X)为X的协方差阵,A = (aij)为p m的因子
X1 a11F1 a12 F2 e1 X 2 a21F1 a22 F2 e2 X 3 a31F1 a32 F2 e3 X 4 a41F1 a42 F2 e4 X 5 a51F1 a52 F2 e5
X = AF + e
X1 X2
┇
a11
a12 a22
E(F) =0,D(F) = Im,即F1、F2、…、Fm互不相关,方差为 1;D(ε) = diag(12,22,…,p2),即ε1、ε2、…、εp互不相关, 方差不一定相等,εi~N(0,i2)。 因子分析的目的就是通过模型X = AF + ε以F代替X, 由于m < p,从而达到降维的愿望。
4. 因子旋转(正交变换)
所谓因子旋转就是将因子载荷矩阵 A右乘一 个正交矩阵 T, 使旋转后的因子载荷阵 A * 在结构 上得以简化,即:使得每个变量仅在一个公因子 上有较大的载荷,而在其余的因子上载荷比较 小。这样做便于对公因子进行解释和说明。
设p维可观测向量X满足因子模型:X = AF +ε。T为正 交阵,则因子模型可写为 X = ATT'F +ε = A*F* +ε 其中A* = AT,F* = T'F。 易知,∑ = AA' + D = A*A*' + D(其中A* = AT)。这说 明,若A,D是一个因子解,任给正交阵T,A* = AT,D 也是因子解。在这个意义下,因子解是不惟一的。 由于因子载荷阵是不惟一的,所以可对因子载荷 阵进行旋转。目的是使因子载荷阵的结构简化,使载 荷矩阵每列或行的元素平方值向0和1两极分化,这样 的因子便于解释和命名。
t 1
t 1
(3) 公共因子Fj方差贡献的统计意义
因子载荷矩阵A中各列元素的平方和:
2 q a ij 2 j i 1 p
称为公因子Fj对X的贡献,是衡量Fj相对重要性的 指标,qj2越大表明Fj对X的贡献越大。
(1) 主成分法 设样品协方差阵S的特征值为λ1≥λ2≥…≥ λp≥0,u1,u2,…,up,为对应的标准化特征向量, 当最后p–m个特征值较小时,S可近似地分解为:
规定因子个数的上限。默认值是所有被分析变量的个数。 指定因子旋转的方法。默认值是NONE。具体选项有: VARIMAX(正交方差最大旋转)、ORTHOMAX(最大正 交旋转)、QUARTIMAX(正交四次方最大旋转)等。 显示相关系数阵。 重新排列因子系数阵的列,使那些在第一因子上载荷量 最大的变量排在第一列,其他按从大到小的顺序排列, 便于因子含义的解释。输出数据集中的变量顺序不变。 显示均值、标准差及观察个数。
有三种主要的正交旋转法:四次方最大法、方差 最大法和等量最大法。这些旋转方法的目标是一致 的,只是策略不同。 如果两种旋转模型导出不同的解释,这两种解释 不能认为是矛盾的。倒不如说是看待相同事物的两种 不同方法。 在统计意义上所有旋转都是一样的,即不能说 一 些旋转比另一些旋转好。因此,在不同的旋转方法之 间进行的选择必须根据非统计观点,通常选择最容易 解释的旋转模型。
(2) VAR语句 VAR 语句用来指定需要分析的数值变量。如果 该句省略,那么在其他语句中未做特殊规定的所有 数值变量都将被分析。
选项
METHOD(M)=
NFACTOR(N)=
功能和用法
指定因子提取的方法,默认的方法为 principal , 可 供选择的方法:PRIN/P(主成分法)、PRINT(主 因子法)、ML/M(最大似然法)。.
* * * * * u1 , * u ,..., u 其中 A ( 1 2 2 m m) , 令
2 ˆ ) 1 aik ( * 2 i k 1
m
(i = 1,…,p)
则A和D为因子模型的一个解,这个解称为主因子解。
在实际中特殊因子方差(或变量共同度)是未知的。 以上得到的解是近似解。为了得到近似程度更好的解, 常常采用迭代主因子法。即利用上面得到的 2 D* = diag( ) ˆ12 ,..., ˆp 作为特殊因子方差的初始估计,重复上述步骤,直到解 稳定为止。 变量共同度hi2常用的初始估计有以下几种方法: 取第i个变量与其他变量相关系数绝对值的最大值; 取1,它等价于主成分解。
2
AA'D
其中,A ( 1 u1, 2 u2 ,..., m um ) (aij ) pm为pm阵,
2 ,即得因子模型的一个解。载荷阵 sii aik 2 i m
A中的第j列和X的第j个主成分的系数相差一个倍数
( j j = 1,…,m),故这个解称为主成分解。
2. 因子分析模型中的几个统计特征
(1) 因子载荷aij的统计意义
由Xi = ai1F1 +…+ aimFm + εi,两边同乘以Fj, 再求数学期望:
E(XiFj)=ai1E(F1Fj)+…+aijE(FjFj)+…+aimE(FmFj)+E(εiFj)
从而有
rij = E(XiFj) = aij
三、因子分析的主要应用
(1).寻求基本结构,简化观测系统,将具有错综复杂关系 的对象(变量或样本)综合为少数几个因子(不可观测的 随机变量),并再现因子与原始变量之间的内在联系。 (2).用于分类,对变量或样本进行分类。
7.2 因子分析的概念与计算步骤
1. 因子分析模型
设p维可观测的随机向量X = (X1,...,Xp)'(假 2,…,p)表示为
定Xi为标准化变量,即E(Xi) = 0,Var(Xi) = 1,i = 1,
(m p)
X = AF + ε 上式称为因子模型,其中 F 1 、 F 2 、 … 、 F m 称为公因 子,简称因子,是不可观测的变量;待估的系数阵 A称为 因子载荷阵,aij(i = 1,2,…,p;j = 1,2,…,m)称为第i个变 量在第j个因子上的载荷(简称为因子载荷); ε称为特殊因子,是不能被前 m个公因子包含的部分。 并且满足:cov(F,ε) = 0,即F,ε不相关;
┇
… … … …
a1q a2q
┇
F1 F2
┇
e1
=
a21
┇
+
e2
┇
Xm
am1
am2
amq
Fq
em
X1 = a11F1 + a12F2 + … + a1qFq +e1 X2 = a21F1 + a22F2 + … + a2qFq +e2 Xm = am1F1 + am2F2 + … + amqFq +em
这五项指标是受植物神经支配的,植物神经又分为
交感神经和副交感神经,因此这五项指标也可以用
因子分析模型去处理。
二、因子分析数学模型
X1:收缩压
common factor F1:交感神经
X2:舒张压
X3:心跳间隔
F2:副交感神经
X4:呼吸间隔
X5:舌下温度
common factor
specific factor
k 1
(2) 主因子法 主因子方法是对主成分方法的修正,设R = AA' + D, 则R* = R – D = AA'称为约相关矩阵,若已知特殊因子方 * 2 ˆ ( 差的初始估计 i ) ,也就是已知变量共同度的估计:
ˆ i* ) 2 (hi* ) 2 1 (
则R*对角线上的元素是,而不是1。即:
即载荷矩阵中第i行,第j列的元素aij是第i个变量 与第j个公因子的相关系数,反映了第i个变量与第j个 公因子的相关程度。|aij| 1,绝对值越大,相关程度 越高。在这种意义上公因子解释了观测变量间的相关 性。
(2) .变量共同度的统计意义
因子载荷矩阵第i行的元素平方和:
h
2 i