医学统计学--主成分分析及因子分析(第20章)

合集下载

数据分析中的因子分析与主成分分析

数据分析中的因子分析与主成分分析在当今信息爆炸的时代，数据分析已经成为了各行各业中不可或缺的一部分。

在数据分析的过程中，因子分析和主成分分析是常用的两种统计方法。

它们可以帮助我们理解数据背后的隐藏规律和关联性。

本文将介绍因子分析和主成分分析的基本概念、应用场景以及它们之间的区别。

一、因子分析因子分析是一种用于探索多个变量之间关系的统计方法。

它的基本思想是将多个相关的变量归纳为少数几个潜在因子，从而简化数据的复杂性。

通过因子分析，我们可以找到隐藏在数据背后的共性因素，并将其用较少的变量来代表。

在因子分析中，我们需要确定两个重要的概念：因子载荷和公因子。

因子载荷表示变量与因子之间的相关性，取值范围为-1到1。

而公因子则是指影响多个变量的共同因素。

通过因子分析，我们可以得到每个变量对于每个公因子的因子载荷，从而得知变量之间的相关性以及它们与公因子的关系。

因子分析在实际应用中有着广泛的用途。

例如，在市场调研中，我们可以利用因子分析来确定消费者对于某个产品的偏好因素；在心理学研究中，我们可以通过因子分析来探索人们的个性特征。

因子分析的结果可以帮助我们更好地理解数据，为进一步的分析提供基础。

二、主成分分析主成分分析是一种用于降维的统计方法。

它的目标是通过线性组合将原始变量转化为一组新的互相无关的变量，即主成分。

主成分分析通过保留原始数据的大部分信息，同时减少数据的维度，从而达到简化数据和减少冗余的目的。

在主成分分析中，我们首先需要计算协方差矩阵。

然后，我们通过求解协方差矩阵的特征值和特征向量，得到主成分。

特征值表示主成分的重要性，而特征向量则表示主成分的方向。

通过选择特征值较大的主成分，我们可以保留较多的原始数据信息。

主成分分析在实际应用中也有着广泛的用途。

例如，在金融领域，我们可以利用主成分分析来构建投资组合，降低风险；在图像处理中，我们可以利用主成分分析来提取图像的特征。

主成分分析可以帮助我们更好地理解数据的结构，发现数据中的重要特征。

主成分分析因子分析

主成分分析因子分析主成分分析和因子分析是很重要的统计分析方法。

两者都是用于对一组同质或异质的变量进行数据探索研究的技术，它们都可以提供有价值的结论，增强数据有意义的理解。

1. 主成分分析主成分分析（Principal Component Analysis，简称PCA）是从一大组变量中提取具有代表性的正交变量，组成一个新的变量集合。

PCA通过减少变量数量，减少多变量间相关性带来的重复性，从而提升数据分析的准确性和有效性。

注意减少变量数量不是减少观测样本数量，而是把原先高维度的变量合并成一组较低维度的变量。

PCA算法的基本思想是：它分析原始数据集中的变异，并从中提取主要的变量，然后将这些变量的组合（叫做主成分）用推断法来重新构建原来的数据集，最后能够说明原始变量的结构，对被研究的变量结构有系统的解释。

2. 因子分析因子分析（Factor Analysis，简称FA）是一种用来探索相关变量之间潜在关系的统计分析方法。

这一方法注重的是把一系列的变量映射到一个尽可能少的多个隐变量的过程。

其中，这些隐变量就是“因子”，它们是原来变量的代表性变量，且变量之间有因果或相关的结构关系。

FA的基本思想是，将一组变量之间的复杂的相关关系映射到一组基本关系，即因子上。

然后，当每个变量映射到一个或几个因子上后，只需要解释因子就能够完全解释自变量变化的原因。

常用的因子模型有因子旋转、因子分层、因子波动等。

相比较，主成分分析和因子分析都有各自的专业领域，它们都有不同的数据需求和分析方法，在不同的数据处理中也表现出各自的优势和劣势。

主成分分析处理比较复杂的数据，可以根据原始变量的关系构建视图，但不涉及因果关系的推断；而因子分析可以推导出被研究的变量之间的关系，进而探索或验证其原因。

卫生统计学：主成分分析与因子分析

〔factor loading〕矩阵
通常先对x作标准化处理，使其均值为零，方差为１．这样就有
x i a i1 f1 a i2 f2 a im fm e i
假定〔１〕fi的均数为 i22 ０，方差为１；〔２〕ei的均数为０，方差为δi；〔３〕 fi与ei相互独立．
那么称x为具有m个公共因子的因子模型
〔２〕δi称为特殊方差〔specific variance〕，是不能由公共因子解释的局部
▪ 因子载荷〔负荷〕aij是随机变量xi与公共因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
▪ 称gj2为公共因子fj对x的“奉献〞，是衡量公共因子fj重要性的一个指标。
根本思想：使公共因子的相对负荷〔lij/hi2〕的方差之和最大，且保持原公共因子的正交性和公共方差总和不变。
可使每个因子上的具有最大载荷的变量数最小，因此可以简化对因子的解释。
〔2〕斜交旋转〔oblique rotation〕
因子斜交旋转后，各因子负荷发生了较大变化，出现了两极分化。各因子间不再相互独立，而彼此相关。各因子对各变量的奉献的总和也发生了改变。
ai2j
g
2 j
i1
▪ 极大似然法〔maximum likelihood factor〕
▪ 假定原变量服从正态分布，公共因子和特殊因子也服从正态分布，构造因子负荷和特殊方差的似然函数，求其极大，得 factor〕
▪ 设原变量的相关矩阵为 R=(rij)，其逆矩阵为R-1=(rij)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数， δi’=1/rii。那么共同度的初始值为(hi’) 。

主成分分析与因子分析

∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方，作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率，
记为νi（ i21 m）。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )

x1 x2

t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p

y1 y2

t
pp

y
p

选取前m个主成分，记

xˆ 1

一般地，第 i 主成分为：
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y

y1

,

1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分的方差标准化，再求出主成分的载荷矩阵。令：

主成分分析和因子分析(朱艳科)

主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。

它的工作目标，就是要对这种多变量的平面数据表进行最佳综合简化。

也就是说，要在力保数据信息丢失最少的原则下，对高维变量空间进行降维处理。

很显然，识辨系统在一个低维空间要比一个高维空间容易得多。

英国统计学家斯格特（M.Scott ）在1961年对157个英国城镇发展水平进行调查时，原始测量的变量有57个。

而通过主成分分析发现，只需5个新的综合变量（它们是原变量的线性组合），就可以95%的精度表示原数据的变异情况，这样，对问题的研究一下子从57维降到5维。

可以想象，在5维空间中对系统进行任何分析，都比在57维中更加快捷、有效。

另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。

他曾利用美国1929～1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。

在进行主成分分析后，竟以97.4%的精度，用三个新变量就取代了原17个变量。

根据经济学知识，斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F （是时间t 的线性项）。

更有意思的是，这三个变量其实都是可以直接测量的。

二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中，为了更全面、准确地反映出事物的特征及其发展规律，人们往往要考虑与其有关系的多个指标，这些指标在多元统计中也称为变量。

这样就产生了如下问题：一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标，而另一方面随着考虑指标的增多增加了问题的复杂性，同时也由于各指标均是对同一事物的反映，不可避免地造成信息的大量重叠，这种信息有时甚至会抹杀事物的真正特征与内在规律。

基于上述问题，人们就希望在定量研究中涉及的变量较少，而得到的信息量又较多。

主成分分析与因子分析法

主成分分析与因子分析法主成分分析是一种减少数据维度的统计学方法，通过将多变量数据投影到一个较低维度的空间中，实现数据的降维。

主成分分析的基本思想是将原始数据转换为一组新的变量，这些新的变量称为主成分，通过主成分的降序排列，能够使原始数据中较大方差的信息更好地保留下来。

1.数据标准化：根据数据的特点，将数据进行标准化处理，使得各个变量具有相同的尺度。

2.计算协方差矩阵：通过计算数据的协方差矩阵，了解各个变量之间的相关性。

3.求解特征向量和特征值：通过对协方差矩阵进行特征值分解，得到特征向量和特征值。

4.选择主成分：选取前k个特征向量对应的主成分，使得它们能够解释绝大部分的方差。

通常选择的标准是特征值大于1，或者解释方差的累积比例达到一定的阈值。

5.主成分系数：计算原始变量和主成分之间的线性关系，这个关系可以用主成分的特征向量作为系数矩阵进行表示。

1.降低维度：主成分分析能够将高维数据降维，提取出最能代表原始数据的主成分。

2.去除冗余信息：通过选择主成分，可以去除原始数据中的冗余信息，提取出最有用的信息。

3.可视化：降维后的数据可以更容易地可视化和解释。

二、因子分析法（Factor Analysis）因子分析法是一种用于确定多个观测变量之间的潜在结构的统计学方法。

它假设观测变量是由一组潜在因子决定的，通过观测变量和因子之间的相关性，可以推断出潜在因子之间的关系。

因子分析法的基本步骤如下：1.确定因子数：根据研究的目的和背景，确定潜在因子的个数。

2.求解因子载荷矩阵：通过最大似然估计或主因子方法，求解因子载荷矩阵，得到每个观测变量与潜在因子之间的相关关系。

3.提取因子：根据因子载荷矩阵，提取出与观测变量相关性最高的因子，将原始数据映射到潜在因子空间中。

4.旋转因子：通过旋转因子载荷矩阵，使得因子之间更易解释和解读，常用的旋转方法有正交旋转和斜交旋转。

5.因子得分：根据观测变量的信息和因子载荷矩阵，计算每个样本在每个因子上的得分。

因子分析与主成分分析

因子分析与主成分分析因子分析和主成分分析是统计学中常用的降维技术，它们在数据分析和模式识别等领域中广泛应用。

本文将介绍因子分析和主成分分析的基本概念与原理，并对它们的应用进行探讨。

一、因子分析的概念与原理因子分析是一种用于发掘多个变量之间潜在关联性的方法。

当我们面对大量变量时，往往希望找到其中的共性因素来解释观测数据。

因子分析通过将变量进行降维，将原始变量解释为共同的因子或构念，从而减少信息冗余，提取数据的主要特征。

因子分析的核心思想是假设多个观测变量是由少数几个潜在因子所共同决定的。

这些潜在因子无法直接观测，但可以通过观测变量的线性组合进行间接估计。

通过因子分析，我们可以得到因子载荷矩阵，它描述了每个观测变量与潜在因子之间的关系强度。

二、主成分分析的概念与原理主成分分析是一种常用的无监督学习方法，用于降维和数据压缩。

与因子分析类似，主成分分析也采用线性组合的方式将原始变量映射到一个低维的特征空间。

主成分分析的目标是找到一组新的变量，称为主成分，它们能够最大程度地保留原始数据中的信息。

主成分分析的步骤如下：1. 标准化数据：将原始数据标准化，使得变量的均值为0，方差为1，以消除变量尺度差异的影响。

2. 计算协方差矩阵：计算标准化后的数据的协方差矩阵，用于评估各个变量之间的相关性。

3. 特征值分解：对协方差矩阵进行特征值分解，得到特征值和特征向量。

4. 选择主成分：根据特征值大小，选择要保留的主成分数量。

5. 计算主成分：将原始数据投影到所选择的主成分上，得到降维后的数据。

三、因子分析与主成分分析的应用1. 数据降维：因子分析和主成分分析可以用于降低数据集的维度，减少冗余信息。

在机器学习和数据挖掘中，高维数据集的处理往往会面临计算复杂度和过拟合等问题，降维技术可以有效解决这些问题。

2. 变量选择：通过因子分析和主成分分析，可以识别出对观测数据具有重要影响的变量。

这对于特征选择和模型建立有重要意义，可以提高模型的解释性和泛化能力。

因子分析与主成分分析的区别与应用

因子分析与主成分分析的区别与应用因子分析与主成分分析是统计学中常用的多变量分析方法，用于降维和提取数据中的主要信息。

虽然它们都可以用于数据分析，但在方法和应用上存在一些区别。

本文将介绍因子分析与主成分分析的区别，并讨论它们各自的应用。

一、因子分析与主成分分析的定义因子分析是一种用于研究多个观测变量之间的内在相关性结构的统计技术。

它通过将多个变量组合为少数几个“因子”来解释数据的方差。

每个因子代表一组相关性高的变量，可以帮助我们理解数据背后的潜在结构。

主成分分析是一种通过将原始变量转换为线性组合（即主成分）来降低多维数据维度的技术。

它通过找到数据中的最大方差方向来确定主成分，并逐步提取主成分，以解释数据的最大方差。

主成分分析可以帮助我们发现数据中的主要特征。

二、因子分析与主成分分析的区别1. 目的不同：因子分析的目的是确定一组能够最好地描述观测数据之间关系的因子，并解释数据中的方差。

因子分析更加关注变量之间的共同性和相关性，希望通过较少的因子来解释数据。

主成分分析的目的是通过寻找数据中的主要结构和主要特征来降低数据的维度。

主成分分析着重于方差的解释，通过线性组合来减少变量数量，提取出主要成分。

2. 基本假设不同：因子分析基于观察变量之间的共同性，假设观测变量是由一组潜在因子决定的。

它假设每个观测变量都与每个因子有一个固定的因子载荷。

主成分分析假设原始变量之间是线性相关的，并且通过线性变换，可以找到解释大部分数据方差的新变量。

3. 输出结果不同：因子分析输出因子载荷矩阵，该矩阵显示每个因子与每个观测变量之间的关系。

因子载荷表示每个因子对每个变量的贡献程度，可用于解释观测变量之间的共同性。

主成分分析输出的是主成分，每个主成分是原始变量的线性组合。

主成分按照解释的方差大小排序，因此前几个主成分更能代表原始数据的方差。

三、因子分析与主成分分析的应用因子分析的应用广泛，可以用于心理学、社会科学、市场调研等领域。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2019/1/25
医学统计学
3
一、基本思想
数据的降维、数据的解释将原来众多具有一定相关性的指标，组合成一组新的相互无关的综合指标。从中选取几个较少的综合指标尽可能多的反映原来众多指标的信息。这种既减少了指标的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
2019/1/25 医学统计学 4
例
1 2 140.0 141.6 76.0 76.2 36.3 31.4 32.0 29.0 23.0 22..0 16.1 15.6 61.1 60.6 38.7 38.8 32.4 32.5 23.1 21.8 71.3 65.7 41.8 41.7 31.6 29.0 22.3 19.8 20.5医学统计学 17.5
第20章
主成分分析与因子分析
Principal Components Analysis & Factor Analysis
第二军医大学卫生统计学教研室张罗漫
2019/1/25 医学统计学 1
讲课内容：
第一节主成分分析
第二节因子分析
2019/1/25
医学统计学
2
第一节
主成分分析
Principal Components Analysis
某地 208 名 14 岁男中学生 15 项形态指标测试结果
指标、单位
身高 (X1) cm 坐高 (X2) cm 体重 (X3) kg 肩宽 (X4) cm 骨盆宽 (X5) cm 手长 (X6) cm 上肢长 (X7) cm 小腿加足高 (X8) cm 小腿长 (X9) cm 足长 (X10) cm 胸围 (X11) cm 大腿围 (X12) cm 小腿围 (X13) cm 上臂紧张围 (X14) cm 2019/1/25(X15) cm 上臂放松围
2019/1/25 医学统计学 7
二、数学模型及几何意义
Z1 a11 X1 a12 X 2 a1m Xm Z 2 a 21 X1 a 22 X 2 a 2m Xm Z m am1 X1 am 2 X 2 amm Xm
2019/1/25 医学统计学
2019/1/25
医学统计学
10
第二主成分
Z 2 a 21 X1 a 22 X 2 a 2m X m a
2 21
a
2 22
a
2 2m
1
Z1与Z 2无关，互相垂直： a 21a11 a 22 a12 a 2 m a1m 0 Var ( Z 2 ) 在所有Zi中为第2大。
医学统计学
3. 求出矩阵R的全部特征值(eigenvalue) i,
8
Z=AX
Z1 Z2
┇
a11
a12 a22
┇
… … … …
a1m a2m
┇
X1 X2
┇
=
a21
┇
Zm
am1
am2
amm
Xm
2019/1/25
医学统计学
9
第一主成分
Z1 a11 X1 a12 X2 a1m Xm
a a a
2 11 2 12
2 1m
1
Var (Z1 ) 在所有Zi中最大
15
X11 X21 Xn1
（一）主成分的求法 1. 对各原始指标值进行标准化
X
' ij
X ij X j Sj
j 1, 2 , , m
为了方便，仍用Xij表示Xij’。
2019/1/25
医学统计学
16
标准化后的数据矩阵
X=
X11 X12 X1m X 21 X22 X2m X n1 Xn2 Xnm
号
…… …… …… …… …… …… …… …… …… …… …… …… …… …… …… …… 208 176.6 89.7 57.7 37.0 26.5 19.0 75.8 48.8 42.0 26.6 79.0 49.0 35.5 24.0 22.0
5
如何利用这些指标对每一儿童的生长发育作出正确评价？仅用单一指标：结论片面；没有充分利用原有数据信息。利用所有指标：各指标评价的结论可能不一致，使综合评价困难；工作量大。
医学统计学
2019/1/25
17
2. 求出X1 , X2 , … , Xm 的相关矩阵R
r11 r21 R=Cov(X) = r m1
2019/1/25
r12 r1m r22 r2m rm2 rmm
医学统计学
18
( X X)(X X) n 1 ( X X)(Y Y ) n 1
2019/1/25 医学统计学 6
找出几个综合指标(长度、围度、特体)，这些综合指标是原始指标的线性组合，既保留了原始指标的信息，且互不相关。
各综合指标提供的“信息”量大小用其方差来衡量。衡量一个指标的好坏除了正确性与精确性外，还必须能充分反映个体间的变异，一项指标在个体间的变异越大，提供的信息量越多。
-2
13
相关变异
Z2
2
2
Z1
1
1
0
-1
ቤተ መጻሕፍቲ ባይዱ-1
-2
2019/1/25 医学统计学
-2
14
三、主成分的求法及性质
表 20－1 样品号 X1 1 2 n
2019/1/25
主成分分析的原始数据表观 X2 X12 X22 Xn2
医学统计学
测
指
标 Xm X1m X2m Xnm
…… 理论上主成分个数最多为m个(指标个数) 实际工作中确定的主成分个数总是小于m个
2019/1/25 医学统计学 11
相关变异
X2
2
1
-2
-1
0
1
2
X1
-1
-2
2019/1/25 医学统计学 12
X2
Z2
2
2 2
Z1
1
1
1
-2
-1
0
1
2
X1
-1 -1 -1
-2 -2
2019/1/25 医学统计学
协方差
l XY r Pearson 相关系数 2 2 l XX l YY ( X X ) ( Y Y )
( X X)(Y Y )
r
( X X) ( X X ) 2
(Y Y) ( Y Y ) 2
标准化后的协方差
19
2019/1/25
X X Y Y 1 r S n1 S X Y