第九章-对应分析
对应分析 课件讲解

对应分析
但是如何用象因子分析的载荷图那样 的直观方法来展示这两个变量各个水 平之间的关系呢?这就是对应分析 (correspondence analysis)方 法。
对应分析方法被普遍认为是探索性数 据分析的内容,因此,读者只要能够 会用数据画出描述性的点图,并能够 理解图中包含的信息即可。
两表中的概念不必记;其中Mass为行与 列的边缘概率;Score in Dimension是 各维度的分值 (二维图中的坐标); Inertia:就是前面所提到的惯量,为每一 行/列到其重心的加权距离的平方。
SPSS的实现
打开ChMath.sav数据,其形式和本章开始的 列联表有些不同。其中ch列代表汉字使用的三 个水平;而math列代表数学成绩的四个水平; 第一列count实际上是ch和math两个变量各 个水平组合的出现数目,也就是列联表中间的数 目。
在SPSS的输出中还有另外两个表分 别给出了画图中两套散点图所需要 的两套坐标。
解释
该表给出了图中三个汉字使用点的坐标: 纯汉字(-.897,-.240),半汉字 (.102,.491),纯英文(.970,-.338),以及 四个数学成绩点的坐标:数学A(-.693,.345),数学B(-.340,.438),数学 C(.928,.203),数学D(1.140,-.479)。
行记分(row score) xi和列记分yj的加权均值成 比例, 而列记分yj和行记分xi的加权均值成比 例. 数值r为行列记分的相关(在典型相关的意 义上).
记R=diag(ai.), C=diag(a.i), R1/2= diag(a.i1/2), 则上面式子为
rx=R-1Ay; ry=C-1A’x 或
第九章对应分析

§9.1何谓对应分析及其基本思想 它是将R型与Q型因子分析结合 起来的一种统计分析方法,也 是利用降维的思想以达到简化 数据结构的目的
经济管理学院 程兰芳 1
何谓对应分析?
它的产生来自于Q型因子分析中的计 算困难,由于样品数n较大(如 n>1000),导致在进行Q型因子分析 时,计算n阶方阵的特征值和特征向 量对于微型计算机而言,其容量和 速度都难以胜任。
经济管理学院 程兰芳 4
而对应分析,则是同时对数据表中的 行(代表不同的样品)与列(代表不 同的变量)进行处理,寻求以低维图 形表示数据表中行与列之间的关系。
经济管理学院 程兰芳
5
对应分析结合了R型因子分析与Q型因 子分析,它是从R型因子分析出发, 而直接获得 Q 型因子分析的结果, 从而克服了样品容量大时所带来的计 算上的困难。 可将指标和样品同时反映到相同坐标 轴的一张图形上,便于分析问题。
5. 计算总惯量(Inertia) Q与 X2 (Chi Square) 统计量的数值。 总惯量Q定义为所有n 个样品点到重心c的加权 距离的平方总和,化简后的计算公式为
Q
z
i 1 j 1
n
p
2 ij
经济管理学院 程兰芳
26
统计量是用于检验行与列两个属性变量 是否相关的检验统计量,其表达式为(体现 了卡方统计量与总惯量的关系)
由此可以很方便地根据 R型因子分析的结果 而得到Q型因子分析的结果。
经济管理学院 程兰芳 10
由矩阵A的特征根与特征向量, 即可写出R 型因子分析的因子载荷矩阵(记为FR):
对应分析

第九章 对应分析§9.1 什么是对应分析及基本思想对应分析又称为相应分析,于1970年由法国统计学家J.P.Beozecri 提出来的。
它是在R 型和Q 型因子分析基础上发展起来的一种多元统计方法。
由前一章我们知道应用因子分析的方法,可以用较少的几个公共因子去提取研究对象的绝大部分信息,即可减少因子的数目,又把握住了研究对象之间的相互关系。
但是因子分析根据研究对象的不同又分为R 型因子分析和Q 型因子分析,即对指标(变量)作因子分析和对样品作因子分析是分开进行的,这样做往往会漏掉一些指标与样品之间有关的一些信息,另外在处理实际问题中,样品的个数远远地大于变量个数。
比如有100个样品,每个样品测10项指标,要作Q 型因子分析,就要计算(100×100)阶相似系数阵的特征根和特征向量,这对于一般小型计算机的容量和速度都是难以胜任的。
对应分析是将R 型因子分析与Q 型分子分析结合起来进行统计分析,它是从R 型因子分析出发,而直接获得Q 型因子分析的结果。
克服了由样品容量大,作Q 型分析所带来的计算上的困难。
另外根据R 型和Q 型分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析。
比如在图形上邻近的一些样品则表示它们的关系密切归为一类,同样邻近的一些变量点则表示它们的关系密切归为一类,而且属地同一类型的样品点,可用邻近的变量点来表征。
因此,对应分析,概括起来可提供如下三方面的信息即指标之间的关系,样品之间的关系,以及指标与样品之间的关系。
基本思想:由于R 型因子分析和Q 型因子分析都是反映一个整体的不同侧面,因此它们之间一定存在内在的联系。
对应分析就是通过一个过渡矩阵Z 将二者有机地结合起来,具体地说,首先给出变量点的协差阵Z Z A '=和样品点的协差阵Z Z B '=,由于Z Z '和Z Z '有相同的非零特征根记为),m i n(0,21n p m m ≤<≥≥≥λλλ ,如果A 的特征根i λ对应的特征向量为i U ,则B 的特征根i λ对应的特征向量就是i i V ZU ∆,根据这个结论(后面有证明)就可以很方便的借助R 型因子分析而得到Q 型因子分析的结果。
应用统计学:对应分析1

两变量间相关关系的检验
如果变量A和B是独立的,则应有
pij pi p j
检验假设:
ˆ (n ) n p p E ij i j
n p
H 0 : 属性变量A与B相互独立 H1 : 属性变量A与B相互不独立
H 0 : pij pi p j , i 1,2, n; j 1,2, p H1 : 上述等式至少有一个不 成立
手机: 7个特征属性
“待机时间长”、“大显示屏”、“操作简单”、 “外观时尚”、“功能强”、“价格合理”和“信号 接收好”。
研究人员希望通过对应分析发现不同特征属性的 手机潜在顾客对手机属性特征的偏好。
Ma Xin, North China Electric Power University
表一 潜在用户调研基础数据:行元素、 列元素均为七维空间中的点
Ma Xin, North China Electric Power University
计算惯量,确定维度:行、列均简化到 二维空间
各维度的惯量、奇异值
摘要 惯量比例 维 1 2 3 4 5 6 奇异值 .234 .129 .086 .065 .046 .014 惯量 .055 .017 .007 .004 .002 .000 .086 53.540 .030a 卡方 显著性 考虑情况 .641 .195 .087 .049 .025 .002 1.000 累积 .641 .837 .923 .973 .998 1.000 1.000 置信奇异值 相关性 标准差 2 .044 .154 .041
Pearson 卡方 似然比 线性和线性组合 有效案例中的 N
通常受教育 水平越高, 工资越高
High school degree
对应分析

STATA中对应分析应用
Syntax for predict:
predict [type] newvar [if] [in] [, statistic ] statistic description fit fitted values; the default rowscore(#) row score for dimension # colscore(#) column score for dimension #
STATA中对应分析应用
二元对应分析之后的统计量和作图
command description cabiplot biplot of row and column points caprojection CA dimension projection plot estat coordinates display row and column coordinates estat distances display chi-squared distances between row and column profiles estat inertia display inertia contributions of the individual cells estat loadings display correlations of profiles and axes("loadings") estat profiles display row and column profiles + estat summarize estimation sample summary(not available after camat.) estat table display fitted correspondence table screeplot plot singular values + predict fitted values, row coordinates, or column
对应分析

, u
2
,L
, u
k
• 根据累计方差贡献率确定最终提取特征根的个数,并 计算出相应的因子载荷矩阵R,即: #
λ1 1 R = Uθ 2 = (u1 , u2 ,..., ul )
λ2
O
λl
其中, 其中,因子载荷是列变量的某分类在某个因子上的 载荷,反映了他们之间的相关关系。 载荷,反映了他们之间的相关关系。与因子分析类 可通过变量(列变量某分类) 似,可通过变量(列变量某分类)的共同度测度其 方差的解释程度和信息的丢失程度; 方差的解释程度和信息的丢失程度;可通过因子的 方差贡献测度因子的重要程度。 方差贡献测度因子的重要程度。
1.2 对应分析法的基本原理
第一步:编制交叉列联表并计算概率矩阵P 第一步:编制交叉列联表并计算概率矩阵P 设原始数据矩阵为: 设原始数据矩阵为:
x11 x 21 X= M x n1 x12 x 22 M xn 2 L L L x1 p x2 p M x np n× p
第一节 对应分析法
1.1 对应分析法的内涵 1.2 对应分析法的基本原理 1.3 实例分析
#
1.1对应分析法的内涵
1.1.1 对应分析的概念
• 对应分析(Correspondence Analysis)又称相应 分析,是一种多元相依变量统计分析技术,通过 分析由定性变量构成的交互汇总数据来解释变量 之间的内在联系。它可以揭示同一变量的各个类 别之间的差异以及不同变量各个类别之间的对应 关系。 • 也被称为R-Q型因子分析 R型因子分析适用的研究对象是变量; Q型因子分析适用的研究对象是样品。 #
#
Thank you
#
第九章对应分析SPSS

p p
i.
p ij
j1 n
p
. p
p
n
j1
. j
1 1
. j
p
i1
. j
p
i1
i.
p p p ip i1 i2 , ,..., p p p i. i. i.
p
p
ij
j1
p i.
1
p p i1 i2 , ,..., i=1,2,…,n p pi. i. pi.
Correspondence Analysis
主要内容
对应分析的统计思想
对应分析的方法原理
对应分析的计算程序
对应分析的案例讲解
对应分析(Correspondence Analysis):通过 分析由定性变量构成的交互汇总表来揭示变 量间的联系。
对应分析可以揭示同一变量的各个类别之间 的差异,不同变量各个类别之间的对应关系。 可以两个变量的联系做在一个图里表示出来。 对应分析由法国统计学家Beozecri于1970年提出
1 -.468 -.231 -.173 .622 2.538 2.179
2 .264 .092 .006 -.526 1.405 .361
Contribution Of Point to Inertia of Dim ens ion Of Dim ens ion to Inertia of Poin Inertia 1 2 1 2 Total .004 .041 .046 .917 .083 1.000 .007 .078 .043 .957 .043 1.000 .003 .032 .000 1.000 .000 1.000 .022 .211 .527 .830 .170 1.000 .031 .330 .354 .919 .081 1.000 .027 .308 .030 .992 .008 1.000 .095 1.000 1.000
对应分析

对应分析
问题的提出
分析分类变量间关系时,卡方检验只能给出总
体有无关系的结论,但不能精心分析,在变量 类别极多时于事无补
解决方案
直观展示:对应分析
问题在于:当属性变量A和B的状态较多时,很难透过
列联表作出直观地揭示出变量之间的联系以及变量各
分类之间的联系。主要表现在:
多重对应分析---多个定类变量
Optimal Scaling Optimal Scaling过程
所谓最优尺度分析的本质,就是根据数据本身 的关联,寻找出最佳的原始变量评分方法,将原始 变量一律转化为相应的分值,并在转化时将变量间 的关联一律变换为线性,这样就解决了以上问题。 可以同时分析多个分类变量间的关系,并同样 用图形方式表示出来。 在变量种类上更加丰富,已可以处理各种类型 的变量,如对无序多分类分析、有序多分类变量和 连续性变量同时进行分析的问题
同质性分析Homogeneity (HOMALS) 同质性分析,即多重对应分析 以图形化方式展示多个分类变量间的关系
观察原始的频数表也可以得到相关信息,但是,
当存在多个变量,并且变量类别较多时,就变成 了高维空间的观察,非常的不方便 通过数据变换,将各变量在高维空间中的主要 联系信息浓缩到低维度空间中,以便于观察
广告研究
(Advertisement Research)
2013-8-8
对应分析可以回答以下问题
谁是我的用户? 还有谁是我的用户? 谁是我竞争对手的用户? 相对于我的竞争对手的产品,我的产品的定位如何? 与竞争对手有何差异? 我还应该开发哪些新产品? 对于我的新产品,我应该将目标指向哪些消费者?
由于此处需要使用欧式距离来表示关联程度,首先需 要考虑应当采用何种距离标准化方法。 显然, 6 项指标的均数大不相同,而这并不是我们所 要关心的,同时它们的量纲也相差较大,最大、最小值 的倍数在数十到上千不等; 另一方面,各省市发展水平 的差异是我们希望考察的内容,即上海的平均发展水平 是否高于北京,诸如此类。 因此,本例中使用 Column Totals are Equalized and Column Means Removed 这一标化方法更为妥当, 它可以消除各指标均数和量纲不同的影响,同时又保留 了地区发展水平的差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
pp i r i cD c 1r i c
i 1
2
总 惯 量 jq 1 p ji p 1p ij p p ji p i jq 1 p jc j r D r 1c j r
其中
2
ricD c 1ricq j1
pij
pipj pj
称为第i 行轮廓 r i 到行轮廓中心c 的卡方( 2 )距离, 它可看作是一个加权的平方欧氏距离。同样,
❖ 将表9.1.3中的数据除以,得到对应矩阵,列于表
9.1.4中。表9.1.4给出的行密度和列密度向量为
0.185
r0.363, c0.305,0.173,0.231,0.160,0.131
0.218 0.186 0.235 0.117 0.068
RDr1P00..331029
pp2
p p p p
❖ 其中 D r d ia gp 1 ,p 2 , ,p p 。
p1q
p1
p2q p2
p pq
p p
列轮廓矩阵
p11 p1
p12 p2
C PDc1 c1,c2 ,
p21
,cq p1
p22 p2
p p1 p p2
p1
p2
❖ 其中 D c d ia gp 1 ,p 2 , ,p q。
和c 的元素有时称为行和列密度(masses)。
三、行、列轮廓
❖ 第 i 行轮廓:
ri p p ii1 ,p p ii2 , ,p p iiq n n ii1 ,n n ii2 , ,n n iiq
其各元素之和等于1 ,即 r i1 1 , i 1 ,2 , ,p 。 ❖ 第 j 列轮廓:
cj p p1 jj,p p2 jj, ,p ppjj n n1 jj,n n2 jj, ,n npjj
其各元素之和等于1 ,即1 cj 1 , j 1 ,2 , ,q 。
行轮廓矩阵
R
D
r
1
P
r1
r2
r
p
p11 p1 p21 p2
p p1
p12 p1 p22 p2
p1q
pq
p2q
pq
ppq
pq
rP1 PDc1 Dc1c1,c2,
p1
,cq
p2 q j1
pjcj
pq
可见,r 可以表示成各列轮廓的加权平均。类似地,
p
即 可以表示c 成1各P 行1 轮D 廓r的D 加r 1P 权 平i 均1p 。iri
c
例9.1.1
❖ 将由个人组成的样本按心理健康状况与社会经济状 况进行交叉分类,分类结果见表9.1.3。
0.327 0.249
0.170 0.209 0.245 0.294 0.327
两个马赛克图
对心理健康的每一种状况,A、B、C、D、E五个小 方块的宽度显示了行轮廓,0、1、2、3四种心理健 康状况的小方块高度显示了行密度。
对社会经济的每一种状况,0、1、2、3四个小方块 的高度显示了列轮廓,A、B、C、D、E五种社会经 济状况的小方块宽度显示了列密度。
§9.1 行轮廓和列轮廓
❖ 一、列联表 ❖ 二、对应矩阵 ❖ 三、行、列轮廓
一、列联表
❖ 其中, n i j 是第 i 行、第 j 列类别组合的频数,
q
i 1 ,2 , ,p ,j 1 ,2 , ,q ;n i n ij为第i 行的频数之 j1
p
和,i1,2, ,p; n j nij 为第 j 列的频数之和, i1
第9章 对应分析
❖ 对应分析(correspondence analysis)是用于寻求列 联表的行和列之间联系的一种低维图形表示法,它 可以从直觉上揭示出同一分类变量的各个类别之间 的差异,以及不同分类变量各个类别之间的对应关 系。
❖ 对应分析是由法国人Benzecri于1970年提出的,起 初在法国和日本最为流行,然后引入美国。
j1
❖ 称 Ppij nij n为对应矩阵。将对应矩阵表中的
最后一列用 r 表示,即
rP1p1,p2, ,pp
其中 1 1,1, ,1是元素均为1的 q 维向量,最后一行
用 c 表示,即
c 1 P p 1 ,p 2 , ,p q
❖ 其中1 1,1, ,1是元素均为1的 p 维向量,向量 r
❖ 在对应分析中,列联表的每一行对应(通常是二维) 图中的一点,每一列也对应同一图中的一点。本质 上,这些点都是列联表的各行各列向一个二维欧式 空间的投影,这种投影最大限度地保持了各行(或 各列)之间的关系。
第九章 对应分析
❖ §9.1 行轮廓和列轮廓 ❖ §9.2 独立性的检验和总惯性 ❖ §9.3 行、列轮廓的坐标 ❖ §9.4 对应分析图
0.174 0.180
0.234 0.213
0.161 0.149
0.118 0.149
0.221 0.154 0.242 0.201 0.183
列轮廓矩阵为
0.239 0.199 0.188 0.136 0.097
CPDc100..327211
0.366 0.226
0.367 0.201
0.366 0.204
似服从自由度为 p1q1的卡方分布。拒绝规则
为
若2 2p 1 ,q 1 ,则拒绝独立性的原假设
其中 2p1,q1是 2p1,q1的上分位点。
二、总惯量
2
2 pq
总 惯 量
pij pipj
n i1 j1
pipj
总惯量还可以行轮廓和列轮廓的形式表达如下:
2
总 惯 量 i p 1p ijq 1p ij p p i j p j
p
q
pq
j1,2, ,q; n ni nj nij为所有类别组
i1
j1
i1 j1
合的频数总和。
二、对应矩阵
❖ 这里, p ij n n ij,p ijq 1p ijjq 1n n ij,p ji p 1p iji p 1n n ij。
p
q
❖ 显然有 pi p j 1 。
i1
§9.2 独立性的检验和总惯量
❖ 一、行、列独立的检验 ❖ 二、总惯量
一、行、列独立的检验
❖ 在列联表中,检验行变量和列变量相互独立假设的 统计量为
2
pq
2n
pij pipj
i1 j1
pipj
当独立性的原假设为真,且样本容量 n 充分大,期
望频数 n p i p j 5 ,i 1 , 2 ,,p ,j 1 , 2 ,, q 时, 2 近