统计学课件:列联表和对应分析
对应分析ppt课件

精选课件ppt
35
§7.2 对应分析的基本理论
7.2.4 需要注意的问题
需要注意的是,同对应分析生成的二维 图上的各状态点,实际上是两个多维空间上 的点的二维投影,在某些特殊的情况下,在 多维空间中相隔较远的点,在二维平面上的 投影却很接近。此时,我们需要对二维图上 的各点做更深的了解,即哪些状态对公因子 的贡献较大,这与在因子分析中判断原始变 量对公因子贡献的方法类似 。
精选课件ppt
26
§7.2 对应分析的基本理论
精选课件ppt
27
§7.2 对应分析的基本理论
精选课件ppt
28
§7.2 对应分析的基本理论
精选课件ppt
29
§7.2 对应分析的基本理论
精选课件ppt
30
§7.2 对应分析的基本理论
精选课件ppt
31
§7.2 对应分析的基本理论
精选课件ppt
§7.2 对应分析的基本理论
7.2.1 有关概念 1. 行剖面与列剖面
精选课件ppt
16
§7.2 对应分析的基本理基本理论
精选课件ppt
18
§7.2 对应分析的基本理论
精选课件ppt
19
§7.2 对应分析的基本理论
2. 距离与总惯量
精选课件ppt
20
精选课件ppt
4
§7.1列联表及列联表分析
在研究经济问题的时候,研究者也往往用列联表的形式把 数据呈现出来。比如说横栏是不同规模的企业,纵栏是不同 水平的获利能力,通过这样的形式,可以研究企业规模与获 利能力之间的关系。更为一般的,可以对企业进行更广泛的 分类,如按上市与非上市分类,按企业所属的行业分类,按 不同所有制关系分类等。同时用列联表的格式来研究企业的 各种指标,如企业的盈利能力、企业的偿债能力、企业的发 展能力等。这些指标即可以是简单的,也可以是综合的,甚 至可以是用因子分析或主成分分析提取的公因子;把这些指 标按一定的取值范围进行分类,就可以很方便地用列联表来
统计学 列联分析优秀PPT

19
(fij - eij)2
4 25 9 36 4 25 9 36
(fij- eij)2 eij
0.0606 0.3125 0.1500 0.4932 0.1176 0.6250 0.3000 0.9730
13
2
期望频数的分布
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频
数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即
eij
n
ri n
cj n
ric j n
14
2
期望频数的分布(例题分析)
例如,第1行和第1列的实际频数为 f11 ,它落在第1行的 概率估计值为该行的频数之和r1除以总频数的个数 n , 即:r1/n;它落在第1列的概率的估计值为该列的频数 之和c1除以总频数的个数 n ,即:c1/n 。根据概率的 乘法公式,该频数落在第1行和第1列的概率应为
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
90
110 420
9
2
二、列联表的分布----观察值的分布
1. 边缘分布
行边缘分布
行观察值的合计数的分布 例如,赞成改革方案的共有279人,反对改革方案的141人
列边缘分布
列观察值的合计数的分布 例如,四个分公司接受调查的人数分别为100人,120人,
90人,110人
2. 条件分布与条件频数
变量 X 条件下变量Y 的分布,或在变量Y 条件下变 量 X 的分布
对应分析

p12 / p1. p22 / p2. p n 2 / pn .
p1 p / p1. p 2 p / p 2. pnp / pn.
pij n pij E ( ) = ∑ . pi. = p. j , j = 1,2,, p pi. i =1 pi.
因为原始变量的数量等级可能不同,所以为了尽 量减少各变量尺度差异,将行轮廓中的(各列元素) 均除以其期望的平方根.得矩阵D(R)
32 6
15 1
62 8
11 1
40 8
58 6
35 10
58 67
21 23
70 95
17 25
70 71
62 89
83 91
American European Japanese Large Medium Small Family Sporty Work 1 Income 2 Incomes Own Rent Married Married with Kids Single
变量的叉积矩阵
∑ R = (X* )′X* ( p × p)
样品的叉积矩阵
∑ Q = X* ( X* )′ ( n × n)
显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 他们的非零特征根也不一样,那么能否将观测值做变换. 他们的非零特征根也不一样,那么能否将观测值做变换.
含义 雪糕 纯水 碳酸饮料 果汁饮料 保健食品 空调 洗衣机 毛毯
代码 Feel1 Feel2 Feel3 Feel4 Feel5 Feel6 Feel7 Feel8
含义 清爽 甘甜 欢快 纯净 安闲 个性 兴奋 高档
name1
product1 product2 product3 product4 product5 product6 product7 product8 feel1 feel2 feel3 feel4 feel5 feel6 feel7 feel8 50 508 55 109 34 11 30 2 368 217 19 142 16 2 4 3
多元统计分析-对应分析

03
列联表检验的零假设是两变量 X和Y 相互独立,计算一个卡方统计量,与列联表中频数取值 和零假设下期望取值之差有关,当卡方 很大时否定零假设。
BA
患慢性支 未患慢性 气管炎 支气管炎
吸烟
43
162
不吸烟
13
121
为了探讨吸烟与慢性支气管炎有无关系, 调查了339人,情况如表所示:
设想有两个随机变量A,B:A:1表示吸 烟,
对应分析
对应分析基本步骤: 建立列联表
利用对应图解释结 果。
1
2
3
一.获取对应分析 数据 确定研究目的, 选择对应分析 所需数据,应 该包括的背景 资料。
对应分析
4
5
二、对应分析 的原理
01
由于R型因子分析和 02
设原始数据矩阵为:
Q型因子分析是反映
一个整体的不同侧面,
R型因子分析是从列
来讨论(对变量),
k
特征根。
Zu k
设 1 2…
三、对应图u 1u 11u 21 A和l(0Bu <的p 1 i<非m零in特(n征,p根)),为其矩相阵应 u 2u 12u 22 的特征u p 向2量为
v 1 v 1 1v 2 1 v n 1 v 2 v 1 2 v 2 2 v n 2
我们知道因子载荷矩阵的含义是原始变量与公共因子之间的 相关系数,所以如果我们构造一个平面直角坐标系,将第一 公共因子的载荷与第二个公共因子的载荷看成平面上的点, 在坐标系中绘制散点图,则构成对应图。
Q型因子分析是从行
来讨论(对样品),
因此 在的
他们之
联 x系1。1
间
存在
x12
内
对应分析

1.对应分析对应分析表(A correspondence table)是一个两维表(two-way table),表中的单元包含行变量和列表量之间对应测度的一些信息。
所谓的对应测度(The measure of correspondence),可以表明行变量或列变量之间的近似程度(similarity)、密切关系(affinity)、复杂关系(confusion)、关联程度(association)或交互作用(interaction)。
交叉列联表(a crosstabulation)是对应分析表中最普通的一种类型,该表中的单元格包含频数(计数)。
利用SPSS中的列联表分析也可以得到交叉列联表,但是交叉列联表并不总是能够清晰地刻画出行变量和列变量之间的本质关系。
当我们所感兴趣的变量是名义变量(没有内在的次序或秩序)同时还包含很多类型时,这种问题尤其突出。
一个有关职业和早餐谷类食品的交叉列联表,也许能够告诉我们观测单元频数和期望频数是否存在显著差异,但是它很难识别出从事何种职业的人们喜欢哪种类似的早餐食品,同时也很难对早餐口味进行归类。
利用多维空间图形,对应分析可以分析两个名义变量之间的关系。
这种图形称为对应分析图,是利用计算出来的行变量和列变量得分而绘制的。
变量中相似的类型在图形中比较接近,因此通过这种方法可以很容易看出某个变量的哪些类型和其它类型相似,也可以分析出行变量和列变量的哪些类型存在相关性。
SPSS的对应分析方法还容许用辅助点(supplementary points)对根据活动点定义出的空间进行拟合。
如果没有办法根据类型的得分排序,或者这种排序与我们的直觉不相符,那么可以设定某些类型的得分相同,实际上就是对类型的次序设定限定条件。
比如说,我们预期变量“吸烟行为”有四个类型:不吸烟、少量吸烟、适度吸烟和大量吸烟,每一类型都有对应于次序的得分,但是对应分析对这四个类型进行排序时,可以限定适度吸烟和大量吸烟的得分相同。
本科统计学课件-第十讲 列联表

一、变量间的相关 1、列联表中的频次分布情况,不仅是检验是否存 在关系的依据,同时也是度量变量间关系强弱的依 据。相关性程度越高,说明社会现象与社会现象间 的关系愈密切。 2、列联表中变量间的关系的强度分析,可以将频 次转化为条件分布,然后比较自变量取不同值时, 因变量条件分布的不同。
例
右表中,男生上网玩游 戏的比例高于女生;而 上网聊天的比例低于女 生; 想一想,当x取值大于2 时,怎样比较?
. . .
yr
. . .
N1r
. . .
N2r . . .
. . .
Ncr
Nij:x=xi y=yj时所具有的频次
学生上网调查
(统计各项比例,能发现什么问题?) 聊天 玩游戏 网恋 学习 男生 20 50 15 15 女生 20 50 15 15
2、列联表中变量的分布
N11 N 21 N *1 N1* N 2* N N ij N i* N ij N* j N
N* j N N N I* N Pij Pi* P* j
第二节
列联表的检验
一、原假设: 将总体中变量间无关系或相互独立作为检验 的原假设。
H :p
0
ij
p p
i*
*j
总体 pi*和 p* j未知时,用样本 p i*和 p* 代替。 j
n p n
i*
i*
n p n
*j
*j
二、统计量
x
E
ij
2
x
2
i 1 j 1
c
统计学第12章 列联表和对应分析

2
.066 .004
.056 1.000 .021
总
.078 225.274 .000 1.000 1.000
计
a
a. 8 自由度
中央财经大学统计学院 19
对应分析结果的解释
“惯量”类似于因子分析中特征值对应的方 差;“惯量比例”一栏中,“解释”的惯 量比例类似于因子分析中的方差贡献率, “累积”的惯量比例类似于因子分析中的 累积方差贡献率,这几个指标反映了每个 维度的因子重要性和解释能力。
中央财经大学统计学院 6
SPSS操作
“分析”“描述统计”“交叉表”,把 “婚姻状况”设为行变量,把“幸福状况” 设为列变量。接下来单击“统计量”,在 弹出的对话框中选中“卡方”,单击“继 续”;选择“单元格”,选中弹出对话框 中的“期望值”,单击“继续”返回前一 个是对话框,单击“确定”
中央财经大学统计学院 7
117.0 654
654.0 2885 2885.0
结果分析
值
df 渐进 Sig. (双侧)
Pearson 卡方
225.274a
8
.000
似然比
230.166
8
.000
线性和线性组合 137.494
1
.000
有效案例中的 N
2885
a. 0单元格(.0%)的期望计数少于5。最小期望计数为 14.15。
对应分析可以按照相同的刻度同时对列联表中的 行变量和列变量进行降维,用较少的维度(一般 选用二维或三维)来代表数据表中的行变量和列 变量,从而在同一个空间中用图形方法显示行变 量和列变量类别之间的关系。
中央财经大学统计学院 12
对应分析图的绘制
在表12-1的列联表中,把3个幸福状况的取 值看作3维空间中的坐标,我们可以把5个 婚姻状况在3维空间中表示出来。
对应分析

对应分析对应分析的基本思想对应分析( Correspondence Analysis )又称为相应分析,是由法国统计学家于1970提出的,是在R型和Q型因子分析基础上,发展起来的一种多元相依的变量统计分析技术。
它通过分析由定性变量构成的交互汇总表来揭示变量间的关系。
当以变量的一系列类别以及这些类别的分布图来描述变量之间的联系时,使用这一分析技术可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。
对应分析方法是通过对交互表的频数分析来确定变量及其类别之间的关系。
例如,在分析顾客对不同品牌商品的偏好时,可以将商品与顾客的性别、收入水平、职业等进行交叉汇总,汇总表中的每一项数字都代表着某一类顾客喜欢某一品牌的人数,这一人数也就是这类顾客与这一品牌的“对应”点,代表着不同特点的顾客与品牌之间的联系。
通过对应分析,可以把品牌、顾客特点以及它们之间的联系同时反映在一个二维或三维的分布图上,顾客认为比较相似的品牌在图上的分布就会彼此靠近在一起。
根据顾客特点与每一品牌之间的距离,就可以判断它们之间关系的密切程度。
在对应分析中,每个变量的类别差异是通过直观图上的分值距离来表示。
这个距离并不是我们通常所说的距离,而是经过加权的距离,在加权的过程中,以卡方值的差异表现出来。
因此,对应分析的基础是将卡方值转变为可度量的距离。
卡方值是由累计交叉汇总表中每一交互组的实际频数与期望频数的差值计算得出。
如果卡方值是负值,就说明这一单元中实际发生频数低于期望频数。
每一单元格(每个行变量类别与列变量类别在表中的交叉点)频数的期望值取决于它在行分布中所占比例和列分布中所占比例。
如果某一单元格的卡方值是正值,而且数值很大,就说明这一单元格对应的行变量与列变量有很强的对应关系,这两个类别在图上的距离就会很近。
反之,若为负值,则在图上的距离就会远。
总之,对应分析是通过对定性变量构成的交互表进行分析,将定性变量的数据转变成可度量的分值,减少维度并做出分值分布图。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对应分析图的绘制
为了保证对行和列进行因子分析的结果之间的 对应关系,在进行对应分析时并不是根据列联 表中的频数直接进行因子分析的
而是先计算相应的频率,再进行必要的变量变 换,之后再用与因子分析类似的方法进行降维。
对应分析图的分析
在对应分析图中,如果同一变量的不同类别在 某个方向上靠得较近,则说明这些类别在该维 度上区别不大;
如果使用因子分析的方法对3个幸福状况进行降维 (同时最大限度地保留原始信息),则我们能够在2 维甚至1维空间上把5个点表示出来。
把表中婚姻状况的取值看作5维空间的坐标值,使用 因子分析的方法进行降维,也可以把3个幸福状况在 低维空间中表示出来。
对应分析图的绘制
如果能够保证两个因子分析中采用相同的刻度, 则可以在同一个坐标系中把幸福状况的3个点 和婚姻状况的5个点绘制出来,通过图形观察 两个变量取值之间的关系。
二维列联表中的两个变量是否 相互独立 : c2检验
H0:婚姻状况和幸福状况这两个变量相互独 立;
H1:婚姻状况和幸福状况不相互独立。 与单个变量的c2检验类似
基本原理
行变量和列变量相互独立时,每个单元格频数 的期望值为
Eij
Ri n
Cj n
n
Ri
Cj n
如果期望频数和观测频数相差不大,则零假设
SPSS操作
结果分析
幸福状况
非常幸 比较幸 不太幸
福
福
福
合计
婚 已婚 计数
姻
期望的计数
状 况
丧偶 计数
期望的计数
574 420.1
70 84.5
726 794.7
149 159.9
82 167.2
59 33.6
1382 1382.0
278 278.0
离异 计数
83 292
79 454
期望的计数 138.0 261.1 54.9 454.0
对应分析结果的解释
“惯量”类似于因子分析中特征值对应的方差; “惯量比例”一栏中,“解释”的惯量比例类似 于因子分析中的方差贡献率,“累积”的惯量比 例类似于因子分析中的累积方差贡献率,这几个 指标反映了每个维度的因子重要性和解释能力。
表中的“卡方”是关于列联表行列独立性检验结 果,自由度为(5-1)×(3-1)=8。p值很小说明列联表 的行与列之间有较强的相关性。
对应分析可以按照相同的刻度同时对列联表中的行变 量和列变量进行降维,用较少的维度(一般选用二维 或三维)来代表数据表中的行变量和列变量,从而在 同一个空间中用图形方法显示行变量和列变量类别之 间的关系。
对应分析图的绘制
在表12-1的列联表中,把3个幸福状况的取值看作3维 空间中的坐标,我们可以把5个婚姻状况在3维空间中 表示出来。
在图12-1的对话框中选择“精确…”,进行相应的设 置后可以得出精确的检验结果。这时所涉及的不是c2 分布,而是超几何分布。
由于样本很大时超几何分布计算比较慢甚至无法计算, 因此在大样本时通常使用c2统计量。
对应分析
对应分析
对应分析是一种描述性、探索性的数据分析方法,通 常用于列联表的分析,以便用图形的方法观察行变量 和列变量取值之间的对应关系。
可能是正确的;如果二者差别很大,则零假设
可能不成立。
检验统计量
r
c2
s (Oij Eij )2
i1 j1
Eij
在零假设成立时,该统计量近似服从自由度为 的c2分布。当该统计量的值很大(或p值很小) 时,就可以拒绝零假设,认为这两个变量不相 互独立。
SPSS操作
“分析”“描述统计”“交叉表”,把 “婚姻状况”设为行变量,把“幸福状况”设 为列变量。接下来单击“统计量”,在弹出的 对话框中选中“卡方”,单击“继续”;选择 “单元格”,选中弹出对话框中的“期望值”, 单击“继续”返回前一个是对话框,单击“确 定”
列联表和 对应分析
列联表中两个变量独立性检验 对应分析
【例12.1】美国的General Social Survey
幸福状况
婚姻状况 已婚 丧偶 离异 分居 未婚
合计
非常幸福 比较幸福 不太幸福
574
726
82
70
149
59
83
292
79
14
73
30
136
419
99
877
1659
349
合计 1382 278 454 117 654 2885
分居 计数
14
73
30 117
期望的计数
35.6 67.3 14.2 117.0
未婚 计数
136 419
99 654
期望的计数 198.8 376.1 79.1 654.0
结果分析
值
df 渐进 Sig. (双侧)
Pearson 卡方
225.274a
8
.000
似然比
230.166
8
.000
线性和线性组合
对应分析的软件操作
对应分析结果的解释
维 数 奇异值 惯量ຫໍສະໝຸດ 1.272 .074
2
.066 .004
总
.078
计
a. 8 自由度
惯量比例 置信奇异值 相关
卡方 Sig. 解释 累积 标准差 2 .944 .944 .017 .064 .056 1.000 .021
225.274 .000a 1.000 1.000
137.494
1
.000
有效案例中的 N
2885
a. 0单元格(.0%)的期望计数少于5。最小期望计数为14.15。
c 2统计量的值为225.274,相应的p值为0.000。由于p值 远远小于通常使用的显著性水平,因此检验的结论是 拒绝原假设,不能认为婚姻状况和幸福状况相互独立。
精确结果
当每个单元格的期望频数都大于5时检验统计量近似 服从c2分布。在不满足这一条件时,需要把部分单元 格合并,或者使用精确检验。
行变量(婚姻状况)各水平的坐标
婚姻状况 已婚 丧偶 离异 分居 未婚 有效总计
质量 .479 .096 .157 .041 .227
1.000
维中的得分
1
2
-.531
-.016
.437
-.660
.535
.168
.979
-.331
.389
落在图形中大致相同区域的不同变量的分类点 彼此之间有联系。
对应分析的软件操作
选择“分析”“降维”“对应分析”,把 “婚姻状况”设为行变量;
在弹出的对话框中单击“定义范围”,最小值 设为1,最大值设为5,单击“更新”、“继 续”;
然后把“幸福状况”设为列变量,再通过“定 义范围”对话框定义其取值范围为1-3;最后 单击“确定”