两个分类变量的关联分析

合集下载

关联性研究的设计与数据分析

H0:ρ＝0
H1:ρ≠0
1.相关系数的假设检验
H0: ＝0 H1: ≠0
=0.05
常用的检验方法
（1）查相关系数临界值表（查统计学附表）
（2）t 检验，统计量为：
r0 tr Sr
1 r Sr n2
2
n2
2. 相关系数的区间估计
r计算时经过了标准化，r值在[-1,1]，不服出正态分布，需要在估计置信区间前先对r进行转换。
例1 表1为一项关于儿童健康和发育的研究中10名学
龄儿童的身高和体重资料，试对学龄儿童的身高（ cm）和体重（kg）进行相关分析。
表1
儿童编号
身高
10 名学龄儿童的身高和体重
4 5 6 7 8 9 10
1
2
3
（X ）体重
149.35 167.64 146.30 170.69 161.54 164.59 155.45 158.50 149.35 152.40 30.84 42.64 33.11 44.00 36.29 40.82 32.66 35.38 33.11 31.75
关联性研究的设计与数据分析
林爱华中山大学公共卫生学院医学统计与流行病学系
前面的学习阶段，介绍了实验研究的设计与数据分析，着重于比较变量的组间差别。医学研究中，常常还需要分析两个随机变量之间的关系以及一个变量如何随着另一个变量的变化而变化。例：年龄与血压的关系，血压随着年龄的变化如何变化。空腹血糖与胰岛素的关系，血糖随着胰岛素的变化如何变化。
一、两个连续型随机变量的线性相关分析二、两个分类变量的关联分析三、两个连续型随机变量的线性回归分析
一、两个连续型随机变量的线性相关分析

卫生统计学两变量关联性分析

2z
(21.9198)
故体重与双肾体积总体相关系数的95%置信区间为
(0.6574,0.9579)
四、线性相关应用中应注意的问题 1. 样本的相关系数接近零并不意味着两变量间一定
无相关性。
通常应先绘出样本值的散点图，利用散点图可直观
地判断两变量之间是否具有线性联系。
2. 一个变量的数值人为选定时不应作相关。相关分析
115.508 0.548 n 384
2
二、2×2 配对资料的关联性分析例7 有132份食品标本，把每份标本一分为二，分别
用甲、乙两种检验方法作沙门菌检验，检验结果如表
4，问两种检验方法的结果是否存在关联？
表4 两种检测方法的结果比较
前面我们用McNemar检验解决了两种培养基的阳性率是否相等的问题。但如要了解两种培养基结果之间是否有关联，则需作两种属性的关联性分析。
n 15
y 3991.56， xy 243931.9
lxx 2555.733 l yy 20270.495 lxy 6301.038
2 y 1082440.5572， n 15
代入公式得： r lxy lxx l yy
0.875
说明双肾体积随体重增加而增大，两变量呈正相关。
氧含量分级之间存在相关关系，且为正相关。
第三节分类变量的关联性分析
对定性变量之间的联系通常用的方法是根据两个定性变
量交叉分类计数所得的频数资料(列联表)作关联分析，
即关于两种属性独立性的卡方检验。
一、交叉分类 2×2 表的关联分析例6 为研究青少年在校情况与对艾滋病知晓情况之间的关系，某研究者在某地共调查了384名青少年，并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类，如表3所示。试问青少年在校情况与对艾滋病知晓情况之间是否存在关联性？

卫生统计学两变量关联性分析

二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数，是用以定量描述两个变量间直线关系密切程度和相关方向的统计指标。
N
(x x)(y y)
i1
, 为总体相关系数
N
N
(x x)2(y y)2
i1
i1
.
13
在实际工作中，我们常常只能获得样本的信息或有关
r 数据，据此我们只能计算样本相关系数，记为。
.
21
(二) 采用t 检验，实际应用中使用得比较普遍
r0 tr Sr 其中,Sr为样本相关系数r的标准误
Sr
1 r2 n2
H0成立时，tr服从自由度为 n 2的t分布
.
22
例3 在例2算得r=0.875后，试检验相关是否有统计学意义。
①. 建立假设 H0：ρ=0 H1：ρ≠0
②. 确定检验水准 α=0.05
1 1
0.6574
ρ的上限：r
e2z e2z
1 1
e ( 21.9198 ) e ( 21.9198 )
1 1
0.9579
故体重与双肾体积总体相关系数的95%置信区间为 (0.6574,0.9579)
.
28
四、线性相关应用中应注意的问题
1. 样本的相关系数接近零并不意味着两变量间一定无相关性。通常应先绘出样本值的散点图，利用散点图可直观地判断两变量之间是否具有线性联系。
Cramer V系数和Pearson列联系数来度量。
2
n
V 2 , k min(R,C)
n(k 1)
Pearson列联系数r
2 2 n
.
44
这三个系数值越接近于0，说明两个分类变量之间几乎

独立性检验的基本思想及其初步应用

§3.2独立性检验的基本思想及其初步应用学习目标 1.了解独立性检验的基本思想、方法及其简单应用.2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤（重、难点）.知识点1两个分类变量之间关联关系的定性分析1.分类变量变量的不同“值”表示个体所属的不同类别，像这样的变量称为分类变量.这里的“变量”和“值”都应作为“广义”的变量和值进行理解，它们取的不一定是具体的数值.2.列联表列出的两个分类变量的频数表，称为列联表.假设两个分类变量X和Y，它们的可能取值分别为{x1，x2}和{y1，y2}，其样本频数列联表（也称为2×2列联表）为：y1y2总计x1 a b a＋bx2 c d c＋d总计a＋c b＋d a＋b＋c＋d3.两个分类变量之间关联关系的定性分析的方法（1）频率分析法：通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进行分析.（2）图形分析法：与表格相比，图形更能直观地反映出两个分类变量间是否互相影响，常用等高条形图展示列联表数据的频率特征.【预习评价】（1）下面是一个2×2列联表：y1y2总计x1 a 2173x282533总计 b 46则表中a，b处的值分别为（）A.94，96B.52，50C.52，60D.54，52（2）根据如图所示的等高条形图可知吸烟与患肺病关系（填“有”或“没有”）.知识点2独立性检验1.定义：利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2＝n（ad－bc）2（a＋b）（c＋d）（a＋c）（b＋d），其中n＝a＋b＋c＋d.3.独立性检验的具体做法（1）根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α，然后查表确定临界值k0.（2）利用公式计算随机变量K2的观测值k.（3）如果k≥k0，就推断“X与Y有关系”，这种推断犯错误的概率不超过α，否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”，或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【预习评价】（1）在吸烟与患肺病这两个分类变量是否相关的判断中，下列说法中正确的是（）①若K2的观测值k＞6.635，则在犯错误的概率不超过0.01的前提下，认为吸烟与患肺病有关系，那么在100个吸烟的人中必有99人患有肺病；②从独立性检验可知在在犯错误的概率不超过0.01前提下，认为吸烟与患肺病有关系时，我们说若某人吸烟，则他有99%的可能患有肺病；③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系，是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②（2）某班主任对全班50名学生进行了作业量的调查，数据如下表：认为作业量大认为作业量不大总计男生18927女生81523总计262450则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过（）A.0.01B.0.005C.0.025D.0.001题型一利用等高条形图判断两个分类变量是否有关系【例1】为考察某种药物预防疾病的效果进行动物试验，得到如下列联表：患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系.规律方法（1）本题采用数形结合法通过条形图直观地看出差异，得出结论. （2）应用等高条形图判断两变量是否相关的方法在等高条形图中，可以估计满足条件X＝x1的个体中具有Y＝y1的个体所占的比例aa＋b，也可以估计满足条件X＝x2的个体中具有Y＝y1的个体所占的比例cc＋d.“两个比例的值相差越大，H1成立的可能性就越大.”【训练1】网络对现代人的生活影响较大，尤其是对青少年，为了解网络对中学生学习成绩的影响，某地区教育主管部门从辖区初中生中随机抽取了1 000人调查，发现其中经常上网的有200人，这200人中有80人期末考试不及格，而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗？方向1 有关“相关的检验”【例2－1】某校对学生课外活动进行调查，结果整理成下表：用你所学过的知识进行分析，能否在犯错误的概率不超过0.005的前提下，认为“喜欢体育还是文娱与性别有关系”？方向2有关“无关的检验”【例2－2】为了探究学生选报文、理科是否与对外语的兴趣有关，某同学调查了361名高二在校学生，调查结果如下：理科对外语有兴趣的有138人，无兴趣的有98人，文科对外语有兴趣的有73人，无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关？规律方法（1）独立性检验的关注点在2×2列联表中，如果两个分类变量没有关系，则应满足ad－bc≈0，因此|ad －bc|越小，关系越弱；|ad－bc|越大，关系越强.（2）独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α，然后查表确定临界值k0.②利用公式K2＝n（ad－bc）2（a＋b）（c＋d）（a＋c）（b＋d）计算随机变量K2的观测值k.③如果k＞k0，推断“X与Y有关系”这种推断犯错误的概率不超过α；否则，就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”，或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.【训练2】打鼾不仅影响别人休息，而且可能与患某种疾病有关.下表是一次调查所得的数据：根据独立性检验，能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系？题型三独立性检验的综合应用【例3】某高校共有学生15 000人，其中男生10 500人，女生4 500人.为调查该校学生每周平均体育运动时间的情况，采用分层抽样的方法，收集300位学生每周平均体育运动时间（单位：时）的样本数据.（1）应收集多少位女生的样本数据？（2）根据这300个样本数据，得到学生每周平均体育运动时间的频率分布直方图（如图），其中样本数据的分组区间为[0，2]，（2，4]，（4，6]，（6，8]，（8，10]，（10，12].估计该校学生每周平均体育运动时间超过4小时的概率.（3）在样本数据中，有60位女生的每周平均体育运动时间超过4小时，请完成每周平均体育运动时间与性别列联表，并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附：P（K2≥k0）0.1000.0500.0100.005k0 2.706 3.841 6.6357.879K2＝n（ad－bc）2（a＋b）（c＋d）（a＋c）（b＋d）.规律方法（1）解答此类题目的关键在于正确利用K2＝n（ad－bc）2计算k的值，再用它与临界值k0的大小作比（a＋b）（c＋d）（a＋c）（b＋d）较来判断假设检验是否成立，从而使问题得到解决.（2）此类题目规律性强，解题比较格式化，填表计算分析比较即可，要熟悉其计算流程，不难理解掌握.【训练3】某校高三年级在一次全年级的大型考试中，数学成绩优秀和非优秀的学生中，物理、化学、总分成绩优秀的人数如下表所示，能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系？物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注：该年级在此次考试中数学成绩优秀的有360人，非优秀的有880人.课堂达标1.观察下列各图，其中两个分类变量x，y之间关系最强的是（）2.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查，列出了如下2×2列联表：偏爱蔬菜偏爱肉类总计50岁以下 4 8 12 50岁以上 16 2 18 总计201030则可以说其亲属的饮食习惯与年龄有关的把握为（） A.90%B.95%C.99%D.99.9%3.为了判断高中学生的文理科选修是否与性别有关系，随机调查了50名学生，得到如下2×2列联表：理科文科男 13 10 女720已知P （K 2≥3.841）≈0.05，P （K 2≥5.024）≈0.025.根据表中数据，得到K 2的观测值k ＝50×（13×20－10×7）223×27×20×30≈4.844.可认为选修文理科与性别有关系的可能性不低于 . 4.根据下表计算：不看电视看电视男 37 85 女35143K 2的观测值k ≈ （保留3位小数）.5.在109个人身上试验某种药物预防感冒的作用，得到如下列联表：感冒未感冒总计服用药1146 57 未服用药 213152总计3277109则有多大把握认为该药有效？课堂小结1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系，而利用等高条形图能形象直观地反映它们之间的差异，进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立，计算随机变量K2的值，如果K2值很大，说明假设不合理.K2越大，两个分类变量有关系的可能性越大.基础过关1.对两个分类变量A，B的下列说法中正确的个数为（）①A与B无关，即A与B互不影响；②A与B关系越密切，则K2的值就越大；③K2的大小是判定A与B是否相关的唯一依据A.0B.1C.2D.32.高二第二学期期中考试，按照甲、乙两个班学生的数学成绩优秀和及格统计人数后，得到如下列联表：优秀及格总计甲班113445乙班83745总计197190则随机变量K2的观测值约为（）A.0.600B.0.828C.2.712D.6.0043.考察棉花种子经过处理跟生病之间的关系得到下表数据：种子处理种子未处理总计根据以上数据，可得出（）A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的4.2013年6月11日，中国的“神舟十号”发射成功，由此许多人认为中国进入了航天强国之列，也有许多人持反对意见，为此进行了调查.在参加调查的3 648名男性公民与3 432名女性公民中，持反对意见的男性有1 843人、女性有1 672人，在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时，用下列最具说服力.①回归直线方程；②平均数与方差；③独立性检验.5.为了解高中生作文成绩与课外阅读量之间的关系，某研究机构随机抽取了60名高中生，通过问卷调查，得到以下数据：由以上数据，计算得到K2的观测值k≈9.643，根据临界值表，以下说法正确的是（填序号）.①没有充足的理由认为课外阅读量大与作文成绩优秀有关；②有0.5%的把握认为课外阅读量大与作文成绩优秀有关；③有99.9%的把握认为课外阅读量大与作文成绩优秀有关；④有99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.在研究某种药物对“H1N1”病毒的治疗效果时，进行动物试验，得到以下数据，对150只动物服用药物，其中132只动物存活，18只动物死亡，对照组150只动物进行常规治疗，其中114只动物存活，36只动物死亡.（1）根据以上数据建立一个2×2列联表；（2）试问该种药物对治疗“H1N1”病毒是否有效？7.在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示，根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机？能力提升8.利用独立性检验来考察两个分类变量X和Y是否有关系时，通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024，那么就有把握认为“X与Y有关系”的百分比为（）A.25%B.75%C.2.5%D.97.5%9.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系，随机抽查了52名中学生，得到统计数据如表1至表4，则与性别有关联的可能性最大的变量是（）表1表2表3表4A.成绩B.视力C.智商D.阅读量10.下表是关于男婴与女婴出生时间调查的列联表：那么，A＝，B＝，C＝，D＝，E＝.11.在研究性别与吃零食这两个分类变量是否有关系时，下列说法中正确的是（填序号）.①若K2的观测值k＝6.635，则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系，那么在100个吃零食的人中必有99人是女性；②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时，如果某人吃零食，那么此人是女性的可能性为99%；③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时，是指每进行100次这样的推断，平均有1次推断错误.12.随着生活水平的提高，人们的休闲方式也发生了变化.某机构随机调查了n 个人，其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动，而女性中只有13的人的休闲方式是运动. （1）完成下列2×2列联表：（2）若在犯错误的概率不超过0.05的前提下，可认为“性别与休闲方式有关”，那么本次被调查的人数至少有多少？（3）根据（2）的结论，本次被调查的人中，至少有多少人的休闲方式是运动？ 13.（选做题）某学校为了解该校高三年级学生在市一练考试的数学成绩情况，随机从该校高三文科与理科各抽取50名学生的数学成绩，作出频率分布直方图如图，规定考试成绩在[120，150]内为优秀.（1）由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断，是否有99%的把握认为该校的文理科数学成绩有差异.文科理科总计优秀非优秀总计5050100（2）某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试，每位教授至少面试一人，每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ，求ξ的分布列和均值.。

统计学：两变量关联性分析

x y 3
[(n 3 n) / 6] 2Ty t） (t表示x或y中相同秩次的个数）
12
例 11-4 中
rs
'

3
2 3 2 33 3 6 3 6 12 12 / 6 12
3

3

378

12
12 / 6
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª Ã ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
r
2 2 n
0 r 1
r 1表明两变量关联性越强，r 0表明两变量独立性越强。
一、交叉分类2×2表的关联性分析
例11-6 观察对婴儿的不同喂养方式与婴儿腹泻之间的关系。有腹泻
30
喂养方式
人工
无腹泻
10
合计
40
母乳合计
17 47
25 35
42 82
H 0 : 喂养方式与腹泻无关（两变量独立） (30 25 17 10) 2 82 9.98 P 0.005 40 42 47 35
310 426 540
3

卡方检验方法的操作方法

卡方检验方法的操作方法
卡方检验是用于分析两个分类变量之间是否存在关联的统计方法。

以下是卡方检验的操作步骤：
1. 设置假设：首先确定需要检验的假设，包括原假设和备择假设。

原假设是两个变量之间没有关联，备择假设是两个变量之间存在关联。

2. 构建列联表：将观察数据按照两个变量的分类情况构建一个列联表，可以是二维或更高维的表格。

3. 计算期望频数：假设原假设成立，根据样本数据的总体比例计算出每个单元格的期望频数。

即将每个单元格的行总频数乘以对应的列总频数，再除以总样本数。

4. 计算卡方统计量：将观察频数和期望频数按照一定的公式计算出卡方统计量。

统计量的计算公式为卡方统计量= (观察频数-期望频数)²/期望频数。

5. 计算自由度：根据列联表的维度计算自由度。

自由度的计算公式为自由度= (行数-1) * (列数-1)。

6. 查找临界值：根据所设定的显著性水平（通常为0.05或0.01），在卡方分布表中查找相应的临界值。

7. 判断结论：将计算得到的卡方统计量与临界值进行比较。

如果计算得到的卡方统计量大于临界值，则拒绝原假设，认为两个变量之间存在关联。

反之，接受原假设。

8. 报告结果：在判断结论的基础上，将结果进行描述并进行解释。

列联表分析公式总结卡方检验与列联表关联度的计算公式

列联表分析公式总结卡方检验与列联表关联度的计算公式列联表分析公式总结，卡方检验与列联表关联度的计算公式随着数据分析的广泛应用，列联表分析成为了一种常见的研究方法。

用于研究两个或多个分类变量之间的关联程度。

本文将总结列联表分析相关的公式，特别重点介绍卡方检验以及计算列联表关联度的公式。

一、列联表的基本概念和符号表示在列联表分析中，我们通常会使用一个二维的表格来表示两个或多个分类变量之间的关系。

这个表格称为列联表或交叉表。

为了方便理解本文后续的公式，我们先来介绍列联表的基本概念和符号表示。

在一个二维的列联表中，分类变量A有r个水平，分类变量B有c个水平。

我们可以将列联表表示为如下的形式：B1 B2 B3 ... Bc 总计(A)A1 n11 n12 n13 ... n1c n1.A2 n21 n22 n23 ... n2c n2.A3 n31 n32 n33 ... n3c n3.... ... ... ... ... ... ...Ar nr1 nr2 nr3 ... nrc nr.总计(B) n.1 n.2 n.3 ... n.. N其中，rij表示两个分类变量A和B的第i个水平与第j个水平的交叉频数。

n1.表示分类变量A的第1个水平的总频数，nr.表示分类变量A的第r个水平的总频数。

而n.1表示分类变量B的第1个水平的总频数，n..表示所有水平的总频数。

二、卡方检验公式卡方检验是利用列联表数据来检验两个或多个分类变量之间的关联程度。

卡方检验的原假设是两个分类变量是独立的，备选假设是两个分类变量是相关的。

卡方检验的统计量为卡方值(χ2)，其计算公式如下：χ2 = ∑ [ (Oij - Eij)^2 / Eij ]其中，Oij表示观察到的频数，Eij表示期望的频数。

期望的频数Eij 可以通过下面的公式进行计算：Eij = (ni. * n.j) / N上述公式中，ni.表示分类变量A的第i个水平的总频数，n.j表示分类变量B的第j个水平的总频数，N表示总频数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第十章两变量关联性分析
三、两个分类变量的关联分析
n对分类变量间的联系，可作关联（association）分析
n对两个分类变量交叉分类计数所得的频数资料（列联表）作关于两种属性独立性的c 2 检验
交叉分类2×2列联表
n对样本量为n的一份随机样本同时按照两个二项分类的特征（属性）进行交叉分类形成一个2×2交叉分类资料表, 也称为2×2列联表（contingency table）。

n 例103：为观察行为类型与冠心病的关系，某研究组收集了一份包含3154个个体的样本，研究者将观察对象按行为类型分为A型（较具野心、进取心和有竞争性），B型（较沉着、轻松、和做事不慌忙）。

对每个个体分别观察是否为冠心病患者和行为类型两种属性，2×2种结果分类记数如下表所示。

试分析两种属性的关联性。

表 103 行为类型与冠心病的关系
行为类型（属性 A）冠心病（属性 B）
合计有(1) 无(2)
类型 A(1) 178 **** **** 类型 B(2) 79 1486 1565 合计 257 2897 3154
表 104
2×2 交叉分类频数表的一般形式及概率表达
属性 A
属性 B
合计
1
2
1 11 A ( 11 p ) 1
2 A ( 12 p ) 1 n ( 1 r p ) 2 21 A ( 21 p ) 22 A ( 22 p ) 2 n ( 2 r p )
合计
1 m ( 1 c p )
2 m ( 2 c p )
n （1.0）
0 H ：属性 A 与 B 互相独立，
1 H ：属性 A 与 B 互相关联。

独立性检验就是考察 cj ri ij p p p = 成立与否。

å
- = j
i i i i T T A , j
2
j j 2
)
( c
0 H ：行为类型与冠心病之间互相独立
1 H ：行为类型与冠心病之间有关联
a =0.05
将表中各数据代入公式（99），
2
2
(1781486791411)3154 39.90
158915652572897
c ´-´´ == ´´´ 2
0.05,1
3.84 c
= ， 2
2
0.05,1
c c
> P <0.05，说明行为类型与冠心病之间存在
着关联性。

关联系数(association coefficient)
2
2
r n
c
c =
+ 2
2
39.90
0.112
39.903154
r n
c
c =
=
= ++
多分类资料的关联分析
例105 欲探讨职业类型与胃病类型是否有关联，某医生将收治的310名胃病患者按主要的职业类型与胃病类型两种属性交叉分类，结果见表106。

问职业类型与胃病类型间有无关联？
表106 310名胃病患者两种属性的交叉分类表
职业胃病
合计浅表性胃炎
慢性胃炎胃溃疡
805220 机关干部工厂工人公交车司机 486222
4 1210
132 12652 152
132 26
310
合计
H 0 ：胃病类型与职业无关联 H 1
：胃病类型与职业有关联 α=0.05
222222 2
80484526212 310( 1521321321322613215212613212626126
c =´++++++
´´´´´´ 222
202210
1)
15252132522652
++- ´´´ 20.838
= P <0.005
2
2
20.838
0.251
20.838310
r n
c
c =
=
= ++
170例某病患者的治疗效果资料
患者年龄
(岁)
疗效
合计无效好转治愈
<18 5 32 20 57
18～ 30 38 10 78
50～ 15 10 10 35
合计 50 80 40 170 Gamma系数
小结：
n相关是测量变量间的相互关联或联系的指标。

相关研究的两个变量其关系是平等的，均为随机变量。

n在分析相关时必须先做散点图
n两连续变量间的相关分析方法主要有Pearson积矩相关和 Spearman秩相关
n分类资料的关联分析可区分为两分类和多分类的情形，检验都采用卡方检验。

n相关和关联是两变量间相互关联或联系数量上的关系，不能据此推论两变量有因果关系。

两个分类变量的关联分析

关联性研究的设计与数据分析

卫生统计学 两变量关联性分析

卫生统计学两变量关联性分析

独立性检验的基本思想及其初步应用

统计学：两变量关联性分析

卡方检验方法的操作方法

相关性分析方法有哪些

列联表分析公式总结卡方检验与列联表关联度的计算公式

卫生统计学两变量关联性分析