双变量关联性分析(研)
第13章思考与练习

第十三章双变量关联性分析【思考与习题】一、思考题1.两变量间的关联性是否可解释为因果关系2.2⨯2列联表的关联性分析与两样本率比较的2χ检验有何不同3.相关系数r经假设检验有统计学意义,且得到的P值很小,是否表示两变量间一定有很强的直线关系4.简述Pearson积矩相关与Spearman秩相关的区别与联系。
二、案例辨析题为研究年龄与牙齿AKP酶反应活性之间的关系,某医生在其接诊的患者中随机抽取281例,按年龄(岁)分为三组进行观测,测量各患者牙齿的AKP酶反应活性,如表13-1所示。
问年龄与牙齿AKP酶反应活性之间有无关系表13-1 281例患者年龄与牙齿AKP酶反应活性的分布年龄AKP酶反应活性合计—+++<31517365831~234549051~249712133合计31148102 281按照R×C表的2χ检验结果,得2χ=,005.0<P,故按α=水准,拒绝H,可认为不同年龄患者的AKP酶反应活性不同,两者之间有关系。
以上分析正确吗三、最佳选择题1.Pearson积矩相关系数的假设检验,其自由度为A.1-nB.2-nC .12-nD .)1(2-nE .n2.积矩相关系数的计算公式是 A .xy xy yyl r l l =B.r =C.l r =D.l r =E.r =3. 直线相关分析中,若0.05,||r r ν>,则可认为两变量之间 A. 有一定关系B. 不存在直线相关关系C. 有直线相关关系D. 有直线相关关系,且为正相关E. 有直线相关关系,且为负相关 4.下列指标中可正可负的是 A .F 统计量 B .2χ统计量 C .21()nxx i l x x ==-∑D .1()()nxy i l x x y y ==--∑E .21()nyy i l y y ==-∑5.研究18岁女大学生体重和肺活量的关系时,表达正确的无效假设是 A .体重与肺活量无关联 B .体重与肺活量有关联 C .体重与肺活量有直线关系 D .体重与肺活量有因果关系 E .体重与肺活量无因果关系 6.计算Pearson 列联系数的公式为 A.l r =B .nr +=22χχC .22χχnr +=D .12-=n r χE .nr +=22χχ7.某放射科医师收集脑外伤患者30例,观察脑出血直径和病人昏迷的程度(轻度、中度、重度),欲分析昏迷程度是否与病灶大小有关,可进行 A .Pearson 相关分析 B .Spearman 秩相关分析 C .两小样本比较的t 检验 D .方差分析 E .2χ检验8.对两个分类变量的频数表资料作关联性分析,可用 A .积矩相关或等级相关B .积矩相关或列联系数C .列联系数或等级相关D .积矩相关E .等级相关9.两组数据分别进行直线相关分析,对1r 进行假设检验得到P <,对2r 进行假设检验,得到P <,可以认为A .第一组的两个变量关系比第二组密切B .第二组的两个变量关系比第一组密切C .更有理由认为第一组的两个变量之间有直线关系D .更有理由认为第二组的两个变量之间有直线关系E .两组变量关系同样密切四、综合分析题1.为研究某病成年男性患者血浆清蛋白含量与血红蛋白含量的关系,某医生测得10名患者血浆清蛋白含量(g/L)及血红蛋白含量(g/L)见表13-2所示,试分析二者是否有关联。
两变量关联性分析

线性相关分析的步骤
1. 绘制散点图
凝血酶时间(秒)
18 17 16 15 14 13 12
0.5
0.7
0.9
1.1 1.3
凝血酶浓度(毫升)
图1 例11-1中数据的散点图
2. 计算相关系数
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2
lXX lYY
二 秩相关
适用条件:
①资料不服从双变量正态分布而不宜作积差 相关分析;
②总体分布型未知,一端或两端是不确定数 值(如<10岁,≥65岁)的资料;
③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
2. 计算公式
研究目的:分析两个变量之间有无相关关系 相关系数: (linear correlation coefficient)
描述两变量间线性相关的密切程度 和相关方向的统计量
简单线性相关
当一个变量X由小到大,另一个变量Y亦 相应地由小到大(或由大到小),两变量的 散点图呈直线趋势,那么这两个变量之间有 线性关系。分析这种线性关系的理论和方法, 统称为直线相关或线性相关。
受H1 ,认为凝血酶浓度与凝血酶时间之间存在负相关。 此结果与查表的结果是一致的。
(二)查表法
• 查 r 界值表(附表15)
n2
线性相关中应注意的问题
• 1.样本的相关系数接近零并不意味着两变量 间一定无相关性.
• 2.一个变量的数值人为选定时莫作相关. • 3.出现异常值时甚用相关. • 4.相关未必真有内在联系. • 5.分层资料盲目合并易出假象.
医学统计学 -第11章 两变量关联性分析

为负:负相关 |r|=1:完全相关
❖ r的正负号表示线性相关的方向 ❖ r绝对值的大小表示线性相关的密切程度,越接近±1, 其线性密切程度越高;越接近0,线性密切程度越低
例11.2 计算例11.1中基础代谢Y与体重X之间样本 相关系数。
由例11-1得
三、相关系数的统计推断
(一)假设检验方法: 查表法
按自由度υ=n-2查r界值表,如果样本相关系数r大于界值,
则具有统计学意义,线性相关关系存在
t检验法
tr
r0 sr
υ=n-2
sr
1 r2 n2
例11-3 继例11-2中算得r=0.964后,试检验相 关是否具有统计学意义
H0 : 0 ,H1 : 0 , =0.05
(x x)2 1144.5771 (y y)2 4645447.0121 (x x)(y y) 70303.2329
r
(x x)(y y)
(x x)2 (y y)2
70303.2329
1144.5771 4645447.0121
0.964
即基础代谢与体重之间的相关系数为0.964,呈正相关, 说明基础代谢随体重的增加而升高
查表法
本例 n=14,r=0.964,按υ=14-2=12,查r界值表,得 r0.05,12=0.532
因此P<0.05,即相关系数有统计学意义,可以认 为基础代谢与体重之间存在线性正相关,且相关系 数为0.964
t检验法
本例 n=14,r=0.964,代入公式
t 0.964 12.559 1 0.9642 14 2
正相关(positive correlation) 散点呈直线变化趋势 Y随X的增加而有增加的趋势 当散点全部在一条直线上时, 为完全正相关
两变量关联性分析

N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
卫生统计学两变量关联性分析

二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和相关方向的统 计指标。
N
(x x)(y y)
i1
, 为总体相关系数
N
N
(x x)2(y y)2
i1
i1
.
13
在实际工作中,我们常常只能获得样本的信息或有关
r 数据,据此我们只能计算样本相关系数,记为 。
.
21
(二) 采用t 检验,实际应用中使用得比较普遍
r0 tr Sr 其中,Sr为样本相关系数r的标准误
Sr
1 r2 n2
H0成立时,tr服从自由度为 n 2的t分布
.
22
例3 在例2算得r=0.875后,试检验相关是否有统计学意 义。
①. 建立假设 H0:ρ=0 H1:ρ≠0
②. 确定检验水准 α=0.05
1 1
0.6574
ρ的上限:r
e2z e2z
1 1
e ( 21.9198 ) e ( 21.9198 )
1 1
0.9579
故体重与双肾体积总体相关系数的95%置信区间为 (0.6574,0.9579)
.
28
四、线性相关应用中应注意的问题
1. 样本的相关系数接近零并不意味着两变量间一定 无相关性。 通常应先绘出样本值的散点图,利用散点图可直观 地判断两变量之间是否具有线性联系。
Cramer V系数和Pearson列联系数来度量。
2
n
V 2 , k min(R,C)
n(k 1)
Pearson列联系数r
2 2 n
.
44
这三个系数值越接近于0,说明两个分类变量之间几乎
《医学统计课件:双变量分析》

3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估
统计学:两变量关联性分析

l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6
2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82
10两变量关联性分析

线性相关(linear correlation)
可见两个变量间的关系并不是函数式的确定关 系——非函数式确定性关系
总的来说,体重轻者基础代谢低,重者基础代谢 高,二者变化趋势呈正向关系——正相关
各点的态势趋近一条直线呈线性——线性相关 线性相关(linear correlation),又称简单相关,
人的肺活量往往随着胸围的增加而增加,二者 间是否有联系?
举重运动员所能举起的最大重量是否与他的体 重有关?
在水碘含量不同的地区,甲状腺肿大的患病情 况不太相同,它们间是否有关联?
相关关系与确定性关系
所谓确定性关系是指两变量间的关系是函数关系:已知一个变量的值, 另一个变量的值可以通过这种函数关系精确计算出来。
第十章:两变量 关联性分析
问题的提出
前面的章节已经讨论的统计学方法着重于比较单 个变量的组间差别(例如:均数的差别、率的差别、 构成比的差别、中位数的差别等)
但是在医学研究中,还需要对两个随机变量间的 关系进行量化研究
问题的提出
人的体重往往随着身高的增加而增加,算方法如下:
rs
l xy lxx l yy
将X、Y变量所对应的秩次作为新变量,代入上述公式
计算器求得:
56.5
rs
-0.741 82.5 70.5
秩相关系数的假设检验
因此样本资料的秩相关系数为-0.741,意味着两变量间可 能存在负关联
rs来自10个个体值组成的样本,存在着抽样误差,故计算 出rs后,需作的假设检验
n
( Xi X )(Yi Y )
r
i 1
0.964
n
(
Xi
X
)2
n
(Yi
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十二章广东医学院公共卫生学院统计与流行病学教研室黄志刚•前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。
•在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?•如果两个连续型变量X和Y 都随机变动且不分主次,可通过线性相关(linear correlation)分析来估计它们之间可能存在的线性联系的方向与程度。
•两个随机变量X 和Y ,可以是对同一观察单位同时测量X 与Y 的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。
•为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20 名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如下表所示:•考察相关性最简单而直观的办法是散点图(scatter plot)•以两条互相垂直的座标轴分别表示两个变量,n 对观察值对应于座标平面的n 个点,便构成一幅散点图。
散点图第一节直线相关一、概述概念又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法应用条件要求两个变量均服从正态分布(双变量正态分布)相关系数的意义及计算又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标r表示样本相关系数,ρ表示总体相关系数•没有单位,取值介于-1与1之间•相关方向用正负号表示•相关的密切程度用绝对值表示()()()()22xyxx yyl x x y y r l l x x y y --==--∑∑∑•-1 ≤ r ≤1r 值为正——正相关为负——负相关|r|=1 ---完全相关r=0 ---零相关相关关系密切程度的判断低度相关中度相关高度相关4.0≤r 7.04.0<<r 7.0≥r相关关系图示变量相关关系的类型•【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。
表12-1 2000年某地16名7岁男孩体重与胸围资料编号12345678 910111213141516体重(kg)24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0胸围(cm)61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0散点图计算例12-1中体重与胸围间相关系数●计算基础数据,并列成相关系数计算表●求出、、、、(见表12-2)●代入公式,求出相关系数值∑x ∑y ∑2x ∑2y ∑xy r表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表编号(1)x体重(kg)(2)y胸围(cm)(3)x2(4)=(2)2y2(5)=(3)2xy(6)=(2)×(3)124.561.0600.253721.001494.50 227.062.0725.003844.001674.00 323.560.0552.253600.001410.00 428.564.0812.254096.001824.00………………1520.258.0408.043364.001171.60 1621.057.0441.003249.001197.00合计366.0926.68548.3053813.5621332.38∑x∑y∑2x∑2y∑xy•x 的离均差平方和•y 的离均差平方和•x 与y 间的离均差积和()()222yy y l y y yn=-=-∑∑∑()()222xx x l x x xn=-=-∑∑∑()()()()xy x y l x x y y xy n=--=-∑∑∑∑22366926.621332.38160.8343366926.68548.3053813.561616r ⨯-==⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭()()()()22xy xx yyl x x y y r l l x x y y --==--∑∑∑r ≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0t 检验查表法,按v=n-2查r 界值表,做出推断结论二、相关系数的假设检验0r rr t S -=•查表法–根据自由度 =n-2,查附表14,将所得r 值与某概率水平(如0.05)对应的r界值相比较,若r值小于r 界值,则P大于相应的概率水平,反之,P小于相应的概率水平,然后作出推断•t 检验方法2-=n ν0r rr t S -=212--=n r S r【检验步骤】1. 建立检验假设,确定检验水准0:0Hρ=1:0Hρ≠05.0=α2.计算检验统计量值r t 6623.52168343.018343.021022=--=---=n r r t r3.确定P值,做出统计推断•按自由度ν=n-2=16-2=14 ,查附表4,得P<0.001,按α= 0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为2000年该地7岁男孩体重与胸围之间有相关关系总体相关系数ρ的区间估计*必须先对r 作z 变换 r z 1tanh-= 或 )1()1(ln21r r z -+=公式中tanh 为双曲(hyperbolic)正切函数;tanh -1为反双曲正切函数,r 的取值范围 -1<r <1,相应的z 值范围 -∞< z < +∞。
按正态近似原理,z 的1-α可信区间为:/2/2(3,3)z u n z u n αα--+-然后z r tanh = 或 1122+-=z ze e r ,将z 可信区间变换回到r 尺度。
决定系数的意义•决定系数即相关系数r 的平方r2–它反映应变量y 的总变异中可用回归关系解释的比例–反映回归直线的拟合程度,即回归方程估计可靠程度的高低。
取值范围在[ 0 , 1 ] 之间r 2 1,说明回归方程拟合的越好r 2 0,说明回归方程拟合的越差总回SS SS l l l l l lr yyxx xyyyxx xy===/222相关分析应用中应注意的问题一、散点图的重要性010********60020406080住院天数X预后指数Y二、变量取值非随机时莫作相关•某些医学问题研究中,一个变量随机变动,另一个变量的数值却是人为选定的。
–研究药物的剂量反应关系,人们选定n 种剂量,观察每种剂量下动物的反应;–摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。
三、对相关的解释•相关分析中对变量的选择及统计结果的解释一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。
•例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义(r=0.89),难道两者真有内在联系?•时间变量与两者的潜在联系造成了子高与树高相关的假象。
•即使专业上有理由作相关,两变量的地位也是平等的,所揭示的可能仅仅是一种统计学上的关联性,不一定是因果联系。
偶然联系:树高---身高(专业常识判断)伴随联系:兄弟身高因果联系:父子身高四、慎重合并分层资料第二节等级相关(秩相关,Spearman相关)一、适用条件不服从双变量正态分布而不宜作积差相关分析(Pearson相关)总体分布型未知开口型或半开口型的资料原始数据是用等级表示二、方法步骤•编秩、求秩次的差值d •计算等级相关系数:d 每对观察值x i ,y i 所对应的秩次之差 n 为对子数r s 样本秩相关系数)1(6122--=∑n n dr s表12-3 肝癌死亡率与黄曲霉毒素相对含量黄曲霉毒素相对含量肝癌死亡率(1/10万)d2d 乡编号(1) x(2)秩次(3)y(4)秩次(5) (6)=(3)-(5) (7)=(6)21 0.7 1 21.5 32 42 1.0 2 18.9 2 0 03 1.7 3 14.4 1 2 44 3.7 4 46.5 7 -3 95 4.0 5 27.3 4 1 16 5.1 6 64.6 9 -3 97 5.5 7 46.3 6 1 18 5.7 8 34.2 5 3 99 5.9 9 77.6 10 1 110 10.0 10 55.1 8 2 4 合计-----42746.0)110(1042612=-⨯⨯-=s r )1(6122--=∑n n dr ssr ()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑()∑-=12/3t t T T y x 或当x 或y 中相同秩次较多时,宜对进行校正:t 为x 或y 中相同秩次的个数是总体等级相关系数的估计值当时,可查界值表(p350)作出判断s r s ρ50≤n 1s z r n =-存在着抽样误差,故计算出后,需作是否为0的假设检验:当n >50时,可用正态近似法进行检验检验统计量z 的计算公式为:s ρs r s r补充例题407.0)112(125.40261)1(615.402122222=-⨯-=--===∑∑n n d r d n s相同秩次较多时r s 的校正当X 及Y 中,相同秩次均较多( 均超过n ×25%)时,用下式进行校正:式中,T x (或T Y )=Σ(t 3-t )/12;t :X (或Y )中相同秩次的个数()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑计算分析过程H 0:ρs =0,即血小板数与出血症状无相关关系H 1:ρs ≠0,即血小板数与出血症状有相关关系α=0.05分别依实测值X i ,Y i 从小到大编秩求每对数据秩次之差d因出血症状Y 中,相同秩次较多,需计算校正r`s 值T X =0T Y =Σ(t 3-t)/12=[(63-6)+(23-2)+( 23-2)]/12=18.5计算校正相关系数:依n=12,查r s 界值表,得0.10>P >0.05,按α=0.05 水准,不拒绝H 0,尚不能认为血小板数与出血症状有相关关系。
[][][]()[]()()[]()[]5095.05.1826/121206/12125.4025.1806/121226)(26)()(6)(3333323'=⨯-----+--=-----+--=∑Y X Y X s T n n T n n d T T n n r第三节列联表的关联性分析•【例12-4】某研究者欲研究幽门螺杆菌感染(HP)与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果家庭成员有胃病史组182例,HP阳性125例;家庭成员无胃病史组417例,HP阳性198例。