医学统计学课件:双变量关联性分析(研究生)-推荐
卫生统计学两变量关联性分析

图1 15名正常成年人体重和双肾体积的散点图
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
例2 计算上述例1中体重与双肾体积之间的样本相关系数。 本例计算过程如下表:
由原始数据可算出:
x 893, x2 55719, n 15 y 3991.56, y2 1082440.5572, n 15 xy 243931.9
lxx 2555.733 lyy 20270.495
n2 ④. 确定概率P值
15 2
v=n-2=15-2=13,tr=6.517,查 t 界值表, 得p<0.001。
⑤. 下结论
因为p<0.001,按=0.05水准,拒绝H0,接受 H1,差异有统计学意义。即双肾体积与体重之间 存在直线相关关系。
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需 要计算总体相关系数的ρ置信区间。由于一般情况下 (ρ≠0时) ρ的分布并不对称,故先对r按(1)式作z变换:
第二节 秩相关
一、秩相关的概念及其统计描述
Pearson积矩相关的假设检验要求x和y均服从正态分 布。 对不服从正态分布的资料,或是总体分布未知的资料或 者原始数据用等级表示的资料,需采用秩相关来描述两 变量的相关性。 秩相关是利用两变量的秩次大小作直线相关分析,对 原 变量的分布不作要求,属非参数统计方法。 其中最常用的统计量是Spearman秩相关系数rs,又称等
四、线性相关应用中应注意的问题
双变量关联性分析双变量关联性分析在医学研究中

第十三章双变量关联性分析在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。
这类关系在统计学上称为两个随机变量之间的关联性。
如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。
需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。
本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。
第一节直线相关一、直线相关的概念及其统计描述例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,数据如表13.1所示。
据此回答两变量是否有关联?其方向与密切程度如何?表13.1 15名正常成年人体重和双肾体积的测量值编号体重(kg) 双肾体积(ml)1 43 217.222 74 316.183 51 231.114 58 220.965 50 254.706 65 293.847 54 263.288 57 271.739 67 263.4610 69 276.5311 80 341.1512 48 261.0013 38 213.2014 85 315.1215 54 252.08初步判断两变量间关系最直观有效的方法就是在平面直角坐标系中绘图,其中一个变量用x表示,另一变量用y表示,在平面直角坐标系中可绘制这些实测点的分布情况,称为散点图(scatter plot),如图13.1所示。
体重(kg) x图13.115名正常成年人体重和双肾体积的散点图由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。
在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关(simple correlation),其性质可由图13.2所示散点图作直观说明。
医学统计学 -第11章 两变量关联性分析

为负:负相关 |r|=1:完全相关
❖ r的正负号表示线性相关的方向 ❖ r绝对值的大小表示线性相关的密切程度,越接近±1, 其线性密切程度越高;越接近0,线性密切程度越低
例11.2 计算例11.1中基础代谢Y与体重X之间样本 相关系数。
由例11-1得
三、相关系数的统计推断
(一)假设检验方法: 查表法
按自由度υ=n-2查r界值表,如果样本相关系数r大于界值,
则具有统计学意义,线性相关关系存在
t检验法
tr
r0 sr
υ=n-2
sr
1 r2 n2
例11-3 继例11-2中算得r=0.964后,试检验相 关是否具有统计学意义
H0 : 0 ,H1 : 0 , =0.05
(x x)2 1144.5771 (y y)2 4645447.0121 (x x)(y y) 70303.2329
r
(x x)(y y)
(x x)2 (y y)2
70303.2329
1144.5771 4645447.0121
0.964
即基础代谢与体重之间的相关系数为0.964,呈正相关, 说明基础代谢随体重的增加而升高
查表法
本例 n=14,r=0.964,按υ=14-2=12,查r界值表,得 r0.05,12=0.532
因此P<0.05,即相关系数有统计学意义,可以认 为基础代谢与体重之间存在线性正相关,且相关系 数为0.964
t检验法
本例 n=14,r=0.964,代入公式
t 0.964 12.559 1 0.9642 14 2
正相关(positive correlation) 散点呈直线变化趋势 Y随X的增加而有增加的趋势 当散点全部在一条直线上时, 为完全正相关
卫生统计学 两变量关联性分析

(21.9198)
故体重与双肾体积总体相关系数的95%置信区间为
(0.6574,0.9579)
四、线性相关应用中应注意的问题 1. 样本的相关系数接近零并不意味着两变量间一定
无相关性。
通常应先绘出样本值的散点图,利用散点图可直观
地判断两变量之间是否具有线性联系。
2. 一个变量的数值人为选定时不应作相关。相关分析
115.508 0.548 n 384
2
二、2×2 配对资料的关联性分析 例7 有132份食品标本,把每份标本一分为二,分别
用甲、乙两种检验方法作沙门菌检验,检验结果如表
4,问两种检验方法的结果是否存在关联?
表4 两种检测方法的结果比较
前面我们用McNemar检验解决了两种培养基的阳性 率是否相等的问题。但如要了解两种培养基结果之间 是否有关联,则需作两种属性的关联性分析。
n 15
y 3991.56, xy 243931.9
lxx 2555.733 l yy 20270.495 lxy 6301.038
2 y 1082440.5572, n 15
代入公式得: r lxy lxx l yy
0.875
说明双肾体积随体重增加而增大,两变量呈正相关。
氧含量分级之间存在相关关系,且为正相关。
第三节 分类变量的关联性分析
对定性变量之间的联系通常用的方法是根据两个定性变
量交叉分类计数所得的频数资料(列联表)作关联分析,
即关于两种属性独立性的卡方检验。
一、交叉分类 2×2 表的关联分析 例6 为研究青少年在校情况与对艾滋病知晓情况之间的 关系,某研究者在某地共调查了384名青少年,并对每名 青少年按是否在校和对艾滋病是否知晓两种属性交叉分 类,如表3所示。试问青少年在校情况与对艾滋病知晓情 况之间是否存在关联性?
卫生统计学两变量关联性分析

二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和相关方向的统 计指标。
N
(x x)(y y)
i1
, 为总体相关系数
N
N
(x x)2(y y)2
i1
i1
.
13
在实际工作中,我们常常只能获得样本的信息或有关
r 数据,据此我们只能计算样本相关系数,记为 。
.
21
(二) 采用t 检验,实际应用中使用得比较普遍
r0 tr Sr 其中,Sr为样本相关系数r的标准误
Sr
1 r2 n2
H0成立时,tr服从自由度为 n 2的t分布
.
22
例3 在例2算得r=0.875后,试检验相关是否有统计学意 义。
①. 建立假设 H0:ρ=0 H1:ρ≠0
②. 确定检验水准 α=0.05
1 1
0.6574
ρ的上限:r
e2z e2z
1 1
e ( 21.9198 ) e ( 21.9198 )
1 1
0.9579
故体重与双肾体积总体相关系数的95%置信区间为 (0.6574,0.9579)
.
28
四、线性相关应用中应注意的问题
1. 样本的相关系数接近零并不意味着两变量间一定 无相关性。 通常应先绘出样本值的散点图,利用散点图可直观 地判断两变量之间是否具有线性联系。
Cramer V系数和Pearson列联系数来度量。
2
n
V 2 , k min(R,C)
n(k 1)
Pearson列联系数r
2 2 n
.
44
这三个系数值越接近于0,说明两个分类变量之间几乎
第12章双变量关联性分析

1. 解:以体重指数为变量X,收缩压为 变量Y作散点图,见下图。可见,体 重指数与收缩压有比较密切的线性相 关关系。
25
收缩压(kpa)
20
15
10
2.5
3
3.5
4
4.5
体重指数
图13-1 16名中年女性体重指数和收缩压的散点图
•实 例
某地方病研究所调查了 8名正常儿童的尿肌 酐含量(mmol/24h)如表9-1。估计尿肌酐含
量(Y)对其年龄(X)的相关关系。
表14-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h)
编号
1
2
3
4
5
67
8
年龄X 尿肌酐含量 Y
13 11 9
6
8 10 12 7
3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65
尿肌酐含量(mmol/24h)Y
3.6
r 值为正 ——正相关 r 值为负 ——负相关
|r|=1 --- 完全相关 r=0 --- 零相关
2019/10/18
20
相关关系密切程度的判断
r 0.4
低度相关
0.4 r 0.7 中度相关
r 0.7
高度相关
2019/10/18
21
相关系数的计算:
r
(XX)Y (Y) lXY
• 没有单位,取值介于-1与1之间 • 相关方向用正负号表示 • 相关的密切程度用绝对值表示
2019/10/18
16
相关系数,说明具有直线关系的两个变 量间相关关系的密切程度与相关方向的 指标. r 表示样本相关系数,ρ表示总体相 关系数, -1≤ r ≤1
《医学统计课件:双变量分析》

3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估
卫生统计学客件: 两变量关联性分析

二、相關係數的意義及計算
線性相關係數 (linear correlation coefficient)
又稱 Pearson積矩相關係數(Pearson product moment coefficient)
相關係數 =
X和Y的协方差
( X的方差)(Y的方差)
總體相關係數ρ:若ρ≠0, 稱X和Y線性相關, 簡稱
相關;若ρ=0, 則簡稱X和Y不相關。 樣本相關係數r
協方差(covariance)的定義、含義
X的樣本方差 =
n
(Xi X)2
i 1
n 1
n
(Yi Y )2
Y的樣本方差 = i1
n 1
X和Y的樣本協方差 =
n
(X i X )(Yi Y )
i1
n 1
圖11-3 雙變數協方差示意圖
n
方法二:t 檢驗
Hale Waihona Puke 根據公式:tr 0.964 12.559 1 (0.964)2
14 2
注意據:自由P 度值越小並14不查2表t臨1示2界相值關表,性得就雙越側強!
|t|> t0.001 2 ,12 , 4P.3<18 0.001, 故拒絕 。可以H認0 為基礎
代謝與體重之間存在正相關。此結果與查表檢驗的結
職業
胃病 淺表性胃炎 慢性胃炎 胃潰瘍
合計
機關幹部
80
工廠工人
52
公車司機
20
48
4
132
62
12
126
22
10
52
合計
152
132
26
310
H0 : 胃病類型與職業無關聯
H: 1胃病類型與職業有關聯
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
等级相关(自学内容)
等级相关应用范围: (1)不服从双变量正态分布的资料 (2)总体分布类型未知的资料 (3)等级资料
Spearman等级相关系数的取值和意义与Pearson直线相关 系数相同 计算得到的等级相关系数,需对其进行假设检验
列联表的关联性分析
2×2列联表的关联性分析
【例12-4】 某研究者欲研究幽门螺杆菌感染(HP) 与家庭成员胃病史的关联性,随机抽取599例慢 性胃炎或胃溃疡的患者,分成家庭成员有胃病史 组和家庭成员无胃病史组,结果家庭成员有胃病 史组182例,HP阳性125例;家庭成员无胃病史组 417例,HP阳性198例。
之,P小于相应的概率水平,然后作出推断。
直线相关 相关系数的假设检验
t检验方法
tr
r0 Sr
Sr
1 r2 n2
n2
直线相关
下面对例12-1所得相关系数进行假设检验 【检验步骤】 1. 建立检验假设,确定检验水准
H0 : 0 H1 : 0
0.05
直线相关
【检验步骤】
2.计算检验统计量 tr 值
【分析】 (1)该资料是计数资料,是两个定性变量交叉分
类的列联表资料。 (2)该研究者使用的统计方法是正确的。应用四
格表资料的 2 检验,然后计算列联系数,分析 两分类变量关联的程度。
列联表的关联性分析
表12-4 幽门螺杆菌感染(HP)与家庭成员胃病史的关联性
因素
有胃病史 无胃病史
合计
阳性
阴性
合 计 感染率(%)
直线相关
计算例12-1中体重与胸围间相关系数 • 计算基础数据,并列成相关系数计算表
• 求出 x 、 y 、x2 、 y2 、 xy(见表12-2)
• 代入公式,求出相关系数 r 值。
直线相关
表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表
x 编号
体重kg
(1)
(2)
y 胸围cm
125(98.14) 198(224.86)
323
57(83.86)
182
219(192.14)
417
276
599
68.68 47.48
53.92
列联表的关联性分析
【检验步骤】 1. 建立检验假设,确定检验水准
H0:HP与家庭成员胃病史之间相互独立 H1:HP与家庭成员胃病史之间有关联
0.05
(a) 0< r <1
(b) -1< r <0
(c) r =1
(d) r =-1
直线相关
(e) r =0
(f) r =0
(g) r =0
(h) r =0
直线相关
图12-2 2000年某地16名7岁男孩体重与胸围散点图
直线相关
r x x y y x x 2 y y 2
没有单位,取值介于-1与1之间 相关方向用正负号表示 相关的密切程度用绝对值表示
析两变量之间的数量依存关系 。
直线相关
相关分析的概念
直 线 相 关 (1inear correlation) , 又 称 简 单 相 关 (simple correlation),是用来描述具有直线关系的 两变量x、y的相互关系的统计方法。 要求两变量均来自于双变量正态总体的随机变量。
直线相关
相关系数的意义及计算
列联表的关联性分析
2×2列联表的关联性分析
该研究者采用检验进行假设检验,结 果 2 22.917 ,P<0.005,差异有统计学意义, 故认为幽门螺杆菌感染(HP)与家庭成员胃病 史有关联性。
【问题12-4】 (1)该资料为何种类型资料? (2)该研究者所用统计方法是否正确?
列联表的关联性分析
列联表的关联性分析
直线相关系数(linear correlation coefficient)亦称 Pearson积矩相关系数,是定量描述两个变量间直线 关系的方向和密切程度的指标
总体相关系数用 表示,样本相关系数用r表示
直线相关
进行相关分析时,首先绘制散点图(scatter plot), 初步判断两变量间的关系。
r0
0.8343
tr
1 r2
5.6623 1 0.83432
n2
16 2
直线相关
【检验步骤】 3.确定P值,做出统计推断 按自由度 n - 2 16- 2 14 ,查附表4,P 0.001 按水准,拒绝H0,接受H1,差异有统计学意义, 可认为2000年该地7岁男孩体重与胸围之间有相 关关系。
xy
直线相关
21332.38 366 926.6
r
16
0.8343
8548.30
3662 16
53813.56
926.6 16
2
直线相关
相关系数的假设检验
查表法
根据自由度 n 2 ,查附表14,将所得 r 值与 某概率水平(如0.05)对应的 r 界值相比较,若
r 值小于 r 界值,则P大于相应的概率水平,反
直线相关
【例12-1】 2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。
表12-1 2000年某地16名7岁男孩体重与胸围资料
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
体 重(kg) 24.5
27.0
23.5
28.5
23.0
26.7
26.8
24.6
24.8
19.7
19.5
17.2
20.0
19.0
20.2
21.0
胸 围(cm) 61.0
62.0
60.0
64.0
59.3
58.4
58.6
58.7
58.5
56.0
55.6
54.5
53.0
52.0
58.0
57.0
直线相关
【问题12-1】 该资料有何特点? 该资料应做何种统计分析?步骤如何?
【分析】 • 连续型随机变量,属于定量资料 。 • 可以探讨它们之间的相关关系,还可分
4096.00 1824.00
5 23.0
59.3
529.00
3516.49 1363.90
15 20.2 16 21.0
合计 366.0 x
58.0 57.0 926.6
y
408.04 441.00 8548.30
x2
3364.00 3249.00 53813.56
y2
1171.60 1197.00 21332.38
(3)
x 2(4)=(2)2 y 2 (5)=(3)2 xy (6)=(2)×(3)
1 24.5
61.0
60ቤተ መጻሕፍቲ ባይዱ.25
3721.00 1494.50
2 27.0
62.0
725.00
3844.00 1674.00
3 23.5
60.0
552.25
3600.00 1410.00
4 28.5
64.0
812.25