第12章 双变量关联性分析
双变量关联性分析

2
P416 1 2 3
作业
谢谢!
基本思想
对于不符合正态分布的资料,不用原始数据计算相关系数,而是按其取值由小到大排秩,然后根据其秩次来计算秩 相关系数。
设有 n 例观察对象,对每一例观察对象同时取得两 个测定值(Xi,Yi),分别按Xi,Yi (i=1,2, …,n) 的值由小到 大排秩为1, 2, …, n。它们的秩分别为 与 ,将 及 的秩次直接代入直线相关系数的计算公式可得到 Spearman秩相关系数 。
2
➢ 2×2 列联表 ➢ R×C列联表
关联性分析
例13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了384名青少年, 并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表13.3所示。试问两变量是否存
在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
nRnC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒绝 H0 ,接受 H1 ,可以认为自我效能感与领导行为类型之间有关 联。
进一步计算列联系数:
r
2 2n
115.508 0.481 115.508384
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用
病例号
1 2 3 4 5 6
血小板数
120 130 160 310 420 540
出血症状
++ +++
+ +
社会统计学第十二章 相关与回归分析

2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变
量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。
父母智力 组合
优+优
优+劣 一般+一般
劣+劣
子女智力 子女智力
优秀
一般
71.6 25.4
33.6 42.7
18.6 66.9
5.4 34.4
子女智力 低下
3.0 23.7 14.5 60.2
通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互独立的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是
r×c相对频数联合分布列联表
控制X,Y相对频数条件分布列联表
控制Y,X相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。
投票行为
受教育程度X
Y
大学以 大学以
FY
上
下
投票
160
129
289
弃权
7
61
68
合计:FX 167
r×c相对频数分布列联表的一般形式
在相对频数分布列联表中,各数据为各分类
卫生统计学两变量关联性分析

.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设
【2024版】变量之间的关联性分析

可编辑修改精选全文完整版变量之间的关联性分析六、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析七、回归分析1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2, (X))可以为连续型变量、有序分类变量或二分类变量。
如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2)配对的情况:用条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
两变量的关联性分析

例11-4 某地研究2~7岁急性白血病患儿的血小板数与出血症 状程度之间的相关性, 结果见表11-2,试用秩相关进行分析。
表 11-2 急性白血病患儿的血小板 (109/L)和出血症状 p2 出血症状 Y 秩次 病人编 血小板数 秩次 p q X 号 ⑴ ⑵ ⑶ ⑷ ⑸ ⑹ 1 +++ 11.5 1 121 1 2 138 2 4 ++ 9.0 3 165 3 9 + 7.0 4 310 4 16 3.5 5 426 5 25 ++ 9.0 6 540 6 36 ++ 9.0 7 740 7 49 3.5 8 1060 8 64 3.5 9 1260 9 81 3.5 10 1290 10 100 3.5 11 1438 11 121 +++ 11.5 12 2004 12 144 3.5 合计 78 650 ― ― 78 q2 ⑺ 132.25 81 49 12.25 81 81 12.25 12.25 12.25 12.25 132.25 12.25 pq ⑻ =⑶•⑹ 11.5 18 21 14 45 54 24.5 28 31.5 35 126.5 42
秩相关系数的假设检验—查表法
rs 界值表
概率,P
n 11 12 13 14 单0.10 双 0.20 0.427 0.406 0.385 0.367 0.05 0.10 0.536 0.503 0.484 0.464 0.025 0.05 0.618 0.587 0.560 0.538
15
0.354
婴儿腹泻 ABO血型
2 检验,确切概率法
H 0 : 两个(多个)总体概率分布相同
研究目的:组间比较
两变量关联性分析

N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
《医学统计课件:双变量分析》
3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估
统计学:两变量关联性分析
l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6
2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82
变量之间的关联性分析
变量之间的关联性分析六、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析七、回归分析1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2, (X))可以为连续型变量、有序分类变量或二分类变量。
如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2)配对的情况:用条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
统计学:两变量关联性分析
[(n 3 n) / 6] 2Ty t) (t表示x或y中相同秩次的个数)
12
例 11-4 中
rs
'
3
2 3 2 33 3 6 3 6 12 12 / 6 12
3
3
378
12
12 / 6
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
r
2 2 n
0 r 1
r 1表明两变量关联性越强 ,r 0表明两变量独立性越强 。
一、交叉分类2×2表的关联性分析
例11-6 观察对婴儿的不同喂养方式与婴儿腹泻之间的关系。 有腹泻
30
喂养方式
人工
无腹泻
10
合计
40
母乳 合计
17 47
25 35
42 82
H 0 : 喂养方式与腹泻无关( 两变量独立) (30 25 17 10) 2 82 9.98 P 0.005 40 42 47 35
310 426 540
3
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.05
关联分析
27
列联表的关联性分析
【检验步骤】
2值 2.计算检验统计量
n 599 40
2
Tmin
182 276 83.86 5 599
ad bc2 n 125 219 57 198 2 599 = 22.9174 a b c d a c b d 125 57 198 219 125 198 57 219
关联分析
24
列联表的关联性分析
【分析】
(1)该资料是计数资料,是两个定性变量交叉
分类的列联表资料。
(2)该研究者使用的统计方法是正确的。应用
四格表资料的 2 检验,然后计算列联系数,分
析两分类变量关联的程度。
关联分析
25
列联表的关联性分析
表12-4 幽门螺杆菌感染(HP)与家庭成员胃病史的关联性
因
素
阳性 125(98.14) 198(224.86) 323
阴性 57(83.86) 219(192.14) 276
合 计 182 417 599
感染率(%) 68.68 47.48 53.92
有胃病史 无胃病史 合 计
关联分析
26
列联表的关联性分析
【检验步骤】
1. 建立检验假设,确定检验水准 H0:HP与家庭成员胃病史之间相互独立 H1:HP与家庭成员胃病史之间有关联
关联分析
7
直线相关
进行相关分析时,首先绘制散点图(scatter plot),
初步判断两变量间的关系。
(a) 0< r <1
关联分析
(b) -1< r <0
(c) r =1
(d) r =-1
8
直线相关
(e) r =0
(f) r =0
(g) r =0
(h) r =0
关联分析
9
直线相关
图12-2 2000年某地16名7岁男孩体重与胸围散点图
关联分析
23
列联表的关联性分析 2×2列联表的关联性分析
该研究者采用检验进行假设检验,结 果 2 22.917 ,P < 0.005,差异有统计学意义, 故认为幽门螺杆菌感染(HP)与家庭成员胃病 史有关联性。 【问题12-4】 (1)该资料为何种类型资料? (2)该研究者所用统计方法是否正确?
• 代入公式,求出相关系数
r 值。
关联分析
12
直线相关
表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表
编号 (1) 1 2 3 4 5 15 16 合计
x 体重kg
(2) 24.5 27.0 23.5 28.5 23.0 20.2 21.0 366.0
y
胸围cm (3)
2 x 2(4)=(2)2 y (5)=(3)2 相关
相关系数的假设检验
查表法
根据自由度 n 2 ,查附表14,将所得
某概率水平(如0.05)对应的
r 值与
r 界值相比较,若
r 值小于 r 界值,则P大于相应的概率水平,反
之,P小于相应的概率水平,然后作出推断。
关联分析
15
直线相关
相关系数的假设检验
t 检验方法
r 0 tr Sr
不能只根据相关系数绝对值的大小来推断两个变量 之间有无相关以及相关的密切程度,而必须对相关 系数做假设检验。
关联分析
20
等级相关(秩相关)
等级相关应用范围:
(1)不服从双变量正态分布的资料
(2)总体分布类型未知的资料 (3)等级资料 Spearman等级相关系数的取值和意义与Pearson直线相关 系数相同 计算得到的等级相关系数,需对其进行假设检验
R 1C 1 2 12 1 1
关联分析
28
列联表的关联性分析
【检验步骤】 3.确定P值,做出统计推断 查附表9,0.005<P<0.01,按 0.05水准,拒绝 H0,接受H1,差异有统计学意义,可认为幽门螺
杆菌感染(HP)与家庭成员胃病史之间有关联。
按水准,拒绝H0,接受H1,差异有统计学意义,
可认为2000年该地7岁男孩体重与胸围之间有相
关关系。
关联分析
19
直线相关分析的注意事项
相关分析资料要求x、y 都应是来自双变量正态总 体的随机变量。 进行相关分析前,应先绘制散点图。
相关分析要有实际意义,不能把毫无关联的两个事 物或者现象拿来做比较。
关联分析
29
列联表的关联性分析
4.计算关联系数 可计算Pearson列联系数(contingency coefficient)
r
2 2 n
22.9174 r 0.1920 22.9174 599
关联分析
30
列联表的关联性分析
其他类型资料的关联性分析(自学内容)
配对设计2×2表的关联性分析
单变量分析(univariate analysis) 2 检验、ANOVA t、z、 双变量分析(bivariate analysis)
如研究年龄与血压的关系,小儿年龄与体重的关 系,血中凝血酶浓度与凝血时间的关系。
直线回归与相关 多变量分析(multivariate analysis) 如多变量线性回归,逐步回归,判别 分析,聚类分析,logistic 回归分析等
关联分析
17
直线相关
【检验步骤】 2.计算检验统计量 t r 值
tr r 0 1 r n2
2
0.8343 1 0.8343 16 2
2
5.6623
关联分析
18
直线相关
【检验步骤】 3.确定P值,做出统计推断
P 按自由度 n - 2 16 - 2 14 ,查附表4, 0.001
关联分析
10
直线相关
r
x x y y x x y y
2
2
没有单位,取值介于-1与1之间 相关方向用正负号表示
相关的密切程度用绝对值表示
关联分析
11
直线相关
计算例12-1中体重与胸围间相关系数
• 计算基础数据,并列成相关系数计算表
• 求出 x 、 y 、 x 2 、 y 2 、 xy (见表12-2)
关联分析
4
直线相关 【问题12-1】 该资料有何特点? 该资料应做何种统计分析?步骤如何? 【分析】 连续型随机变量,属于定量资料 。 可以探讨它们之间的相关关系,还可分 析两变量之间的数量依存关系 。
关联分析
5
直线相关 相关分析的概念
直 线 相 关 (1inear correlation) , 又 称 简 单 相 关
关联分析
21
Spearman秩相关分析原理
它是用等级相关系数 rs 来说明两个变量间相关关系的密 切程度与相关方向。 其基本思想是将n对实测值xi、yi ( i =1,2,3,…,n) 分别由小到大编秩,并以其秩次进行积矩相关分析。 计算公式:
rs 1
6 d 2 n(n 2 1)
关联分析
关联分析
2
主要内容
直线相关相关的概念及应用条件 相关系数的意义及计算 相关系数的假设检验 线性相关分析的注意事项 秩相关的应用条件及方法步骤
列联表的关联性分析
关联分析
3
直线相关
【例12-1】 2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。
表12-1 2000年某地16名7岁男孩体重与胸围资料
61.0 62.0 60.0 64.0 59.3 58.0 57.0 926.6
600.25 725.00 552.25 812.25 529.00 408.04 441.00 8548.30 x2
3721.00 3844.00 3600.00 4096.00 3516.49 3364.00 3249.00 53813.56
R×C列联表的关联性分析
关联分析
31
关联分析
32
22
列联表的关联性分析 2×2列联表的关联性分析
【例12-4】 某研究者欲研究幽门螺杆菌感染(HP)
与家庭成员胃病史的关联性,随机抽取599例慢
性胃炎或胃溃疡的患者,分成家庭成员有胃病史
组和家庭成员无胃病史组,结果家庭成员有胃病
史组182例,HP阳性125例;家庭成员无胃病史组
417例,HP阳性198例。
Sr 1 r 2 n2
n2
关联分析
16
直线相关
下面对例12-1所得相关系数进行假设检验 【检验步骤】 1. 建立检验假设,确定检验水准
H 0 : 0 ,2000年该地7岁男孩体重与胸围无相关关系
H1 : 0 ,2000年该地7岁男孩体重与胸围有相关关系
0.05
1494.50 1674.00 1410.00 1824.00 1363.90 1171.60 1197.00 21332.38 xy
13
x
y
y
2
关联分析
直线相关
r
x x y y x x y y