统计学:两变量关联性分析

合集下载

两个分类变量的关联分析

两个分类变量的关联分析

第十章 两变量关联性分析三、两个分类变量的关联分析n对分类变量间的联系,可作关联(association)分析n对两个分类变量交叉分类计数所得的频数资料(列联表) 作关于两种属性独立性的c 2 检验交叉分类2×2列联表n对样本量为n的一份随机样本同时按照两个二项分类的特 征(属性)进行交叉分类形成一个2×2交叉分类资料表, 也称为2×2列联表(contingency table)。

n 例10­3:为观察行为类型与冠心病的关系,某研究组收集 了一份包含3154个个体的样本,研究者将观察对象按行 为类型分为A型(较具野心、进取心和有竞争性),B型 (较沉着、轻松、和做事不慌忙)。

对每个个体分别观 察是否为冠心病患者和行为类型两种属性,2×2种结果 分类记数如下表所示。

试分析两种属性的关联性。

表 10­3 行为类型与冠心病的关系行为类型(属性 A) 冠心病(属性 B)合计 有(1) 无(2)类型 A(1) 178 **** **** 类型 B(2) 79 1486 1565 合计 257 2897 3154表 10­42×2 交叉分类频数表的一般形式及概率表达属性 A属性 B合计121 11 A ( 11 p ) 12 A ( 12 p ) 1 n ( 1 r p ) 2 21 A ( 21 p ) 22 A ( 22 p ) 2 n ( 2 r p )合计1 m ( 1 c p )2 m ( 2 c p )n (1.0)0 H :属性 A 与 B 互相独立,1 H :属性 A 与 B 互相关联。

独立性检验就是考察 cj ri ij p p p = 成立与否。

å- = ji i i i T T A , j2j j 2)( c0 H :行为类型与冠心病之间互相独立1 H :行为类型与冠心病之间有关联a =0.05将表中各数据代入公式(9­9),22(1781486791411)3154 39.90158915652572897c ´-´´ == ´´´ 20.05,13.84 c= , 220.05,1c c> P <0.05,说明行为类型与冠心病之间存在着关联性。

第11章 两变量关联性分析

第11章 两变量关联性分析
简称X和Y不相关。
样本相关系数r
协方差(covariance)的定义、含义
X的样本方差 =
n
(Xi X)2
i 1
n 1
Y的样本方差 =
n
(Yi Y )2
i1
n 1
X和Y的样本协方差 =
n
(X i X )(Yi Y )
i1
n 1
图11-3 双变量协方差示意图
n
r lXY
( X i X )(Yi Y )
trs
rs 0 Srs
Srs
1 rs2 n2
第三节 分类变量的关联性分析
对两个定量变量的关联性,我们可用Pearson积矩相 关系数或秩相关系数来描述;对两个分类变量,通常是 先根据交叉分类计数所得的列联表进行两种属性独立性 的检验,然后计算关联系数。
一、交叉分类2×2表的关联分析
例11-6: 研究吸烟方式与患慢性气管炎是否有关,某研究者 随机调查了200例年龄相仿的吸烟者,对每个个体分别观察慢 性气管炎与否和吸烟方式两种属性,2×2种结果分类记数如 表11-3所示。试分析两种属性的关联性。
二、相关系数的意义及计算
线性相关系数 (linear correlation coefficient)
又称 Pearson积矩相关系数(Pearson product moment coefficient)
相关系数 =
X和Y的协方差
( X的方差)(Y的方差)
总体相关系数ρ:若ρ≠0, 称X和Y线性相关, 简称相关;若ρ=0, 则
:H吸0 烟方式与慢性气管炎有无之间互相独立
:H吸1 烟方式与慢性气管炎有无之间有关联 α=0.05 将表中各数据代入公式(9-7)

卫生统计学两变量关联性分析

卫生统计学两变量关联性分析

.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设

两变量关联性分析

两变量关联性分析

N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

医学统计学-第9章 关联性分析

医学统计学-第9章 关联性分析
9.2.1 解决什么问题? ⑴统计描述:推断两变量是否有联系?是否
线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:

10两变量关联性分析

10两变量关联性分析

线性相关(linear correlation)
可见两个变量间的关系并不是函数式的确定关 系——非函数式确定性关系
总的来说,体重轻者基础代谢低,重者基础代谢 高,二者变化趋势呈正向关系——正相关
各点的态势趋近一条直线呈线性——线性相关 线性相关(linear correlation),又称简单相关,
人的肺活量往往随着胸围的增加而增加,二者 间是否有联系?
举重运动员所能举起的最大重量是否与他的体 重有关?
在水碘含量不同的地区,甲状腺肿大的患病情 况不太相同,它们间是否有关联?
相关关系与确定性关系
所谓确定性关系是指两变量间的关系是函数关系:已知一个变量的值, 另一个变量的值可以通过这种函数关系精确计算出来。
第十章:两变量 关联性分析
问题的提出
前面的章节已经讨论的统计学方法着重于比较单 个变量的组间差别(例如:均数的差别、率的差别、 构成比的差别、中位数的差别等)
但是在医学研究中,还需要对两个随机变量间的 关系进行量化研究
问题的提出
人的体重往往随着身高的增加而增加,算方法如下:
rs
l xy lxx l yy
将X、Y变量所对应的秩次作为新变量,代入上述公式
计算器求得:
56.5
rs
-0.741 82.5 70.5
秩相关系数的假设检验
因此样本资料的秩相关系数为-0.741,意味着两变量间可 能存在负关联
rs来自10个个体值组成的样本,存在着抽样误差,故计算 出rs后,需作的假设检验
n
( Xi X )(Yi Y )
r
i 1
0.964
n
(
Xi
X
)2
n
(Yi

CH11

CH11
表 11-14 编号 1 2 3 4 5 10 名正常成年男性的血浆清蛋白含量及血红蛋白含量检测结果 血浆清蛋 白含量(x) 35.5 36.5 38.5 37.5 36.5 血红蛋白含 量(y) 119.5 120.5 127.5 126.5 120.5 编号 6 7 8 9 10 血浆清蛋 白含量(x) 35.4 34.5 34.2 34.6 33.5 血红蛋白 含量(y) 118.5 110.5 109.2 108.5 105.3
思考与练习
7. 思考题 (1)Pearson积矩相关系数 经检验无统计学意义,是否 积矩相关系数r经检验无统计学意义 积矩相关系数 经检验无统计学意义, 意味着两变量间一定无关系? 意味着两变量间一定无关系? 答:对满足二元正态分布的随机样本,若直接计算 Pearson积矩相关系数且经检验无统计学意义,并不意味着 两变量间一定无关系,若两者之间是非线性关系的话,其 Pearson积矩相关系数也会无统计学意义,因此在确定两变 量间有无线性关系时应先绘出散点图进行直观考察后再作 出判断. (2)Pearson积矩相关系数 经检验有统计学意义,P值 积矩相关系数r经检验有统计学意义 积矩相关系数 经检验有统计学意义, 值 很小,是否意味着两变量间一定有很强的线性关系? 很小,是否意味着两变量间一定有很强的线性关系? 答:Pearson积矩相关系数r经检验有统计学意义,且P值 很小,并不意味着两变量间一定有很强的线性关系.参看 本章第一节线性相关应用中应注意的问题中的2,3,4,5 点.
χ2 χ2 +n
关于 Pearson 列联系数是否为零的检验等价于 Pearson χ 2 检验.
思考与练习
1.对某省 8 个地区水质的碘含量及其甲状腺肿的患病率作了调查后得到表 11-13 的数据,试问不同地区的甲状腺肿的患病率高低与本地区水质的碘含量有无关联?

第十一讲卫生统计学两变量关联性分析

第十一讲卫生统计学两变量关联性分析

第一节 线性相关
一、线性相关的概念
线性相关(linear correlation)又称简单相关 (simple correlation),用于双变量正态分布 (bivariate normal distribution)资料。其性 质可由图11-2散点图直观的说明。
散点图
为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。例 如,每人的身高和体重。然后在直角坐标系 上描述这些点,这一组点集称为散点图。
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
医学上,许多现象之间也都有相互联系,例如:身高与体 重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。 在这些有关系的现象中,它们之间联系的程度和性质也各不 相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之 间的关系密切得多,而体重和身高的关系则介与二者之间。 另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝 病毒和乙肝之间是因果关系;但是,有的现象之间因果不清, 只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能 说有因果关系。相关与回归就是用于研究和解释两个变量之 间相互关系的。
为了研究父亲与成年 儿子身高之间的关系,卡 尔·皮尔逊测量了1078对父 子的身高。把1078对数字 表示在坐标上,如图。用 水平轴X上的数代表父亲 身高,垂直轴Y上的数代 表儿子的身高,1078个点 所形成的图形是一个散点 图。它的形状象一块橄榄 状的云,中间的点密集, 边沿的点稀少,其主要部 分是一个椭圆。
相关系数的计算公式:
r
( X X )( Y Y ) l XY
( X X ) 2 (Y Y ) 2
l XX l YY
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6

2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82
例11-2
就例11-1资料计算相关系数
r
0.404 22.933
0.926
二、相关系数的统计推断
原假设H0: ρ=0 (两变量无直线关系) 检验方法:
(1)t检验
t
r 0 1 r n2
2
,
v n2
例11-3
t
就例11-2所得r =﹣ 0.926 值作显著性检验
0.926 1 0.926 15 2
2
8.874 , v n 2 13
查t界值表, t0.001 / 2,13 4.221 ,
P 0.001
3.5
4.5 5.5 6.5 -0.5 8.5 —
12.25
20.25 30.25 42.25 0.25 72.25 378
本例 n=12
二、 相同秩次较多时rs的校正 1.校正公式rs’
rs, 式中 [(n 3 n) / 6] (Tx Ty ) d i2 [(n 3 n) / 6] 2Tx (t T (或T )
浓度x 时间 1.1 14 1.2 13 1.0 15 0.9 15 1.2 13 1.1 14 0.9 16 0.6 17 … … … … … … 0.7 17
开机
mode → 2

shift

AC

1.1

xD,yD

14

DATA
1.2
→ xD,yD → 13

DATA






x y x
1. 常见的散点图
相关分析也称积差相关分析,是研究两个变量密切程度的统计方法 条件:两个变量x与y均为服从正态分布的随机变量(双变量正态分布)
一.相关概念 正相关:x与y同向(直线)变化 负相关: x与y反向(直线)变化 零相关: x与y无(直线)关系
注意:相关关系不是因果关系
2. .相关系数的意义及计算
1 rs 1
4.确定P值作出结论
例11-4
编号 1 2
某地研究2~7岁急性白血病患儿的血小板数与出血症状程度的相关性。
血小板x 121 138 秩次pi 1 2 出血症状y +++ ++ 秩次qi 11.5 9.0 d=p-q -10.5 -7 d2 110.25 49
3
4 5 6
165
310 426 540
3
4 5 6
+
++ ++
7.0
3.5 9.0 9.0
-4
0.5 -4 -3
16
0.25 16 9
7
8 9 10 11 12 合计
740
1060 1260 1290 1438 2004 —
7
8 9 10 11 12 78
+++ —
3.5
3.5 3.5 3.5 11.5 3.5 78
第二节
秩相关
rank correlation 目的: 用秩和法作直线相关分析
资料条件:
(1)不服从双变量正态分布而不宜作积差相关分析 (2)总体分布类型未知 (3)一个变量数据是等级指标,另一个是连续型指标
一、 Spearman 等级相关
步骤: 1.将两个变量x与y的观察值分别按从小到大编秩,即(xi,yi )→(pi,qi),
两变量关联性分析
( analysis correlation of two variable ) 要求:
1.掌握相关的应用条件和pearson相关系数算法
2.了解等级资料秩相关的spearman相关系数算法 3.掌握分类变量的相关性分析的列联系数算法
第一节 线性相关
前面几章主要讨论了单变量(univariate)资料的统计 分析,着重于描述某一变量的统计特征或比较该变量的组 间差别。但是在大量的医学科研与实践中,经常会遇到对 两个变量之间关系的研究,如年龄与血压、体重与身高、
拒绝H 0,可认为凝血酶浓度与 凝血时间存在负相关。
(2) r检验
查r 界值表(附表13)
v=n-2
r界值表
三、线性相关应用中注意的问题
1.样本相关系数接近零并不意味着两变量间一定无相关关系。
2.人为选定变量数值时莫做相关
3.出现异常值时慎用相关
4.相关未必真有内在关系
5.分层资料盲目合并易出假象
相关系数(coefficient of correlation),是描述两个变量的密切程度与方向的指标,用r表示:
r
(x x
i 1 n n i
(x
i
i
x )( yi y )
x) 2
n
(y
n i i 1
i
y)2
i

l xy l xx
n
l yy n xi i 1 n
药物剂量与疗效、污染程度与污染源距离等,相关就是研
究这种两个变量之间关系的统计方法。
一、线性相关的概念及其统计描述
例11-1 随机抽取15名健康人,测定血液的凝血酶浓度(单位/毫升)及凝固时间,
数据如下。据此如何判断这两项指标间有否相关? 受试者 浓度 1 1.1 2 1.2 3 4 5 1.2 6 1.1 7 0.9 8 0.6 9 10 11 12 13 1.1 14 1 15 0.7
相关文档
最新文档