双变量关联性分析

合集下载

卫生统计学两变量关联性分析

卫生统计学两变量关联性分析

.
4
图1 15名正常成年人体重和双肾体积的散点图
.
5
由于x、y两个变量都是随机变量,它们间的关系不可能 像函数关系那样,能以一个变量的数值精确地确定出另 一个变量的数值,我们称这类变量之间的关系为非确定 性关系。
两个随机变量x、y之间大致呈直线趋势的关系称为直线 相关,又称简单相关,直线相关的性质可由散点图直观 说明。
数与列联系数。列联系数的最大值为 (k 1) / k 1 ,如四 格表资料的列联系数最大值为 (2 1) / 2 0.5 0.707,为
了获得0-1尺度的列联系数,可将获得的列联系数除以
列联系数最大值 (k 1) / k, k min(R,C)。相对而言, Cramer
V 系数已为0-1尺度,因此该系数更适用。
.
24
假设检验是回答两变量间的相关关系是否具有统计学意 义,p值越小并不表示相关性越强,回答相关的强弱需要 计算总体相关系数的ρ置信区间。由于一般情况下(ρ≠0 时) ρ的分布并不对称,故先对r按(1)式作z变换:
z
1 2
ln
1 1
r r
(1)
由于变换后的z近似地服从于均数为
1 2
ln
1 1
散点图的作用能使我们直观地看出两变量间有无关系。 正相关、负相关、非直线相关和零相关。
.
6
0< r <1
.
7
-1< r <0
.
8
r =1
.
9
r =-1
.
10
r=0
.
11
r=0
.
12
二、相关系数的意义及计算
直线相关系数又称Pearson积矩相关系数,是用以定 量描述两个变量间直线关系密切程度和(1) 建立假设

第13章思考与练习

第13章思考与练习

第十三章双变量关联性分析【思考与习题】一、思考题1.两变量间的关联性是否可解释为因果关系2.2⨯2列联表的关联性分析与两样本率比较的2χ检验有何不同3.相关系数r经假设检验有统计学意义,且得到的P值很小,是否表示两变量间一定有很强的直线关系4.简述Pearson积矩相关与Spearman秩相关的区别与联系。

二、案例辨析题为研究年龄与牙齿AKP酶反应活性之间的关系,某医生在其接诊的患者中随机抽取281例,按年龄(岁)分为三组进行观测,测量各患者牙齿的AKP酶反应活性,如表13-1所示。

问年龄与牙齿AKP酶反应活性之间有无关系表13-1 281例患者年龄与牙齿AKP酶反应活性的分布年龄AKP酶反应活性合计—+++<31517365831~234549051~249712133合计31148102 281按照R×C表的2χ检验结果,得2χ=,005.0<P,故按α=水准,拒绝H,可认为不同年龄患者的AKP酶反应活性不同,两者之间有关系。

以上分析正确吗三、最佳选择题1.Pearson积矩相关系数的假设检验,其自由度为A.1-nB.2-nC .12-nD .)1(2-nE .n2.积矩相关系数的计算公式是 A .xy xy yyl r l l =B.r =C.l r =D.l r =E.r =3. 直线相关分析中,若0.05,||r r ν>,则可认为两变量之间 A. 有一定关系B. 不存在直线相关关系C. 有直线相关关系D. 有直线相关关系,且为正相关E. 有直线相关关系,且为负相关 4.下列指标中可正可负的是 A .F 统计量 B .2χ统计量 C .21()nxx i l x x ==-∑D .1()()nxy i l x x y y ==--∑E .21()nyy i l y y ==-∑5.研究18岁女大学生体重和肺活量的关系时,表达正确的无效假设是 A .体重与肺活量无关联 B .体重与肺活量有关联 C .体重与肺活量有直线关系 D .体重与肺活量有因果关系 E .体重与肺活量无因果关系 6.计算Pearson 列联系数的公式为 A.l r =B .nr +=22χχC .22χχnr +=D .12-=n r χE .nr +=22χχ7.某放射科医师收集脑外伤患者30例,观察脑出血直径和病人昏迷的程度(轻度、中度、重度),欲分析昏迷程度是否与病灶大小有关,可进行 A .Pearson 相关分析 B .Spearman 秩相关分析 C .两小样本比较的t 检验 D .方差分析 E .2χ检验8.对两个分类变量的频数表资料作关联性分析,可用 A .积矩相关或等级相关B .积矩相关或列联系数C .列联系数或等级相关D .积矩相关E .等级相关9.两组数据分别进行直线相关分析,对1r 进行假设检验得到P <,对2r 进行假设检验,得到P <,可以认为A .第一组的两个变量关系比第二组密切B .第二组的两个变量关系比第一组密切C .更有理由认为第一组的两个变量之间有直线关系D .更有理由认为第二组的两个变量之间有直线关系E .两组变量关系同样密切四、综合分析题1.为研究某病成年男性患者血浆清蛋白含量与血红蛋白含量的关系,某医生测得10名患者血浆清蛋白含量(g/L)及血红蛋白含量(g/L)见表13-2所示,试分析二者是否有关联。

两变量关联性分析

两变量关联性分析

线性相关分析的步骤
1. 绘制散点图
凝血酶时间(秒)
18 17 16 15 14 13 12
0.5
0.7
0.9
1.1 1.3
凝血酶浓度(毫升)
图1 例11-1中数据的散点图
2. 计算相关系数
r
( X X )(Y Y ) lXY
( X X )2 (Y Y )2
lXX lYY
二 秩相关
适用条件:
①资料不服从双变量正态分布而不宜作积差 相关分析;
②总体分布型未知,一端或两端是不确定数 值(如<10岁,≥65岁)的资料;
③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
2. 计算公式
研究目的:分析两个变量之间有无相关关系 相关系数: (linear correlation coefficient)
描述两变量间线性相关的密切程度 和相关方向的统计量
简单线性相关
当一个变量X由小到大,另一个变量Y亦 相应地由小到大(或由大到小),两变量的 散点图呈直线趋势,那么这两个变量之间有 线性关系。分析这种线性关系的理论和方法, 统称为直线相关或线性相关。
受H1 ,认为凝血酶浓度与凝血酶时间之间存在负相关。 此结果与查表的结果是一致的。
(二)查表法
• 查 r 界值表(附表15)
n2
线性相关中应注意的问题
• 1.样本的相关系数接近零并不意味着两变量 间一定无相关性.
• 2.一个变量的数值人为选定时莫作相关. • 3.出现异常值时甚用相关. • 4.相关未必真有内在联系. • 5.分层资料盲目合并易出假象.

两变量关联性分析

两变量关联性分析

N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

医学统计学-第9章 关联性分析

医学统计学-第9章 关联性分析
9.2.1 解决什么问题? ⑴统计描述:推断两变量是否有联系?是否
线性?程度如何?是正相关还是负相关? ⑵统计推断:两者的关系是否有统计学意
义?根据专业知识下结论。
9.2.2 相关系数的统计推断
r是样本相关系数,是总体相关系数ρ的估计
值,要想判断X、Y间是否有相关关系,就要检
验r是否来自总体相关系数ρ为零的总体。方法
本例 ν=n对-2=15-2=13,r0.05,13=0.514, 得到: p<0.05,即相关系数有统计学意义。
tr =
− 0.926 = −8.874,
1 − (0.926)2
ν = 15 − 2 = 13
15 − 2
可按公式(9-2) 计算
查附表C2(教材560),t 0.05,13=2.160;t> t 0.05,13,按α=0.05水准,拒绝H0,接受H1,故 可以认为凝血酶浓度与凝血时间呈负相关关系。
9.2.3 Spearman 秩相关
一、秩相关的概念及其统计描述 前面指出:Pearson积矩相关的假设检验要求
X和Y均服从正态分布。对那些不服从正态 分布或等级资料、总体分布未知的资料,因 难以进行分析,所以就不宜用积矩相关系数 来描述相关性。
此时,可采用等级相关(rank correlation), 或称秩相关来描述两个变量间相关的程度与方 向。该法是利用两变量的秩次大小作线性相关 分析,对原变量的分布不作要求,属非参数统 计方法。
例 某地研究2-7岁急性白血病患儿的血小
板数与出血症状程度之间的相关性,结果见下 表:试用秩相关进行分析。
首先先将实测原始数据由小到大排序 编秩,以pi表示Xi秩次;qi表示Yi的
次,见上表所示。
观察值相同的取平均秩次;将pi、qi直接 替换(9-1)中的X和Y的均数,直接得 到如下算式:

《医学统计课件:双变量分析》

《医学统计课件:双变量分析》

3
判定系数
表示自变量对因变量变异的解释程度,取值范围为0到1。
双变量分析中的回归分析
简单线性回归
研究一个自变量对因变量的影响,建立一 条直线模型来解释二者之间的关系。
多元线性回归
研究多个自变量对因变量的影响,建立多 个变量之间的线性模型。
逻辑回归
用于研究因变量是二分类变量的情况,可以预测概率或者类别。
深入了解数据
通过双变量分析,我们可以深入了解数据之间的联 系,挖掘出隐藏的关联和规律。
预测和决策支持
基于双变量分析的结果,我们可以建立预测模型和 决策模型,为决策提供科学依据。
发现因果关系
双变量分析可以帮助我们确定两个变量之间的因果 关系,从而为进一步研究提供指导。
优化治疗方案
在医学领域,双变量分析可以用于优化治疗方案, 寻找最佳的药物组合和剂量。
双变量分析的常见方法和工具
1 相关性分析
2 回归分析
通过计算相关系数,分析两个变量之间的线性相 关程度。
建立回归模型,研究一个或多个自变量对因变量 的影响。
3 方差分析
4 卡方检验
比较不同组别之间的均值差异,判断因素之间是 否存在显著性差异。
用于比较观察频数和期望频数之间的差异,判断 两个变量之间是否存在关联。
医学统计课件:双变量分 析
双变量分析是一种研究两个变量之间关系的统计方法。通过该分析,我们可 以了解变量之间的相关性、回归关系,以及不同组别之间的差异。
什么是双变量分析?
双变量分析是指研究两个变量之间关系的统计方法。通过分析两个变量之间 的关联性和相关程度,可以揭示变量之间的内在关系。
双变量分析的意义和作用
回归分析模型的构建和评估

统计学:两变量关联性分析

统计学:两变量关联性分析
2
l xy
yi
x y
i 1
n
2
,
l xx
x
i 1
2 i
l yy
y
i 1
2 i
n yi i 1 n
r也称person系数,其值为-1≤r≤1。 r>0 , 表示正相关 r<0 , 表示负相关 这里的r是总体相关系数ρ 的估计值
计算器计算过程
1.0 0.9
1.0 0.9 1.1 0.9
时间
14
13
18 17
15
15
13
14
16
17
14 16 15
16
14
15 17
© ë £ ¨Ã ä £ ±¼ ª Ê ý Ñ Ä
16 15 14 13 12
0.5
0.7
0.9
ý Ñ Ä ª à ¸ Å ¨¶ È £ ¨º Á É ý £ ©
1.1
1.3
¼ 11-1 ý Í À 11-1Ö Ð Ê ý ¾ Ý É ¢ µ ã Í ¼
若出现相同值按平均秩赋值,当(pi,qi)的相同秩次不多时按下面操作。
2.求每对观察值秩次之差di= pi-qi (i=1~n)
3.计算等级相关系数rs
当 当 n 50时,统计量 rs 1 n 50时,统计量 6

2
di
2
n(n 1)
vn
查附表15
Z rs n 1
i 1 i i i 1
n
n
2 i
y
i 1
n
2 i
x y
i 1 i i 1
n
n
i
.82

(完整版)SPSS双变量相关性分析

(完整版)SPSS双变量相关性分析

数学建模SPSS双变量相关性分析
关键词:数学建模相关性分析SPSS
摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时,要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出评价结果。

本文由数学建模中的双变量分析出发,首先阐述最主要的三种数据分析:Pearson系数,Spearman系数和Kendall系数的原理与应用,再由实际建模问题出发,阐述整个建模过程和结果。

r s=
∑(P i−P ave)(Q i−Q ave)√∑(P i−P ave)2(Q i−Q ave)2
在SPSS中打开数据,点击:分析—>相关—>双变量,打开对话窗口,选择需要分析的两个变量、Spearman秩相关系数分析以及双侧检验。

需要说明两点:
(1)因各体重与各体质数据之间的相关性正负未知,需选用双侧检验;
(2)除了数据满足非正态分布以外,Spearman秩相关系数分析还需要数据分级,以计算秩。

但在SPSS中程序会自动生成秩,无需再手动分级。

注意要保证总体相关系数ρ与样本相关系数r保持一致,还须考虑Sig值。

由数据,Sig<0.5表示接受原假设,即Rho>|r|。

Sig<0.5则拒绝原假设,两者不相关。

而r值则代表了正负相关性,以及相关性大小。

结果见表。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2

xy x y / n
[( x2 ( x)2 / n][ y 2 ( y)2 / n]
相关系数 r 的性质

1 r 1 ,其正负表示两变量间直线相关 的方向;

r 绝对值大小表示两变量之间直线联系的 密切程度。
具体步骤

绘制散点图观察两变量间是否有直线趋势。 计算相关系数
2
小结
1. Pearson积矩相关与Spearman等级相关有何异 同? 2. 配对分类变量的2×2资料在什么情况下用 2 McNemer检验,什么情况下用Pearson 检验?
作业
P416 1 2 3
n2
tr
r 1 r2 n2

0.875 1 0.8752 15 2
6.517
n 2 13
(3)确定P值并作出统计推断

0.001 =0.05水准,拒绝 查t界值表,得 P ,按 , H1 接受 H,相关系数有统计学意义,可以认为体 0 重和双肾体积之间有直线相关关系。
| rs | r 15,0.001
分类变量的关联性分析
两个分类变量间的关联性可用Pearson列联 系数(contingency coefficient)等统计量来描 2 述,其假设检验可采用列联表的独立性 检验。
关联性分析
2×2 列联表 R×C列联表

例13.6 为研究青少年在校情况与对艾滋病知 晓情况之间的关系,某研究者在某地共调查了
舒张压 x (2) 75 80 80 90 90 90 90 95 95 100 100 110 115 120 125 ―
某医生欲研究血小板浓度和出血症的关系,测 得12名病人的血小板浓度(109/L)和出血症 如下表:
病例号 血小板数 出血症状 1 120 ++ 2 130 +++ 3 160 4 310 5 420 + 6 540 +
分层资料不可盲目合并(图13.3)

直线回归与直线相关分析的联系与区别
联系

对于服从双变量正态分布的同一组数据,既 可作直线相关分析又可作直线回归分析,相关 系数与回归系数正负号一致。本例:r=0.762 b=2.11

对于同一样本,相关系数与回归系数的假设检 验等价 ,即tb=tr
bS x 对于服从双变量正态分布的同一组资料 r = Sy
表 13.2 编号 (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 合计
15 例成年男子的舒张压与夜间最低血氧含量分级测量值 秩次 pi (3) 1 2.5 2.5 5.5 5.5 5.5 5.5 8.5 8.5 10.5 10.5 12 13 14 15 120 夜间最低血氧 含量分级 y (4) 1 1 2 1 2 2 3 2 3 3 3 4 4 4 4 ― 秩次 qi (5) 2 2 5.5 2.0 5.5 5.5 9.5 5.5 9.5 9.5 9.5 13.5 13.5 13.5 13.5 120
病例号 血小板数 出血症状 7 740 8 1060 9 1260 10 1230 11 1440 ++ 12 2000 -
秩相关的适用条件

不服从二元正态分布 用等级资料表示的原始资料
总体分布未知或边界不确定的资料


基本思想
对于不符合正态分布的资料,不用原始数 据计算相关系数,而是按其取值由小到大排 秩,然后根据其秩次来计算秩相关系数。
(2)计算检验统计量
2 A 2 n( 1) 34.213 nR nC
=(4-1)(2-1)=3
(3)确定P值,作出统计推断
查 2 界值得P<0.005,按=0.05水准拒
绝 H0 ,接受 H1 ,可以认为自我效能感与 领导行为类型之间有关联 。
进一步计算列联系数:
115.508 r 0.481 2 n 115.508 384
384名青少年,并对每名青少年按是否在校和
对艾滋病是否知晓两种属性交叉分类,如表
13.3所示。试问两变量是否存在关联性?
表13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表
是否知晓
是否在校
是 否 合计

156 27 183

62 139 201
合计
218 166 384
(1)建立检验假设
定量描述两变量间直线关系的方向和密切

程度。
直线相关系数(linear correlation coefficient )
又称Pearson 积矩相关系数(product moment correlation coefficient)
离均差乘积和
r
lxy lxxl yy

( x x )( y y ) (x x ) ( y y)

用回归可以解释相关: R2 SS回 / SS总 r 2
区别


资料要求:直线相关要求双变量正态分布,直 线回归要求给定自变量值时,因变量服从正态 分布 应用及意义:相关系数说明两变量间相互关系 的方向与密切程度 ;回归系数说明两变量的 数量依存关系

r l xy / l xx l yy 计算公式:
r
2 n
2
本例r=0.481

列联系数r取值范围为0~1,数值越接近 1,关联性 越强。
2 其假设检验等价于上述的两分类变量独立性的
检验。
例13.7 为研究自我效能感与领导行为类型是否有 关,某研究者抽样调查了来自某省各三甲医院的 238名护士长,并对每个个体按自我效能感和领导 行为类型两种属性交叉分类,如表13.5所示。试 分析两变量的关联性。
表13.5 自我效能感与领导行为交叉分类表 领导行为类型
自我效能感
低 高 合计
pm 67 32 99
pM 25 12 37
Pm 13 34 47
PM 17 38 55
合计 122 116 238
(1)建立检验假设
H0:自我效能感与领导行为类型间无关联 H1:自我效能感与领导行为类型间有关联
=0.05
X Y 0
2 2 σX 1, σ Y 1, ρ X Y 0
2 2 X Y 0 σ X 2, σ Y 4, ρ X Y 0.75
注意事项

相关关系不一定是因果关系 例如:树苗与儿童身高的关系
注意事项

观察例数较少(如n<15)时,相关系数容易 受个别观察对象的特殊值影响
舒张压 x (2) 75 80 80 90 90 90 90 95 95 100 100 110 115 120 125 ―
具体步骤

计算相关系数
rs
l pq l pp lqq
0.897

建立假设检验,确定检验水准
H 0 : s 0 ,即舒张压与夜间最低血氧含量分级无相关关系
H1 : s 0 ,即舒张压与夜间最低血氧含量分级有相关关系
H 0 : 两变量互相独立(无关系)
H1
: 两变量互相关联(有关系)
=0.05
(2)计算检验统计量
2 2 ( A T ) ( ad bc ) n 2 T (a b)(c d )(a c)(b d )
(156 139 62 27) 2 384 115.508 218 166 183 201
0.05
(2)计算检验统计量
< 50 本例 n = 15 ,直接查等级相关系数界值表,得 r15,0.001 =0.779 。
(3)确定 P 值并作出统计推断 =0.779,P<0.001,按 0.05 水 准,拒绝 ,接受 ,可以认为舒张压与夜 H1 H0 间最低血氧含量分级之间有正相关关系。
r lxy lxx l yy 0.875


相关系数的统计推断(假设检验)
1. t检验
(1)建立假设检验,确定检验水准
H 0 : 0,即体重和双肾体积之间无直线相关关系
H1 : 0,即体重和双肾体积之间有直线相关关系
0.05
(2)计算检验统计量
r 0 r 0 tr 2 Sr (1 r ) / (n 2)
2. 查表法 直接查相关系数界值表, , 13
r0.05,13 =0.514, r0.001,13 =0.760,
P,结果与 0.001
t 检验
法一致。
注意事项

进行相关分析前应先绘制散点图
有无线性关系 有无离群点(outlier)


出现离群点时慎用相关
(a)
注意事项

线性相关分析要求两个随机变量服从二元 正态分布。
b l xy / l xx
b

取值范围: 1
r 1

单位:相关系数无单位,回归系数有单位
秩相关(等级相关)
rank correlation
问题的提出
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研 究,试分析两者的关联性。资料列于下表。
2 2
rs 的假设检验

当n≤50时,可用查表法(查附表15,rs 界值表)。
当n>50时,按式(13.4)和(13.5)进行 t 检验。
t
rs 0 (1 r ) /(n 2)
2 s
ν=n-2
例13.4 某研究者对15例30~50岁成年男子的 舒张压(mmHg)与夜间最低血氧含量分级进行研
相关文档
最新文档