第十章 两变量关联性分析
两个分类变量的关联分析

第十章 两变量关联性分析三、两个分类变量的关联分析n对分类变量间的联系,可作关联(association)分析n对两个分类变量交叉分类计数所得的频数资料(列联表) 作关于两种属性独立性的c 2 检验交叉分类2×2列联表n对样本量为n的一份随机样本同时按照两个二项分类的特 征(属性)进行交叉分类形成一个2×2交叉分类资料表, 也称为2×2列联表(contingency table)。
n 例103:为观察行为类型与冠心病的关系,某研究组收集 了一份包含3154个个体的样本,研究者将观察对象按行 为类型分为A型(较具野心、进取心和有竞争性),B型 (较沉着、轻松、和做事不慌忙)。
对每个个体分别观 察是否为冠心病患者和行为类型两种属性,2×2种结果 分类记数如下表所示。
试分析两种属性的关联性。
表 103 行为类型与冠心病的关系行为类型(属性 A) 冠心病(属性 B)合计 有(1) 无(2)类型 A(1) 178 **** **** 类型 B(2) 79 1486 1565 合计 257 2897 3154表 1042×2 交叉分类频数表的一般形式及概率表达属性 A属性 B合计121 11 A ( 11 p ) 12 A ( 12 p ) 1 n ( 1 r p ) 2 21 A ( 21 p ) 22 A ( 22 p ) 2 n ( 2 r p )合计1 m ( 1 c p )2 m ( 2 c p )n (1.0)0 H :属性 A 与 B 互相独立,1 H :属性 A 与 B 互相关联。
独立性检验就是考察 cj ri ij p p p = 成立与否。
å- = ji i i i T T A , j2j j 2)( c0 H :行为类型与冠心病之间互相独立1 H :行为类型与冠心病之间有关联a =0.05将表中各数据代入公式(99),22(1781486791411)3154 39.90158915652572897c ´-´´ == ´´´ 20.05,13.84 c= , 220.05,1c c> P <0.05,说明行为类型与冠心病之间存在着关联性。
两变量关联性分析

对定性变量之间的联系通用的方法是根据两个定 性变量交叉分类基数所得的频数资料(列联表) 作关联性分析,即关于两种属性独立性卡方检验
计算公式
(A T) T
2
2
两分类变量之间的关联程度
ɸ 系数(phi cofficient) ɸ =
2
n
Cramer V 系数(Cramer's V cofficient)
一、线性相关分析中应注意的问题
2.线性相关分析要求两个变量都是随机变 量,而且仅适用于二元正态分布资料。一 个变量的数值人为选定时莫作相关.一个变 量的数值随机变动,另一个变量的数值却是 人为选定的。例如, 为研究药物的剂量-反 应关系 。
3.相关关系不一定有因果联系.
一、线性相关分析中应注意的问题
r 0 tr sr
1 r2 sr n2
二、秩相关
例10-5 某研究者观察了10例6个月~7岁的贫血患儿的血 红蛋白含量与贫血体征,结果见表10-2,试作秩相关分 析.(200页) 表10-2 贫血患儿的血红蛋白含量(g/dl)和贫血特征
病人 编号 (1) 1 2 3 4 5 6 7 8 9 10 血红蛋白含量 X (2) 5.0 5.8 6.1 7.3 8.8 9.1 11.1 12.3 13.5 13.8 秩次 p (3) 1 2 3 4 5 6 7 8 9 10 贫血体征 Y (4) +++ ++ + ++ ++ 秩次 q (5) 10.0 8.0 6.0 3.0 8.0 8.0 3.0 3.0 3.0 3.0
一、线性相关的定义及计算公式
意义:相关系数(correlation coefficient)又称
两变量关联性分析

N
Percent
132 100.0%
列Crossta bulati on
乙法
+
-
+
80
10
-
31
11
111
21
Total 90 42
132
Phi系数为0.192, 列联系数为0.189,近似P值为0.027
三、R×C表的关联性分析
例10-9(p 204 ) 欲探讨职业类型与胃病类型是否有关
df
(2-sided)
4
.000
Likelihood Ratio
20.271
4
.000
Linear -by -Linear A sso ciation
16.727
1
.000
N of Valid Cases
310
a. 1 cells (11.1%) hav e expected count less than 5. The minimum expected count is 4.36.
Tests of Normality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
基础 代谢(kJ/d) .154
14 .200* .933
14 .390
体重 (kg)
.129
14 .200* .981
14 .956
基 础 代 谢 ( kJ/d) 体 重 ( kg)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
10两变量关联性分析

线性相关(linear correlation)
可见两个变量间的关系并不是函数式的确定关 系——非函数式确定性关系
总的来说,体重轻者基础代谢低,重者基础代谢 高,二者变化趋势呈正向关系——正相关
各点的态势趋近一条直线呈线性——线性相关 线性相关(linear correlation),又称简单相关,
人的肺活量往往随着胸围的增加而增加,二者 间是否有联系?
举重运动员所能举起的最大重量是否与他的体 重有关?
在水碘含量不同的地区,甲状腺肿大的患病情 况不太相同,它们间是否有关联?
相关关系与确定性关系
所谓确定性关系是指两变量间的关系是函数关系:已知一个变量的值, 另一个变量的值可以通过这种函数关系精确计算出来。
第十章:两变量 关联性分析
问题的提出
前面的章节已经讨论的统计学方法着重于比较单 个变量的组间差别(例如:均数的差别、率的差别、 构成比的差别、中位数的差别等)
但是在医学研究中,还需要对两个随机变量间的 关系进行量化研究
问题的提出
人的体重往往随着身高的增加而增加,算方法如下:
rs
l xy lxx l yy
将X、Y变量所对应的秩次作为新变量,代入上述公式
计算器求得:
56.5
rs
-0.741 82.5 70.5
秩相关系数的假设检验
因此样本资料的秩相关系数为-0.741,意味着两变量间可 能存在负关联
rs来自10个个体值组成的样本,存在着抽样误差,故计算 出rs后,需作的假设检验
n
( Xi X )(Yi Y )
r
i 1
0.964
n
(
Xi
X
)2
n
(Yi
《两变量关联性分析》课件

相关系数、散点图、回归分析等。
两变量关联性分析的重要性
实际应用
在经济学、社会学、生物学等领域,两变量关联性分 析被广泛应用于探索两个变量之间的关系。
理论意义
有助于理解现象之间的内在联系,为进一步的研究提 供依据。
预测价值
通过分析两个变量的关联性,可以对未来的趋势进行 预测。
两变量关联性分析的应用场景
两变量关联性分析的案例
案例一:销售与广告投入的关联性分析
总结词
广Hale Waihona Puke 投入对销售的影响详细描述通过收集某公司一段时间内的广告投入和销售数据,分析广告投入与销售量之 间的关联性。可以采用相关系数、回归分析等方法,探究广告投入对销售的贡 献程度,为企业制定营销策略提供依据。
案例二:股票价格与经济指标的关联性分析
模型参数设置
根据模型要求设置参数,如回归系数、置信区间等。
模型评估
通过交叉验证、R方值等方法评估模型的性能和准确性。
结果解释与决策
结果解读
对分析结果进行解读,理解两变量之间的关 联性。
制定决策
根据分析结果制定相应的决策,指导实践。
结果验证
对分析结果进行实际验证,确保其在实际应 用中的有效性。
04
。
03
将关联性分析结果与其他方法或经验进行比较,以评
估其可信度和实用性。
针对某品牌的产品,收集消费者对其不同属性的评价数据,分析产品属性与消费者行为之间的关联性。例如,研 究产品价格、质量、外观、品牌形象等因素对消费者购买决策的影响,为企业改进产品设计和营销策略提供依据 。
05
两变量关联性分析的注意事项
数据质量与完整性
确保数据来源可靠, 无缺失值和异常值。
第十章 两变量相关性分析

X 85.01 Y 20.89
X 2 363.33
Y 2 23.12 XY 87.82
3. 计算 lXX 、lYY 及 lXY
lXX
X 2 ( X )2 363 .33 85.012 / 21 19.20 n
lYY 23.12 20.892 / 21 2.34
lXY
87.82
85.01 20.89 21
3.26
4. 求出相关系数值:
r lXY 3.26 0.486 lXXlYY 19.20 2.34
四、简单相关系数的假设检验
r≠0的原因:① 由于抽样误差引起,ρ=0 ② 存在相关关系, ρ≠0
常用的相关系数假设检验方法有两种: 1. 查表法 (n<50)
序号 (1)
分期 X (2)
秩次 Pi (3)
甲胎蛋白 Y (4)
秩次 Qi (5)
1
IV
9.0
9402.0
8.0
2
III
6.0
2134.8
5.0
3
IV
9.0
12905.0
9.0
4
IV
9.0
45354.0
10.0
5
I
1.5
11.2
2.0
6
II
3.5
2.6
1.0
7
II
3.5
313.0
4.0
8
I
1.5
173.1
第一节 简单线性相关
简 单 线 性 相 关 : 又 称 为 直 线 相 关 (linear correlation),用于描述双变量正态分布资料。
两变量关联性分析

(1)
(2)
(3)
(4)
图 10-2 常见的散点图
• 正相关 (positive correlation):图(1) • 负相关 (negative correlation):图(2) 2、线性无关:散点图(3)和(4)都不属于线性相关,但有所区别,前者
表示两变量存在非线性联系,而后者表示两变量毫无联系。
13
4874.4
62.1
7
5359.7
67.3
14
5029.2
61.5
2
要确定妇女的基础代谢与体重有无关联,可作散点图(scatter plot)
5800
基础代谢 (KJ/day)
5300
4800
4300
3800
3300
2800 30
图 10-1
35 40 45 50 55 60 65 70 75
第十章 两变量关联性分析
教师:骆福添 中山大学 公共卫生学院 教材:《卫生统计学》 第7版第48次印刷
方积乾,2012.8,人民卫生出版社
• 前面学过单变量分析,如 t 检验和2 检验 • 医学科研工作中还会遇到“两变量间是否存在关联(association)?
如儿童年龄与身高、血压与年龄等
第一节 线性相关
y 的离均差乘积和。
相关系数 r 是表示两个随机变量之间线性相关强度和方向的统计量,
它没有单位,取值范围为-1<r<1。r 的正负值表示两变量之间线性
相关的方向,即 r>0 为正相关;r<0 为负相关;r=0 为零相关。r
的绝对值大小则表示两变量之间线性相关的密切程度,|r|越接近
于 1,说明密切程度越高,|r|越接近于 0,说明密切程度越低。
第十讲双变量相关分析

第十讲双变量相关分析双变量相关分析是统计学中一种用于研究两个变量之间相关关系的方法。
在实际应用中,双变量相关分析对于确定两个变量之间的相关性、预测和模型的建立非常有用。
本文将详细介绍双变量相关分析的概念、方法和应用。
首先,让我们来详细了解双变量相关分析的概念。
双变量相关分析是研究两个变量之间关系的一种统计方法。
在这种方法中,研究者通常有两个变量的数据,并希望确定它们之间的关系。
双变量相关分析的结果可以帮助预测一个变量的值,给出另一个变量的值,或者了解它们之间的相互关系。
双变量相关分析的方法包括计算相关系数和绘制散点图。
相关系数是一个度量两个变量之间相关程度的指标。
常见的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数用于描述两个连续变量之间的线性关系,而斯皮尔曼相关系数则用于描述两个有序变量之间的关系。
计算相关系数是双变量相关分析的核心步骤,可以通过计算协方差和标准差来得到。
此外,双变量相关分析还可以通过绘制散点图来直观地显示两个变量之间的关系。
散点图是一种以数据点的形式展示两个变量之间的关系的图表。
数据点的位置和趋势可以帮助我们判断两个变量之间是否存在相关关系。
在散点图中,如果数据点在图中呈现出一种明显的模式或趋势,那么这表明两个变量之间很可能存在相关性。
在实际应用中,双变量相关分析有着广泛的应用。
其中一个应用是确定两个变量之间的相关性。
通过计算相关系数,我们可以得到一个具体的数值来表示两个变量之间的相关程度。
这对于科学研究和商业决策非常重要。
另一个应用是预测和建模。
通过分析两个变量之间的相关性,我们可以建立一个模型来预测一个变量的值,给出另一个变量的值,或者预测未来的趋势。
这对于经济预测、股票交易和销售预测等领域非常有用。
综上所述,双变量相关分析是一种用于研究两个变量之间关系的统计方法。
通过计算相关系数和绘制散点图,我们可以确定两个变量之间的相关性,并预测和建立相应的模型。
双变量相关分析在科学研究和商业决策中有着广泛的应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
50 450122 375 2 02.005 ,1 7.88, p 0.005
31 359 19 91500 42.58
拒绝原假设,说明大学生专业与与艾滋病知晓程度之 间存在关联性.
关于两分类变量之间的关联程度,可采用 (phi coefficient) 、Gramer V系数、 Gramer‘s V coefficient)和Pearson列联系 数(contingency coefficient),三个系数愈 近1说明关系愈密切,三个愈近0,说明两分 只适用于四格表资料, 类变量几乎没有关系。 对于多行多列只能采用后两种.
法的结果有无关联?
表10-5 两种检测方法结果
甲法
+ + 合计 80 31 111
乙法
10 11 21
合计
90 42 132
• 假设检验 H 0 :两种检测方法的结果之间互相独立 H1 :两种检测方法的结果之间有关联 0.05 将本例数据代入公式得
2 4.867
3.84, p 0.05
职业 浅表型 胃病 慢性胃炎 胃溃疡 合计
机关干部 工人 公交车司机
合计
80 52 20
152
48 62 22
132
4 12 10
26
132 126 52
310
• 假设检验
0.05
H 0 :职业类型与胃病类型无关 H1 :职业类型与胃病类型有关联
同样作检验得 2 20.838 由 查 2界值表, , 拒绝零假设,说明职业类型与胃病类型之间有关联 性 计算列联系数 2 22.838
图直观的说明。
• 目的:研究 两个变量X,Y数量上的依 存(或相关) 关系。 • 特点:统计关系
图10-1 两变量散点图
二、相关系数的意义与计算
1. 意义:相关(correlation coefficient)又称
Pearson积差相关系数,用来说明具有直线关系的两变 量间相关的密切程度与相关方向。
体重 (kg) 48.6 44.6 58.6 71.0
5
6 7
3987.4
4970.6 5359.7
47.8
62.8 67.3
12
13 14
4560.6
4874.4 5029.2
59.7
62.1 61.5
6000
基 础 代 谢 ( KJ/d)
5000
4000
3000 30 40 50 60 70 80
表10-2 贫血患儿的血红蛋白含量(g/l)和出血症状
病人编号 血小板数 X (1) (2)
1 2 3 4 5 6 7 8 9 10 合计 5.0 5.8 6.1 7.3 8.8 9.1 11.1 12.3 13.5 13.8 —
秩次 p (3)
1 2 3 4 5 6 7 8 9 10 55
p2
(4) 1 4 9 16 25 36 49 64 81 100 385
有理由拒绝零假设,可以认为甲、乙两种方法 检测方法之间存在关联性,进一步计算
2
n 4.867 0.192 132
三 R×C表分类资料的关联性分析
例10-9
欲探讨职业类型与胃癌,得
表10-6的资料。问职业 类型与胃癌是否关
联?
表10-6 310胃病患者按胃病类型与职业两种属性的交叉分类表
H1 : s 0
0.05 当 n 50 时,可查书后的 r 临界值表,
s
若秩相关系数超过临界值,则拒绝 H 0 ; 当
n 50
时,也可采用公式(10-5)或
(10-6)式做
t 检验
例10-5 对例1-4的秩相关系数作假设检验 • 例10-4中算得 rs 0.741 查 临界值表, rs r10, 0.05 0.648 ,按 0.05 的水准,拒绝 H 0, 可以认为贫血病患儿的出血症状与血红蛋 白量之间呈负相关关系
MN 150 120 170 6 446 335 254 400 54 1043 合计 MN 血型 N 100 78 132 25 335
的可信区间需要先将其进行某种变量变
换,使之服从正态分布,然后再估计其可信 区间。
102
15
具体步骤如下
1.首先对 r 作如下 z 变换
z tanh r 或
1
1 (1 r ) z ln 2 (1 r )
式中 tanh 为双曲正切函数,tanh-1 为反双曲正切函数 2.按下式根据正态近似原理计算 z 的1 可信区间
级不同专业的500名学生,对每个个体分别
观察专业与艾滋病知晓程度两种属性, 2×2种结果分类记述如表10-3所示,试分 析两种属性的关联性。
• 适用条件
对定性变量之间的联系通用的方法是根据两 个定性变量交叉分类基数所得的频数资料 (列联表)作关联性分析,即关于两种属 性独立性的卡方检验 计算公式
2 ( A T ) 2 T
表10-3专业与艾滋病知晓程度之间的关系
大学生专业 高 艾滋病知晓程度 低 合计
医学预科 其它 合计
31 19 50
91 359 450
121 500
• 假设检验
H 0 :大学生专业与与艾滋病知晓程度之间相互独立 H1 :大学生专业与与艾滋病知晓程度之间关联
0.05
将表中各数据代入公式得
相关系数的95%可信区间。
Z=1/2ln((1+r)/(1-r))=1/2ln((1+0.964)/(1-0.964))=1.9966 按公式(10-21 )z 的 95%可信区间为 (1.9996-1.96/ 14 3 ,1.9996+1.96/ 14 3 ) =(1.4089,2.5906)
( z u / 2 n 3, z u / 2 n 3 ),缩写为 z u / 2 n 3
3.对上一步计算出的 z 的上下限作如下变换,得到 r 的1 可信区间
r tanh(z )
或
e2z 1 r 2z e 1
102
16
例10-3 对例10-1所得r值,估计总体
相关系数的统计推断
(一)相关系数的假设检验
r 0 tr sr
1 r sr n2
2
例10-2 继例10-2中算得r=0.964后,试检验相
关是否具有统计学意义
检验步骤
H 0 : 0 , H1 : 0 ,
本例 n=14,r=0.964,计算t值
=0.05
t
0.964 1 0.964 14 2
l pp 82.5, lqq 70.5, l pq 56.5 rs l pq l pp lqq 0.741
秩相关系数为负,说明两变量间有负相关关系, 同样由样本算得的秩相关系数是否有统计学意义, 也应做检验
二
假设检验
秩相关系数的统计推断
• 检验步骤
统计推断
H0 : s 0,
体 重 ( KG)
图 10-2 14例中年健康妇女基础代谢与体重的散点图
相关系数的特点 1.相关系数r是一个无量纲的数值,且-1<r<1; 2.r>0为正相关,r<0为负相关; 3./r/越接近于1,说明相关性越好./r/越接近于0, 说明相关性越差.
例10-1 计算例 10-1中基础代谢率与体重 之间的样本相关系数 由原始出l xx 1144 .577, l yy 4645447 .0121 , l xy 70303 .2329 70303 .2329 r 0.964 1144 .5771 4645447 .0121
第十章 两变量关联性分析
本章内容
第一节 第二节 第三节 线性相关 秩相关 分类变量的关联性分析
第一节
线性相关
一 线性相关的概念
线性相关(linear correlation)又称简单相关(simple
correlation),用于双变量正态分布(bivariate
normal distribution)资料。其性质可由图11-2散点
再按公式(10-22)将z作反变换,得到基础代谢与体重 的总体相关系数95%可信区间为(0.8872,0.9888)。
102 17
线性相关中应注意的问题
1.样本的相关系数接近零并不意味着两变量间
一定无相关性. 2.一个变量的数值人为选定时莫作相关. 3.出现异常值时甚用相关. 4.相关未必真有内在联系.
五、简单线性相关的样本量估算 • 简单线性相关的样本量估算公式为:
Z Z 3 n 4 2 1 ln 1
2
例10-4 根据以往调查,某地某年大学生女大学生的 体重(kg)与肺活量(L)的线性相关系数0.7165, 若想在α=0.05,β=0.90水平下得到相关系数有统计 学意义的结论,至少应调查多少人? • 据已知条件代入公式:
5.分层资料盲目合并易出假象.
6.线性相关分析双变量是随机且服从正态分布
第二节
秩相关
适用条件:
①资料不服从双变量正态分布而不宜作积差相关分
析;
②总体分布型未知,一端或两端是不确定数
值(如<10岁,≥65岁)的资料; ③原始数据用等级表示的资料。
一、Spearman秩相关
1. 意义:等级相关系数rs用来说明两个变量间直线 相关关系的密切程度与相关方向。
2. 计算公式
rs 1 6 d 2 n(n 2 1)
3. 确定 P 值---查表 当 n<=50 时,查附表 14 的 rs 界值表; 当 n > 50 时,计算检验统计量 u,查 t 界值表。
• 例10-5 某地研究2~7岁贫血病患儿的血红