第十六章 Logistic回归分析
LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。
在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。
一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。
这样,我们可以用这个数值来表示某个事件发生的概率。
当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。
2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。
其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。
在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。
在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。
3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。
其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。
此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。
二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。
Logistic回归分析

[例]饮酒与食道癌发病关系的分析
1977年Tuyns等在法国llle-et-Vilaine(Brittany) 地区的一所医院收集了200例食道癌患者与775 例对照进行病例—对照研究,探讨饮食与发病 的关系,考虑到年龄这一混杂因素的干扰,按 每10岁一组共分为6组。危险因素饮酒分为两 个水平:每天饮酒量少于80克者为非接触 (x=0),≥80克为接触(x=1),年龄组范围 为:1组:25~,2组:35~,3组:45~,4组: 55~,5组:65~,6组:75~ (数据集为logit)
计算中心
Logistic回归分析
Logistic回归模型: Logit(p)=ln(p/(1-p))=β0+β1x1+β2x2+βnxn Y=Logit(p) 的图形如下 (随p由0变到1,Y的值由-∞单调上升到∞)
计算中心
Logistic回归分析
上模型称为Logistic回归模型.其中最简单的情况
作业 关于食管癌与使用咸菜关系的病例-对照研究
不考虑年龄的因素,仅对“吃咸菜”一个变量作 Logistic回归
病例 吃咸菜 110 对照 吃咸菜 不吃咸菜 8 98 24 186 32 148 28 139 18 88 0 31 110 690
zi = zi =
1 , 当x取第i种状态, 0 , 其它. (i =1,…,k-1).
计算中心
例
下表记录了某公司在过去6个月中的顾客信息.其 中包括顾客的性别(gender:0=男和1=女),顾 客的年龄(AGE),顾客的年收入(income:1= 低,2=中和3=高)和购买价值(PURCHASE: 0=小于100元,1=大于等于100元),共记录了 431位顾客的资料,数据集为sales1。
统计学-logistic回归分析

( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e
P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
五、回归系数的意义
单纯从数学上讲,与多元线性 回归分析中回归系数的解释并无不 同,亦即bi表示xi改变一个单位时, logit P的平均变化量。
流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2
比数 比数比
Odds=P/(1-P) OR=[P1/(1-P1)]/[P2/(1-P2)]
i
事件发生率很小,OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念:
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
九、logistic回归的应用举例
• 输精管切除术与动脉粥样硬化疾病的研究 • 1.问题的描述 (1)输精管切除术是否与动脉粥样硬化疾病 有关? (2)如果存在联系,与其他已知的危险因素 相比,输精管切除术的相对重要性有多大? (3)哪些男性亚群在输精管切除术以后发生 动脉粥样硬化疾病的可能性特别大?
Logistic回归分析及应用

7
• 表2 Logistic回归模型的数据结构
实验对象 y
X1
X2
1
y1 a11 a12
2
y2 a21 a22
X3 …. XP
a13 … a1p a23 … a2p
3
y3 a31 a32
为Logistic变换,即:
Logit( p) 0 1 X1 p X p
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。
即Xi的优势比为:OR P1 /(1 P1 ) P0 /(1 P0 )
24
Classification Tablea
Predicted
Observed
Step 1 Y
0
1
Overall Percentage
a. The cut value is .500
Y 0
14 2
Percentage
1
Correct
1
93.3
13
86.7
90.0
25
Variables in the 来自quation2• 表1 多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
n
logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
Logistic回归分析(共53张PPT)
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
Logistic回归分析概要
多项无序分类:肝炎分型 甲、乙、丙、丁、 戊
研究分类反应变量与多个影响因素之间的 相互关系的一种多变量分析方法,进行疾病的 病因分析。
• Logistic回归的分类
Logistic回归 二分类 有序反应变量 多分类 无序反应变量
非条件 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变 量, 影响疾病发生的因素为自变量建立回 归模型。
• 例:为了探讨糖尿病与血压、血脂等因素 的关系,研究者对56例糖尿病病人和65例 对照者进行病例对照研究,收集了性别、 年龄、学历、体重指数、家族史、吸烟、
一、Logistic回归方程 Logistic回归的logit模型
P= 1x1 2 x2 n xn
Logit变换 P转换为ln[P/(1-P)]
logit (P)= 1x1 2 x2 n xn ln[P/(1-P)]= 1x1 2 x2 n xn
• (1)取值问题
• (2)曲线关联
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
( 1x1 2 x2 n xn )
P 1 e e( 1x1 2x2 n xn ) 1
1 P 1 e( 1x1 2x2 nxn )
其中,为常数项,为偏回归系数。
二、参数估计
• 建立Logistic回归方程就是求和i • 意义 常数项是当各种暴露因素为0时,个体发
得出参数 j 的估计值 b j 和 b j 的渐进标准误 Sbj 。
最大似然法的基本思想是先建立似然 函数与对数似然函数,再通过使对数 似然函数最大求解相应的参数值(使 得一次抽样中获得现有样本的概率为 最大),所得到的估计值称为参数的 最大似然估计值。
医学统计学16-logistic回归
B:回归系数。当其他变量保持不变时,Xj每增加
a. Variable(s) entered on step 1: X2. b. Variable(s) entered on step 2: X4.
或减少1个单位时,OR值自然对数的平均变化量。 Exp (B):OR值(经校正的,或调整的OR值, B 2.096 e Exp ( B ) e 8.13 adjusted odds ratio) lnExp( B) B SE:回归系数的标准误 Wald值:对回归系数进行假设检验的统计量
2. SPSS的操作步骤
Logistic regression 对话框
将Y选入Dependent栏,X1 ~X5选入 Covariate栏,选择Forward:LR法。 单击Options按钮。
Options对话框
单击Continue按钮
单击OK按钮
3. SPSS的结果与分析 (1)数据基本情况
当缺失值没有或很少时逐步多因素logistic回归0步时的分析结果结果没有缺失值score统计量的结果与卡方检验一致无缺失值的情况下三多因素分析筛选独立的自变量进入模型例如动物脂肪摄入和体重指数在单因素分析都有统计学意义但多因素分析时只有动物脂肪摄入这个因素被引入模型
第十六章 logistic回归分析
11.17
8.14
0.044
0.054
1.07~116.44
0.97~ 68.62
表1 肾细胞癌转移的多因素logistic回归分析
影响因素 肾细胞血管内皮生长因子 OR值(95%CI) P值
11.17 (1.07~116.44)
0.044
肾癌细胞核组织学分级
8.14 ( 0.97~ 68.62 )
Logistic回归分析(LogisticRegressionAnalysis)
• 由于
模型参数的意义
log it( ) ln( ) ln(Odds) 1
Odds e(0X )
模型参数的意义
• 例中
“超重或肥胖”组(X=1)患高血压的优势
为:
Odds1 e(0 1) e(0 )
“正常”组(XO=d0d)s0患高e(血0 压0的) 优e势0为:
两组O的R优势 比o(doddds1s odds0
log it( ) ln( ) ln(Odds) 1
• 这个变换将取值在0-1间的值转换为值域在
( , )的值。
• 建立log it( )与X的线性模型:
• log it( ) 0 X
或
ln( 1
)
0
X
Logistic回归模型
• 求解
•ln( 1
)
0
X
e(0X ) 1
e(0X )
• 当变量Xj的回归系数Βj >0时, Xj增加1个单位后与 增加前相比,事件的优势比ORj >1,表明Xj为危险 因素;
• Βj <0时, Xj增加1个单位后与增加前相比,事件的 优势比ORj <1 ,表明Xj 为保护因素;
• Βj =0 , Xj增加1个单位后与增加前相比,事件的 优势比, ORj =1,表明Xj对结果变量不起作用。
1 e e(0 1X1P X P )
1 e 1 (0 1X1P X P )
模型参数的意义
• Β0 :常数项(截距),表示模型中所有自变 量均为0时,log it( ) 的值;
• β1 , β2 、... βP:回归系数 ,表示在控 制其他自变量时,自变量变化一个单位所引
起的
log it( ) 改变量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用途: 用途:研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。 险因素(或保护因子)的数量关系。 用χ 检验的局限性: 检验的局限性 局限性: 1.只能研究 个危险因素; 只能研究1个危险因素 只能研究 个危险因素; 2.只能得出定性结论。 只能得出定性结论。 只能得出定性结论
Z : −∞, 0, ∞ P : 0, 0.5, 1
Z
0 1 2 3 4
0 -4 -3 -2 -1
图16-1 logistic函数的图形 函数的图形
39 7
模 型 参 数 的 意 义
P ln =β0 + β1 X1 + β2 X2 +L+ βm Xm = logitP 1− P
39
10
即 ORj = exp[β j (c1 − c0 )]
1 若X j = 0 暴露 , c1 − c0 = 1, 非暴露
= 0, ORj =1 无作用 则有 ORj = exp β j , β j >0, ORj >1 危险因子 < 0, ORj <1 保护因子
2
39
3
第一节
logistic回归 回归
(非条件logistic回归 ) 非条件 回归
39
4
一、基本概念
1 发生 , 自变量X1, X2 ,L, Xm 应变量 Y = 0 未发生
在m个自变量的作用下阳性结果发生的概率记作 个自变量的作用下阳性结果发生的概率记作: 个自变量的作用下阳性结果发生的概率记作
j
用它的标准误Sb 作为参照,检验统计量为 2 bj bj 2 , ν =1 u= 或 χ = Sb Sbj j 2 0.8856 2 H0 : β1 = 0, H1 : β1 ≠ 0, α = 0.05, χ1 = = 34.86 0.1500
0.5261 H0 : β2 = 0, H1 : β2 ≠ 0, α = 0.05, χ = =11.20 0.1572 χ 2 值均大于 3.84,说明食道癌与吸烟、饮酒有关系,结论同前。
P = P(Y = 1| X1 , X 2 ,L, X m )
0 ≤ P ≤1
39 5
1 P= 1+ exp[−(β0 + β1 X1 + β2 X2 +L+ βm Xm )]
回 归 模 型
若令: 若令 Z = β 0 + β1 X 1 + β 2 X 2 + L + β m X m
1 P= −Z 1+ e
第十六章 logistic回归分析 回归分析
(Logistic Regression)
39
1
目的:作出以多个自变量(危险因素) 目的:作出以多个自变量(危险因素)估计 应变量(结果因素) 回归方程。 应变量(结果因素)的logistic回归方程。 回归方程 属于概率型非线性回归。 属于概率型非线性回归。 资料: 资料:1. 应变量为反映某现象发生与不发生的 二值变量; 二值变量;2. 自变量宜全部或大部分为分类 变量,可有少数数值变量。分类变量要数量 变量,可有少数数值变量。 化。
常数项 X1 X5 X6 X8
-4.705 0.924 1.496 3.136 1.947
1.543 0.477 0.744 1.249 0.847
9.30 3.76 4.04 6.30 5.29
0.0023 0.0525 0.0443 0.0121 0.0215
-0.401 0.406 0.703 0.523
P /(1− P ) 1 ln ORj = ln 1 1 0 = logitP − logitP 0 0 P /(1− P ) = (β0 + β j c1 + ∑βt Xt ) − (β0 + β j c0 + ∑βt Xt ) = β j (c1 − c0 )
t≠ j t≠ j m m
L = ∏PYi (1− P)1−Yi i i
i =1 n
ln L = ∑[Yi ln P + (1 − Yi ) ln(1 − P )]பைடு நூலகம்i i
i =1
n
b0 , b1 , b2 ,K, bm
39 12
2. 优势比估计 可反映某一因素两个不 同水平(c1,c0)的优势比。
ˆ ORj = exp[bj (c1 − c0 )]
P /(1− P ) 1 当 P << 1, 则有OR = 1 ≈ RR P /(1− P ) 0 0
由于OR j 值与模型中 的常数 β0 无关, 项 β0 在危险因 素分析 中通常 视其为 无效参 数。
39 11
二、logistic回归模型的参数估计 1. 参数估计
原理:最大似然 原理:最大似然( likelihood )估计 估计
流行病学衡量危险因素作用大小的比数比例指标。 流行病学衡量危险因素作用大小的比数比例指标。 比数比例指标 计算公式为: 计算公式为:
P /(1− P ) 1 1 ORj = P /(1− P ) 0 0
式中 P 和 P0 分别表示在 X j 取值为 1 及 0 时的 1 发病概率, 称作多变量调整后的优势比, 发病概率, ORj 称作多变量调整后的优势比,表 示扣除了其他自变量影响后危险因素的作用。 示扣除了其他自变量影响后危险因素的作用。
b0 =-0.9099, b1=0.8856, b2 =0.5261
ˆ 饮酒与不饮酒的优势比: OR2 = expb2 = exp0.5261 =1.69
39
吸烟与不吸烟的优势比:
ˆ
16
三、logistic回归模型的假设检验 回归模型的假设检验
1.似然比检验
ald 检验 2. W 将 各参数 的估计 b j 与 0 比较,而 值
39 19
冠心病危险因素的病例− 表16-3 冠心病危险因素的病例−对照调查资料
序号 1 2 3 4 5 6 7 8 9 10
. . .
X1 3 2 2 2 3 3 2 3 2 1
. . .
X2 1 0 1 0 0 0 0 0 0 0
. . .
X3 0 1 0 0 0 1 1 1 0 0
. . .
常数项 β 0 表示为 X j =0时个体发病与 时个体发病与 不发病概率之比的自然对数。 不发病概率之比的自然对数。 回归系数 β j ( j = 1,2, L , m) 表示自变量 改变一个单位时logitP 的改变量。 的改变量。 改变一个单位时
39 8
优势比OR(odds ratio) 优势比
2 2
39 17
2
四、变量筛选
方法:前进法、后退法和逐步法。 方法:前进法、后退法和逐步法。 检验统计量: 统计量,而是似然比统计量、 检验统计量:不是 F 统计量,而是似然比统计量、 Wald 统计量和计分统计量之一。 统计量和计分统计量之一。
例16-2 为了探讨冠心病发生的有关危险因素,对26 为了探讨冠心病发生的有关危险因素,
39 9
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平 对比某一危险因素两个不同暴露水平 X j = c1 (=1)与 X j = c0 ) ,其优势比的 (=0)的发病情况(假定其它因素的水平相同) 其优势比的 )的发病情况(假定其它因素的水平相同) , 自然对数为: 自然对数为
. . .
51 52 53 54
2 2 2 3
0 1 1 1
1 1 0 1
1 1 1 0
39
0 0 0 1
1 0 0 0
2 2 1 3
1 1 1 1
1 1 1 1
20
学会看结果! 学会看结果!
表16-4 例16-2进入方程中的自变量及有关参数的估计值 进入方程中的自变量及有关参数的估计值 ald 选入 回归系 标准误 W 标准回归 ˆ 2 P值 OR Sb χ 变量 数b 系数b’
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g 1 2 3 4
X1 0 0 1 1
X2 0 1 0 1
ng 199 170 101 416
dg 63 63 44 265
ng− dg 136 107 57 151
39
15
经logistic回归计算后得:
ˆ 吸烟与不吸烟的优势比:OR1 = expb1 = exp0.8856=2.42
X4 1 1 1 1 1 1 0 1 0 1
. . .
X5 0 0 0 0 0 0 0 1 0 0
. . .
X6 0 0 0 0 1 0 0 0 0 0
. . .
X7 1 1 1 1 1 2 1 1 1 1
. . .
X8 1 0 0 0 1 1 0 0 1 0
. . .
Y 0 0 0 0 0 0 0 0 0 0
例冠心病病人和28例对照者进行病例−对照研究, 例冠心病病人和 例对照者进行病例−对照研究,各 例对照者进行病例 因素的说明及资料见表16-2和表 和表16-3。试用 因素的说明及资料见表 和表 。试用logistic 逐 步回归分析方法筛选危险因素。 步回归分析方法筛选危险因素。
(α入 = 0.10,α出 = 0.15)
39
13
例16-1 表16-1是一个研究吸烟、饮酒与食道癌关 系的病例-对照资料,试作logistic回归分析。
确 定 各 变 量 编 码
1 X1 = 0 1 X2 = 0 1 Y = 0
吸烟 不吸烟 饮酒 不饮酒 病例 对照
39 14
吸烟与食道癌关系的病例- 表16-1 吸烟与食道癌关系的病例-对照调查资料