第十五章 第二节Logistic回归分析
Logistic 回归分析

10
分层分析的局限性
只能控制少数因素(分层因素过多, 每个格子中的样本例数太少) 定量资料需要分组,信息丢失 不能对因素作用大小进行定量分析 (交互作用)
11
y = log2x y
二、Logistic 回归原理
0
1
经过数理统计学家证明:把疾病概率 P 转换成
p ln 1 − p ,会使该回归方程的统计性能更好一些。而且,
≈
当发病率低的时候ac所占的比例非常小, 当发病率低的时候 所占的比例非常小, 所占的比例非常小 公式中忽略ac后对 在RR公式中忽略 后对 值的影响非常小 公式中忽略 后对RR值的影响非常小 则有: 则有: RR
≈
(ad)/(bc) = OR
5
举例1 举例 口服避孕药与心肌梗塞的流行病学研究
(病例对照,曾光《现代流行病学方法与应用》,P90) 病例对照,曾光《现代流行病学方法与应用》 P90)
β1
ORX1 =
p X1 =1 q X1 =1 p X 1 =0 q X 1 =0
=
...... ...... 1 − p x1 =1 p x1 =0 1 − p x1 =0
e
14
假设建立了如下的logistic回归方程: 回归方程: 假设建立了如下的 回归方程 Logit P = α + βx x 为二分变量,当暴露时,取值为1; 为二分变量,当暴露时,取值为1 不暴露时,取值为0 不暴露时,取值为0。 暴露时 Logit(P1) = α + β, 所以暴露 , 所以暴露时, 比值(odds) = exp(α + β ) 比值 所以不暴露时 所以不暴露时, 不暴露 Logit(P0) = α , 比值(odds) = exp(α) 比值
精品课程医学统计学教学logistic回归分析 ppt课件

性结果发生的概率。阳性结果时,Yi 1 ;阴性结
果时,Yi 0 。
精品课程医学统计学教学logistic回 归分析
例15-1
表 15-1 为吸烟、饮酒与食管癌关系的病例-对照研究调查 资料,试进行 logistic 回归分析。
表 15-1 吸烟、饮酒与食管癌关系的病例-对照研究资料
分层 g 吸烟 X1 饮酒 X 2
符号
X 1
X 2
X 3
X4
X 5
Y
表 15-4 与肾细胞癌转移有关的因素及说明 说明
确诊时患者年龄(岁)
肾细胞癌血管内皮生长因子(VEGF),阳性表述由低到高共 3 级
肾细胞癌组织内微血管数(MVC)
肾癌细胞核组织学分级,由低到高共 4 级
肾细胞癌分期,由低到高共 4 期
肾细胞癌转移情况(有转移 Y =1; 无转移 Y =0)
或率比(rate ratio)。 RR Ie a /n1 、 I e a / n1 、 I 0 c / n2
I0 c / n0
RR(相对危险度relative risk):表示暴露组与非暴露组 发病率(或死亡率)的比值。也称为危险比(risk ratio)。 反映了暴露与疾病发生的关联强度。
精品课程医学统计学教学logistic回 归分析
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用非
条件logistic回归和条件logistic回归进行分析。非条件logistic回归 多用于非配比病例-对照研究或队列研究资料,条件logistic回归多 用于配对或配比资料。
logistic回归分析(共86张)

ln( p ) 0.9099 0.8856x1 0.5261x2 1 p
控制饮酒因素后, 吸烟与不吸烟相比 患食管癌的优势比 为2.4倍
第18页,共86页。
OR的可信区间(qū 估计 jiān)
吸烟与不吸烟患食管癌OR的95%可信区间:
exp(b1 u /2Sb1 ) exp(0.8856 1.960.15) (1.81,3.25)
模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的
Logistic回归模型为非条件Logistic回归。 例:见265页
区别:
条件Logistic回归的参数估计无常数项(β0),主要 用于危险因素的分析。
第28页,共86页。
一、logistic回归的应用
1.疾病(某结果)的危险因素分析和筛选 用回归模型中的回归系数(βi)和OR说明
第3页,共86页。
Logistic回归(huíguī)方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与
某暴露因素(x)的关系。
No P(概率I)m的a取g值e波动0~1范围。
基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。
1
Z值 23
图16-1 Logistic回归函数的几何图形
第7页,共86页。
几个(jǐ ɡè)logistic回归模型方程
第8页,共86页。
logistic回归模型(móxíng)方程的线性表达
对logistic回归模型的概率(p)做logit变 换,
方程如下:
线形关 系
Y~(-∞至+∞)
logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
logistic回归分析PPT精品课程课件讲义

问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
精品课程医学统计学教学课件-logistic回归分析

详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。
Logistic回归分析(共53张PPT)

• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
LOGISTIC回归

一、回归分析的分类logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。
根据1个因变量与多个因变量之分,有以下区分:①一个因变量y:I连续形因变量(y)——线性回归分析II分类型因变量(y)——Logistic 回归分析III 生存时间因变量(y)——生存风险回归分析IV时间序列因变量(y)——时间序列分析②多个因变量(y1,y2,……yn):I 路径分析II 结构方程模型分析在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。
(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。
当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。
(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。
(3)logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。
二、logistic回归分析(一)logistic回归的分类(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。
非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logistic回归多用于配对或配比资料。
(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。
队列研究(cohort study):也称前瞻性研究、随访研究等。
是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 分析因素xi为等级变量时,如以最小或 最大等级作参考组,并按等级顺序依
次取为0,1,2,…。此时, e(bi) 表示 xi增加一个等级时的优势比, e(k* bi)表 示xi增加k个等级时的优势比。
❖ 分析因素xi为连续性变量时, e(bi)表示 xi增加一个计量单位时的优势比。
六、 Logistic回归分析方法
❖ 哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以高中作为参照
教育程度
X1
X2
X3
文盲:0
1
0
0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
(四)其他问题
研究对象例数的确定 观察单位数与分析变量个数
❖ logistic回归的局限性
❖ Wald检验( wald test) 即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,即为标准正态离 差。
以上三种方法中,似然比检 验最可靠,比分检验一般与它相 一致,但两者计算量均较大;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性存在时, 结果不像其它两者可靠。
❖ 医学研究中疾病的复杂性 ▪ 一种疾病可能有多种致病因素或与 多种危险因素有关 ▪ 疾病转归的影响因素也可能多种多 样 ▪ 临床治疗结局的综合性
解决方法
❖ 简单的:
❖ 固定其他因素,研究有影响的一两个 因素;
❖ 按1~2个因素组成的层进行分层分析 (层内和综合分析)。
❖ 多因素: ❖ 寻找合适的统计模型
G=-2(ln Lp-ln Lk)
n较大时, G近似服从自由度为待检验
因素个数的2分布。
❖ 比分检验(score test)
以未包含某个或几个变量的模型 计算保留模型中参数的估计值,并假 设新增参数为零,计算似然函数的一 价偏导数及信息距阵,两者相乘便得
比分检验的统计量S 。n 较大时, S
近似服从自由度为待检因素个数的2 分布。
Logistic回归分析解决的问题
医学研究中, 有关生存与死 亡, 发病与未发病, 阴性与阳性 等结果的产生可能与病人的年龄、 性别、生活习惯、体质、遗传等 许多因素中哪些有关?如何找出 其中哪些因素对结果有影响?
Logistic回归分析
设:暴露组 发生率 p1 /未发生率(1-p1)
对照组 发生率 p0 /未发生率(1-p0) p表示暴露因素X时个体发病的概率, 则发病的概率 与未发病的概率 1- p 之比称为优势(odds).
分析思想与多重线性回归分析相同 筛选变量的方法:
前进法 后退法 逐步法 统计量不再是线性回归分析中的F统计 量, 而是上面介绍的三种统计量之一。
为计算方便,通常向前选取变量用 似然比或比分检验,而向后剔除变量 常用Wald检验。
七、条件Logistic回归
对配比调查资料,多采用条件 Logistic回归分析。
二、 Logistic回归模型
❖ Logistic回归
二分类 多分类
条件Logistic回归 非条件Logistic回归
概述
❖ 1967年Truelt J,Connifield J和 Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的 研究,较早地将Logistic回归用于医学 研究。
❖ (一)应用条件
1. 各观察对象间相互独立; 2. logit P与自变量呈线性关系。
3.异常值 4.变量间的共线性问题
(二)变量的数量化
❖ 变量的编码要易于识别 ❖ 注意编码的顺序关系 ❖ 改变分类变量的编码,其分析
的意义应不变。
变量的编码
❖ 变量名 SEX
EDU
变量标识 性别
教育程度
变量值
回归系数 i的意义
设只有一个自变量 x1的Logistic方程
ln
p 1 p
0
1x1
i
x1=0 表示非暴露,x1 =1表示暴露。
ln(OR)=logit[P(1)]-logit[P(0)]
=(β0+β1×1)-(研究
令
1 吸烟
1 肺癌
X=
y=
0 不吸
▪理论上的不足:自变量对疾病的影响是独 立的,但实际情况及推导结果不同。
▪模型有不合理性:“乘法模型”与一般希 望的“相加模型”相矛盾。 ▪最大似然法估计参数的局限 ▪样本含量不宜太少:例数大于200例时才 可不考虑参数估计的偏性。
谢谢!
似然函数:L=∏Pi 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn
非线性迭代方法-Newton-Raphson法
logistic 回归系数的意义
❖ OR=e β
❖ lnOR= β
β表示自变量每增加一个单位,其 优势比对数值的改变量,
亦即自变量每增加一个单位,其相 对危险度为e β。
ln( p 1
p
)
0
1x1
2
x2
...
p
x
p
❖ Logistic回归模型是一种概率模 型, 它是以疾病,死亡等结果发生的 概率为因变量, 影响疾病发生的因 素为自变量建立回归模型。 它特别 适用于因变量为二项, 多项分类的 资料。
❖ 在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病 预后有关的因素等。
❖ 条件Logistic回归模型的回归系数 检验与解释同非条件Logistic回归。
八、 Logistic回归的应用
❖ 1.因素分析 可用于危险/保健因素的 筛选,并确定其作用大小。
❖ 2.预测预报 ❖ 若已知x1, x2 … xm数值大小时, 通过
模型可以预测某个病例发病、死亡的 概率。
❖
十、应用中应注意的问题
❖ Logistic回归系数( bi )表示,某 一因素改变一个单位时,效应指标发 生与不发生事件的概率之比的对数变 化值,即OR的对数值。
实例分析
实例分析
四、参数检验
❖ 1.似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几个待 检验观察因素的两个模型的对数似然函 数变化来进行,其统计量为G
暴露组 odds 对照组 odds
p1 / (1-p1) p0 / (1-p0)
❖ Logit变换
也称对数单位转换
logit P=
ln
P 1 P
病例组 与对照组 的 优势比 (odds retio ,OR)
OR p1 /(1 p1) p0 /(1 p0 )
Logistic回归分析模型
❖ 进行logit变换
1 2 0 1 2
值标识
男 女 文盲 小学 初中及以上
(三)哑变量的设置和引入
❖ 哑变量,又称指示变量 ❖ 有利于检验等级变量各个等级间的变化是
否相同。 ❖ 一个k分类的分类变量,进行Logistic回
归分析前需将该变量转换成k-1个指示变 量或哑变量(dummy variable)来表示。这 样指示变量都是二分变量,每一个指示变 量均有一个回归系数,其解释同前。
Logistic回归分析模型
经数学变换可得:
e 0 1X1 2 X 2 p X p P 1 e0 1X1 2 X 2 p X p
称为非条件logistic回归模型,常 应用于成组数据的分析
Exp/e表示指数函数。
三、参数估计
最大似然估计法 (Maximum likehood estimate)
Logistic回归方程
logit P=bi b1x1 b2x2 bk xk
❖ 假设自变量在各配比组对结果变量的 作用相同,即自变量的回归系数与配 比组无关。
❖ 配比设计的Logistic回归模型
logit P=b1x1 b2x2 bk xk
不含常数项。
❖ 可见非条件Logistic回归模型 与回归模型十分相似,只不过其参 数估计是根据条件概率得到的,因 此称为条件Logistic回归模型。
0 非肺癌
若求得: β= 1, OR=e
表明:吸烟个体 患肺癌的危险性是不吸烟个 体的2.71828倍。
注意 变量X的赋值与OR的关系
令
0
X=
1
则求得 β= ?
吸
不吸 OR=?
则求得: β= -1, OR=1/e
意思是: 不吸烟的人得肺癌症的危险 性是吸烟的36.79%。
❖ Logistic回归中的常数项(b0)表示 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。
第十五章 第二节
Logistic回归分析
山西医科大学卫生统计 刘桂芬 liugf66@
一、前言
❖ 在疗效评价,发病因素研究中,应变量 为分类指标
❖
有效 治愈 发生 阳性
❖Y
❖
无效 死亡 未发生 阴性
❖ 线性回归分析: 正态随机变量
多重线性回归难以解决的问题
❖ 医学数据的复杂、多样性 ▪ 连续型和离散型数据