《logistic回归分析》PPT课件

合集下载

logistic回归分析精选PPT课件

logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866

Logistic回归分析重点难点ppt课件

Logistic回归分析重点难点ppt课件

病例对照研究
病 例
调查方向
暴露 未暴露
病例 对照
a c
b d
暴 露
对 照
未暴露
研究起点
危险度
危险度( risk) :通常指某个不幸事件发生的概 率。危险度大表示发生的可能性大。 某病发病危险度:观察对象在观察期间内发生某 病的概率,即某病发病率。
ห้องสมุดไป่ตู้
险因子的发病率 p e 与不暴露于该种危
相对危险度(relative risk, RR) :暴露于某种 危险因子的发病率 pe 与不暴露于该种危险因子的 p o 之比。 发病率 p0 之比。
a c
b d
a /(a b) c /(c d ) OR / b /(a b) d /(c d ) ad / bc
病例对照研究一般用OR替代RR。
队列研究
患病 未患病
暴露组 非暴露组
a c
b d
OR ad / bc a /(a b) RR c /(c d )
(对发病率 较低的疾病)
比数(odds):发生率与未发生率之比,即 p/(1-p) , 比数:发生率与未发生率之比,及 p (1 p ) 即阳性率/阴性率。
比数比( OR , odds ) :两个比数之比,即 比数比( odds ratio , ORratio ) :两个比数之比,
比数比
p1 即 1 p 1
OR (ad) /(bc) 1.727 。 则吸烟的 RR
实例
例16-2 为了探讨冠心病发生的有关危险因素,对 26例冠心病病人和28例对照者进行病例对照研究, 调查记录了8个可能的危险因素,试用Logistic逐步 回归分析方法筛选危险因素,并分析各自变量的作 用大小。

13.Logistic回归分析(09) PPT课件

13.Logistic回归分析(09) PPT课件

0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
全回归方程:
Variables in the Equation
S1atep
X1 X2
B
S.E. Wald
df
-.002 .006 .167
1
.792 .487 2.643
1
X3
-2.830 .793 12.726
0
1
0
45
1.7
0
1
0
46
5.1
0
1
0
47
1.1
0
1
0
48
32.0
0
1
0
49
12.8
0
1
0
50
1.4
0
1
0
观察号
因素
i
X1
X2
X3
1
2.5
0
0
2
1.2
2
0
3
173.0
2
0
4
3.5
0
0
5
119.0
2
0
6
39.7
0
0
7
10.0
2
0
8
62.4
0
0
9
502.2
2
0
10
2.4

logistic回归分析PPT精品课程课件讲义

logistic回归分析PPT精品课程课件讲义

问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进

《logistic回归》课件

《logistic回归》课件
03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。

Logisic回归分析PPT课件

Logisic回归分析PPT课件

0
吸烟 不吸烟
各 变 量
X2
1
0
饮酒 不饮酒


Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, ORj 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1

精品课程医学统计学教学课件-logistic回归分析

前瞻性研究方法,将人群按照是否暴露于某因素进行分组,追踪 各组的结局并比较其差异。
详细描述
队列研究在医学中常用于评估危险因素对疾病发生和发展的影响,以及评估预防 措施的效果。通过长期追踪和研究对象的定期随访,收集各组人群的结局数据, 分析暴露因素与结局之间的关联。
随机对照试验
随着大数据和人工智能技术的不断发 展,Logistic回归分析在医学领域的 应用越来越广泛。未来的研究将更加 注重Logistic回归分析与其他先进技 术的结合,如深度学习、机器学习等 ,以提高模型的预测精度和稳定性。
未来的研究将更加关注Logistic回归 分析在临床实践中的应用,如疾病预 测、诊断和治疗方案的制定等。同时 ,如何将Logistic回归分析与其他统 计方法结合,以更好地解决医学实际 问题,也是值得探讨的方向。
课件采用了多种教学方法,如理论讲解、案例分析、软件操作等,使学生能够全面了解和 掌握Logistic回归分析的技能。
教学效果
通过本课件的学习,学生能够熟练掌握Logistic回归分析的基本原理和应用,提高解决实 际问题的能力,为后续的医学研究和临床实践打下坚实的基础。
研究展望
研究前沿
研究方向
教学改进
03
Logistic回归分析在医学 中的应用
病例对照研究
总结词
病例对照研究是一种回顾性研究方法,通过比较病例组和对 照组的暴露情况,探讨疾病与暴露因素之间的关联。
详细描述
在医学领域,病例对照研究常用于探讨病因、预测风险和评 估干预措施的效果。通过收集病例组和对照组的相关信息, 分析暴露因素与疾病发生之间的关系,为病因推断提供依据 。
利用样本数据,建立Logistic回归模 型,描述自变量与因变量之间的关系。

Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。

Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。

课程医学统计学教学logistic回归分析 PPT


OR>1,说明 该因素是疾病的危险性增加,为危险因 素;OR<1,说明 该因素是疾病的危险性减小,为保护因素;
病例对比研究的类型
(一)病例与对比不匹配---非条件logistic回归 在设计所规定的病例和对比人群中,分别抽取一定量的研究 对象,一般对比应等于或多于病例数,此外无其他任何限制。
(二)病例与对比匹配---条件logistic回归 匹配或称配比(matching),即要求对比在某些因素或特征上与 病例保持一致,目的是对两组比较时排除混杂因素的干扰。 匹配分为成组匹配和个体匹配。
概率p值均小 于0.05,说明 方程有意义。
四、变量筛选
Logistic 逐步回归变量筛选的过程与线性逐步回 归变量筛选的过程极为相似,但其中所用的检
验统计量不再是 F 统计量,而是似然比统计量、
Wald 统计量等。例如使用似然比统计量,
即利用
G
2[ln
L(l ) 1
ln
L(l ) 0
]
,在进行到第
匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混 杂因子,否则不应匹配。
(三)巢式病例对比研究
也称为队列内的病例对比研究,是将队列研究和病例对比研究相结合的 方法。
第一节 logistic回归
logistic 回归模型:
设因变量Y 是一个二分类变量,其取值为Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m
• 病例对比研究(case-control studies):一种由果及因的回顾性研
究,先按疾病状态确定调查对象,分为病例(case)和对比(control)两 组,然后利用已有的记录、或采纳询问、填写调查表等方式,了解 其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。

logistic回归(共36张PPT)

二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
logistic回归分析 王淑康
1
Logistic回归(Logistic Regression)是研究因变量为二分类或多分 类观察结果与影响因素(自变量)之间关系的一种多变量分析方法, 属概率型非线性回归。
Logistic回归的分类:
(1)二分类资料Logistic回归: 因变量为两分类变量的资料, 可用非条件Logistic回归和条件Logistic回归进行分析。非条 件Logistic回归多用于非配比病例-对照研究或队列研究资料, 条件Logistic回归多用于配对或配比资料。

)
;1
p2

p( y

0|
x

0)

1
1 exp( )
则似然函数为:
L [ exp( ) ]a[ exp( ) ]b[
1
]c [
1
]d
1 exp( ) 1 exp( ) 1 exp( ) 1 exp( )
10
表 1 调查数据
y
x
对 Q 分别求关于 和 的一阶偏导数,得到关于 和 的线形方程组,
解方程组得: b0 ln(b / d ) ad
b1 ln(a / c) ln(b / d ) ln( bc )
x)

exp( x) 1 exp( x)
则四个格子所对应的概率分别是:
p1

p( y
1|
x
1)

exp( ) 1 exp( )

p2

p( y
1|
x

0)

exp( ) 1 exp( )
1
p1

p( y

0|
x
1)

1
1 exp(
型可表示为:
P exp(0 1 X1 2 X 2 m X m ) 1 exp(0 1 X1 2 X 2 m X m )
其中, 0 为常数项, 1, 2 ,, m 为偏回归系数。
(15.1)
4
设 Z 0 1 X1 2 X 2 m X m ,则 Z 与 P 之间关系的
logistic 曲线如下图所示 。
可看出:当 Z 趋于 时, P 值渐进于 1;当 Z 趋于 时, P 值渐进于 0; P 值的变化在 0~1 之间,并且随Z 值的变 化以点(0,0.5)为中心成对称 S 形变化。
5
logit 变换:logit P = ln P 为 P 的 logit 变换, 1 P
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1

p( y
1|
1
0
1
aLeabharlann b0cd
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
为使似然函数值最大,首先对函数两边取对数:
Q ln(L) a ( ) a ln[1 exp( )] b b ln[1 exp( )] c ln[1 exp( )] d ln[1 exp( )]
通过 logit 变换之后,就可将 0 P 1的资料转换为
log it(P) 的资料。 作 logit 变换后,logistic 回归模型可以表示成如下 的线性形式:
ln
1
P P


0

1x1

2
x2



m
xm
6
模型参数的流行病学含义
当各种暴露因素为 0 时:
8
二、 logistic回归模型的参数估计
logistic回归模型的参数估计常采用最大似然估计。其基本 思想是先建立似然函数与对数似然函数,求使对数似然函 数最大时的参数值,其估计值即为最大似然估计值。
在病例-对照研究中,假设变量 y 取值 1 和 0 分别表示对象患 病和不患病;变量 x 取值 1 和 0 表示具有和不具有某种危险因 素;具体调查数据见下表:
量。它与比数比(优势比) OR(odds ratio)有对应关系。
7
在其它影响因素相同的情况下,某危险因素 X j 两个
不同暴露水平 c1 和 c0 发病优势比的自然对数为:
ln OR j

ln

P1 P0
(1 (1

P1 ) P0 )

=
ln( P1 ) ln( P0 )
ln( P ) 1 P

0

1 X1

2
X
2

mXm
0 1 0 m 0 0
可看出:常数项 0 是当各种暴露因素为 0 时,个体发病 与不发病概率之比的自然对数值。 偏回归系数 j ( j 1,2,, m )表示在其它自变量固定的
条件下,第 j 个自变量每改变一个单位时 logit (P) 的改变
1 P1
1 P0
= j (c1 c0 )
则该因素的优势比: OR j exp[ j (c1 c0 )]
式中 P1 和 P0 分别表示在 X j 取值为 c1 和 c0 时的发病 概率, OR j 为调整后优势比(adjusted odds ratio), 表示扣除了其它自变量影响后危险因素 X j 的作用。
相关文档
最新文档