logistic回归ppt课件
合集下载
logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866
logistic回归 ppt课件

比值比
OR=[P1/(1-P1)]/[P2/(1-P2)]
比值比 Odds Ratio
Odds=P/(1-P) 暴露组: P=a/(a+b) 1-P= b/(a+b) Odds=a/b 非暴露组:P=c/(c+d) 1-P= d/(c+d) Odds=c/d
病例 对照
暴露组
非暴露组
a c
b d
P ad 1 /(1 P 1) OR P0 /(1 P0 ) bc
相同,如下表: X1 暴露(X2=1) 非暴露(X2=0) X1 X1 X2 X2+1 X2 X3 X3 X3
Logistic回归系数与OR的关系:
P * ) exp b0 b1 x1 b2 ( x2 1) b3 x3 暴露: ( 1 P expb0 b1x1 b2 x 2 b3x3 b2
当年龄为a时, odds(Y=1|age=a) = exp(-4.353 + 0.038 a) 当年龄为a+1, odds(Y=1|age=a+1) = exp(-4.353 + 0.038 (a+1))
P ) exp b 0 b1x1 b 2 x 2 b 3 x 3 非暴露:( 1 P
p * ( ) 1 p exp(b 2 ) OR p 1 p
例:log odds (Y=1) = - 4.353 + 0.038 age
Y:妇女是否患有骨质疏松,Y=1为是,Y=0为否
1 , 2 ….. m分别为m个自变量的回归系数。 P ln( ) 取值:-∞ ~ +∞ 1 P
Logistic回归模型的函数
1.00
Logistic回归模型1PPT课件

利用logistic分布函数的特征来表示在自变量X 的作用下出现阳性结果或阴性性结果的概率。
出现阳性结果的概率记为: P( y=1|x),
出现阴性结果的概率为: Q( y=0|x), 注意:P+Q=1。
当只有一个自变量时,logistic回归模型:
exp(X) P(y1|x)1ex0 p(X)
(1)
(10)
P(1)─X取1时,为暴露组 ; P(0)─X取0时,为非暴露组。
loig (tP )0x
lO n ) li [ o ( P R ( 1 t ) l g ] i [ o P ( 0 t ) ( g ] 0 1 ) ( 0 0 )
lnO ( R ) ORe
(五) 的统计学意义
-
1
Logistic 回归模型
主讲:黄志碧
回归分析概述
1、根据自变量多少分
(1)简单回归(一个自变量)
(2)多元回归(多个自变量) 2、根据Y的取值分
(1)确定型回归(多元线性回归) (2)概率型回归(Logistic回归) 3、根据回归图形分 线性回归(多元线性回归) 非线性回归(Logistic回归)
模型拟合优度检验: H0设实际频数分布和理 论频数分布相符合,即模型的拟合优度较好。
-
38
第二节 二项分类变量资料 非条件logistic 回归
二项分类反应变量是最常见的变量类型, 又称0、1变量。可用于病例-对照研究,队列 研究和横断面研究,其中成组设计的非条件 Logistic回归最常见。
-
0
Q (y0|x)1ex 1p 0(X) (2)
式中, 0 为回归线的截距, 是与X有关的
参数,也称回归系数。
Q P((yy 1 0||x x))exp 0(X) (3)
出现阳性结果的概率记为: P( y=1|x),
出现阴性结果的概率为: Q( y=0|x), 注意:P+Q=1。
当只有一个自变量时,logistic回归模型:
exp(X) P(y1|x)1ex0 p(X)
(1)
(10)
P(1)─X取1时,为暴露组 ; P(0)─X取0时,为非暴露组。
loig (tP )0x
lO n ) li [ o ( P R ( 1 t ) l g ] i [ o P ( 0 t ) ( g ] 0 1 ) ( 0 0 )
lnO ( R ) ORe
(五) 的统计学意义
-
1
Logistic 回归模型
主讲:黄志碧
回归分析概述
1、根据自变量多少分
(1)简单回归(一个自变量)
(2)多元回归(多个自变量) 2、根据Y的取值分
(1)确定型回归(多元线性回归) (2)概率型回归(Logistic回归) 3、根据回归图形分 线性回归(多元线性回归) 非线性回归(Logistic回归)
模型拟合优度检验: H0设实际频数分布和理 论频数分布相符合,即模型的拟合优度较好。
-
38
第二节 二项分类变量资料 非条件logistic 回归
二项分类反应变量是最常见的变量类型, 又称0、1变量。可用于病例-对照研究,队列 研究和横断面研究,其中成组设计的非条件 Logistic回归最常见。
-
0
Q (y0|x)1ex 1p 0(X) (2)
式中, 0 为回归线的截距, 是与X有关的
参数,也称回归系数。
Q P((yy 1 0||x x))exp 0(X) (3)
《logistic回归》课件

03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
Logisic回归分析PPT课件

0
吸烟 不吸烟
各 变 量
X2
1
0
饮酒 不饮酒
编
码
Y
1
病例
0
对照
39
17
表16-1 吸烟与食道癌关系的病例-对照调查资料
分层 吸烟 饮酒 观察例数 阳性数 阴性数
g
X1
X2
ng
dg
ng dg
1
0
0
199
63 136
2
0
1
170
63 107
3
1
0
101
44
57
4
1
1
416
265 151
39
18
经 logistic 回归计算后得
计算公式为:
OR j
P1 P0
/(1 /(1
P1 ) P0 )
式中 P1 和 P0 分别表示在 X j 取值为 c1 及 c0 时 的发病概率, ORj 称作多变量调整后的优势比, 表示扣除了其他自变量影响后危险因素的作用。
39
12
与 logisticP 的关系:
对比某一危险因素两个不同暴露水平X j c1 与X j c0 的发病 情况(假定其它因素的水平相同),其优势比的自然对数为:
.
51
2
0
1
1
0
1
2
1
1
52
2
1
1
1
0
0
2
1
1
53
2
1
0
1
0
0
1
1
1
54
3
1
1
0
1
Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
《logistic回归分析》PPT课件

3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1
p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。
[医学]Logistic回归.ppt
![[医学]Logistic回归.ppt](https://img.taocdn.com/s3/m/5d84d0e926fff705cc170adb.png)
/*模型的拟合优度检验*/ run;
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
结果1:拟合优度检验结果
两种拟合优度检验的结果均显示:P值 =0.64>>0.05,因此可以认为当前模型与拟 合最好的模型比较,差别无统计意义。因此没 有必要对模型作进一步改进。
结果2:模型检验
似然比的卡方=(无协变量的-2LOGL值)-(有两个协变量的- 2LOGL值)=107.669-95.9=11.769,自由度df=2(模型 中的协变量个数),相应的P值=0.0028,因此可以认为两个协 变量的回归系数至少有一个不为0。即:认为模型有统计学意义。
常用统计软件
Logistic回归
Logistic回归分析的分类
按数据的类型: o 非条件logistic回归分析(成组数据) o 条件logistic回归分析(配对病例-对照数据)
按因变量取值个数: o 二分类logistic回归分析 o 多分类logistic回归分析
按自变量个数: o 一元logistic回归分析 o 多元logistic回归分析
实例1
假设我们有一个数据,45个观测值,四个变 量,包括: age(年龄,数值型); vision(视力状况,二分类:1表示差,0表 示好); drive(驾车教育,二分类:1表示参加过驾 车教育,0表示没有); Accident(去年是否发生事故,二分类:1 表示出过事故,0表示没有)。
(取值范围0~1)
考虑使用概率的logit变换函数
0.8
0.6 pP
0.4
0.2
-4
-2
0
2
4
Logiyt(P)
非条件logistic回归的数学模型
因此,我们使用P与(1-P)的比值的对数, 来建立logit(P)与X的多重线性回归模型:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年12月5日
预报模型
exp(5.88960.644X311.916X98)
1exp(5.88960.644X311.916X98)
1exp(5.88960.6144X311.916X98)
1 1e(5.8 8 960.6 4 4X311.9 1 6X98)
1
1 exp[(0 1X1 p X p )]
1
e(0
1
1X1
p
X
p
)
2019年12月5日
二、模型的参数估计
Logistic回归参数的估计通常采用 最大似然法(maximum likelihood, ML)。最大似然法的基本思想是先建 立似然函数与对数似然函数,再通过 使对数似然函数最大求解相应的参数 值,所得到的估计值称为参数的最大 似然估计值。
SE(bj )
P值
2值
bj
OR j 值
OR j 的 9 5 % C I
下限 上限
0.0618 3.4599 0.0003 0.9857
2.0453 0.8072 6.4208 0.0113 0.5128 7.732 1.589 37.614
0.7614 0.7708 0.9759 0.3232 0.2054 2.141 0.473 9.700
2019年12月5日
(一)53例接受手术的前列腺癌患者情况
2019年12月5日
(二)26例冠心病病人和28例对照进行 病例对照研究
2019年12月5日
2019年12月5日
2019年12月5日
概率预报模型
exp(0 1X1 p X p ) 1 exp(0 1X1 p X p )
2019年12月5日
参数估计的公式
2019年12月5日
三、回归参数的假设检验
2019年12月5日
优势比及其可信区间
2019年12月5日
标准化回归参数
用于评价各自变量对模型的贡献大小
2019年12月5日
SAS程序
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
变量名
常数项 X _ R AY GRADE S TA G E AGE ACID
表 1 6 - 2 参 数 估 计 值 与 优 势 比 OR 值
Wald
bj
1
1 e x p [ (0 .0 6 1 8 2 .0 4 5 3 X 1 0 .7 6 1 4 X 2 1 .5 6 4 1 X 3 0 .0 6 9 3 X 4 0 .0 2 4 3 X 5 )]
2019年12月5日
四、回归参数的意义
当只有一个自变量时,以相应的预报
概率 为纵轴,自变量 X为横轴,可绘
2019年12月5日
实例
Brown(1980)在术前检查了53例前列腺 癌患者,拟用年龄(AGE)、酸性磷酸酯酶 (ACID)两个连续型的变量,X射线(X_RAY)、 术前探针活检病理分级(GRADE)、直肠指检 肿瘤的大小与位置(STAGE)三个分类变量与 手术探查结果变量NODES(1、0分别表示癌 症淋巴结转移与未转移 )建立淋巴结转移 的预报模型。
1 Pr(Y 0) log it ( ) 0 1 X 1 p X p
优势=
Pr( Y Pr( Y
1) 0)
exp(
0
1 X 1
p
X
p
)
如果 Pr(Y 1)=0.7,那么 Pr(Y 0)=0.3, 那么,事件发生 Pr(Y 1)是事件不发生 Pr(Y 0)比较 的0.7 / 0.3=2.33倍。
1.5641 0.7740 4.0835 0.0433 0.4352 4.778 1.048 21.783
-0.0693 0.0579 1.4320 0.2314 -0.2355 0.933 0.833 1.045
0.0243 0.0132 3.4230 0.0643 0.3517 1.025 0.999 1.051
Logistic回归
Logistic regression
第一节.非条件logistic回归 第二节.条件logistic回归 第三节. 应用及其注意事项
2019年12月5日
什么情况下采用Logistic回归
医学研究中常碰到应变量的可能取值 仅有两个(即二分类变量),如发病与未 发病、阳性与阴性、死亡与生存、治愈与 未治愈、暴露与未暴露等,显然这类资料 不满足多元(重)回归的条件
制出一条S形曲线。回归参数的正负符号与
绝对值大小,分别决定了S形曲线的方向与
形状
1
0.8
Ô¤¨±Å¸ ÊÂ
0.6
0.4
Logistic»Ø ¹é Çú Ïß
0.2
ÖÐ ÐÄ Ïß
0
-2.5 -1.5 -0.5 0.5 1.5 2.52031.95 年12月5日 X
ln ln Pr(Y 1) =ln 优势 =ln(odds)
2019年12月5日
优势比改变exp(j)个单位
2019年12月5日
(odds)
优势
Байду номын сангаас
1
Pr(Y Pr(Y
1) 0)
exp(5.8896 0.6443X1 1.9169X8 )
令X 2~X8保持不变,年龄X1改变1个单位(10岁), 如年龄从50岁提高到60岁(X1分别为2,3),患冠心病的 概率增加了exp(0.6443 (3 2)) 1.9047 2倍
2019年12月5日
预报模型
ˆi 1 e x e p x ( p 0 (.0 0 .6 0 1 6 8 1 8 2 .2 0 .4 0 5 4 3 5 X 3 X 1 1 0 .0 7 .6 7 1 6 4 1 4 X X 2 2 1 .1 5 .6 5 4 6 1 4 X 1 X 3 3 0 .0 0 .6 0 9 6 3 9 X 3 X 4 4 0 .0 0 .2 0 4 2 3 4 X 3 X 5 )5 )
预报模型
exp(5.88960.644X311.916X98)
1exp(5.88960.644X311.916X98)
1exp(5.88960.6144X311.916X98)
1 1e(5.8 8 960.6 4 4X311.9 1 6X98)
1
1 exp[(0 1X1 p X p )]
1
e(0
1
1X1
p
X
p
)
2019年12月5日
二、模型的参数估计
Logistic回归参数的估计通常采用 最大似然法(maximum likelihood, ML)。最大似然法的基本思想是先建 立似然函数与对数似然函数,再通过 使对数似然函数最大求解相应的参数 值,所得到的估计值称为参数的最大 似然估计值。
SE(bj )
P值
2值
bj
OR j 值
OR j 的 9 5 % C I
下限 上限
0.0618 3.4599 0.0003 0.9857
2.0453 0.8072 6.4208 0.0113 0.5128 7.732 1.589 37.614
0.7614 0.7708 0.9759 0.3232 0.2054 2.141 0.473 9.700
2019年12月5日
(一)53例接受手术的前列腺癌患者情况
2019年12月5日
(二)26例冠心病病人和28例对照进行 病例对照研究
2019年12月5日
2019年12月5日
2019年12月5日
概率预报模型
exp(0 1X1 p X p ) 1 exp(0 1X1 p X p )
2019年12月5日
参数估计的公式
2019年12月5日
三、回归参数的假设检验
2019年12月5日
优势比及其可信区间
2019年12月5日
标准化回归参数
用于评价各自变量对模型的贡献大小
2019年12月5日
SAS程序
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
2019年12月5日
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
变量名
常数项 X _ R AY GRADE S TA G E AGE ACID
表 1 6 - 2 参 数 估 计 值 与 优 势 比 OR 值
Wald
bj
1
1 e x p [ (0 .0 6 1 8 2 .0 4 5 3 X 1 0 .7 6 1 4 X 2 1 .5 6 4 1 X 3 0 .0 6 9 3 X 4 0 .0 2 4 3 X 5 )]
2019年12月5日
四、回归参数的意义
当只有一个自变量时,以相应的预报
概率 为纵轴,自变量 X为横轴,可绘
2019年12月5日
实例
Brown(1980)在术前检查了53例前列腺 癌患者,拟用年龄(AGE)、酸性磷酸酯酶 (ACID)两个连续型的变量,X射线(X_RAY)、 术前探针活检病理分级(GRADE)、直肠指检 肿瘤的大小与位置(STAGE)三个分类变量与 手术探查结果变量NODES(1、0分别表示癌 症淋巴结转移与未转移 )建立淋巴结转移 的预报模型。
1 Pr(Y 0) log it ( ) 0 1 X 1 p X p
优势=
Pr( Y Pr( Y
1) 0)
exp(
0
1 X 1
p
X
p
)
如果 Pr(Y 1)=0.7,那么 Pr(Y 0)=0.3, 那么,事件发生 Pr(Y 1)是事件不发生 Pr(Y 0)比较 的0.7 / 0.3=2.33倍。
1.5641 0.7740 4.0835 0.0433 0.4352 4.778 1.048 21.783
-0.0693 0.0579 1.4320 0.2314 -0.2355 0.933 0.833 1.045
0.0243 0.0132 3.4230 0.0643 0.3517 1.025 0.999 1.051
Logistic回归
Logistic regression
第一节.非条件logistic回归 第二节.条件logistic回归 第三节. 应用及其注意事项
2019年12月5日
什么情况下采用Logistic回归
医学研究中常碰到应变量的可能取值 仅有两个(即二分类变量),如发病与未 发病、阳性与阴性、死亡与生存、治愈与 未治愈、暴露与未暴露等,显然这类资料 不满足多元(重)回归的条件
制出一条S形曲线。回归参数的正负符号与
绝对值大小,分别决定了S形曲线的方向与
形状
1
0.8
Ô¤¨±Å¸ ÊÂ
0.6
0.4
Logistic»Ø ¹é Çú Ïß
0.2
ÖÐ ÐÄ Ïß
0
-2.5 -1.5 -0.5 0.5 1.5 2.52031.95 年12月5日 X
ln ln Pr(Y 1) =ln 优势 =ln(odds)
2019年12月5日
优势比改变exp(j)个单位
2019年12月5日
(odds)
优势
Байду номын сангаас
1
Pr(Y Pr(Y
1) 0)
exp(5.8896 0.6443X1 1.9169X8 )
令X 2~X8保持不变,年龄X1改变1个单位(10岁), 如年龄从50岁提高到60岁(X1分别为2,3),患冠心病的 概率增加了exp(0.6443 (3 2)) 1.9047 2倍
2019年12月5日
预报模型
ˆi 1 e x e p x ( p 0 (.0 0 .6 0 1 6 8 1 8 2 .2 0 .4 0 5 4 3 5 X 3 X 1 1 0 .0 7 .6 7 1 6 4 1 4 X X 2 2 1 .1 5 .6 5 4 6 1 4 X 1 X 3 3 0 .0 0 .6 0 9 6 3 9 X 3 X 4 4 0 .0 0 .2 0 4 2 3 4 X 3 X 5 )5 )