logistic回归分析
Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。
比较常用得情形就是分析危险因素与就是否发生某疾病相关联。
例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。
自变量既可以就是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌得危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。
多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。
2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。
Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。
如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。
这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。
如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。
LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。
在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。
一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。
这样,我们可以用这个数值来表示某个事件发生的概率。
当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。
2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。
其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。
在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。
在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。
3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。
其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。
此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。
二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。
logistic回归分析

Logistic回归分析 3.OR值的计算和意义 影响因素由X▲ 变化到X* 时,有 ln OR=∑ βj(xj*-xj▲) (1)对多指标的共同效应进行评价: ) 若OR>1,则不利因素占主导地位; 若OR<1,则保护因素占主导地位; 若OR=1,则处于平衡状态。
Logistic回归分析
(2)对单因素进行评价: )对单因素进行评价:
二、基本原理
1.结果问题 : 对于第i个个体而言,其理论结果为pi , 而实际结果是δi 。 2.一致问题: 对于第i个个体而言, δi =1 pi δi =0 qi
Logistic回归分析 pi δ i qi 1- δ i 对于全部n个研究对象而言, 对于全部 个研究对象而言,其一致 个研究对象而言 性为: 性为: L=∏ pi δ i qi 1- δ i 使得L最大的α及βj即为所求。函数法
四、参数解释
1. 偏回归系数βj 的意义 与指标的计量单位有关,从而无实际 的解释意义。
Logistic回归分析 2.标准化偏回归系数βj 的意义
1
(1)符号:取 “+”,则xj 促进阳性结果的
发生,为不利因素; 取 “-”,则xj 抑制阳性结果的 发生,为保护因素。 1 (2)大小 :∣ βj ∣越大,则xj 对结果的 影响也就越大。
▲
Logistic回归分析 4.筛选危险因素
常用方法有(1)前进法; (2)后退法; (3)逐步法:有进有出, 双向筛选。 筛选危险因素的统计量是: 似然比统计量 G=2(lnL k+1-lnL k) 它服从自由度为1的卡方分布。
Logistic回归分析
数学模型: 数学模型:
p =
e
1+
α + β1X 1 + β 2 X
统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
统计学-logistic回归分析

在患病率较小情况下,OR≈RR
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 • Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e
P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
i
事件发生率很小,OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念:
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
Y 发病=1 不发病=0a p1 ac源自有暴露因素人群中发病的比例
多元回归模型的的 i 概念
P logit(p) ln = 0 1 X 1 1 P m X m
i 反映了在其他变量固定后,X=1与x=0相比
发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 • β=0,OR=1, 无关 β>0,OR>1 , 有关,危险因素 β<0,OR<1, 有关,保护因子
Logistic回归分析

[例]饮酒与食道癌发病关系的分析
1977年Tuyns等在法国llle-et-Vilaine(Brittany) 地区的一所医院收集了200例食道癌患者与775 例对照进行病例—对照研究,探讨饮食与发病 的关系,考虑到年龄这一混杂因素的干扰,按 每10岁一组共分为6组。危险因素饮酒分为两 个水平:每天饮酒量少于80克者为非接触 (x=0),≥80克为接触(x=1),年龄组范围 为:1组:25~,2组:35~,3组:45~,4组: 55~,5组:65~,6组:75~ (数据集为logit)
计算中心
Logistic回归分析
Logistic回归模型: Logit(p)=ln(p/(1-p))=β0+β1x1+β2x2+βnxn Y=Logit(p) 的图形如下 (随p由0变到1,Y的值由-∞单调上升到∞)
计算中心
Logistic回归分析
上模型称为Logistic回归模型.其中最简单的情况
作业 关于食管癌与使用咸菜关系的病例-对照研究
不考虑年龄的因素,仅对“吃咸菜”一个变量作 Logistic回归
病例 吃咸菜 110 对照 吃咸菜 不吃咸菜 8 98 24 186 32 148 28 139 18 88 0 31 110 690
zi = zi =
1 , 当x取第i种状态, 0 , 其它. (i =1,…,k-1).
计算中心
例
下表记录了某公司在过去6个月中的顾客信息.其 中包括顾客的性别(gender:0=男和1=女),顾 客的年龄(AGE),顾客的年收入(income:1= 低,2=中和3=高)和购买价值(PURCHASE: 0=小于100元,1=大于等于100元),共记录了 431位顾客的资料,数据集为sales1。
第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Wald检验(Wald test):适合单个影响因素 的检验;
计分检验(score test):与传统MantelHaenszel检验结果相同,小样本时比似然
比检验跟接近2分布,犯I型错误的可能
区别是没有常数项。
logistic回归的应用
流行病学危险因素分析
病例对照研究中探索疾病的发病原因; 队列研究中验证危险因素的作用大小。
临床试验数据分析
当评价指标为分类数据,而且有其他影响评价指 标的影响因素(年龄、病情、病种等)存在时。
logistic回归的应用
分析药物和毒物的剂量反应
变量筛选后的模型
影响因素 b
Sb Wald2
P
常数项 -4.705 1.543 9.30 0.0023
X1
0.924 0.477 3.76 0.0525
X5
1.496 0.744 4.04 0.0433
X6
3.136 1.249 6.30 0.0121
X8
1.947 0.847 5.29 0.0215
调查对象序号 吸烟
饮酒
食管癌
1
1
0
1
2
0
0
0
……
……
……
……
875
1
1
1
876
0
1
0
分类资料的影响因素分析方法
如果采用线性回归分析,应变量不满足条 件,预测值会超出0和1的范围。
如果采用单变量的2检验,则必然忽略其他
自变量对应变量的影响。 如果采用Mantel-Haenszel分层分析,需要
20倍以上。
logistic回归应用的注意事项
模型评价
对模型中的每个自变量进行检验(验证); 对所建立的回归方程做拟合优度检验(探索)。
拟合优度检验的统计量
偏差(deviance,D)和Pearson 2 P>α,认为拟合效果好;P≤α,则效果不好。
logistic回归模型的参数估计
通常采用最大似然估计(maximum likeli-
hood estimate,MLE)估计回归系数,同
时得到回归系数的标准误Sb。
根据最大似然原理,在一次抽样中获得现
有样本的概率应该最大。即似然函数取值 最大。
计算可以通过统计软件来完成。
n
n
L
li
表2 冠心病危险因素的病例对照调查资料
序号 X1 X2 X3 X4 X5 X6 X7 X8 Y 1 31 0 1 0 0 1 1 0 2 20 1 1 0 0 1 0 0 … …… … … … … … … … 53 2 1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1
表3 冠心病危险因素的赋值
概率P的取值范围在0~1之间,而logit(P) 取值是没有界限的。
log it(P) ln( P ) 1 P
logit变换
1 P( y 0 / x1, x2 K xm ) 1 1 e(0 1x1....mxm )
P( y
0 / x1, x2 K
(0 1x1 ....m xm )
x ) 1e e m
自变量可以是二分类变量、有序变量、多分 类变量、连续变量。
logistic回归应用的注意事项
连续变量一般需转换为等级变量,否则实 际意义不大。
如年龄每增加1岁的优势比。
等级变量取值
认为变化每个等级的优势比相近,则取秩 认为变化每个等级的优势比不同,则应转换为
哑变量分析。
logistic回归应用的注意事项
ln(OR) logit(P1) logit(P0)
OR exp[1(X1 X0 )]
OR exp 1
OR与 的关系
= 0,OR = 1,影响因素与事件的发生
无关。
> 0,OR > 1,影响因素的取值越大,
事件的发生的概率越大。
< 0,OR < 1,影响因素的取值越大,
事件的发生的概率越小。
11.20
12 3.84
2 2
3.84
结论:食管癌与吸烟、饮酒有关。
变量筛选
当影响因素较多时,需挑选出与事件发生 确实有关或关系更密切的影响因素,建立 更加稳定的回归模型。
筛选方法:前进法、后退法、逐步法。 检验方法:似然比检验、Wald检验和计分
检验。 入选和剔除标准:0.05和0.10。(常规)
较大的样本量,而且自变量不能太多。 logistic回归能较好地解决上述问题。
logistic回归模型
应变量Y是一个二值变量,取值为
1 事件发生(发病、有效、死亡等) Y 0 事件未发生(未发病、无效、存活等)
自变量X1,X2,……,Xm。 P表示在m个自变量作用下事件发生的概率。
logistic回归模型
因素 年龄(岁) 高血 冠心病
变量名
赋值说明
X1 <45=1,45~=2,55~=3,65~=4 X2 无=0,有=1 X3 无=0,有=1 X4 不吸烟=0,吸烟= 1 X5 无=0,有=1 X6 低= 0,高= 1 X7 <24=1,24~=2,26~=3 X8 否= 0,是= 1 Y 对照= 0,病例= 1
logistic回归模型的假设检验
根据样本得到的logistic回归模型还需经过检 验才能说明影响因素对事件发生的影响是否 具有统计学意义。
假设检验的假设有两种:
H0:1=2=……= m(将多个影响因素作为一
个整体考虑)
H0:j=0(单独检验某个影响因素)
logistic回归模型的假设检验方法
P( y
1/
x1, x2 K
xm )
1 exp[(0
1
1x1
.... m xm )]
P( y
1/ x1, x2 K
x ) 1 e 1 m
(0 1x1 ....m xm )
logistic回归模型
P Z
Z 0 1x1 .... m xm
logit变换
事件发生概率与未发生概率之比的自然 对数,称为P的logit变换,记作logit(P)。
P Q Yi 1Yi ii
i 1
i 1
logistic回归模型的参数估计
根据计算所得的bj计算OR值。
ORˆ j exp[bj (c1 c0 )]
OR值的可信区间:可以利用bj的抽样 分布来估计,在样本含量较大的情况 下,近似服从正态分布。当自变量只 有两个水平时,可采用下列公式计算。
exp(bj u S /2 bj )
优势比(odds ratio,OR)
吸烟与食管癌关系的病例对照调查结果
结果
吸烟
不吸烟
合计
食管癌患者 309(a) 126(b)
435
非食管癌患者 208(c) 243(d)
451
合计
517(a+c) 369(b+d) 886
吸烟的优势 309 / 517 1.49 非吸烟的优势 126 / 369 0.52
性更小。
似然比检验的基本思想
比较包含需检验影响因素的模型和不包含 该影响因素的模型,如果检验结果为拒绝 H0,则表示该影响因素对回归模型有统计 学意义,即对事件发生有影响。反之,则 没有统计学意义,对事件发生没有影响。
似然比检验(例16-1)
G=2(lnL1-lnL0),自由度d=p-l G1=2[lnL(X1,X2)- lnL(X2)]=35.45 G2=2[lnL(X1,X2)- lnL(X1)]=11.23
多分类变量只能转换为哑变量处理。 哑变量的设置和结果解释
哑变量的个数为n-1(n为取值个数); 哑变量的优势比表示自变量的某个取值与对照
取值的优势比; 等级变量转换为哑变量后,还可以分析多个等
级之间的优势比,公式为exp(bi-bj)。
logistic回归应用的注意事项
样本含量
样本例数与影响因素的个数相关; 一般要求样本含量为影响因素个数的10以上; 配对资料样本的匹配组数应为影响因素个数的
logistic回归分析
卫生统计学教研室 陆健 副教授 2020/4/26
表1 吸烟、饮酒与食管癌关系的病例对照调查资料 分层 吸烟 饮酒 阳性例数 阴性例数 观察例数
1 否否
63
136
199
2 否是
63
107
170
3 是否
44
57
101
4 是是
265
151
416
表1 吸烟、饮酒与食管癌关系的病例对照调查资料 (收集资料的形式)
平的优势比为:
OR
P1 /(1 P1)
P0 /(1 P0 )
优势比(odds ratio,OR)
OR表示影响因素对事件发生的影响方 向和影响能力大小。
OR>1表示该因素取值越大,事件发生 的概率越大,又称危险因素。
OR<1表示该因素取值越大,事件发生 的概率越小,又称保护因素。
OR=1表示该因素与事件的发生无关。
208 / 517
243/ 369
OR 1.49 2.87 0.52
优势比(odds ratio,OR)
ln(OR) ln[ P1 /(1 P1) ] P0 /(1 P0 )
ln(OR) logit(P1) logit(P0)
ln(OR) (0 1X1 t Xt) ( 0 0 X0 t Xt)
计算半数效量(如ED50); 考察不同药物的交互作用。
预测和判别
根据个体的特征,判断个体发生某事件的概率; 判断个体属于的类型。