Logistic回归分析简介

合集下载

医学统计学:Logistic回归分析

医学统计学:Logistic回归分析

析包含某个或某几个变量的模型是否有统计学意义。
模型s的对数似然函数
模型s的对数似然函数 大样本
G = -2 ( ln Ls- ln LP ) ~ 2 ( p -s)
模型s嵌套 于模型p内
LS :包含s个回归系数的模型的似然函数对数值; LP:包含p个回归系数的模型的似然函数对数值,p > s ;
• G值的大小反映增加某个或某几个自变量的模型拟合优度提高的程度。 • s=0时,是对模型的整体检验;p=s+1时,是对某个自变量的检验。
包括:多元线性回归模型,logistic回归模型,Probit回归模型,
Poisson回归模型,负二项回归模型
2
当因变量是分类变量时,其自变量与因变量更多的是 非线性关系,严重违背了线性回归模型的假设条件。 故直接应用线性回归分析不合理;
不能直接分析 y 与 x 的关系 y=f(x) ,因y仅取有 限的几个值
23
2019/6/6
Logistic回归模型的统计推断 • Logistic回归方程(系数)的假设检验 • Logistic回归模型的拟合优度检验 • Logistic回归模型预测准确度的检验
22
(1) 似然比检验(likelihood ratio test)
通过比较两个相嵌套模型的对数似然函数统计量G (又称Deviance):来分
对数似然 ln L a(0 1) a ln[1 exp(0 1)] b ln[1 exp(0 1)] c0 c ln[1 exp(0)] d ln[1 exp(0 )]
求一非阶线偏性导迭,代并方令法一阶偏导数=0 ——Newton-Raphson迭代法
最大似然估计
ˆ0
ln
c d

LOGISTIC回归分析

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。

参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。

若等于1的话,该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。

若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。

P<1-P,则为不和谐对(discordant)。

P=1-P,则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

统计学中的Logistic回归分析

统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。

它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。

本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。

一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。

其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。

该非线性函数被称为logit函数,可以将概率转化为对数几率。

Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。

而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。

二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。

例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。

通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。

2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。

例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。

通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。

3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。

通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。

logistic回归方差

logistic回归方差

logistic回归方差
Logistic回归分析是一种统计分析方法,它可以用来预测可能性或概率。

它是一种基于回归分析的机器学习技术,可以用于预测事件发生的概率,比如是否获得某种学位的概率。

与传统的线性回归不同,Logistic回归分析的目的是预测因变量(事件是否发生)的影响变量(系列自变量)。

Logistic回归应用于研究事件,其中变量值要么为0(当事件未发生),要么为1(当事件发生)。

这种技术被用于预测拥有特定客户属性的客户是否会购买特定产品。

这是一项根据某一自变量或一组自变量(如年龄或性别)预测因变量(如购买或不购买)的分类分析。

Logistic回归非常有用,它有助于确定预测和影响事件的变量,它可以用于检验两个变量之间的联系是否统计显著。

此外,Logistic回归可以测算客户的获取成本和占用率,以及客户到客户之间的平均消费水平。

Logistic回归可以帮助组织了解客户购物行为,并利用结果来进行定价、推广和市场营销等活动的计划。

它也可以帮助理解有害行为的可能性和风险,用于风险评估和管理,并预测可能降低风险的措施,以降低不良结果的可能性。

然而,Logistic回归的变量很容易受到异常数据的影响,而且Logistic回归预测的准确性取决于给定数据的分布。

另外,由于它
涉及预测概率,因此模型可能会欠拟合,也就是说可能存在模型方差,它可能不能很好地预测新数据。

同样重要的是,我们也不能确定未知数据的真实变量,因此可能存在混乱,这会影响Logistic回归模型的效果。

logistic回归模型分析和总结

logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p

A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。

统计学-logistic回归分析

统计学-logistic回归分析

在患病率较小情况下,OR≈RR
• Logistic回归中的常数项(b0)表示, 在不接触任何潜在危险/保护因素条 件下,效应指标发生与不发生事件的 概率之比的对数值。 • Logistic回归中的回归系数( bi )表示, 某一因素改变一个单位时,效应指标 发生与不发生事件的概率之比的对数 变化值,即OR的对数值。
( 0 1 x1 ) ( 0 x0 ) 1 x1
OR e

P odds1 1 /(1 P 1) OR P0 /(1 P0 ) odds0
Y 发病=1 不发病=0
危险因素 x= 1 x= 0 30(a) 10( b) 70(c) 90(d) a+c b+d 危险因素 x= 1 x= 0 p1 p0 1-p1 1-p0
i
事件发生率很小,OR≈RR。
二、 Logistic回归模型
• Logistic回归的分类
二分类 多分类
条件Logistic回归 非条件Logistic回归
• Logit变换
也称对数单位转换
P logit P= ln 1 P
流行病学概念:
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之 比为优势(odds), logit P就是odds 的对数值。
Y 发病=1 不发病=0a p1 ac源自有暴露因素人群中发病的比例
多元回归模型的的 i 概念
P logit(p) ln = 0 1 X 1 1 P m X m
i 反映了在其他变量固定后,X=1与x=0相比
发生Y事件的对数优势比。 回归系数β与OR X与Y的关联 • β=0,OR=1, 无关 β>0,OR>1 , 有关,危险因素 β<0,OR<1, 有关,保护因子

第十九章 Logistic回归分析

第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0

logit regression 系数解释

logit regression 系数解释

logit regression 系数解释
一、logit回归简介
logit回归是一种用于分类问题的线性模型。

在这种模型中,输出变量是一个离散概率分布,通常表示为0-1之间的值。

logit(逻辑斯蒂)函数用于将线性模型的输出转换为概率。

logit回归的系数解释是理解模型的重要步骤。

二、logit回归系数含义
在logit回归中,系数表示自变量对因变量概率的影响程度。

具体来说:
1.系数为正:自变量增加一个单位,对应的概率增加。

2.系数为负:自变量增加一个单位,对应的概率减少。

三、logit回归系数解释方法
1.绝对值大小:系数绝对值越大,自变量对因变量的影响越大。

2.符号:系数符号表示自变量与因变量之间的关系。

正值表示正相关,负值表示负相关。

3.模型稳定性:系数稳定性的判断可以依据系数大小和显著性检验。

显著的系数表示该自变量对因变量有实质性影响。

四、实例分析
假设一个logit回归模型预测某产品的购买概率,其中有一个自变量为“收入”。

系数为正,说明收入与购买概率正相关;系数为负,则表示收入越高,购买概率越低。

通过分析系数大小,可以为企业制定针对不同收入群体的营销策略。

五、总结
logit回归系数解释是理解模型的重要环节。

掌握系数含义、判断关系和实际应用,有助于更好地利用模型进行预测和决策。

在实际分析中,还需结合显著性检验和实际意义,综合判断自变量对因变量的影响。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Logistic回归分析简介
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。

1.应用范围:
①适用于流行病学资料的危险因素分析
②实验室中药物的剂量-反应关系
③临床试验评价
④疾病的预后因素分析
2.Logistic回归的分类:
①按因变量的资料类型分:
二分类
多分类
其中二分较为常用
②按研究方法分:
条件Logistic回归
非条件Logistic回归
两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍
研究。

3.Logistic回归的应用条件是:
①独立性。

各观测对象间是相互独立的;
②LogitP与自变量是线性关系;
③样本量。

经验值是病例对照各50例以上或为自变量的5-10倍(以10倍
为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然
估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;
④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观
察时间的影响(建议用Poisson回归)。

4.拟和logistic回归方程的步骤:
①对每一个变量进行量化,并进行单因素分析;
②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等
级资料。

可采用的方法有依据经验进行离散,或是按照四分、五分位数
法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离
散变量。

③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级
变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量
变换;
④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或
0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型
程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变
量。

可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计
量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选
择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald
统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔
除。

这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般
地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,
则降低选入界值、提高删除标准。

但筛选标准的不同会影响分析结果,
这在与他人结果比较时应当注意。

⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两
变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但
在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交
互作用,最多是研究少量的一级交互作用。

⑥对专业上认为重要但未选入回归方程的要查明原因。

5.回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)
①决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。

R2
随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。

但亦有研究指出R2是多元线性回归中经常用到的一个指标,
表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预
测值与观测值之间差别的问题,因此在logistic回归中不适合。

②C p选择法:选择C p最接近p或p+1的方程(不同学者解释不同)。

C p
无法用SPSS直接计算,可能需要手工。

1964年CL Mallows提出:
Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自
变量总个数。

③AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的
方程越好。

在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。

Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。

Pearson χ2、偏差
(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。

AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。

6.拟合方程的注意事项:
①进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法
(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于
或等于剔除变量的检验水准;
②小样本检验水准α定为0.10或0.15,大样本把α定为0.05。

值越小说明
自变量选取的标准越严;
③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感
兴趣的研究变量选入方程;
④强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应
该是同等的,实际并非如此。

有些样本点(记录)对回归模型影响很大。

对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。

⑤多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越
强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;
⑥异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)
以及强影响点(influential points)。

特异点是指残差较其他各点大得多的点;
高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。

单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。

对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。

这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。

杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。

Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。

Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。

DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值
越大),表明该观测值的影响越大。

如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原
因后酌情处理。

如来自测量或记录错误,应剔除或校正,否则处置就必
须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完
事。

因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的
或许更为重要因素的线索。

7.回归系数符号反常与主要变量选不进方程的原因:
①存在多元共线性;
②有重要影响的因素未包括在内;
③某些变量个体间的差异很大;
④样本内突出点上数据误差大;
⑤变量的变化范围较小;
⑥样本数太少。

8.参数意义
①Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素
条件下,效应指标发生与不发生事件的概率之比的对数值。

②Logistic回归中的回归系数(b i)表示,其它所有自变量固定不变,某一
因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变
化值,即OR或RR的对数值。

需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联
系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。

③存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别
小心。

④模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料
不适合使用该模型。

另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随
访期的延长,回归系数变得不稳定,标准误增加。

9.统计软件
能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。

相关文档
最新文档