logistic回归及其分析攻略

合集下载

Logistic 回归分析

Logistic 回归分析

10
分层分析的局限性
只能控制少数因素(分层因素过多, 每个格子中的样本例数太少) 定量资料需要分组,信息丢失 不能对因素作用大小进行定量分析 (交互作用)
11
y = log2x y
二、Logistic 回归原理
0
1
经过数理统计学家证明:把疾病概率 P 转换成
p ln 1 − p ,会使该回归方程的统计性能更好一些。而且,

当发病率低的时候ac所占的比例非常小, 当发病率低的时候 所占的比例非常小, 所占的比例非常小 公式中忽略ac后对 在RR公式中忽略 后对 值的影响非常小 公式中忽略 后对RR值的影响非常小 则有: 则有: RR

(ad)/(bc) = OR
5
举例1 举例 口服避孕药与心肌梗塞的流行病学研究
(病例对照,曾光《现代流行病学方法与应用》,P90) 病例对照,曾光《现代流行病学方法与应用》 P90)
β1
ORX1 =
p X1 =1 q X1 =1 p X 1 =0 q X 1 =0
=
...... ...... 1 − p x1 =1 p x1 =0 1 − p x1 =0
e
14
假设建立了如下的logistic回归方程: 回归方程: 假设建立了如下的 回归方程 Logit P = α + βx x 为二分变量,当暴露时,取值为1; 为二分变量,当暴露时,取值为1 不暴露时,取值为0 不暴露时,取值为0。 暴露时 Logit(P1) = α + β, 所以暴露 , 所以暴露时, 比值(odds) = exp(α + β ) 比值 所以不暴露时 所以不暴露时, 不暴露 Logit(P0) = α , 比值(odds) = exp(α) 比值

excellogistic回归模型

excellogistic回归模型

excellogistic回归模型Excel中的logistic回归模型在数据分析中,logistic回归是一种常用的统计建模方法,用于预测二元变量的概率。

它可以被看作是线性回归模型的扩展,其中因变量是二元的(成功/失败,是/否等),而不是连续的。

这篇文章将带你逐步了解如何在Excel中使用logistic回归模型来分析数据。

一、准备数据首先,需要准备一组包含因变量和自变量的数据。

假设我们想预测一个人是否会购买某种产品,因变量可以是“购买”(1)或“不购买”(0),自变量可以是各种影响购买行为的因素,比如年龄、性别、收入等等。

将这些数据整理为一个Excel表格,确保每一列代表一个变量,每一行代表一个样本。

二、打开Excel的数据分析工具在Excel中,要使用logistic回归模型,首先需要打开数据分析工具。

在菜单栏中,点击“数据”选项卡,然后在“分析”组中找到“数据分析”按钮。

点击该按钮后,会弹出一个对话框,其中列出了各种可用的分析工具。

三、选择logistic回归模型在数据分析对话框中,滚动并找到“回归”选项,然后点击“回归”按钮。

在下一个对话框中,选择“logistic回归”模型,并点击“确定”按钮。

四、设置回归分析的输入范围在下一个对话框中,需要设置回归分析的输入范围。

第一个输入范围应该是因变量的数据列,也就是购买行为的数据。

点击“输入范围”文本框右侧的选择按钮,在表格中选择包含因变量的列。

接下来,选择自变量的数据范围,也就是影响购买行为的各种因素的数据。

同样地,点击“输入范围”文本框的选择按钮,并在表格中选择这些自变量的列。

五、设置其他选项在设置输入范围后,还可以选择一些其他的选项来控制回归分析的输出。

比如,可以选择是否计算拟合的残差,是否将结果显示在新的工作表中等。

根据需要勾选或取消这些选项。

六、点击“确定”按钮进行回归分析完成上述设置后,点击“确定”按钮来执行回归分析。

Excel会在选定的输出位置中生成结果。

logistic回归分析

logistic回归分析

0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059

LOGISTIC回归分析

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。

参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。

若等于1的话,该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。

若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。

P<1-P,则为不和谐对(discordant)。

P=1-P,则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

用SPSS做logistic回归分析解读

用SPSS做logistic回归分析解读

如何用SPSS做logistic回归分析解读————————————————————————————————作者:————————————————————————————————日期:如何用进行二元和多元logistic回归分析一、二元logistic回归分析二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。

下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。

(一)数据准备和SPSS选项设置第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS、ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋值为1,否赋值为0。

年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。

图 1-1第二步:打开“二值Logistic 回归分析”对话框:沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic(Binary Logistic)”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。

如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<),因此我们这里选择以性别和年龄为例进行分析。

在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。

logistic回归模型分析和总结

logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p

A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。

第十九章 Logistic回归分析

第十九章 Logistic回归分析

三、回归模型的假设和回归系数的区间估计
1. 回归模型的假设检验 H0:β=0 (模型中不含变量) H1: β≠ 0 (模型中含变量)
统计量:G = - 2lnL- (-2lnL') ~ χ2(k) 在例19-1中的SAS结果中:
Model Fit Statistics Criterion Pr > ChiSq AIC SC <0.0001 -2 Log L Intercept Only 246.346 249.644 244.346 Intercept and Covariates 230.616 243.809 222.616
Logistic回归模型的分类 按反应变量的类型分:
1.两分类的 Logistic 回归模型
2.多分类有序反应变量的 Logistic 回归模型
3.多分类无序反应变量的 Logistic 回归模型式
按设计类型分: 1.非条件 Logistic 回归模型,研究对象未经过配对的成组资料 2.条件 Logistic 回归模型,研究对象为1︰1或1︰m 配对资料
一、 Logistic 回归分析的实例
例19-1 在抢救急性心肌梗死(AMI)患者能否成功的危险因素调查中,某
医院收集了5年中该院所有的AMI患者的抢救病史共200例。在抢救前:X1=1表 示已发生休克,X1=0表示未发生休克;X2=1表示发生心衰, X2=0表示未发生
心衰;X3=1表示12小时内将患者送往医院, X3=0表示12小时内未将患者送往
第二节
Logistic 回归模型的参数估计和假设检验
一、参数意义(释义同于病例-对照设计研究)
1. 相对危险度RR (Re lative Risk) RR P 1 P0

掌握多元logistic回归分析,看这篇就够了

掌握多元logistic回归分析,看这篇就够了

掌握多元logistic回归分析,看这篇就够了01. 概念多元 logistics 回归(multinomial logistics regression)又称多分类logistics 回归。

医学研究、社会科学领域中,存在因变量是多项的情况,其中又分为无序(口味:苦、甜、酸、辣;科目:数学、自然、语文、英语)和有序(辣度:微辣、中辣、重辣)两类。

对于这类数据需要用多元 logistics 回归。

多元logistics 回归实际就是多个二元logistics 回归模型描述各类与参考分类相比各因素的作用。

如,对于一个三分类的因变量(口味:酸、甜、辣),可建立两个二元logistics回归模型,分别描述酸味与甜味相比及辣味与酸味相比,各口味的作用。

但在估计这些模型参数时,所有对象是一起估计的,其他参数的意义及模型的筛选等与二元logistics类似。

02.条件因变量:三个及以上分类变量自变量:分类或连续变量协变量:分类变量03.案例及操作【例】为了研究饮食口味偏好的影响因素,分析年龄、婚姻情况、生活态度在饮食口味类型偏好(1=酸、2=甜、3=辣)中的作用,共挑选被试30人,结果见下表,试进行多元logistics回归。

说明:本案例数据纯属编造,结论不具有参考性和科学性,仅供操作训练使用。

⑴ 建立数据文件口味偏好,sav,见下图每个被试有一个口味偏好因变量taste和3个自变量age、married、inactive。

⑵对口味偏好 taste 加权单击【数据】→【加权个案】,打开加权个案对话框,加权口味偏好,见下图(3)选择【分析】→【回归】→【多项logistics】,打开多项logistics回归主对话框,见图。

⌝【因变量】:分类变量,本例选择“taste”⌝【因子】:可选择多个变量作为因子,本例选择“age”、“married”、“inactive”⌝【协变量】:可选择多个变量作为协变量,本例未选择(4)单击【参考类别】按钮,打开参考类别对话框,见图⌝【参考类别】:可选择【第一类别】、【最后类别】或【定制】,本例选择【最后类别】⌝【类别顺序】:可选择【升序】或【降序】(5)单击【模型】按钮,打开模型对话框,见下图:本例主要考察自变量age、married、inactive的主效应,暂不考察它们之间的交互作用,然后点击【继续】;(6)单击【statistics】按钮,打开统计对话框,见图:设置模型的统计量。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Score检验(也称拉格朗日乘数检验、求导检验):检验 无效假设成立时对数似然函数的效率
logistic回归分析思路
5、建立初步模型: 根据参数估计值,建立初步模型
log it( p)
ln( p ) 1 p

0

1x1

2 x2

m xm
logistic回归分析思路
11
0 1
1
1
0 1
0
1
ee e 1- p2 1- 1
0
1
0
logistic回归参数估计
最大似然估计(maximum likelihood estimation,MLE)
最大似然法就是选取使总体参数落在样本观察值领域里的 概率达到最大时的值作为参数的估计值。
AIC =(- 2 ln L)+2(q+s) AIC指标通常不用于单个模型的评价,而是用于两个或多个
模型拟合优度的比较。较小的AIC值表示拟合模型较好。
SC(Schwartz Criterion)标准是对AIC指标的一种修正: SC =(- 2 ln L)+2(q+s)* ln(n) SC与AIC一样,都是值越小表示模型拟合越好,均可用于嵌
Logit变换:logit P ln( P ) 1 P
式中等号右边的分数 [p/(1-p)] 是流行病学常用的描述疾病 发生强度的统计指标,称为优势(odds)。
当疾病发生的概率p与不发生的概率q相等皆为0.5时, odds=1,否则odds大于或小于1。
什么是Logistic回归
通常赋值为:暴露时x=1,非暴露时x=0 此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比 的优势比的对数值。 此时eβ表示1(暴露)与0(非暴露)相比,事件发生的危险,即 OR值
logistic回归分析思路
(2)暴露因素(自变量) x是多分类变量时: 常用1,2,3,…,k分别表示k个不同的类别。 进行logistic回归分析时,将变量转换为k-1个虚拟变量或
为(m+1)/n。当hi>2(m+1)/n时,第 个观测可看作高杠杆点。
logistic回归分析思路
(2)异常点诊断
强影响点(influential points):对模型估计影响较大。 常用诊断指标为Cook距离(Cook’s Distance)。 如果第i个观测的Cook距离远大于其他观测的Cook距离,意
哑变量(dummy variable),每个虚拟变量都是一个二分 类变量,通常用0和1表示。 每个虚拟变量各有一个回归系数,其意义表示1与0相比的 优势比的对数值
logistic回归分析思路
例如,血型x为A、B、AB、O四个值,以1、2、3、4来表 示,该数字只是一个代码,并非是一个等级变量。
1 p
e 1 (0 1x2x2 ...m xm )
什么是Logistic回归
Logistic回归的主要用途: (1)寻找某现象发生的影响因素。 (2)校正混杂因素。 (3)确定不同因素对疾病发生影响的相对重要性。 (4)预测。
logistic回归参数估计
Hypertension age1
age
0
1
40
0
1
40
0
1
40
0
1
41
0
1
41
0
1
41
0
1
42
0
1
42
0
1
42
1
1
43
logistic回归分析思路
直接用连续变量age分析,结果如下:
提示年龄无统计学意义
logistic回归分析思路
用分类变量age1分析,结果如下:
年龄50-59与<50相比,有统计学意义。
logistic回归分析思路
为什么多分类自变量要用虚拟变量的形式?
logit P
0.4
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
0
1
2
3
4
妊娠次数
logistic回归分析思路
(3)暴露因素(自变量) x是连续变量时,最好将其转化为 分类变量
为什么?
logistic回归分析思路
分析年龄与高血压发生与否的关系:age2是原始的年龄数 据,age1是年龄分组数据(分为<50、50-59、>=60三个年 龄组)
套或非嵌套的模型比较。
logistic回归分析思路
(5)广义确定系数R2——自变量对因变量的解释能力, 值越大,表示自变量对因变量的解释能力越强。当自变 量与因变量完全无关时,其值近于0;当拟合模型能够完 美预报时,其值趋近于1。
2

R2
=1-

L(0)
L(ˆ)

n
校正
Rˆ 2
暴露人群的优势为p1/(1-p1) 非暴露人群的优势为p2/(1-p2) 二者之比,称为优势比(odds ratio,OR)
OR= p1 /(1 p1) ad p2 /(1 p2) bc
对OR求对数,得
ln(OR)=ln(
ad bc
)=
ˆ1

OR= e1
logistic回归分析思路
Logistic回归模型:
log it( p)
ln( p ) 1 p
0
1x1
2 x2

m xm
βi表示自变量xi改变一个单位时,logit(p)的改变量。 其它形式:
0 1x1 2 x2 ... m xm
p 1 ee0 1x1 2 x2 ...m xm
1、分析前准备——是否可以用logistic回归: 研究目的: 寻找某现象的危险因素吗? 预测? 多因素分析? 因变量类型: 是分类变量吗?二分类或多分类均可
logistic回归分析思路
2、分析前准备——自变量形式审查:
(1)暴露因素(自变量) x是二分类变量时: 直接纳入模型
(2)Deviance——比较饱和模型和现有模型的差别 D 2(ln Ls ln Lf )
饱和模型包含了所有的变量,其模型估计值与观测值完 全相等,反映一种理想状态。
Deviance值越小,现有模型与饱和模型的偏差越小,拟 合效果越好。
logistic回归分析思路
(3)HL指标——用于模型中含有连续自变量的情形
故上述问题的最大似然函数是:
0 1
0
e e L ( e e e e 1
)(a
0 1
1
0
)b ( 1

1
0

1
)c
( 1
1
)d
0
两边取对数,变为
e e e e Q ln(L) a (0 1) a ln(1 ) 01 b 0 b ln(1 0) c ln(1 ) 01 d ln(1 0)
、Wald χ2检验
logistic回归分析思路
Wald χ2检验:参数估计值与标准误之比的平方
Wald
2



ˆ j se(ˆ
j
)
2


似然比检验:比较两个嵌套模型的对数似然值,如模型A 中含a、b两个变量,模型B中含a一个变量,如果两个模 型有差异,提示b可能有统计学意义。
Logistic回归分析攻略
冯国双
什么是logistic回归
常见的几种回归模型:
因变量为连续资料——线性回归 因变量为分类资料——Logistic回归 因变量为计数资料——Poisson回归 因变量为生存资料—— Cox回归 …………
什么是Logistic回归
线性回归模型: yˆ a b1x1 b2 x2 bm xm
Logit变换: logit P ln( P ) 1 P
p表示事件发生的概率,1-p为事件不发生的概率 当p=1时,logit(p)=+∞, 当p=0.5时,logit(p)=0, 当p=0时,logit(p)=-∞ 故logit(p)的取值范围是(-∞,+∞)
什么是Logistic回归
味着该点可能既是离群点,又是高杠杆点,因此很可能是一 个强影响点。
logistic回归分析思路
(3)其它问题
空单元(zero cell count):自变量各水平的交叉列联表中有些 单元(格子)的观测频数为0
完全分离(complete separation):若自变量 存在一临界值c, 当xi≥c时,事件发生,而xi<c时,则事件不发生。
在logistic回归分析时,需将变量x转换为3个虚拟变量。若 以A型血为参照组,3个虚拟变量分别为x1、x2、x3。
在分析时,将3个虚拟变量x1、x2、x3同时纳入logistic回归 模型,可得3个回归系数β1、β2、β3,其中,
β1为B型血与A型血相比患白血病的优势比的对数值; β2为AB型血与A型血相比患白血病的优势比的对数值; β3为O型血与A型血相比患白血病的优势比的对数值。
结局y
1 0 合计
暴露因素x
1
0
a
b
c
d
a+c b+d
0 1
ee p1 p( y 1 | x 1) 1 01
0
ee p2 p( y 1 | x 0) 1 0
结局y
1 0 合计
暴露因素x
1
0
相关文档
最新文档