logic回归分析资料

合集下载

logistic回归分析精选PPT课件

logistic回归分析精选PPT课件

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
2
二分类资料的分析
非条件logistic模型:成组病例对照研究资料 条件logistic模型:配比病例对照研究资料3源自非条件logistic回归模型
lo ( p ) g 0 + i 1 X 1 + t = 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2 kXk 1
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
.4626866

第8章:Logistic回归分析

第8章:Logistic回归分析

3、Logistic 回归模型的参数估计 对 Logistic 回归模型的参数估计可以采用极大似然法或者迭 代法。 极大似然法的基本思想是先建立似然函数,然后求使得似然 函数达到最大的参数估计值。 对于已有样本,可建立样本的似然函数为:
L piyi (1 pi )1 yi
i 1 n
样本的对数似然函数为:
ln L [ yi ln pi (1 yi ) ln(1 pi )]
n
将 pi 代入得:
i 1
ln L [ yi ( 0 1 xi1 2 xi 2 k xik )
i 1
n
ln(1 exp(0 1xi1 2 xi 2 k xik ))]
根据极大似然原理,对 lnL 求一阶导数并令其为0,再用 Newton-Raphson 迭代方法求解,得到参数估计值及其标准误。
4、 Logistic 回归的评价及统计检验 ⑴对于整体模型的检验 logistic回归方程求解参数是采用极大似然估计方法,因此 其回归方程的整体检验通过似然函数值( Likelihood )。 所谓似然函数值表达的是一种概率,即在假设拟合模型为真 实情况时能够观察到这一特定样本数据的概率,因此这个函数 值处于[0,1]之间。
e pi 1 e 0 1x1 2 x2 k xk e 0 1x1 2 x2 k xk 1 pi 1 1 e 0 1x1 2 x2 k xk
其中:pi 表示第 i 个观测中事件发生的概率,1-pi 表示第 i 个观 测中事件不发生的概率。
Logistic 回归分析根据因变量取值类别不同,又可以分为二 元 Logistic 回归分析和多元 Logistic 回归分析。

logistic回归分析

logistic回归分析

0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059

LOGISTIC回归分析

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。

参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。

若等于1的话,该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。

若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。

P<1-P,则为不和谐对(discordant)。

P=1-P,则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。

在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。

一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。

Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。

这样,我们可以用这个数值来表示某个事件发生的概率。

当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。

2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。

其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。

在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。

在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。

在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。

在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。

3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。

其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。

此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。

二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析-logit回归解读

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。

比较常用得情形就是分析危险因素与就是否发生某疾病相关联。

例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。

自变量既可以就是连续变量,也可以为分类变量。

通过Logistic回归分析,就可以大致了解胃癌得危险因素。

Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。

多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。

1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。

2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。

Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。

如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。

这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。

如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。

logistic回归分析PPT优秀课件

logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;

logic回归分析

logic回归分析
研究目的:分析农民 宅基地退出意愿的 影响因素
因变量的选取:“是 否愿意退出闲置宅 基地”,
答案设为“愿意” 、“不愿意”和“ 不确定”3种情况。
愿意的定义为P=1, 不愿意的定义为P=0
因素
因变量 是否愿意退出宅基地 自变量 性别 年龄 文化程度 职业技能 家庭年收入
变量 名
农业收入比重 家庭人口数量 外出打工人数 赡养的老人数量 抚养的子女数量 宅基地数量 宅基地来源
完全不了解=0, 了解一些=1,非常了解=2 现金补偿=1,地价浮动补偿=2,置换住房=3,其他=4
1.048
4.506
1
.034
.108
常量
-2.629
1.554
2.862
1
.091
.072
a. 在步骤 1 中输入的变量: x3, x2, x1.
p exp(2.629 0.102x1 2.224x2 ) 1 exp(2.629 0.102x1 2.224x2 )
以本论文的研究方法为例
B
步骤 1a x3
2.502
x2
.002
x1
.082
常量 -6.157
S.E, 1.158 .002 .052 2.687
Wald 4.669 .661 2.486 5.251
df 1 1 1 1
Sig. Exp (B)
.031 12.205
.416 1.002
.115 1.086
.022
.002
B表示回归系数的参数,S.E.表示回归系数估计量的标准差,
2
因变量 y=1 表示乘坐
3 4
公共汽车上下班
5
变量y=0 表示要乘自
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在m个自变量的作用下Y=1(发生)的概率记作:
P P(Y 1 | X 1 , X 2 ,, X m )
0 P 1
Logic回归(非条件logic回归)
二.回归模型
• • 事件发生的概率 事件不发生的概率
p
exp(0 1 X1 p X p ) 1 exp(0 1 X1 p X p )
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
OR exp 1
• OR 与 的关系
P ln = log itP 1 P
• = 0,OR = 1,影响因素与事件的发生无关。
• > 0,OR > 1,影响因素的取值越大,事件的发生的概率越大 • < 0,OR < 1,影响因素的取值越大,事件的发生的概率越小
个体发生事件概率与不发生事件的概率之比的自然对 数变化值。
Logic回归(非条件logic回归)
四 .logistic函数的图形 1 1
P
0.5 0.5
Z : , 0, P : 0, 0.5, 1
0 -4 -3 -2 -1 0 1 2 3 4
logit(p)
log it ( p) 0 1 X1 2 X 2
• OR( odds ratio,优势比、比值比)某影响因素的 两个不同水平的优势的比值。
P 1 / (1 P 1) OR P0 / (1 P0 )
Logic回归(非条件logic回归)
p1 / (1 p1 ) Ln(OR) Ln p0 / (1 p0 ) log it ( p1 ) log it ( p0 ) ( 0 1 x1 ) ( 0 0 x0 ) 1

• G反映模型2较模型1拟合优度提高的程度。
模型系数的综合检验 卡方 步骤 1 步骤 块 模型 12.703 12.703 12.703 df 3 3 3 Sig. .005 .005 .005
ln Ll 为模型1的值, ln Lp 为模型2的值。
Logic回归(非条件logic回归)
七.logistic回归模型的假设检验
1 1
回归分析
Logic回归分析
1 1
以某项社会调查为例
以本论文的研究方法为例
回归分析
回归分析:因变量与一个或多个自变量的函数关系 回归分析的分类
线性回归 一元线性回归 回归分析 非线性回归 多元线性回归
回归分析
Logistic回归分析
• Logistic回归模型:概率非线性模型, 因变量y与一些影响因素x的关系的模型 • 资料:应变量为事件发生或不发生二值变量,也可以是多值变量 • 自变量为分类变量或连续型变量。 • 目的:作出以多个自变量估计应因变量的 logistic回归方程。 • 用途:预测事件(现象)发生的概率 医学上分析疾病与危险因素的联系
• 三.模型参数的意义
P ln =0 1 X1 2 X 2 1 P m X m log itP
• 0 (常数项):所有影响因素均为0时(记作X=0), 个体发生事件概率与不发生事件的概率之比的自然对 数值。 •
m (回归系数)的含义:某自变量改变一个单位时,
Logic回归(非条件logic回归)
七.logistic回归模型的假设检验
• 1.似然比检验
• • • • 比较两个模型的拟合效果,评估哪个更适合当前研究 假设模型1包含L个自变量。 模型2包含P个自变量,模型2的自变量比模型1多。 似然比统计量G的公式为
G 2(ln Lp ln Ll )
• 2.wald检验
• 将各参数的估计值与0比较,用它的标准误差作为参照, • 检验统计量为

u bi / Sbi
bi
B 步骤 1
a
• u为统计量
为各参数的估计值 Sbi 为回归系数的标准差
S.E, 1.158 .002 .052 2.687 Wald 4.669 .661 2.486 5.251 df 1 1 1 1 Sig. .031 .416 .115 .022 Exp (B) 12.205 1.002 1.086 .002
i 1, 2, ,n
ln L [Yi ln Pi (1 Yi ) ln(1 Pi )]

Pi 表示第个对象处于事件发生时的概率。概率为1时, Yi 1,

Yi 0 概率为0时, 2.优势比估计,可反映某一因素两个不同水平( 势比。 ˆ
c1, c0)的优
Page 11
OR j exp[b j (c1 c0 )]

1 1 p 1 exp( 0 1 X1 p X p )
经数学变换得到
P ln = log itP 1 P
• 事件发生的概率与未发生的概率之比的自然对数,称为p的Logit变换,记 做Logit(p)
Logic回归(非条件logic回归)
m X m
Logic回归(非条件logic回归)
• 五.优势比(odds ratio,OR)
• Odds(优势,比数,比值)是指某影响因素控制在某 种水平时,事件发生率与事件不发生率的比值,即P/ odds 1 1 p 1 p 1 p
Logic回归(非条件logic回归) 六.logistic回归模型的参数估计

L PiYi (1 Pi )1Yi
i 1
n i 1
1.最大似然法估计,最大似然法的基本思想是先建立似然函 数或对数似然函数,似然函数或对数似然函数达到极大时参 数的取值,即为参数的最大似然估计值。 n
有序多分类logistic回归
多分类(y为多分类变量)
无序多分类logistic回归 Logic回归 条件logic回归(配对设计)
二分类(y为二项分类)
非条件logic回归(非配对设计)
Logic回归(非条件logic回归)
一.基本概念
1 因变量y= 0 不发生 发生
自变量X1 , X 2 ,
, Xm
相关文档
最新文档