Logistic回归分析
LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
数据分析知识:数据分析中的Logistic回归分析

数据分析知识:数据分析中的Logistic回归分析Logistic回归分析是数据分析中非常重要的一种统计分析方法,它主要用于研究变量之间的关系,并且可以预测某个变量的取值概率。
在实际应用中,Logistic回归分析广泛应用于医学疾病、市场营销、社会科学等领域。
一、Logistic回归分析的原理1、概念Logistic回归分析是一种分类分析方法,可以将一个或多个自变量与一个二分类的因变量进行分析,主要用于分析变量之间的关系,并确定自变量对因变量的影响。
Logistic回归分析使用的是逻辑回归模型,该模型是将自变量与因变量的概率映射到一个范围为0-1之间的变量上,即把一个从负无穷到正无穷的数映射到0-1的范围内。
这样,我们可以用这个数值来表示某个事件发生的概率。
当这个数值大于0.5时,我们就可以判定事件发生的概率比较高,而当这个数值小于0.5时,我们就可以判定事件发生的概率比较小。
2、方法Logistic回归分析的方法有两种:一是全局最优化方法,二是局部最优化方法。
其中全局最优化方法是使用最大似然估计方法,而局部最优化方法则是使用牛顿法或梯度下降算法。
在进行Logistic回归分析之前,我们首先要对数据进行预处理,将数据进行清洗、变量选择和变量转换等操作,以便进行回归分析。
在进行回归分析时,我们需要先建立逻辑回归模型,然后进行参数估计和模型拟合,最后进行模型评估和预测。
在进行参数估计时,我们通常使用最大似然估计方法,即在估计参数时,选择最能解释样本观测数据的参数值。
在进行模型拟合时,我们需要选取一个合适的评价指标,如准确率、召回率、F1得分等。
3、评价指标在Logistic回归分析中,评价指标包括拟合度、准确性、鲁棒性、可解释性等。
其中最常用的指标是拟合度,即模型对已知数据的拟合程度,通常使用准确率、召回率、F1得分等指标进行评价。
此外,还可以使用ROC曲线、AUC值等指标评估模型的性能。
二、Logistic回归分析的应用1、医学疾病预测在医学疾病预测中,Logistic回归分析可以用来预测患某种疾病的概率,如心脏病、肺癌等。
logistic回归分析

Logistic回归分析 3.OR值的计算和意义 影响因素由X▲ 变化到X* 时,有 ln OR=∑ βj(xj*-xj▲) (1)对多指标的共同效应进行评价: ) 若OR>1,则不利因素占主导地位; 若OR<1,则保护因素占主导地位; 若OR=1,则处于平衡状态。
Logistic回归分析
(2)对单因素进行评价: )对单因素进行评价:
二、基本原理
1.结果问题 : 对于第i个个体而言,其理论结果为pi , 而实际结果是δi 。 2.一致问题: 对于第i个个体而言, δi =1 pi δi =0 qi
Logistic回归分析 pi δ i qi 1- δ i 对于全部n个研究对象而言, 对于全部 个研究对象而言,其一致 个研究对象而言 性为: 性为: L=∏ pi δ i qi 1- δ i 使得L最大的α及βj即为所求。函数法
四、参数解释
1. 偏回归系数βj 的意义 与指标的计量单位有关,从而无实际 的解释意义。
Logistic回归分析 2.标准化偏回归系数βj 的意义
1
(1)符号:取 “+”,则xj 促进阳性结果的
发生,为不利因素; 取 “-”,则xj 抑制阳性结果的 发生,为保护因素。 1 (2)大小 :∣ βj ∣越大,则xj 对结果的 影响也就越大。
▲
Logistic回归分析 4.筛选危险因素
常用方法有(1)前进法; (2)后退法; (3)逐步法:有进有出, 双向筛选。 筛选危险因素的统计量是: 似然比统计量 G=2(lnL k+1-lnL k) 它服从自由度为1的卡方分布。
Logistic回归分析
数学模型: 数学模型:
p =
e
1+
α + β1X 1 + β 2 X
统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
7-多元Logistic-回归分析解析

什么是哑变量?
一个含有g个类的分类型变量可以构造g个哑变量。
29
如何用SAS程序构造哑变量? data d2; set d1; array a{3} student teacher worker; do i=1 to 3; a{i}=( x 1= i ) ; end; run;
data d2; set d1;
INTERCPT 1 3.7180 0.6387 33.8853
0.0001
.
.
BIRTHWT 1 -0.00397 0.000588 45.6092
0.0001 -0.702480 206.996
1、因变量bpd对自变量birthwt 的logistic回归模型是:
2、自变量birthwt 的回归系数在统计意义上不等于0 (p=0.0001),因此,OR=0.996在统计意义上不等于1。 OR=0.996 说明新生儿出生体重每增加一个单位(g),患 BPD病的机会就会减少大约0.4% 。即患bpd病的概率 随新生儿出生体重的增加而下降。
• 按因变量取值个数:
• 二值logistic回归分析
• 多值logistic回归分析
• 按自变量个数:
• 一元logistic回归分析
• 多元logistic回归分析
9
第二节 Logistic 回归分析的数学模型
(1) 二值一元logistic回归模型: 令y是1,0变量,x是任
意变量,p=p(y=1|x) ,那么,二值变量y关于 变量x的一元logistic 回归 模型是:
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald
Logistic回归分析

注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33
注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34
注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。
Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。
39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验
16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2
logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
39
12
部分数据截图
39
13
主要结果:
39
14
结论:使用雌激素和有胆囊病史发生子宫内膜癌的 发病风险增加。
39
15
第五节 logistic回归的应用及其注意事项
一、logistic回归的应用
1.流行病学危险因素分析
logistic 回归分析的特点之一是参数意义清楚, 即得到某一因素的回归系数后,可以很快估计出这 一因素在不同水平下的优势比或近似相对危险度, 因此非常适合于流行病学研究。 logistic回归既适合 于队列研究(cohort study) ,也适合于病例 -对照研究 (case-control study), 同样还可以用于断面研究 (crosssectional study)
P(YA ? 1 either YA ? 1 or YB ? 1)
?
P(YA ? 1)P(YB ? 0)
P(YA ? 1)P(YB ? 0) ? P(YA ? 0)P(YB ? 1)
( ? 0 ? ? 1 X1A ? ? 2 X2A ?? ? ? k XkA )
P(Y ? 1) ? 1 ?e e A
Score
df
Sig.
Step 2 X1
.037
1
.847
a. Residual Chi Square = .037 with 1 df Sig. = .847
例2
? 研究人员对使用雌激素与子宫内膜癌发病间 的关系进行了1 :1配对的病例-对照研究。 病例与对照按年龄相近、婚姻状况相同、生 活的社区相同进行了配对。收集了年龄、雌 激素药使用、胆囊病史、高血压和非雌激素 药的使用的数据。对使用雌激素与子宫内膜 癌发病间的关系作1ogistic回归分析。
Step X2 2 X3
Variables in the Equation
B 1.727 2.284
SE Wald 1.249 1.912 1.679 1.852
df 1 1
Sig. Exp(B) .167 5.624 .174 9.821
Variables not in the Equationa
020
…
… … … ………
10
22 2
000
注:X1蛋白质摄入量,取值:0,1,2,3
X2不良饮食习惯,取值:0,1,2,3
X3精神状况 ,取值:0,1,2
配对Logistic回归SPSS操作步骤:
? Analyze-----Survival----COX Regression-----Time框(outcome)----Status框( Status )
e ? e ( ?1X1A? ? 2 X2A ? ? ? ? k XkA )
( ?1 X1B ? ? 2 X2B ? ? ? ? k XkB )
or P(YA ? 1 either YA ? 1 or YB ? 1)
? 1 ? e[ 1 ?1 ( X1A ? X1B )? ?2 ( X2A ? X2B )? L ? ?k ( XkA ? XkB )]
X 112
…
X 11 m
2
0
X 121
X 122
…
X 12m
M MMM
M
M
0
X 1M1
X1M2 … X 1Mm
M MMM
M
n
0
1
Xn01
X n02
…
X n0m
1
0
X n11
X n12
…
X n1m
2
0
X n21
X n22
…
X n2m
M MMM
M
M
0
X nM1
X nM2 … X nMm
* t = 0 为病例,其他为对照 2
第二节 条件logistic回归
一、原理
配对资料。最常用的是每组中有 一个病例和若干个对照,即 1: M 配对 研究(一般 M ? 3) 。
1
表5 1: M 条件logistic回归数据的格式
匹配组 组内编号 * 应变量
危险因素
i
t
Y
X1
X2
…
Xm
1
0
1
X101X 102…源自X 10m10
X 111
? -----Define Event:Single value 1:continue-----Covariates框(x1、x2、 x3)-----Strata框(id)---Options---at last step------ok
SPSS结果
Case Processing Summary
Overall (score)
Change From Previous Block
Likelihood Chi-square df
Sig. Chi-square df
Sig.
1.920 7.093
2
.029 11.943
2
.003
a. Beginning Block Number 1. Method: Forward Stepwise (Likelihood Ratio)
(
?
0
?
?
1
X1A
?
?
2
X
A 2
?
?
? ? k XkA )
(
?
0
?
?
1
X1B
?
?
2
X
B 2
?
?
?
?
k
X
B k
)
P (Y ? 1) ? 1 ?e e B
( ? 0 ? ?1 X1B ? ? 2 X2B ? ?
?
?
k
X
B k
)
P (Y ? 0) ? 1 ? e 1 A
(
?
0
?
?
1
X1A
?
?
2
X
A 2
?
?
? ? k XkA )
P(Y ? 0) ? 1 ? e 1 B
( ? 0 ? ?1 X1B ? ? 2 X2B ? ?
?
?
k
X
B k
)
Substitute and simplify:
P(YA ? 1 either YA ? 1 or YB ? 1)
?
e ( ?1X1A ? ? 2 X2A ? ? ? ? k XkA)
Total
N 10 10 20 0 0
0
0
Percent 50.0% 50.0% 100.0% .0% .0%
.0%
.0%
Total a. Dependent Variable: OUTCOME
20 100.0%
Omnibus Tests of Model Coeffaicients
Step 2
-2 Log
3
---- conditional logistic model.
2.条件logistic回归分析
? 可采用分层COX模型来拟合。 ? 例如:某市调查三种生活因素与胃癌
的关系,资料见表5。
表3 配对资料(1:1)
对子号
病例
对照
x1 x2 x3 x1 x2 x3
1
13 0
101
2
03 1
130
3
01 2
Cases available Eventa
in analysis
Censored
Total
Cases dropped Cases with missing values
Cases with non-positive time
Censored cases before the earliest event in a stratum