Logistic回归分析(1)
LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。
那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。
参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。
若等于1的话,该组变量对事件发⽣概率没有任何作⽤。
参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。
同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。
极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。
但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。
模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。
若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。
P<1-P,则为不和谐对(discordant)。
P=1-P,则称为结。
在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。
统计学中的Logistic回归分析

统计学中的Logistic回归分析Logistic回归是一种常用的统计学方法,用于建立并探索自变量与二分类因变量之间的关系。
它在医学、社会科学、市场营销等领域得到广泛应用,能够帮助研究者理解和预测特定事件发生的概率。
本文将介绍Logistic回归的基本原理、应用领域以及模型评估方法。
一、Logistic回归的基本原理Logistic回归是一种广义线性回归模型,通过对数据的处理,将线性回归模型的预测结果转化为概率值。
其基本原理在于将一个线性函数与一个非线性函数进行组合,以适应因变量概率为S形曲线的特性。
该非线性函数被称为logit函数,可以将概率转化为对数几率。
Logistic回归模型的表达式如下:\[P(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_pX_p)}}\]其中,P(Y=1|X)表示在给定自变量X的条件下,因变量为1的概率。
而\(\beta_0\)、\(\beta_1\)、...\(\beta_p\)则是待估计的参数。
二、Logistic回归的应用领域1. 医学领域Logistic回归在医学领域中具有重要的应用。
例如,研究者可以使用Logistic回归分析,探索某种疾病与一系列潜在风险因素之间的关系。
通过对患病和非患病个体的数据进行回归分析,可以估计各个风险因素对疾病患病的影响程度,进而预测某个个体患病的概率。
2. 社会科学领域在社会科学研究中,研究者常常使用Logistic回归来探索特定变量对于某种行为、态度或事件发生的影响程度。
例如,研究者可能想要了解不同性别、教育程度、收入水平对于选民投票行为的影响。
通过Logistic回归分析,可以对不同自变量对于投票行为的作用进行量化,进而预测某个选民投票候选人的概率。
3. 市场营销领域在市场营销中,Logistic回归也被广泛应用于客户分类、市场细分以及产品销量预测等方面。
通过分析客户的个人特征、购买习惯和消费行为等因素,可以建立Logistic回归模型,预测不同客户购买某一产品的概率,以便制定个性化的市场营销策略。
logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p
A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。
ICU综合征多因素Logistic回归分析及风险模型的建立1 (1)

Logistic analysis of ICU
lan,CHENDong—e,HUANG Hai-yah.The
AffiliatedXiehe
Hospital
ofTonal Medical
(31.425+2.61lXl+&188Xz--2.677X3+7.474X 4“312X5_v6.153X6)】,
其中P值越接近于1,患者发生ICU综合征的可能性越大;P值 越接近于0,患者发生ICU综合征的可能性越小见表3。 4.预测模型的评价。将包含常数项与6个变量的模型以 概率值0.5作为交界点,得出的预测值与实际数据结果显示:
score
income,education degree,primary disease,character type,A-
was
and
et
a1.Case・control study
used
to
retrospectively investigate the clinical data of ICU
sydrome.Firstly.single factor sion
Prac Nuts。November 1st
2009,V01.25 1塑坐!n
・49・
ICU综合征是危重患者在ICU监护过程中出现的以精 神障碍为主,兼具其他表现的一组I临床综合征,它是伴随社 会的发展和科学的进步,危重症诊治水平提高而出现的一 种疾患【1.:1。它不仅加重患者的既有疾患,还明显延长ICU监 护时间,影响患者预后。而目前国内ICU医护人员多关注患者 生理疾病的诊治,对ICU综合征关注较少,对其相关因素分析 不够全面,不能制定有效的医疗护理措施,降低其发生率。 2007年6-9月本研究收集所有入住我科的危重症患者的相 关资料,以分析ICU综合征发生的相关因素,并建立风险模 型,现报道如下。 资料与方法 1.一般资料。2007年6—9月所有入住我科的危重症患者 232例,年龄15—8l岁,平均年龄(62.5±17.2)岁,本组患者中 有24例在ICU治疗期间死亡,另有7例患者在结束ICU治疗 时意识未恢复,实际进入本研究的患者201例,男72例,女 129例。呼吸系统疾病38例,神经系统疾病11例,消化系统疾 病63例,妇产科疾病19例,循环系统疾病17例,运动系统疾 病31例,其他疾病33例。其中接受呼吸机治疗者94例。 2.方法。数据采集包括:(1)一般资料,所有患者在入住 ICU即刻,由当班护士通过询问患者及家属收集,包括年龄、 性别、文化程度、宗教信仰、家庭收入、医疗费报销情况、是否 有家庭成员缺失、原发病、患病时间、性格类型,其中性格类 型根据张伯源主持的全国性协作组修订的A型行为类型量 表测查I 31;(2)疾病危重情况,由经治医生每日行APACHE
Logisti回归方程1

Wald检验( wald test) 即广义的t检验,统计量为u
bi u= s bi
u服从正态分布,即为标准正态离 差。
以上三种方法中,似然比检 验最可靠,比分检验一般与它相 一致,但两者计算量均较大;而 Wald检验未考虑各因素间的综合 作用,在因素间有共线性存在时, 结果不像其它两者可靠。
• 分析因素xi为等级变量时,如以最小或
exp表示指数函数。
Logistic 回归模型是一种概率模 型, 它是以疾病,死亡等结果发生的概 率为因变量, 影响疾病发生的因素为 自变量建立回归模型。 它特别适用 于因变量为二项, 多项分类的资料。 在临床医学中多用于鉴别诊断 , 评价治疗措施的好坏及分析与疾病预 后有关的因素等。
3、
软件的要求
Logistic Regression Analysis
Logistic回归分析
陈新
Logistic回归分析
在医学研究中, 经常要分析某种结 果的产生与哪些因素有关。 例如:生 存与死亡 , 发病与未发病 , 阴性与阳性 等结果的产生可能与病人的年龄、性别、 生活习惯、体质、遗传等许多因素有关。 如何找出其中哪些因素对结果的产生有 显著性影响呢? Logistic回归分析能较 好地解决这类问题。
四、Logistic分析的具体任务:
1) 采用极大似然估计或加权最小二乘估 计确定方程中系数β i=0,1,2,3…; 2) 采用(剩余)卡方检验对回归方程进 行检验;
3) 采用U检验对方程中的每个系数bi进行 显著性检验。
5、参数检验
n较大时, G近似服从自由度为待检验
因素个数的2分布。
比分检验(score test)
以未包含某个或几个变量的模型 计算保留模型中参数的估计值,并假 设新增参数为零,计算似然函数的一 价偏导数及信息距阵,两者相乘便得 比分检验的统计量S 。n 较大时, S 近似服从自由度为待检因素个数的2 分布。
logistic回归分析

队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研
究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴 露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两 组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队 列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露 情况。
调查方向:追踪收集资料 暴露 疾病 +
人数
比较
aபைடு நூலகம்
b c
+
研究人群
a/(a+b)
+ -
-
c/(c+d)
d
队列研究原理示意图
暴露组 非暴露组
病例 a c
非病例 b d
合计 n1=a+b n0=c+d
发病率 a/ n1 c/ n0
相对危险度(relative risk, RR)也称危险比(risk ratio) 或率比(rate ratio) RR I e a / n1 、 I e a / n1 、 I 0 c / n2 。
研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查表 等方式,了解其发病前的暴露情况,并进行比较,推测疾病与 暴露间的关系。
调查方向:收集回顾性资料
比较 a/(a+b)
人数 a b c
暴露 +
疾病 病例
+ 对照 -
c/(c+d) d
二、 logistic回归模型的参数估计
logistic 回归模型的参数估计常采用最大似然估计。 其基本思想是先建立似然函数与对数似然函数, 求使对数似然函数最大时的参数值,其估计值即 为最大似然估计值。 建立样本似然函数:
Logistic回归分析

Logistic 回归分析Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。
适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。
一、Logistic 回归模型设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为:[]0112211exp (...)n n P X X X ββββ=+-++++它可以化成如下的线性形式:01122ln ...1n n P X X X P ββββ⎛⎫=++++ ⎪-⎝⎭通常用最大似然估计法估计模型中的参数。
二、Logistic 回归模型的检验与变量筛选根据R Square 的值评价模型的拟合效果。
变量筛选的原理与普通的回归分析方法是一样的,不再重复。
三、Logistic 回归的应用(1)可以进行危险因素分析计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。
(2)预测与判别Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。
当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。
四、SPSS操作方法1.选择菜单2.概率预测值和分类预测结果作为变量保存其它使用默认选项即可。
例:试对临床422名病人的资料进行分析,研究急性肾衰竭患者死亡的危险因素和统计规律。
Logistic回归分析.sav解:在SPSS中采用Logistic回归全变量方式分析得到:(1)模型的拟合优度为0.755。
Logistic回归分析(1)

53例接受手术的前列腺癌患者情况
6
26例冠心病病人和28例对照者进行 病例对照研究
7
26例冠心病病人和28例对照者进行 病例对照研究
8
根据研究设计不同
• Logistic回归的分类
Logistic回归 二分类 多分类
非条件 :成组资料 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
24
• 分析因素xi为多分类变量时,为方便起 见,常用1,2,…,k分别表示k个不同 的类别。进行Logistic回归分析前需将 该变量转换成k-1个指示变量或哑变量 (design/dummy variable),这样指示变 量都是一个二分变量,每一个指示变 量均有一个估计系数,即回归系数, 其解释同前。
由于 OR j 值与模型中的常数项 0 无关,
0 在危险因素分析中通常视其为无效参数。
18
回归系数的解释
• 建立Logistic回归方程就是求和i • 意义:常数项是当各种暴露因素为0时,个体发
病与不发病概率之比的自然对数值。
• i意义 • 偏回归系数,表示在其它自变量固定的 • 条件下,第i个自变量每改变一个单位时logit的改
雌激素
使用过
未使用过
病例 对照
55(a) 19(c)
128(b) 164(d)
OR P1 (1 P1 ) ad 55164 3.7089 P0 (1 P0 ) bc 19128
95%CI :
3.7089 exp 1.96
1 1 1 1 55 128 19 164
2.0964 ~ 6.5616
31
四格表资料的logistic回归
• X=1 表示使用过雌激素 • X=0 表示未使用过雌激素
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•
• 对子号
表4 配对资料(1:1)
病例
对照
•
x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3
•
X2不良饮食习惯,取值:0,1,2,3
•
X3精神状况 ,取值:0,1,2
•
Logistic回归
-- Logistic回归与多重线性回归联系与区别
联系:
用于分析多个自变量与一个因变量的关 系,目的是矫正混杂因素、筛选自变量和更 精确地对因变量作预测等。
区别:
线性模型中因变量为连续性随机变量, 且要求呈正态分布. Logistic回归因变量的 取值仅有两个,不满足正态分布。
0
1
Overall Percentage
a. The cut value is .500
Y 0
14 2
Percentage
1
Correct
1
93.3
13
86.7
90.0
Variables in the Equation
Satep X1 1 X2
B
S.E.
Wald
df
2.520 1.821 1.916
Exp(B) 12.431 54.568 1.208 .271 .000
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。 所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.
2.条件logistic回归分析
Change From Previous Block
Step Likelihood Chi-square df
Sig. Chi-square df
Sig.
2
1.920
7.093
2
.029 11.943
2
.003
a. Beginning Block Number 1. Method: Forward Stepwise (Likelihood Ratio)
非S条SPP件SSSSL操操og作作is步步ti骤骤c回::归
• Analyze-----Regression-----Binary Logistic • -----Dependent框(y)-----Covariates框
(x1,x2,…)------ok
单因素分析的结果
Variables not in the Equation
开始方程中没有变量,自变量 由少到多一个一个引入回归方程。 按自变量对因变量的贡献(P值的大 小)由小到大依次挑选,变量入选 的条件是其P值小于规定进入方程的 P界值Enter, 缺省值 P(0.05)。
(2)后退法(backward selection)
开始变量都在方程中,然后 按自变量因变量的贡献(P值的大 小)由大到小依次剔除,变量剔 除的条件是其P值小于规定的剔除 标准Remove, 缺省值 p(0.10)。
bi为i的估计值,此值越大, 其因素对Y影响越大。
• 故对于样本资料OR=exp(bi )
• 95%置信区间为:exp(bi 1.96SE(bi )) • 可见 i 是影响因素Xi增加一个单位所引起的对数
优势的增量,反映了其对Y作用大小。 • 如果要比较不同因素对Y作用大小,需要消
除变量量纲的影响,为此计算标准化回归系数
bi ' bi * Si / S y , 其中Si为X i的标准差, S y为y的标准差。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i 0, i 0,1,2,, p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
多因素分析的结果
Model Summar y
-2 Log Cox & Snell Nagelk erk e R
Step lik elihood R Square
S qu ar e
1
14.006
.601
.802
Classification Tablea
Predicted
Observed
Step 1 Y
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露 人群发病优势与非暴露人群发病优势 之比。
即Xi的优势比为:OR P1 /(1 P1 ) P0 /(1 P0 )
Ln(OR) log it[P(1)] log it[P(0)]
(0 i 1) (0 i 0) i
• 表1 多元线性回归分析的数据结构
实验对象 y
1
y1
2
y2
3
y3
X1
X2
a11 a12
a21 a22
a31 a32
X3 …. XP
a13 … a1p a23 … a2p a33 … a3p
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是服从正态分布
… ……… ………
n
yn an1 an2
an3 … anp
━━━━━━━━━━━━━━━━━━
其中:y取值是二值或多项分类
例号 1 2 3 …
30
表3 肺癌与危险因素的调查分析 是否患病 性别 吸烟 年龄 地区
1
1
0 30 0
1
0
1 46 1
0
0
0 35 1
…
… ………
0
0
0 26 1
注:是否患病中,‘0’代表否,‘1’代表是。 性别中‘1’代表男,‘0’代表女,吸烟中‘1’代 表吸烟,‘0’代表不吸烟。地区中,‘1’代表农 村,‘0’代表城市。
• 配对设计的类型:1:1、1:m、n:m • (可采用分层COX模型来拟合)。 • 例如:某市调查三种生活因素与胃
癌的关系,资料见表5。
表6 配对x3 x1 x2 x3
1
13 0
101
2
03 1
130
3
01 2
020
…
… … … ………
10
22 2
000
注:X1蛋白质摄入量,取值:0,1,2,3
logistic regression analysis
(一)基本概念和原理
1.应用背景 Logistic回归模型是一种概率模 型,适合于病例—对照研究、随访研究 和横断面研究,且结果发生的变量取值 必须是二分的或多项分类。可用影响结 果变量发生的因素为自变量与因变量, 建立回归方程。
2、Logistic回归模型的数据结构
3、 Logistic回归模型
令: y=1 发病(阳性、死亡、治愈等)
y=0 未发病(阴性、生存、未治愈等)
将发病的概率记为P,它与自变量x1, x2,…,xp之间的Logistic回归模型为:
p exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型:
yˆ b0 b1x1 b2 x2 bp xp
其中b0为截距, b1 ,b2 …bp称为偏回归系数. bi表示当将其它p-1个变量的作用加以固定后, Xi 改变1个单位时Y将改变bi个单位.
• 某研讨究者调查了30名成年人,记录 了同肺癌发病的有关因素情况, 数据见表 4。其中是否患病中, ‘0’代表否, ‘1’代表 是;性别中 ‘1’代表男, ‘0’代表女;吸 烟中 ‘1’代表吸烟, ‘0’代表不吸烟;地 区中, ‘1’代表农村, ‘0’代表城市。试分 析各因素与肺癌间的关系。
•
表5 肺癌与危险因素的调查分析
• (2)回归系数的假设检验 • H0: i 0 H1:i 0
计算统计量为:Wald 2 ,自由度等于1。
(二) Logistic回归类型及其实例分析
• 1、非条件Logistic回归 • 当研究设计为队列研究、横
断面研究或成组病例对照研究时, 可以用非条件Logistic回归。
实例1
1
3.999 1.975 4.101
1
X3
.189
.079 5.708
1
X4
-1.306 1.583
.681
1
Constant -9.781 4.099 5.694
1
a. Variable(s) entered on step 1: X1, X2, X3, X4.
Sig. .166 .043 .017 .409 .017
N 10 10 20 0 0
0
0
Total
20
a. Dependent Variable: OUTCOME
P erc en t 50.0% 50.0% 100.0% .0% .0%
.0%
.0% 100.0%
Omnibus Tests of Model Coefficientsa
-2 Log
Overall (score)
X2不良饮食习惯,取值:0,1,2,3
X3精神状况 ,取值:0,1,2
配对Logistic回归SPSS操作步骤: