9logistic回归分析共24页

合集下载

Logistic 回归分析

Logistic 回归分析

10
分层分析的局限性
只能控制少数因素(分层因素过多, 每个格子中的样本例数太少) 定量资料需要分组,信息丢失 不能对因素作用大小进行定量分析 (交互作用)
11
y = log2x y
二、Logistic 回归原理
0
1
经过数理统计学家证明:把疾病概率 P 转换成
p ln 1 − p ,会使该回归方程的统计性能更好一些。而且,

当发病率低的时候ac所占的比例非常小, 当发病率低的时候 所占的比例非常小, 所占的比例非常小 公式中忽略ac后对 在RR公式中忽略 后对 值的影响非常小 公式中忽略 后对RR值的影响非常小 则有: 则有: RR

(ad)/(bc) = OR
5
举例1 举例 口服避孕药与心肌梗塞的流行病学研究
(病例对照,曾光《现代流行病学方法与应用》,P90) 病例对照,曾光《现代流行病学方法与应用》 P90)
β1
ORX1 =
p X1 =1 q X1 =1 p X 1 =0 q X 1 =0
=
...... ...... 1 − p x1 =1 p x1 =0 1 − p x1 =0
e
14
假设建立了如下的logistic回归方程: 回归方程: 假设建立了如下的 回归方程 Logit P = α + βx x 为二分变量,当暴露时,取值为1; 为二分变量,当暴露时,取值为1 不暴露时,取值为0 不暴露时,取值为0。 暴露时 Logit(P1) = α + β, 所以暴露 , 所以暴露时, 比值(odds) = exp(α + β ) 比值 所以不暴露时 所以不暴露时, 不暴露 Logit(P0) = α , 比值(odds) = exp(α) 比值

Logistic回归分析

Logistic回归分析

• Wald检验( wald test)
即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
第十八页,共52页。
上述三种方法中,似然比检验最可靠, 比分检验一般与它相一致,但两者均要求较 大的计算量;而Wald检验未考虑各因素间 的综合作用,在因素间有共线性时结果不如 其它两者可靠。
Odds=P/(1-P)
比数比
OR=[P1/(1-P1)]/[P2/(1-P2)]
在患病率较小情况下,OR≈RR
第二十二页,共52页。
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之比 为优势(odds), logit P就是odds的对数
值。
• 优势比 • 常把出现某种结果的概率与不出现的概率之
P=1 Logit(P)=Ln(1/0)=+无穷大
Logit(P )取值范围扩展为(-,+ -)
第十页,共52页。
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
第十一页,
P 1e e( 1x12x2 nxn ) 1
1 P 1 e( 1x12x2 nxn )
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
第二十七页,共52页。
多因素Logistic回归分析时,对回归系
数的解释都是指在其它所有自变量固定的情 况下的优势比。存在因素间交互作用时,
Logistic回归系数的解释变得更为复杂,应
特别小心。
第二十八页,共52页。
其中,为常数项,为偏回归系数。

LOGISTIC回归分析

LOGISTIC回归分析

LOGISTIC回归分析前⾯的博客有介绍过对连续的变量进⾏线性回归分析,从⽽达到对因变量的预测或者解释作⽤。

那么如果因变量是离散变量呢?在做⾏为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要⽤到logistic分析(逻辑回归分析,⾮线性模型)。

参数解释(对变量的评价)发⽣⽐(odds): ODDS=事件发⽣概率/事件不发⽣的概率=P/(1-P)发⽣⽐率(odds ratio):odds ratio=odds B/odds A (组B相对于组A更容易发⽣的⽐率)注:odds ratio⼤于1或者⼩于1都有意义,代表⾃变量的两个分组有差异性,对因变量的发⽣概率有作⽤。

若等于1的话,该组变量对事件发⽣概率没有任何作⽤。

参数估计⽅法线性回归中,主要是采⽤最⼩⼆乘法进⾏参数估计,使其残差平⽅和最⼩。

同时在线性回归中最⼤似然估计和最⼩⼆乘发估计结果是⼀致的,但不同的是极⼤似然法可以⽤于⾮线性模型,⼜因为逻辑回归是⾮线性模型,所以逻辑回归最常⽤的估计⽅法是极⼤似然法。

极⼤似然公式:L(Θ)=P(Y1)P(Y2)...p(Y N) P为事件发⽣概率P I=1/(1+E-(α+βX I))在样本较⼤时,极⼤似然估计满⾜相合性、渐进有效性、渐进正太性。

但是在样本观测少于100时,估计的风险会⽐较⼤,⼤于100可以介绍⼤于500则更加充分。

模型评价这⾥介绍拟合优度的评价的两个标准:AIC准则和SC准则,两统计量越⼩说明模型拟合的越好,越可信。

若事件发⽣的观测有n条,时间不发⽣的观测有M条,则称该数据有n*m个观测数据对,在⼀个观测数据对中,P>1-P,则为和谐对(concordant)。

P<1-P,则为不和谐对(discordant)。

P=1-P,则称为结。

在预测准确性有⼀个统计量C=(NC-0.5ND+0.5T)/T,其中NC为和谐对数,ND为不和谐对数,这⾥我们就可以根据C统计量来表明模型的区分度,例如C=0.68,则表⽰事件发⽣的概率⽐不发⽣的概率⼤的可能性为0.68。

logistic回归模型分析和总结

logistic回归模型分析和总结

含有名义数据的logit
含有名义数据的logit
• 例:某地25岁及以上人中各类婚姻状况居民的死
亡情况见表,试建立死亡率关于年龄和婚姻状况
的logit模型。
ln p 1 p

A 1M1
2M 2
3M3
• 其中,A表示年龄(取中值),M1、M2、M3表示婚 姻状况
• 于是,估计的logit方程为:
多项logit模型
【例】研究三个学校、两个课程计划对学生偏好何 种学习方式的影响。调查数据见表:
• 其中,三个学校对应两个哑变量x1和x2,两个课 程计划为常规(x3=1)和附加(x3=0),学习方式分 为:自修(y=1)、小组(y=2)、上课(y=3)
• 从题目可以看出,响应变量是学习方式有三类, 属于多项逻辑斯蒂回归问题。于是,建模为:
ln ln
p1 p3 p2 p3
10 11x1 12 x2 13 x3 20 21x1 22 x2 23x3
多项logit模型
多项logit模型
• 应用统计软件可以得到模型的参数估计和回归方程:
ln
p1 p3
0.5931.134 x1 0.618 x3
ln
p2 p3
0.603 0.635 x3
ln p A E
1 p
• 其中A为年龄,E为文化程度
含有有序数据的logit
含有有序数据的logit
• 于是,估计的logit方程为:
ln p 11.637 0.124A 0.164E 1 p
• 其中,年龄的系数0.124,说明年龄越大死亡率会 越高;
• 文化程度的系数-0.164,说明文化程度与死亡率 呈负相关,文化程度越高,死亡率越低。

9logistic回归分析共25页文档

9logistic回归分析共25页文档

.4626866
|
+-----------------------------------------------
chi2(1) = 28.94 Pr>chi2 = 0.0000
方法2:logistic回归—输出回归系数
logit case exposure [fw=f]
Logit estimates Log likelihood = -90.024994
cc case exposure [fw=f]
Proportion
| Exposed Unexposed | Total Exposed
-----------------+------------------------+----------------------
Cases |
40
36 |
76
0.5263
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
9logistic回归分析
36、如果我们国家的法律中只有某种 神灵, 而不是 殚精竭 虑将神 灵揉进 宪法, 总体上 来说, 法律就 会更好 。—— 马克·吐 温 37、纲纪废弃之日,便是暴政兴起之 时。— —威·皮 物特
38、若是没有公众舆论的支持,法律 是丝毫 没有力 量的。 ——菲 力普斯 39、一个判例造出另一个判例,它们 迅速累 聚,进 而变成 法律。 ——朱 尼厄斯

Logistic回归分析

Logistic回归分析
32

注:因为p>a,所以认为样本实际值得到的分布与 预测值得到的分布无显著差异,模型拟合优度较好 。
33

注:模型整体的准确度不高,对不购买人群的准确 率极高,对购买人群的准确率很低。
34

注:预测类别图上可以看出,预测概率在0.4附近的 样本预测准确率相对最低。事实上,无论用什么分 类方法,这类样本身就是最难预测的。

Hosmer—Lemeshow检验:通过模型可以计算出给 定解释变量取值时被解释变量取1的概率预测。如 果模型拟合较好,则应给实际值为1的样本以较高 的概率,给实际值为0的样本以低的概率预测值。 于是对概率预测值进行分位数分组(通常为10分位 数,将样本分为10组),预测概率大小分得的10组 和实际观测值0/1类别分组形成了交叉列联表。由 观测频数和期望频数计算卡方统计量,即Hosmer— Lemeshow统计量,它服从自由度为n-2的卡方分布 ,n为组数。

39
模型拟合优度的评价与检验 目的:第一,回归方程能够解释被解释变量变差的 程度,即线性回归的部分能解释LogitP的程度,这 一点与一般线性回归分析是相同的;第二,由回归 方程得到的概率进行分别判别的准确率。 方法: 第一目的:Cox &Snell R2 统计量和 Nagel ker ke R2 统计量 第二目的:混淆矩阵(错判矩阵)和 Hosmer-Lemeshow检验

16
2 L0 N 1 ( ) 2 Cox & Snell R 统计量= L1
,N为样本容量。 该统计量类似于一般线性模型中的R方,统计量的值 越大表明模型的拟合优度越高。不足之处在于其取值 范围无法确定,不利于模型之间的比较。
Cox &Snell R 2

Logistic回归分析及应用讲课文档

Logistic回归分析及应用讲课文档
第二十九页,共76页。
第三十页,共76页。
第三十一页,共76页。
第三十二页,共76页。
第三十三页,共76页。
第三十四页,共76页。
第三十五页,共76页。
第三十六页,共76页。
3、逐步Logistic回归分析
(1)向前法(forward selection)
开始方程中没有变量,自变量由 少到多一个一个引入回归方程。按自 变量对因变量的贡献(P值的大小)由 小到大依次挑选,变量入选的条件是 其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。
除变量量纲的影响,为此计算标准化回归系数
bi' bi *Si / Sy,其中 Si为Xi的标准差 Sy为y的标准差。
第十五页,共76页。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i0,i0,1,2,,p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• 对子号
病例
对照

x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3

X2不良饮食习惯,取值:0,1,2,3

X3精神状况 ,取值:0,1,2

第十页,共76页。
Logistic回归
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.

logistic回归分析PPT精品课程课件讲义

logistic回归分析PPT精品课程课件讲义

问题的提出(续)
• 但在医学研究中常碰到因变量的取值仅有两个, 如是否发病、死亡或痊愈等;
• 分析“母亲怀孕期间体重增加”对“新生儿出 生低体重”的影响
二、概念的引入
• 如按线性回归思想建立模型: P=α +βX • P的意义是发生出生低体重的概率
• 在线性回归模型中,X的取值是任意的,P值可能大 于1或小于0,无法从医学意义进行解释, 显然不适 宜用线性回归建立预测模型。
表明ECG异常者CHD发病是正常者的2.056倍。 (3) 比较各变量对方程贡献的大小: 根据标化的值大小,确定各因素对CHD发病影响的 大小。在此项研究中,危险因素中吸烟对方程贡献最大 ,其他依次为相对体重、年龄、 胆固醇、ECG和BP。
4) 用于预测发病率: 可根据该公式预测某人在不同因素暴露条件下 CHD的发病率。如某受试者A暴露于因素xi的情况 为: X=(45, 210, 130, 100, 120, 0, 0) 利用该模型计算该受试者A在暴露上述各种研究因 素的条件下,12年间CHD的发病率为: PA1 = 1/{1+exp[-(-13.2573 + 0.1216 x 45 + 0.0070 x 210 + +0.7206 x 0)]} = 1/[1+exp(-2.9813)] = 0.048
小 结
• (1)logistic回归分析要求因变量是二分变量,或任何取值
为0或1的属性数据。
• (2)logistic回归分析中对自变量的正态性、方差齐性不作
要求,对自变量类型也不作要求;
• (3)自变量与因变量(y)之间是非线性关系,但是与logit y之
间应符合线性关系。
1. 定群研究资料分析…弗明汉心脏研究 742 名居住在弗明汉年龄为 40-49 岁的男性,在各自暴露不 同水平的影响因素(详见下表中的7种因素),经 12年追踪观察 CHD发病情况。根据此742名受试者每人暴露各项因素的水平 和 CHD 发病与否的资料,采用多因素 LOGISTIC 回归模型进
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
case |
Controls |
9
67 |
76
0.1184
-----------------+------------------------+----------------------
Total |
49
103 |
152
0.3224
|
|
|
Point estimate | [95% Conf. Interval]
并按等级顺序依次取为0,1,2,…。此时,
OR=exp()表示X增加一个等级时,发病危险变为原
来的几倍。 连续性变量:表示增加1(个计量单位)时,发病危险
变为原来的几倍。
回归系数的解释
多分类变量:哑变量(dummy variable)
x=1时: x1=1, x2=0, x3=0, x4=0 表示A型血 x=2时: x1=0, x2=1, x3=0, x4=0 表示B型血 x=3时: x1=0, x2=0, x3=1, x4=0 表示AB型血 x=4时: x1=0, x2=0, x3=0, x4=1 表示O型血
lo i( p t ) g eo xs p 0 u .6 r 2 2 .1 e 1 e 1 1 o x 2 s p 8 ure
方法2:logistic回归—输出OR
logit case exposure [fw=f],or
Logit estimates Log likelihood = -90.024994
似然比检验: G=-2lnL-(-2lnL’)
Wald检验: z 检验
i2
(
ˆi SE(ˆi
)2 )
回归系数的解释
回归系数 表示当其它自变量固定不变时, X每改变一个单位,优势对数的改变量(优 势比的对数)。
回归系数的解释
回归系数的解释
二分类变量: OR=exp()表示暴露组发病的危险是
非暴露组的几倍。 等级变量:一般以最小等级或最大等级作为参考组,
_cons | -.6211737 .2066474 -3.01 0.003 -1.026195 -.2161522
------------------------------------------------------------------------------
似然比2 =30.67,P=0.0000,因此可以认为模型有意义。
.4626866
|
+-----------------------------------------------
chi2(1) = 28.94 Pr>chi2 = 0.0000
方法2:logistic回归—输出回归系数
logit case exposure [fw=f]
Logit estimates Log likelihood = -90.024994
Number of obs =
LR chi2(1)
=
Prob > chi2
=
Pseudo R2
=
152 30.67 0.0000 0.1455
------------------------------------------------------------------------------
组别 间皮瘤病例
对照 合计
表 1 胸膜间皮瘤与接触石棉的关系
以往接触过石棉
未接触过石棉
40
36
9
67
49
103
合计 76 76 152
方法1:卡方检验 方法2:拟合logistic回归模型,即
loig (tp)exopsure
数据结构
case
exposure
f
1
1
40
1
0
36
0
1
9
0
0
67
方法1:2 检验
|------------------------+----------------------
Odds ratio |
8.271605
| 3.4193 21.33091 (exact)
Attr. frac. ex. |
.8791045
| .7075425 .9531197 (exact)
Attr. frac. pop |
条件logistic模型:配比病例对照研究资料
非条件logistic回归模型
lo ( p ) g0 + it 1 X = 1 + 2 X 2 k X k
01X1+ 2X2+ + kXk
p1ee01X12X2kXk 1
p1e ( 01X1+ 2X2+ + kXk)
参数估计与假设检验
参数的估计:极大似然(MLE) 假设检验:
产生哑变量: tab x,gen(x)
非条件logistic回归
logit 因变量 自变量,[选择项]
sw logit 因变量 自变量,[选择项]
选择项: or 指定结果中给出OR值,缺失时输出回归系数 pr(#)是剔除变量的P值 pe(#)是选入变量的P值
例1(成组病例对照研究) 某单位研究胸膜间皮瘤与接触 石棉的关系,资料见下表。试对其进行分析。
数据特征
因变量(结局):分类变量 二分类变量(二分类logistic回归) 有序多分类变量(有序多分类logistic回归) 无序多分类变量(无序多分类logistic回归)
自变量(各种影响因素) :可以是分类变量,也可 以是连续型变量。
二分类资料的分析
非条件logistic模型:成组病例对照研究资料
cc case exposure [fw=f]
Proportion
| Exposed Unexposed | Total Exposed
-----------------+------------------------+----------------------
Cases |
40
36 |
76
0.5263
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
exposure | 2.112829 .4228578 5.00 0.000 1.284043 2.941615
相关文档
最新文档