[实用参考]逻辑回归.ppt

合集下载

logistic回归分析PPT优秀课件

logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;

Logistic回归模型1PPT课件

Logistic回归模型1PPT课件
利用logistic分布函数的特征来表示在自变量X 的作用下出现阳性结果或阴性性结果的概率。
出现阳性结果的概率记为: P( y=1|x),
出现阴性结果的概率为: Q( y=0|x), 注意:P+Q=1。
当只有一个自变量时,logistic回归模型:
exp(X) P(y1|x)1ex0 p(X)
(1)
(10)
P(1)─X取1时,为暴露组 ; P(0)─X取0时,为非暴露组。
loig (tP )0x
lO n ) li [ o ( P R ( 1 t ) l g ] i [ o P ( 0 t ) ( g ] 0 1 ) ( 0 0 )
lnO ( R ) ORe
(五) 的统计学意义
-
1
Logistic 回归模型
主讲:黄志碧
回归分析概述
1、根据自变量多少分
(1)简单回归(一个自变量)
(2)多元回归(多个自变量) 2、根据Y的取值分
(1)确定型回归(多元线性回归) (2)概率型回归(Logistic回归) 3、根据回归图形分 线性回归(多元线性回归) 非线性回归(Logistic回归)
模型拟合优度检验: H0设实际频数分布和理 论频数分布相符合,即模型的拟合优度较好。
-
38
第二节 二项分类变量资料 非条件logistic 回归
二项分类反应变量是最常见的变量类型, 又称0、1变量。可用于病例-对照研究,队列 研究和横断面研究,其中成组设计的非条件 Logistic回归最常见。
-
0
Q (y0|x)1ex 1p 0(X) (2)
式中, 0 为回归线的截距, 是与X有关的
参数,也称回归系数。
Q P((yy 1 0||x x))exp 0(X) (3)

Logistic回归分析(共53张PPT)

Logistic回归分析(共53张PPT)
数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。

Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。

Logistic回归分析 ppt课件

Logistic回归分析  ppt课件

Logistic回归分析
Logistic回归模型: Logit(p)=ln(p/(1-p))=β0+β1x1+β2x2+βnxn
Y=Logit(p) 的图形如下 (随p由0变到1,Y的值由-∞单调上升到∞)
5
Logistic回归分析
上模型称为Logistic回归模型.其中最简单的情况
0
3
0
8
31
PPT课件
20
Logistic回归
进入分析家并打开数据集 选择统计/回归/Logisti
YDependent,xQuantitative <Variables>/countFrequency 点击Model{}右侧的箭头,并选0(y=0
为发病) ok
1
Logistic回归分析
描述属性变量Y所表示的某一特征发生的可 能性大小(即概率p),也希望用一些自变量x1, x2,...来说明和预测。特别是两值问题(Y=0表示 某事件A不发生,Y=1表示发生):记
P{Y=1}=p
p的取值在0与1之间变化,所以简单地将 概率p表示为自变量x1, x2,....的线性函数 是不合适的。
4.6978=570.649-565.951 其对应的P值小,建模效果显著
12
结果分析
参数估计值
• (Analysis of Maxamum Likelihood Estimates)
回归方程:
• Logit(p)=-0.7566+0.4373*sex • 由检验的显著性概率值(分别为0.001和0.0312)可知
PPT课件
23
结果
结果:
1.Ln(p/(1-p))=1.9924-2.7462x3 有巩固治疗x3=1,Ln(p/(1-p))=-0.7538 p/(1-p)=0.471,p=0.471/1.471=0.32 有巩固治疗一年内死亡的概率是0.32 2.无巩固治疗x3=0,Ln(p/(1-p))=1.9924 p/(1-p)=7.33,p=7.33/8.33=0.88 无巩固治疗一年内死亡的概率是0.88

《logistic回归分析》PPT课件

《logistic回归分析》PPT课件
3
第一节 非条件logistic回归
一、logistic 回归模型:
设因变量 Y 是一个二分类变量,其取值为 Y =1 和Y =0。 影响 Y 取值的 m 个自变量分别为 X1, X 2 ,, X m 。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件
概率为 P P(Y 1 X1, X 2 ,, X m ) ,则 logistic 回归模
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
9
表 1 调查数据
y
x
1
0
1
a
b
0
c
d
合计 a+c b+d
表 2 对应概率
y
x
1
0
1 0 合计
p1 1- p1
1
p2 1- p2
1
Logistic
模型为:
p1

p( y
1|
(2)多分类资料Logistic回归: 因变量为多项分类的资料,可 用多项分类Logistic回归模型或有序分类Logistic回归模型进 行分析。
2
非条件Logistic回归分析 条件Logistic回归分析 无序分类反应变量Logistic回归分析 有序多分类反应变量Logistic回归分析 Logistic回归分析应用及注意事项
21
对所拟合模型的假设检验:
概率p值均小 于0.05,说明 方程有意义。

逻辑回归分析ppt课件

逻辑回归分析ppt课件

Binary Logistic回归模型中因变量只能 取两个值1和0(虚拟因变量),而 Multinomial Logistic回归模型中因变量可 以取多个值。本节将只讨论Binary Logistic 回归,并简称Logistic回归(与7.5节曲线估 计中介绍的Logistic曲线模型相区别)。 Logistic函数的形式为
如果该p值小于给定的显著性水平(如 =0.05),则拒绝因变量的观测值与模型预测 值不存在差异的零假设,表明模型的预测值与 观测值存在显著差异。如果值大于,我们没有 充分的理由拒绝零假设,表明在可接受的水平 上模型的估计拟合了数据。
7.Wald统计量
Wald统计量用于判断一个变量是否应该包 含在模型中,其检验步骤如下。 (1)提出假设。 (2)构造Wald统计量。 (3)作出统计判断。
4.Nagelkerke的R 2(N agelkerke’s R-Square)
5.伪R 2(Psedo-R-square)
伪R2与线性回归模型的R2相对应,其意义 相似,但它小于1。
6.Hosmer和Lemeshow的拟合优度检验 统计量(Hosmer and Lemeshow's Goodness of Fit Test Statistic)
7.8.2 SPSS中实现过程
研究问题 在一次关于某城镇居民上下班使用交通工 具的社会调查中,因变量y =1表示居民主要乘 坐公共汽车上下班;y =0表示主要骑自行车上 下班;自变量x1表示被调查者的年龄;x2表示 被调查者的月收入;x3表示被调查者的性别 (x3=1为男性,x3=0为女性)。 试建立y与自变量间的Logistic回归,数据如 表7-7所示。
1.-2对数似然值(-2 log likelihood,-2LL)

logistic回归(共36张PPT)

logistic回归(共36张PPT)
二分类自变量 系数为比数比的对数值,由此比数比=eb
多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量 当自变量改变一个单位时,比数比为eb
2022/11/3
27
输出结果的解释
模型拟合的优劣
自变量与结果变量(因变量)有无关系
确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自变 量的比数比的临床意义
3
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
2022/11/3
4
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析和综合。 统计模型
2022/11/3
28
输出结果的解释
模型的预测结果的评价
敏感度、特异度和阳性预测值
正确选择预测概率界值,简单地以0.5为 界值,但并不是最好的。
C指数
预测结果与观察结果的一致性的度量。 C值越大(最大为1),模型预测结果的
能力越强。
2022/11/3
29
非条件logistic回归
研究对象之间是否发生某事件是 独立的。 适用于:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因
素分析时,建议用后退法。当变量间有完全相关性时,后退法无 法使用,可用前进法。
2022/11/3
21
5.交互作用的引入
交互作用的定义
当自变量和因变量的关系随第三个变量 的变化而改变时,则存在交互作用

《Logistic回归》PPT课件

《Logistic回归》PPT课件

常量 -20.207 4.652 18.866
1 .000
.000
a. 在步骤 1 中输入的变量: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆 固醇, 甘油三脂, 高密度脂蛋白, 低密度脂蛋白.
七、变量筛选
从所用的方法看,有强迫法、前进法、后退 法和逐步法。在这些方法中,筛选变量的过 程与线性回归过程的完全一样。但其中所用 的统计量不再是线性回归分析中的F统计量, 而是以上介绍的参数检验方法中的三种统计 量之一。
八、logistic 回归模型拟合优度检验和预 测准确度检验
(一)拟合优度检验:
Logistic回归模型的拟合优度检验是通过比较模型 预测的与实际观测的事件发生与不发生的频数有无差 别来进行检验。如果预测的值与实际观测的值越接近, 说明模型的拟合效果越好。
·模型的拟合优度检验方法有偏差检验(Deviance)、 皮尔逊(pearson)检验、统计量(Homser-Lemeshow), 分别计算统计量X2D、X2 P、X2HL值。统计量值越小, 对应的概率越大。无效假设H0:模型的拟合效果好。
第九章 Logistic回归
(非条件Logistic回归)
第一节 Logistic回归概述
一、Logistic回归目的: Logistic回归通常以离散 型的分类变量(疾病的死亡、痊愈等)发生结果的 概率为因变量,以影响疾病发生和预后的因素为自 变量建立模型。研究分类变量(因变量)与影响因 素(自变量)之间关系的研究方法。属于概率型非 线性回归方法。
本例模型的似然比检验结果:
X2=-2(ln Lp-ln Lk)=95.497
模 型 系数 的 综 合检 验
步骤 1
步骤 块 模型
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

已预测
ST
0
1
百分比校 正
647
1
99.8
35
1
2.8
94.7
TPR和FPR
如何平衡不是一个容易的问题,需要根据实际工作 需要选取适当的临界值,使得总损失最小化
分类表a
已预测
已观测
步 ST 0

1
总计百分 比
ST 01
百分 比校 正
464 184 71.6
11 25 69.4
71.5
a.
七、分析报告
数据要求
因变量应具有二分特点,保证因变量的取值为0或1; 自变量可以是分类变量或数值变量,如果为分类变量,应 为二分变量或被重新编码的指示变量,如果为数值变量,最 好为多元正态分布。 Logistic模型 预测观测量相对于某一事件的发生概率:
e 0 1x1 p x p prob(event) 1 e0 1x1 p xp
3.ATO(X3) 资产周转率,量化一个企业对资产的利用效率;
4.ROA(X4) 资产收益率,反映每单位资产能够给企业带来
的利润如何;
5.GROWTH(X5) 销售收入增长率,反映企业的增长速度;
6.LEV(X6) 债务资产比率,也称杠杆比率。反映企业总资
产中来自于债权人的比率;
7.SHARE(X7) 企业第一大股东的持股比率,反映该企业的
即被ST之前第三年的数据 因变量为该企业的ST状态,即ST或非ST。(二分
特点) 定义Y=0表示非ST,定义Y=1表示ST。 如果因变量是取值多个的定性变量,逻辑回归不 再适用,应该考虑多分变量的逻辑斯谛回归。
四、指标设计
1.ARA(X1) 应收账款与总资产的比例,反映盈利质量;
2.ASSET(X2) 对数变换后的资产规模,反映公司规模;
股权结构。
统计数据
五、描述分析
单变量描述分析
变量分组对比的描述分析(盒状图)
ARA
0.8
0.6
0.4
0.2
0
0
1
ST
步骤 0
已观测 ST
分类表(a)(,)(b)
ST
0
0
648
1
36
ST
0均 值
N
标 准 差
中 值
极 小 值
极 大 值
1均 值
报告
ARA
ASSET
ATO ROA
GROWTH LEV
第三讲 二项逻辑回归
——以上市企业特别处理ST为例
一、二项逻辑(Binary Logisitic)回归
二项逻辑斯蒂回归是可以用来预测具有两分特 点的因变量概率的统计方法,它适用于判断一些事 情将是发生还是不发生,某个候选人将当选还是不 当选,某个人容易患某种病还是不容易患该病等等。
与前面线性回归和方差分析中因变量为数值型 变量不同,二项逻辑回归中的因变量具有两分特点。 即:因变量只有两个值——发生(是)或不发生 (否)。
613
045E-1
712 210
170
034
6.63429700 2.06881011 .4345 5.20196415 1.06396773 4.02690387
000E-2
50E1
50 000E-2
000E-1
000E-1
.000000000 18.6607003 .0028 .000081700 -
某一事件不发生的概率:prob(no event)=1-prob(event)
Logistic回归系数
log(
prob(event) prob(noevent)
)

0

1x1




p
x
p
prob(event) e0 1x1 pxp prob(noevent)
模型回归使用极大似然比法和迭代方法 评价模型——判断拟合的优劣
1.模型的拟合度 2.系数检验 3.影响点的查找 4.交互项
二、案例背景介绍
特别处理(special treatment,ST)政策是我 国股市持有的一项旨在保护投资者利益的政策。
被特别处理的股票每日涨跌幅度是受到限制的, 对被特别处理的股票证监会要求在原股票名称之前 加上“ST”,以作提醒。
《上海证券交易所股票上市规则》关于特别处理的 详细规定:
1
.919
统计学推断
全局检验:
~
~
H0 : 0, H1 : 0
离差(DEV),似然比检验(卡方分布)
局部检验:
H0 : j 0, H1 : j 0
七、预测评估
预测模型
预测评估
最优预测规则
已观测 步骤 ST 0
1 总计百分比 a. 切割值为0.5
分类表a
课后练习
移动通信客户流失规律分析 1.研究目的
通过对某移动通信公司客户的流失数据分析,了解客户 流失规律,建立流失预警系统,为客户关系管理服务。 2.数据介绍
某年度随机抽取的1000个移动通信客户。因变量时他们 来年的流失行为。采集指标:客户等级:1,2,3,4;主叫次 数(%):7日内日均主叫次数/90日内日均主叫次数;被叫 次数(%);通话时长(%);费用(%) 3.作业要求
相关参考文献
ST政策的后果
股票涨跌幅度被限制在5%以内; 持续亏损可能会被退市; 误导投资者 影响企业正常经营 我们更关心:
企业怎么避免由于被ST面临着的退市风险? 投资者怎么能察觉什么样的企业更有可能被ST?
三、数据介绍
我国股市的ST状况
大股东占款行为同企业ST的关系
数据说明 数据来源于某商业数据库; ST的样本是在第t年被ST的深沪两市公司; 相应的财务指标(解释变量)取自于第t-3年,
.018431070
6
.950727316
.634684249 24.0176107 3.151 .311129979 .998556503 .980321752
5
3
1.75077078 2.08569455 .4183 4.21299924 -
4.82பைடு நூலகம்25133
583E-1
77E1
14 167E-2
2.49055246 222E-1
六、统计模型
ST概率
似然函数
步骤 1a ARA
方程中 的变量
B
S.E,
Wals
df
Sig.
4.880 1.492 10.690 1
.001
ASSET .247 .224
1.211 1
.271
ATO
-.507 .657
.596
1
.440
ROA
-.637 6.224 .010
9.06034667 2.07734594 .5254 5.66334496 1.23044284 4.01843469
762E-2
60E1
10 049E-2
216E-1
995E-1
648
648
648 648
648
648
.086735709 8.32429628 .3676 .037417359 .299471209 .164487412
相关文档
最新文档