logistic回归分析及其应用共41页文档

合集下载

Logistic回归分析

Logistic回归分析

• Wald检验( wald test)
即广义的t检验,统计量为u
u= bi s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi u Sbi
第十八页,共52页。
上述三种方法中,似然比检验最可靠, 比分检验一般与它相一致,但两者均要求较 大的计算量;而Wald检验未考虑各因素间 的综合作用,在因素间有共线性时结果不如 其它两者可靠。
Odds=P/(1-P)
比数比
OR=[P1/(1-P1)]/[P2/(1-P2)]
在患病率较小情况下,OR≈RR
第二十二页,共52页。
设P表示暴露因素X时个体发病的概率, 则发病的概率P与未发病的概率1-P 之比 为优势(odds), logit P就是odds的对数
值。
• 优势比 • 常把出现某种结果的概率与不出现的概率之
P=1 Logit(P)=Ln(1/0)=+无穷大
Logit(P )取值范围扩展为(-,+ -)
第十页,共52页。
• Logit变换
也称对数单位转换
logit P=
ln
P 1 P
第十一页,
P 1e e( 1x12x2 nxn ) 1
1 P 1 e( 1x12x2 nxn )
• 分析因素xi为连续性变量时, e(bi)表示xi增加 一个计量单位时的优势比。
第二十七页,共52页。
多因素Logistic回归分析时,对回归系
数的解释都是指在其它所有自变量固定的情 况下的优势比。存在因素间交互作用时,
Logistic回归系数的解释变得更为复杂,应
特别小心。
第二十八页,共52页。
其中,为常数项,为偏回归系数。

logistic回归分析

logistic回归分析
第27页,共86页。
第二节 条件Logistic回归
概念: 用配对设计获得病例对照研究资料,计算的Logistic
回归模型为条件Logistic回归。
成组(未配对)设计的病例对照研究资料,计算的
Logistic回归模型为非条件Logistic回归。
例:见265页 区别:
条件Logistic回归的参数估计无常数项(β0),主要用 于危险因素的分析。
Parame Estimate Error Chi-Square Pr
常数 -1.9037 0.5982 10.127 0.0015 性别 1.4685 0.575 6.508 0.0107
药物 1.7816 0.518 11.794 0.0006
Odds Ratio Estimates Point 95% Wald
第1页,共86页。
问题提出:
医学研究中常研究某因素存在条件下某结果是否发 生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
第2页,共86页。
研究问题可否用多元线性回归方法?
yˆ a b1x1 b2x2 bmxm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
3.多元线性回归结果 不能回答“发生 与否”
logistic回归方法补充多元线性回归的不足
第3页,共86页。
Logistic回归方法
几个logistic回归模型方程

logistic回归分析PPT优秀课件

logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;

Logistic回归及其应用

Logistic回归及其应用

2018/10/15
19
3.自變量的單原素分析
了解自變量與因變量的分佈 檢驗是否符合建立模型的應用條件 偏離應用條件時,進行數據變換 各個自變量兩組間的比較 計數資料 計量資料 雙變量分析
2018/10/15 20
4.變量的篩選
變量篩選的原則 專業上考慮 測量上考慮 共線性問題︰計算相關矩陣,相關係 數0.8-0.9,則選其一。 缺失數據少、測量誤差低的優先選擇 經驗上考慮 雙變量分析中有顯著性的自變量(P ≦0.15)
簡單的解決方法
固定其他原素,研究有影響的一兩個原 素; 分層分析︰按1~2個原素組成的層進行 層內分析和綜合。 統計模型
2018/10/15
6
尋找合適的模型
進行logit變換
logit(p) = ln( ── ), p為y=1所對應的機 1-p 率 0.1
1- logit(0.1) = ln( ─── ) = ln(0.1/0.9) 0.1
0.00 -4.00 -2.00 0.00 2.00 4.00
X︰自變量
2018/10/15 4
一般直線回歸難以解決的問題
醫學數據的複雜、多樣 連續型和離散型數據 醫學研究中疾病的複雜性 一種疾病可能有多種致病原素或與多種 危險原素有關 疾病轉歸的影響原素也可能多種多樣 臨床治療結局的綜合性
2018/10/15 5
Logistic回歸分析 及其應用
溫澤淮 DME中心
2018/10/15 1
概述
1967年Truelt J,Connifield J和 Kannel W在《Journal of Chronic Disease》上發表了冠心病危險原素 的研究,較早將Logistic回歸用于醫 學研究。 一般概念 一元直線回歸 多元直線回歸

医学统计学第十六篇 Logistic回归分析共42页

医学统计学第十六篇 Logistic回归分析共42页

41、学问是异常珍贵的东西,从任何源泉吸 收都不可耻。——阿卜·日·法拉兹
42、只有在人群中间,才能认识自 己。——德国
43、重复别人所说的话,只需要教育; 而要挑战别人所说的话,则需要头脑。—— 玛丽·佩蒂博恩·普尔
44、卓越的人一大优点是:在不利与艰 难的遭遇里百折不饶。——贝多芬
45、自己的饭量自己知道。——苏联
ቤተ መጻሕፍቲ ባይዱ
医学统计学第十六篇 Logistic回归分 析
51、没有哪个社会可以制订一部永远 适用的 宪法, 甚至一 条永远 适用的 法律。 ——杰 斐逊 52、法律源于人的自卫本能。——英 格索尔
53、人们通常会发现,法律就是这样 一种的 网,触 犯法律 的人, 小的可 以穿网 而过, 大的可 以破网 而出, 只有中 等的才 会坠入 网中。 ——申 斯通 54、法律就是法律它是一座雄伟的大 夏,庇 护着我 们大家 ;它的 每一块 砖石都 垒在另 一块砖 石上。 ——高 尔斯华 绥 55、今天的法律未必明天仍是法律。 ——罗·伯顿

logistic回归模型的原理与应用

logistic回归模型的原理与应用

logistic回归模型的原理与应用Logistic回归模型是一种重要的统计学习方法,在分类问题中得到广泛应用。

本文将介绍Logistic回归模型的原理及其在实际应用中的场景。

一、原理1.1 Logistic回归模型的基本概念Logistic回归模型是一种用于解决分类问题的线性模型,旨在通过将输入特征与相应的概率联系起来,实现对不同类别的分类。

1.2 Logistic函数在Logistic回归模型中,使用了一种称为Logistic函数(也称为Sigmoid函数)的特殊函数作为模型的基础。

Logistic函数的公式如下:$$g(z) = \frac{1}{1 + e^{-z}}$$其中,z表示线性模型的预测值(z = wx+b),g(z)表示通过Logistic函数获得的概率值。

1.3 损失函数与最大似然估计Logistic回归模型通过极大似然估计来确定模型参数。

常用的损失函数是交叉熵损失函数(Cross-Entropy Loss),其目标是最小化观测样本的预测概率与真实标签之间的差异。

1.4 参数估计为了确定Logistic回归模型的参数,通常使用梯度下降等优化方法进行参数估计。

通过迭代更新模型参数,使得损失函数逐渐减小,从而得到最优的参数估计结果。

二、应用场景2.1 二分类问题Logistic回归模型常用于解决二分类问题,如判断邮件是否为垃圾邮件、预测患有某种疾病的概率等。

通过将特征与相应的概率联系起来,可以根据阈值将样本分为两个类别。

2.2 多分类问题Logistic回归模型还可以扩展到多分类问题。

常见的应用包括手写数字识别、图像分类等。

通过对每个类别进行一对其他类别的二分类,可以得到每个类别的概率,从而实现多分类问题的解决。

2.3 风险预测在金融领域,Logistic回归模型被广泛应用于风险预测。

通过建立预测模型,可以根据客户的信用评分、借贷记录等因素,对客户是否存在违约风险进行预测。

2.4 市场营销Logistic回归模型还可以用于市场营销领域。

Logistic回归分析及应用讲课文档

第二十九页,共76页。
第三十页,共76页。
第三十一页,共76页。
第三十二页,共76页。
第三十三页,共76页。
第三十四页,共76页。
第三十五页,共76页。
第三十六页,共76页。
3、逐步Logistic回归分析
(1)向前法(forward selection)
开始方程中没有变量,自变量由 少到多一个一个引入回归方程。按自 变量对因变量的贡献(P值的大小)由 小到大依次挑选,变量入选的条件是 其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。
除变量量纲的影响,为此计算标准化回归系数
bi' bi *Si / Sy,其中 Si为Xi的标准差 Sy为y的标准差。
第十五页,共76页。
5.假设检验
• (1)回归方程的假设检验
• H0:所有 i0,i0,1,2,,p H1:某个 i 0
• 计算统计量为:G=-2lnL,服从自由度等于n-p
• 的 2 分布
• 对子号
病例
对照

x1 x2 x3 x1 x2 x3
•1
13 0
101
•2
03 1
130
•3
01 2
020
•…
… … … ………
• 10
22 2
000
• 注:X1蛋白质摄入量,取值:0,1,2,3

X2不良饮食习惯,取值:0,1,2,3

X3精神状况 ,取值:0,1,2

第十页,共76页。
Logistic回归
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.

logistic回归分析及其应用-41页文档资料

多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
21.03.2020
2
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
X:自变量
21.03.2020
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
21.03.2020
14
2.哑变量的设置和引入
哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变 化是否相同,但主要适合于无序分类变 量。 一个k分类的分类变量,可以用k-1个 哑变量来表示。
21.03.2020
15
哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以文盲作为参考组
21.03.2020
16
以高中作为参照
教育程度
X1
X2
X3
文盲:010 Nhomakorabea0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
21.03.2020
17
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。

Logistic回归的实际应用

Logistic回归的介绍与实际应用摘要本文通过对logistic回归的介绍,对logistic回归模型建立的分析,以与其在实际生活中的运用,我们可以得出所建立的模型对实际例子的数据拟合结果不错.关键词:logistic回归;模型建立;拟合;一、logistic回归的简要介绍1、Logistic回归的应用范围:①适用于流行病学资料的危险因素分析②实验室中药物的剂量-反应关系③临床试验评价④疾病的预后因素分析2、Logistic回归的分类:①按因变量的资料类型分:二分类、多分类;其中二分较为常用②按研究方法分:条件Logistic回归、非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究.3、Logistic回归的应用条件是:①独立性.各观测对象间是相互独立的;②LogitP与自变量是线性关系;③样本量.经验值是病例对照各50例以上或为自变量的5-10倍〔以10倍为宜〕,不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响〔建议用Poisson回归〕.4、拟和logistic回归方程的步骤:①对每一个变量进行量化,并进行单因素分析;②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料.可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量.③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量〔等级变量,数值变量〕纳入模型时的适宜尺度,与对自变量进行必要的变量变换;④在单变量分析和相关自变量分析的基础上,对P≤α〔常取0.2,0.15或0.3〕的变量,以与专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量.可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS<似然比统计量>,用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量<Wald统计量>,用户确定其P值显著性水平,当变量不显者,从模型中予以剔除.这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准.但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意.⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立<也是模型本身的要求>,不必研究交互作用,最多是研究少量的一级交互作用.⑥对专业上认为重要但未选入回归方程的要查明原因.5、回归方程拟合优劣的判断〔为线性回归方程判断依据,可用于logistic回归分析〕①决定系数<R2>和校正决定系数<>,可以用来评价回归方程的优劣.R2随着自变量个数的增加而增加,所以需要校正;校正决定系数<>越大,方程越优.但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉与预测值与观测值之间差别的问题,因此在logistic回归中不适合.②C p选择法:选择C p最接近p或p+1的方程〔不同学者解释不同〕.C p无法用SPSS直接计算,可能需要手工.1964年CL Mallows提出:Cp接近〔p+1〕的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数.③AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好.在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差<deviance>、Hosmer- Lemeshow <HL>指标、Akaike信息准则<AIC>、SC指标等.Pearson χ2、偏差<deviance>主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当.Pearsonχ2、偏差<deviance>、Hosmer- Lemeshow <HL>指标值均服从χ2分布,χ2检验无统计学意义<P>0.05>表示模型拟合的较好,χ2检验有统计学意义<P≤0.05>则表示模型拟合的较差.AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好.6、拟合方程的注意事项:①进行方程拟合对自变量筛选采用逐步选择法[前进法〔forward〕、后退法〔backward〕、逐步回归法〔stepwise〕]时,引入变量的检验水准要小于或等于剔除变量的检验水准;②小样本检验水准α定为0.10或0.15,大样本把α定为0.05.值越小说明自变量选取的标准越严;③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;④强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此.有些样本点〔记录〕对回归模型影响很大.对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除.⑤多重共线性的诊断〔SPSS中的指标〕:a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;⑥异常点的检查:主要包括特异点<outher>、高杠杆点<high leverage points>以与强影响点<influential points>.特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大.单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的"有害"点.对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H〔hat matrix diagnosis〕、Cook距离、DFBETA、Score检验统计量等.这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点.杠杆度统计量H可用来发现高杠杆点,H值大的样品说明距离其他样品较远,可认为是一个高杠杆点.Cook距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度.Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大.DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大<即DFBETA指标值越大>,表明该观测值的影响越大.如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理.如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事.因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索.7、回归系数符号反常与主要变量选不进方程的原因:①存在多元共线性;②有重要影响的因素未包括在内;③某些变量个体间的差异很大;④样本内突出点上数据误差大;⑤变量的变化范围较小;⑥样本数太少.8、参数意义①Logistic回归中的常数项〔b0〕表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值.②Logistic回归中的回归系数〔b i〕表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值.需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? <InL<t-1>-InL<t>>三种方法结果基本一致.③存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心.④模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型.另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加.9、统计软件能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET <Epidemiological Graphics Estimation and Testing Package>等.二、logistic回归模型的建立1、实际的例子:在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客.在随后的3个月的时间内,只有部分顾客确实购买了房屋.购买房屋的顾客记为1,没有购买房屋的顾客记为0.以顾客的年家庭收入〔万元〕为自变2、模型的建立:Logistic 回归方程:)exp(1)exp(00i i i i i x x p ββββ+++=,i=1,2,...,c 〔1〕〔1〕式中c 为分组数据的组数.本例中,c=9.将以上回归方程做线性变换,令)1ln('iii p p p -= 〔2〕式〔2〕的变换称为逻辑变换,变换后的线性回归模型为:i i i i x p εββ++=1' 〔3〕 式〔3〕是一个普通的一元线性回归模型.式〔3〕没有给出误差项的形式,我们认为其误差项的形式就是做线性变换所需要的形式.对表1中的数据,算出经验回归方程为:x p 156.0886.0'+-=∧, 〔4〕 判别系数9243.02=r ,显著性检验P 值≈0,高度显著.将式〔4〕还原为式〔1〕的Logistic 回归方程为:)156.0886.0ex p(1)156.0886.0ex p('x x p +-++-=∧ 〔5〕三、运用模型进行预测利用式〔5〕可以对购房比例做预测,例如80=x ,则有)156.0886.0ex p(1)156.0886.0ex p('x x p +-++-=∧=0.590.四、结果的实际意义这表明在住房展销会上与房地产商签订初步购房意向书的年收入8万元家庭中,预计实际购房比例为59%.或者说,一个签订初步购房意向书的年收入8万元的家庭,其购房概率为59%. 五、模型的拟合效果分析我们用Logistic 回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,即异方差性并没有解决.式〔3〕的回归模型不是等方差的,应该对式〔3〕,用加权最小二乘估计.当i n 较大,'i p 的近似方差为:)1(1)('i i i i n p D ππ-≈〔6〕,其中)(i i y E =π,因而选取权数:)1(i i i ip p n w -=,〔7〕对例题重新用加权最小二乘做估计.利用SPSS 软件操作,点选分析→回归→线性回归,因变量:逻辑变换;自变量:年家庭收入;WLS 权重:权重i w .得到结果如用加权最小二乘法得到的Logistic 回归方程为:)149.0849.0ex p(1)149.0849.0ex p(x x p i +-++-=∧,〔8〕利用〔8〕式可以对80=x 时的购房比例做预测,有:)149.0849.0ex p(1)149.0849.0ex p(x x p i +-++-=∧=0.585,所以,年收入8万元的家庭预计实际购房比例为58.5%,这个结果与未加权的结果很接近.结束语本文对Logistic 回归的应用范围和拟和logistic 回归方程的步骤进行了简要介绍,以与对回归方程拟合优劣的判断,提与了一些拟合方程的注意事项;明确了参数意义;其实能够进行logistic 回归分析的软件非常多,常用的有SPSS 、SAS 、Stata 、EGRET <Epidemiological Graphics Estimation and Testing Package>等,本文中实际的例子利用了SPSS 进行了分析,发现拟合效果还不错.。

《logistic回归》课件

03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

29.10.2019
7
p
logit(p) = ln( —— )
p=0或1时,此式失效
1-p
以 p = r/n 代之 logit(p) = ln [ (r + 0.5) / (n – r + 0.5) ]
此称经验logistic变换
以Z代上式的logit(p),
Z = a + b1x1 + b2x2 + … + bkxk
X:自变量
29.10.2019
如果一定要进 行直线回归也 可以做出结果, 但此时效果不 佳。当自变量 取一定值时, 因变量的预测 值可能为负数。
4
一般直线回归难以解决的问题
医学数据的复杂、多样
连续型和离散型数据
医学研究中疾病的复杂性
一种疾病可能有多种致病因素或与多种危 险因素有关
疾病转归的影响因素也可能多种多样 临床治疗结局的综合性
29.10.2019
5
简单的解决方法
固定其他因素,研究有影响的一两个因 素; 分层分析:按1~2个因素组成的层进行 层内分析
进行logit变换
p
logit(p) = ln( 1—-—p ), p为y=1所对应的概率 0.1
logit(0.1) = ln( ——— ) = ln(0.1/0.9) 1 - 0.1
Logistic回归分析 及其应用
潘发明 安徽医科大学 流行病与卫生统计学系
29.10.2019
1
概述
1967年Truelt J,Connifield J和 Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素 的研究,较早将Logistic回归用于医 学研究。
'问卷序号' '录入序号' '病人编号' '住院号/门诊号' '患者中文姓名' '组别' '患者姓名' '患者性别' '患者年龄'
value labels sex /hisc /nsex /demdx /addx /edu
1 '男' 2 '女' 1 '是' 0 '否' 9 '无法判断' 1 '正常' 0 '异常' 9 '未检' 1 '有' 0 '无' 0 '无' 1 '危险性' 2 '可能' 3 '很可能' 0 ‘文盲’ 1 ‘小学程度’ 2 ‘初中及以上'
为条件logistic回归
表达式: eb1x1+b2x2+… +bkxk
P = 1 - eb1x1+b2x2+… +bkxk
常用于分析配比的资料
29.10.2019
10
概述小结
logistic回归对因变量的比数的对数值 ( logit值)建立模型 因变量的logit值的改变与多个自变量的 加权和呈线性关系 因变量呈二项分布
X3
文盲:0 0
0
0
小学:1 1
0
0
初中:2 0
1
0
高中:3 0
0
1
以文盲作为参考组
29.10.2019
17
以高中作为参照
教育程度
X1
X2
X3
文盲:0
1
0
0
小学:1
0
1
0
初中:2
0
0
1
高中:3
0
0
0
29.10.2019
18
SPSS提供的方法
Indicator: 默认。以第1 或最后1类作对照,其他每类 与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比 较,但反映平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效 应比较。
缺失数据少、测量误差低的优先选择
经验上考虑
双变量分析中有显著性的自变量(P ≤0.15) 选择那些改变主效应的自变量
称此为logistic回归模型
29.10.2019
8
P = ez / (1 + ez ) ea+b1x1+b2x2+… +bkxk
P = 1 + ea+b1x1+b2x2+… +bkxk
此为非条件logistic回归模型 应用于成组数据的分析
29.10.2019
9
自变量取定一些值时,因变量取0、1的概率就 是条件概率,对条件概率进行logistic回归,称
29.10.2019
15
2.哑变量的设置和引入
哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变 化是否相同,但主要适合于无序分类变 量。 一个k分类的分类变量,可以用k-1个 哑变量来表示。
29.10.2019
16
哑变量的设置
教育程度:文盲,小学,初中,高中以上
教育程度 X1
X2
一般概念
一元直线回归
多元直线回归
29.10.2019
2
一元直线回归模型 y=a+bx+e
多元直线回归模型 y = a + b1x1 + b2x2 + … + bkxk + e
29.10.2019
3
F(y) :因变量的logit值
1.00
0.75
0.50
0.25
0.00 -4.00 -2.00 0.00 2.00 4.00
使用变量数值标识(value labels) 记录编码内容
29.10.2019
13
变量的编码
变量名 SEX
EDU
变量标识 性别
教育程度
变量值
1 2 0 1 2
值标识
男 女 文盲 小学 初中及以上
29.10.2019
14
variable labels qnum rnum pnum hnum chname drugroup name sex age
29.10.2019
19
3.自变量的单因素分析
了解自变量与因变量的分布 检验是否符合建立模型的应用条件
偏离应用条件时,进行数据变换
各个自变量两组间的比较
计数资料 计量资料
双变量分析
29.10.2019
20
4.变量的筛选
变量筛选的原则
专业上考虑 测量上考虑
共线性问题:计算相关矩阵,相关系数0.80.9,则选其一。
29.10.2019
11
Logistic回归分析的一般步骤
变量的编码 哑变量的设置和引入 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释
29.10.2019
12
1.变量的编码
变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意 义并不改变。 牢记编码
相关文档
最新文档