第八课-SPSS-logistic回归分析PPT课件
合集下载
《Logistic回归》课件

公式
f(x)=1/(1+e^-x)其中,x是一个实数,源自表示 自然对数的底数。特点
• 输出范围在0-1之间,代 表了一个概率值;
• 函数有单峰性,中心对 称,可以确定最大值和
• 最在小输值入;接近0时函数近 似于线性函数。
应用场景:二元Logistic回归
乳腺癌预测
贷款审核
二元Logistic回归被广泛应用于医 学界用于识别患有乳腺癌的女性。
数据预处理
4
的潜在关系和规律。
对需要进行缩放、归一化、标准化等处
理的变量进行预处理。
5
模型拟合
将数据划分训练集和测试集,通过模型 对训练集进行拟合,并评估模型预测能 力。
模型评估方法
混淆矩阵
将预测结果与真实结果进行比对,计算假正率、假负率、真正率和真负率等指标。
ROC曲线
通过绘制真正率与假正率的曲线,评估模型的预测能力。
AUC指标
ROC曲线下的面积就是AUC,AUC越大说明模型预测结果越准确。
常见模型优化方法
1 数据增强
通过合成数据或者样本扩 增等方法,增加数据量, 提高模型泛化性能。
2 特征选择
选择对于问题最重要的变 量,避免过拟合。
3 模型集成
通过结合多个模型的结果, 提高整体预测能力。
应用探索:Logistic回归的扩展
2 作用
通过逻辑函数将线性变量转化为概率值,从 而进行二元分类。
3 优点
简单易懂、易于解释和使用,对于大规模数 据集有效率。
4 缺点
只适用于二元分类问题,并且在分类较为复 杂的非线性问题上表现较差。
sigmoid函数
介绍
sigmoid函数是Logistic回归模 型中核心的激活函数,将输入 值映射到0-1的概率分布区间内。
《SPSS回归分析》ppt课件

.
-3.666
.002
从表中可知因变量与自变量的三次回归模型为: y=-166.430+0.029x-5.364E-7x2+5.022E-12x3
9.2 曲线估计
➢拟合效果图
从图形上看出其拟合效果非常好。
8.3 曲线估计
说明:
曲线估计是一个自变量与因变量的非线性回归过程,但 只能处理比较简单的模型。如果有多个自变量与因变量呈非 线性关系时,就需要用其他非线性模型对因变量进行拟合, SPSS 19中提供了“非线性”过程,由于涉及的模型很多,且 非线性回归分析中参数的估计通常是通过迭代方法获得的, 而且对初始值的设置也有较高的要求,如果初始值选择不合 适,即使指定的模型函数非常准确,也会导致迭代过程不收 敛,或者只得到一个局部最优值而不能得到整体最优值。
8.1 回归分析概述
(3)回归分析的一般步骤
第1步 确定回归方程中的因变量和自变量。 第2步 确定回归模型。 第3步 建立回归方程。 第4步 对回归方程进行各种检验。
➢拟合优度检验 ➢回归方程的显著性检验 ➢回归系数的显著性检验
第5步 利用回归方程进行预测。
主要内容
8.1 回归分析概述 8.2 线性回归分析 8.3 曲线估计 8.4 二元Logistic回归分析
8.3 曲线估计
(2) 统计原理
在曲线估计中,有很多的数学模型,选用哪一种形式的回 归方程才能最好地表示出一种曲线的关系往往不是一个简单的 问题,可以用数学方程来表示的各种曲线的数目几乎是没有限 量的。在可能的方程之间,以吻合度而论,也许存在着许多吻 合得同样好的曲线方程。因此,在对曲线的形式的选择上,对 采取什么形式需要有一定的理论,这些理论是由问题本质决定 的。
spss中的回归分析PPT课件

6、Statistics(统计)对话框 单击“Statistics”按钮,进入统计对话框如图:
第19页/共134页
Estimates(默认选择项):回归系数的估计值(B)及其标准误(Std.Error)、 常数(Constant);标准化回归系数(Beta);B的t值及其双尾显著性水平(Sig.)。
第5页/共134页
H0:1 0, 2 0,, k 0
Fα
第6页/共134页
(3)回归系数的显著性检验(t检验) 所谓回归系数的显著性检验,就是根据样 本估计的结果对总体回归系数的有关假设进行 检验。 之所以对回归系数进行显著性检验,是因 为回归方程的显著性检验只能检验所有回归系 数是否同时与零有显著性差异,它不能保证回 归方程中不包含不能较好解释说明因变量变化 的自变量。因此,可以通过回归系数显著性检 验对每个回归系数进行考察。
4、 Selection variable(选择变量):可从源变量栏中 选择一个变量,单击Rule后,通过该变量大于、小于或等于某 一数值,选择进入回归分析的观察单位。
5、Case Labels(个案标签):在左侧的源变量框中选择 一变量作为标签变量进入 Case Labels框中。
第18页/共134页
Model fit(默认选择项):列出进入或从模型中剔除的变量;显示下列拟合 优度统计量:复相关系数(R)、判定系数(R2)、调整 R2(Adjusted R Square)、 估计值的标准误以及方差分析表。
Confidence intervals:回归系数 B的 95%可信区间(95%Confidence interval for B)。
第7页/共134页
回归参数显著性检验的基本步骤。 ① 提出假设
logistic回归分析PPT优秀课件

(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;
[课件]SPSS回归分析过程详解()PPT
![[课件]SPSS回归分析过程详解()PPT](https://img.taocdn.com/s3/m/9975250eed630b1c59eeb5c4.png)
SPSS回归分析过程详解 (ppt)
回归分析的概念
寻求有关联(相关)的变量之间的关系 主要内容:
从一组样本数据出发,确定这些变量间的定 量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变 量的影响显著,哪些不显著 利用求得的关系式进行预测和控制
回归分析的模型
按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归 基本的步骤:利用SPSS得到模型关系式,是否 是我们所要的,要看回归方程的显著性检验(F 检验)和回归系数b的显著性检验(T检验),还要 看拟合程度R2 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)
我们只讲前面3个简单的(一般教科书的讲法)
10.1 线性回归(Liner)
一元线性回归方程: y=a+bx
a称为截距 b为回归直线的斜率 用R2判定系数判定一个线性回归直线的拟合程度:用来说明用自变 量解释因变量变异的程度(所占比例)
b0为常数项 b1、b2、…、bn称为y对应于x1、x2、…、xn的偏回归系数 用Adjusted R2调整判定系数判定一个多元线性回归方程的拟合程度: 用来说明用自变量解释因变量变异的程度(所占比例)
逐步回归方法的基本思想
对全部的自变量x1,x2,...,xp,按它们对Y贡献的大小进 行比较,并通过F检验法,选择偏回归平方和显著的变 量进入回归方程,每一步只引入一个变量,同时建立 一个偏回归方程。当一个变量被引入后,对原已引入 回归方程的变量,逐个检验他们的偏回归平方和。如 果由于引入新的变量而使得已进入方程的变量变为不 显著时,则及时从偏回归方程中剔除。在引入了两个 自变量以后,便开始考虑是否有需要剔除的变量。只 有当回归方程中的所有自变量对Y都有显著影响而不需 要剔除时,在考虑从未选入方程的自变量中,挑选对Y 有显著影响的新的变量进入方程。不论引入还是剔除 一个变量都称为一步。不断重复这一过程,直至无法 剔除已引入的变量,也无法再引入新的自变量时,逐 步回归过程结束。
回归分析的概念
寻求有关联(相关)的变量之间的关系 主要内容:
从一组样本数据出发,确定这些变量间的定 量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变 量的影响显著,哪些不显著 利用求得的关系式进行预测和控制
回归分析的模型
按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归 基本的步骤:利用SPSS得到模型关系式,是否 是我们所要的,要看回归方程的显著性检验(F 检验)和回归系数b的显著性检验(T检验),还要 看拟合程度R2 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)
我们只讲前面3个简单的(一般教科书的讲法)
10.1 线性回归(Liner)
一元线性回归方程: y=a+bx
a称为截距 b为回归直线的斜率 用R2判定系数判定一个线性回归直线的拟合程度:用来说明用自变 量解释因变量变异的程度(所占比例)
b0为常数项 b1、b2、…、bn称为y对应于x1、x2、…、xn的偏回归系数 用Adjusted R2调整判定系数判定一个多元线性回归方程的拟合程度: 用来说明用自变量解释因变量变异的程度(所占比例)
逐步回归方法的基本思想
对全部的自变量x1,x2,...,xp,按它们对Y贡献的大小进 行比较,并通过F检验法,选择偏回归平方和显著的变 量进入回归方程,每一步只引入一个变量,同时建立 一个偏回归方程。当一个变量被引入后,对原已引入 回归方程的变量,逐个检验他们的偏回归平方和。如 果由于引入新的变量而使得已进入方程的变量变为不 显著时,则及时从偏回归方程中剔除。在引入了两个 自变量以后,便开始考虑是否有需要剔除的变量。只 有当回归方程中的所有自变量对Y都有显著影响而不需 要剔除时,在考虑从未选入方程的自变量中,挑选对Y 有显著影响的新的变量进入方程。不论引入还是剔除 一个变量都称为一步。不断重复这一过程,直至无法 剔除已引入的变量,也无法再引入新的自变量时,逐 步回归过程结束。
《logistic回归》课件

03
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
易于理解和实现: 由于基于逻辑函数,模型输出结 果易于解释,且实现简单。
Logistic回归的优势与不足
• 稳定性好: 在数据量较小或特征维度较高 时,Logistic回归的预测结果相对稳定。
Logistic回归的优势与不足
01
不足:
02
对数据预处理要求高: 需要对输入数据进行标准化或归一化处理,以 避免特征间的尺度差异对模型的影响。
模型假设
01
线性关系
因变量与自变量之间存在线性关系 。
无自相关
因变量与自变量之间不存在自相关 。
03
02
无多重共线性
自变量之间不存在多重共线性,即 自变量之间相互独立。
随机误差项
误差项是独立的,且服从二项分布 。
04
模型参数求解
最大似然估计法
通过最大化似然函数来求解模型参数。
梯度下降法
通过最小化损失函数来求解模型参数。
特征选择与降维
在处理大数据集时,特征选择和降维是提高模 型性能和可解释性的重要手段。
通过使用诸如逐步回归、LASSO回归等方法, 可以自动选择对模型贡献最大的特征,从而减 少特征数量并提高模型的泛化能力。
降维技术如主成分分析(PCA)可以将高维特 征转换为低维特征,简化数据结构并揭示数据 中的潜在模式。
迭代法
通过迭代的方式逐步逼近最优解。
牛顿法
利用牛顿迭代公式求解模型参数。
模型评估指标
准确率
正确预测的样本数占总样本数的比例 。
精度
预测为正例的样本中实际为正例的比 例。
召回率
实际为正例的样本中被预测为正例的 比例。
F1分数
精度和召回率的调和平均数,用于综 合评估模型性能。
Logistic回归分析(共53张PPT)

数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
• 优势比
• 常把出现某种结果的概率与不出现的概率 之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称 OR。
• Logistic回归中的常数项(b0)表示,在不
接触任何潜在危险/保护因素条件下,效 应指标发生与不发生事件的概率之比的对 数值。
Forward: LR ( 向前逐步法:似然比 法 likelihood ratio,LR)→ 再击下 方的 Save 钮,将 Predicted values 、 Influence 与 Residuls 窗口中的 预选项全勾选 → Continue → 再击 下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或几 个待检验观察因素的两个模型的对数似 然函数变化来进行,其统计量为G (又 称Deviance)。
G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度
为待检验因素个数的2分布。
• 比分检验(score test)
, Logistic回归系数的解释变得更为复杂 ,应特别小心。
根据Wald检验,可知Logistic回归系
数bi服从u分布。因此其可信区间为
病例与对照匹配---条件logistic回归 其中, 为常数项, 为偏回归系数。 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。
u= bi s bi
u服从正态分布,即为标准正态离差。
SPSS课件logistic回归分析

Logistic回归分析
Log.sav
关于考试
考试时间:下周的上课时间
每人准备一张软盘,在软盘上注明姓名、学 号
Logistic回归分析
数据背景(data13-02) 北京医科大学附属人民医院内分泌科卢纹凯教授课题。 颈总动脉中层厚度imt>0.8mm或有斑块定义为动脉硬 化,因变量type值为1;非硬化imt<0.8mm且无斑块, 因变量type值为0。糖尿病患者123例数据。研究哪 些指标可以判断糖尿病患者是否动脉硬化。自变量 AGE年龄、ALB尿白蛋白、BMI体重指数、ISI胰岛素 敏感指数、SBP收缩压、TG甘油三脂、CHO胆固醇、 DURA糖尿病程。其中尿白蛋白、甘油三脂、胆固醇 三项生化指标在回归估计过程中均使用他们的对数变 量:ALBLN、TGLN、CHOLN。
级分组资料或是计量资料,此时,可以使用logistic
回归来分析பைடு நூலகம்变量(二值变量)与自变量的关系。
三、 Logistic回归分析
Categorical 多分类变量的比较
Save 功能按钮
Option 功能按钮
Logistic回归分析
为研究急性肾衰(AFR)患者死亡的危险因素,经回顾性
调查分析,获得某医院1999~2000年中所有发生AFR的
422名患者的临床资料见数据文件logistic.sav。本资料共涉 及29个变量,分别是:sex, age, 社会支持,慢性病,手术,
肿瘤,糖尿病,动脉硬化,器官移植,cr(血肌酐),hg
(血红蛋白),肾毒性,少尿,lbp,黄疸,昏迷,辅助呼 吸,心衰,肝衰,出血,呼衰,器官衰竭,胰腺炎,dic, 败血症,感染,hbp,透析方式,死亡。其中器官衰竭、和 透析方式为多分类变量,分别有6个和4个水平,定量变量 有age,cr,hg;其余为二分类变量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节 logistic回归
1.基本概念 logistic回归要求应变量(Y)取值为分类变量
(两分类或多个分类)
1 Y
0
出现阳性(结 发果 病、有效、死亡 出现阴性(结 未果 发病、无效) 、存
自变量(Xi)称为危险因素或暴露因素,可为连续变 量、等级变量、分类变量。 可有m个自变量X1, X2,… Xm
log li n 1 t P P ( p =0 )1 X 12 X 2 m X m
或
1 p (y 1 /x 1 ,x 2 x k) 1 e (0 1 x k ....kx k)
2.模型中参数的意义
ln1PP=0 1X1
Β0(常数项):暴露因素Xi=0时,个体发病 概率与不发病概率之比的自然对数比值。
(0 1x1) (0 x0 ) 1x1
ORe
ORP1/(1P1) od1d P0/(1P0) od0d
Y 发病=1 不发病=0
Y 发病=1 不发病=0
危险因素
x= 1 x= 0
30(a) 10( b)
70(c) 90(d)
a+c
b+d
危险因素
x= 1 x= 0
p1 1-p1
p0 1-p0
吸烟与不吸烟患食管癌OR的95%可信区间:
ex p (b 1u /2Sb 1)ex p (0 .8 8 5 6 1 .9 60 .1 5 ) (1 .8 1 ,3 .2 5 )
饮酒与不饮酒OR的95%可信区间:
ex p (b 2u /2Sb2)ex p (0 .5 2 6 1 1 .9 60 .1 5 7 2 ) (1 .2 4 ,2 .3 0 )
例:暴露因素 高血压史(x1):有 或无 高血脂史(x2): 有 或 无 吸烟(x3): 有或无
冠心病结果 有 或无
研究问题可否用多元线性回归方法?
y ˆab 1x1b 2x2 b m xm
1.多元线性回归方法要求 Y 的取值为计量 的连续性随机变量。
2.多元线性回归方程要求Y与X间关系为线 性关系。
三、Logistic 回归模型的假设检验
1.检验一:对建立的整个模型做检验。
说明自变量对Y的作用是否有统计意义。
0.5
Β为正值,x越 大,结果y=1发 生的可能性(p) 越大。
-3 -2 -1 0 1
Z值 23
图16-1 Logistic回归函数的几何图形
几个logistic回归模型方程
e0x p1P(y1/x1)1e0x
P (y0/x1)11 ee 0 0 xx1p1 e0
p0P(y1/x0)1e0 e0
P(y0/x0)11e0 1p0
logistic回归模型方程的线性表达
对logistic回归模型的概率(p)做logit变
换, logit(p) ln( p ) 1 p
方程如下:
线形 关系
ylo i(tg p )01x 1 Y~(-∞至+∞)
截距(常数)
回归系数
在有多个危险因素(Xi)时
多个变量的logistic回归模型方程的线性表达:
事件发生率很小,OR≈RR。
二、logistic回归模型的参数估计
1. 模型中的参数(βi)估计
, ln 1 P P =01X 12X 2 m X m
通常用最大似然函数 (maximum likelihood estimate, MLE)估计β, 由统计软件包完成。
OR e
如X=1,0两分类,则OR的1-α可信区间 估计公式
logistic回归分析
logistic回归为概率型非线性 回归模型,是研究分类观察 结果(y)与一些影响因素(x) 之间关系的一种多变量分析 方法
问题提出:
医学研究中常研究某因素存在条件下某结果是否 发生?以及之间的关系如何?
因素(X)
疾病结果(Y)
x1,x2,x3…XK
发生
Y=1
不发生 Y=0
2. logistic回归模型方程
一个自变量与Y关系的回归模型
如:y:发生=1,未发生=0 x : 有=1, 无=0,
记为p(y=1/x)表示某暴露因素状态下,
结果y=1的概率(P)模型。
或
P(y1/x)1ee00xx
p(y1/x)1exp 1 (0 [x)]
模型描述了应变量p与x的关系
p(y1)1exp1 ([0x)]P概1率 z01x
ln1PP (y(y1/0x/x 0)0)=0
i 的含义:某危险因素,暴露水平变化时,即
Xi=1与Xi=0相比,发生某结果(如发病)优势 比的对数值。
ln
OR
ln
P1 P0
/(1 /(1
P1) P0 )
log itP1 log itP0
P1(y=1/x=1)的概率 P0(y=1/x=0)的概率
e(bj u / 2Sbj )
S 为回归系数 b j 的标准误
例:
一个研究吸烟、饮酒与食道癌关系的病例-对 照资料(886例),试作logistic回归分析。
变量的赋值
1 Y0
食管癌患者 对照:非食管癌
1
X1
0
吸烟
1
不吸烟 X2 0
饮酒 不饮酒
经logistic回归计算后得 b0 =-0.9099, b1 =0.8856, b2
=l0n .(52p 61), 0 .9 0 9 90 .8 8 5 6x10 .5 2 6 1 x2 方程1 表 达p:
exp()OR
控制饮酒因素后,
吸烟与不吸烟相比
ex0.p 8(8) 5O 6 R 2.424患4食管癌的优势比
为2.4倍
ex0.p 5(2) 6O 1 R 1.6923
OR的可信区间估计
p1
a
a
c
有暴露因素人群中发病的比例
多元回归模型的的ቤተ መጻሕፍቲ ባይዱ i概念
logit(p)ln 1 P P = 01X 1m X m
i 反映了在其他变量固定后,X=1与x=0相
比发生Y事件的对数优势比。
回归系数β与O iR
X与Y的关联
β=0,OR=1,
无关
β>1,OR>1 , 有关,危险因素
β<1,OR<1, 有关,保护因子
3.多元线性回归结果 Yˆ 不能回答“发生
与否” logistic回归方法补充多元线性回归的不足
Logistic回归方法
该法研究是 当 y 取某值(如y=1)发生的概率(p)与
某暴露因素(x)的关系。
p (y 1 /x ) f(x ),即 p f(x )
P(概率)的取值波动0~1范围。 基本原理:用一组观察数据拟合Logistic模型, 揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。