非线性混合效应模型拟合Logistic回归在临床试验中的应用

合集下载

logistic回归分析

logistic回归分析

0
1X1
2X2
mXm
10
若 Z 0 1X1 2 X 2 m X m 则 P 1 1 eZ
1P
00..55
0
Z
-4 -3 -2 -1 0 1 2 3 4
图16-1 logistic函数的图形
11
2.模型参数的意义
ln P 1 P
0
1X1
2X2
mXm
logitP
常数项β0表示暴露剂量为0时个体发病与
20
二、logistic回归模型的参数估计
数据格式: 同多元线性回归分析的数据格式 参数估计:
最大似然估计(maximum likelihood
estimate,MLE)法 可利用统计软件实现。
21
优势比估计: 某一因素两个不同水平优势比的估计值为
OR j exp bj C1 C0
Xj只有两个水平时ORj的1-α可信区间为:
研究二分类或多分类观察结果与一些影响
因素之间关系的一种多变量分析方法。
7
一、基本概念
二分类变量
连续变量
因变量Y=
1 0
阳性率P:(0,1)
ln
P 1-P
:
(,
)
Logit变换
8
ln P 1 P
0
1X1
2X2
mXm
P
1
1 exp[(0 1 X1 2 X 2 L m X m )]
32
33
34
Variables in the Equation
S1ta ep
x6 Constant
S2tb ep
x5 x6
Constant
B 2.826 -.523 1.828 3.059

逻辑回归在医学中的应用

逻辑回归在医学中的应用

逻辑回归在医学中的应用
逻辑回归是一种常用的统计学习方法,广泛应用于医学领域。

它是一种二分类模型,通过对数据进行建模,预测某个事件发生的概率。

逻辑回归在医学中有着重要的应用,可以帮助医生和研究人员做出诊断、评估风险和预测疾病进展等决策。

在医学诊断中,逻辑回归可以用于预测疾病的风险。

通过收集患者的临床数据,如年龄、性别、家族病史、生活方式等特征,结合已知的疾病发生与否的标签,建立逻辑回归模型。

该模型可以根据患者的特征,计算其患病的概率。

医生可以根据模型预测结果,制定个性化的预防措施或治疗方案,从而提高诊断的准确性和效率。

逻辑回归还可以应用于疾病进展的预测。

例如,在肿瘤学中,医生常常需要评估肿瘤患者的治疗效果和预测疾病的进展。

逻辑回归可以根据患者的临床和生化指标,预测肿瘤是否会进展或复发。

这对于制定个性化的治疗方案、调整治疗策略具有重要意义。

逻辑回归还可以用于评估药物的安全性和有效性。

在药物研发过程中,研究人员需要评估药物对患者的影响,并预测其副作用的发生概率。

逻辑回归可以利用临床试验数据,建立药物的效应模型和副作用模型,从而帮助研究人员评估药物的风险和效益,为药物的上市提供科学依据。

逻辑回归在医学中的应用十分广泛,可以帮助医生和研究人员做出
重要的决策。

通过建立逻辑回归模型,利用临床数据预测疾病的风险、进展和药物的安全性和有效性,可以提高医学诊断的准确性和治疗的个性化程度。

逻辑回归的应用为医学研究和临床实践带来了重要的帮助,有望进一步推动医学的发展和进步。

统计模型在医学研究中的应用

统计模型在医学研究中的应用

统计模型在医学研究中的应用近年来,统计模型在医学研究中的应用越来越受到人们的关注。

统计模型可以帮助医学研究人员分析和解释复杂的医学数据,发现潜在的关联和趋势,并为医学决策提供科学依据。

本文将探讨统计模型在医学研究中的应用,并重点介绍两种常见的统计模型:线性回归模型和Logistic回归模型。

一、线性回归模型线性回归模型是一种常见的统计模型,适用于建立因变量与多个自变量之间的线性关系。

在医学研究中,线性回归模型广泛应用于研究各种因素对某个健康指标的影响。

例如,研究人员可以使用线性回归模型来探究年龄、性别和体重对血压的影响。

通过线性回归模型,研究人员可以得出一些重要的结论。

例如,他们可以确定每增加一岁,血压将升高多少毫米汞柱。

这种信息对于制定预防高血压的措施非常重要。

此外,线性回归模型还可以用于预测某个指标的未来趋势,帮助医生更准确地做出诊断和治疗方案。

二、Logistic回归模型Logistic回归模型是一种广泛应用于医学研究的分类模型。

它常用于预测二分类或多分类的结果。

在医学研究中,Logistic回归模型可以用于研究某些因素与疾病发生风险之间的关系。

例如,研究人员可以使用Logistic回归模型来分析吸烟和不吸烟群体发生肺癌的风险。

通过Logistic回归模型,研究人员可以得出一些重要的结论。

例如,他们可以发现吸烟者患肺癌的风险是不吸烟者的两倍。

这种信息对于加强吸烟控制和预防肺癌具有重要意义。

此外,Logistic回归模型还可以用于评估某个因素对疾病风险的影响程度,帮助医生更好地了解疾病的发生机制。

三、统计模型的局限性尽管统计模型在医学研究中具有许多优点和应用前景,但我们也应该意识到它们的局限性。

首先,统计模型只能揭示变量之间的关联,并不能证明因果关系。

其次,统计模型的结果受到数据质量和样本选择的影响,如果数据不准确或样本选择存在偏差,统计模型的结果可能不可靠。

此外,统计模型还需要谨慎应用。

虽然统计模型能够解释和预测数据,但在具体应用中,研究人员必须小心选择合适的变量和建立适当的模型。

Logistic回归分析及应用

Logistic回归分析及应用
18

表5 肺癌与危险因素的调查分析
• 例号 是否患病 性别 吸烟 年龄 地区
•1
1
1
0 30 0
•2
1
0
1 46 1
•3
0
0
0 35 1
•…

… ………
• 30
0
0
0 26 1
• 注:是否患病中,‘0’代表否,‘1’代表是。性别中
‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,
‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表
配对Logistic回归SPSS操作步骤:
• Analyze-----Survival----COX Regression-----Time 框(outcome)-----Status框( Status )
• -----Define Event:Single value 1:continue----Covariates框(x1、x2、x3)-----Strata框(id)--Options---at last step------ok
第十六章 Logistic回归分析
Logistic regression
1
复习 多元线性回归
(multiple linear regression)
• 在医学实践中,常会遇到一个应变量与 多个自变量数量关系的问题。如医院住院 人数不仅与门诊人数有关, 而且可能与病 床周转次数, 床位数等有关;儿童的身高 不仅与遗传有关还与生活质量,性别,地 区,国别等有关;人的体表面积与体重、 身高等有关。
• 由上最大似然估计分析知因素X2(吸烟), X3(年龄) 对肺癌的发生有影响。 所得的回归方程为:
Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X31.3037X4.

非条件 Logistic 回归模型的分析方法与 SAS应用

非条件 Logistic 回归模型的分析方法与 SAS应用

非条件 Logistic 回归模型的分析方法与 SAS 应用赤峰市疾病预防控制中心 韩忠义一、 概述:Logistic 回归分析在流行病学的病因研究中,是分析疾病与危险因素间联系的一种统计方法。

在这类研究中,所观察的项目的值,常以二项反应变量取值,即生存与死亡,是否发病,是否接触危险因素等的反应变量y 的取值是0或1。

因此,这类资料既不是计量资料,也不属于计数资料,如果用这样的资料建立描述协变量 x 1,x 2,…,x m 与所研究的疾病发生概率P (y=1)的关系的回归方程,则有:1βα+=P 1x +…+m βm x这样的方程显然是不合适的,因为方程左边的概率P,其取值在0,1范围内,而方程右边的取值可以是0,1范围之外。

如果对P 作logit 变换,则logit(P)与x 1,x 2,…,x m 间呈线性关系,即:1)(log βα+=P it 1x +…+m βm x这是数学上的logistic 曲线,因此,将此式描述的P 与协变量间的回归关系称为线性Logistic 回归。

Logistic 回归模型有条件与非条件之分,前者适用于配对资料的分析,后者适用于队列研究或病例-对照研究的成组资料的分析。

二、 非条件Logistic 模型的定义:根据Logistic 函数的定义:)]exp(1/[)exp(x x P βαβα+++= (1) )]exp(1/[11x P βα++=- (2)式中以P 表示疾病发生的概率,以1-P 表示疾病不发生的概率,α,β1,…,βm 是回归模型中的参数。

在实际工作中往往是研究与疾病有关的多个因素,因此式(1)可以扩展为:∑=+=m i i P 1exp(βαi x ∑=++mi i 1exp(1/[)βαi x )] i=1,2,3,…,m (3)∑=++=-mi i P 1exp(1/[11βαi x )] i=1,2,3,…,m (4)三、 应用:在使用分析流行病学的方法研究疾病病因时,非条件Logistic 模型是用于分析队列或病例-对照研究成组资料的统计方法,既可以进行因素筛选,也可以用于混杂因素的控制。

logistic回归分析PPT优秀课件

logistic回归分析PPT优秀课件
(2)线性回归分析:由于因变量是分类变量,不能满足 其正态性要求;有些自变量对因变量的影响并非线性。
2
logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研 究某个二分类(或无序及有序多分类)目标变量与有关因素的关 系。
logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量的资料,可用
非条件logistic回归和条件logistic回归进行分析。非条件logistic回 归多用于非配比病例-对照研究或队列研究资料,条件logistic回归 多用于配对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的资料,可用多 项分类logistic回归模型或有序分类logistic回归模型进行分析。
比较
调查方向:收集回顾性资料
人数 暴露
疾病
a/(a+b) c/(c+d)
a
+
b
-
病例
c
病例对照原理示意图
6
是否暴露 暴露组 未暴露组 合计
病例 a c a+c
对照 b d b+d
合计 a+b(n1) c+d(n2) n
比数比(odds ratio、OR):病例对照研究中表示疾病与暴露间
联系强度的指标,也称比值比。
相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率 之比。但病例对照研究不能计算发病率,只能计算比值比OR值。 OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组 的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。
OR>1,说明 该因素使疾病的危险性增加,为危险因素;
OR<1,说明 该因素使疾病的危险性减小,为保护因素;

Logistic回归模型的理解及应用

Logistic回归模型的理解及应用

Logistic回归模型的理解及应用作者:金澳来源:《文理导航·教育研究与实践》2019年第02期【摘要】本文由线性回归的局限性出发,引出Logistic回归模型,介绍其重要意义。

再通过与线性回归模型的比对,研究了Logistic模型的理论推导过程,介绍了模型中的连接函数和发生比。

最后简单介绍了Logistic回归模型在实际生活中的具体应用和广阔的应用前景。

【关键词】Logistic回归;广义线性回归;发生比一、引言在回归模型的实际应用中,因变量在常规的选为连续变量情况以外,也可以选为分类变量,比如:日常生活中顾客对于某种商品是否选择购买;病人在服用某种药物后是否有效果;个人在使用信用卡后是否按时还款。

此时我们可以选择分类变量来代替数值型变量,但同时目前应用最广泛的统计方法——线性回归模型也已不再适用。

在处理分类变量形式的因变量时需要对线性模型有所改变,通常使用对数线性模型。

分类型因变量为特殊的二分类,并且选取特定的连接函数时,此时即为Logistic回归模型。

在线性回归模型中,对于自变量的变量类型和其值域是没有限制的。

但是线性回归模型中的因变量必须为连续的。

而在实际研究中,线性回归的因变量为连续测量的假设往往不能接受,特别的当因变量为分类值时会与假设发生矛盾。

Logistic回归模型就是完善线性回归对于因变量类型限制的不足。

二、线性回归模型的局限1.Gauss一Markov假设在应用线性回归模型y=α+βX+ε进行理论推导和实际数据拟合时是有前提和假设的——其称为Gauss-Markov假设,具体定义如下:(1)自变量对因变量有显著的线性影响;(2)误差项作为随机变量,其期望值为0;(3)方差齐性即所有随扒误差项具有相同的、为常数的方差;(4)不同的随机误差之间彼此不相关;(5)自变量与误差项之间相互独立;(6)自变量之间不存在(完全的)线性关系。

上述假设在线性回归模型的参数估计、检验,模型的拟合优度评价等方面的理论推导发挥了重要作用。

【科研方法】非条件logistic回归模型

【科研方法】非条件logistic回归模型

M• iLongQistic回M归方in程用极大Y似然Y^法2 Min
2
Y bi X i
MAX
ln L
MAX
k j 1
m i0
i xij
n
ln
1
exp
j1
m i0
i xij
病例对照研究
• 设从病例及对照人群总体中,各按抽样比例π1及π2分别抽取一部 分病例和对照,组成一个随机样本。
0 非肺癌
若求得: β= 1, OR=e
表明:吸烟个体 患肺癌的危险性是不吸烟 个体的2.71828倍。
回归系数的解释
• 多分类变量:指示变量 • x1=0, x2=0, x3=0 表示A型血 • x1=1, x2=0, x3=0 表示B型血 • x1=0, x2=1, x3=0 表示AB型血 • x1=0, x2=0, x3=1 表示O型血
方程中有三个变量

X2,X3, x4
前进法
•第四步 建立3个方程(考虑剔除) • Y与X2,X3 无X4所损失 P1=0.003 • Y与X2,X4 无X3所损失 p2=0.002 • Y与X3,X4 无X2所损失 p3=0.250
前进法
•此时P3大于0.05,则剔除变量X2,然后 考虑在剩余的X1、X5选入。 •若P都小于0.05,继续考虑选入。 •依次循环,直到方程内剔不出,方程 外也选不入,计算停止,此时的方程 为前进法的最优方程。
p2=0.005
• Y与x2 , x4
p3=0.223
• Y与x2 , x5
p4=0.635
•选入X3 方程中有二个变量

x2 ,x3
前进法
• 第三步 建立3个方程
• Y与X2,X3,x1
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

非线性混合效应模型拟合Logistic回归在临床试验中的应用袁岱菁;杨志雄【摘要】目的探讨非线性混合效应模型拟合Logistic回归在临床试验中的应用.方法采用SAS软件包的NLMIXED过程拟合模型,并以两例药物临床试验资料进行实例分析.结果获得了各参数及其标准误的估计值,并可以对各因素进行直观的解释.结论非线性混合效应模型允许固定效应和随机效应进入模型的非线性部分,可以拟合具有非线性的Logistic回归模型,是临床试验中分析二项分布数据有效方法.【期刊名称】《南方医科大学学报》【年(卷),期】2010(030)008【总页数】4页(P1923-1925,1929)【关键词】非线性混合效应模型;Logistic回归;二项分布数据;NLMIXED;SAS;Emax【作者】袁岱菁;杨志雄【作者单位】华东师范大学金融统计学院,上海,200241;上海第六人民医院普外科,上海,200233【正文语种】中文【中图分类】R195.11 简介在临床药物试验中药物疗效的评价经常遇到二分类资料,即反应变量有两个水平如有效和无效、成功和失败等。

二分类变量服从二项分布,可采用Logistic回归模型。

Logistic回归(logistic regression)是分析反应变量为独立分类资料的常用统计分析方法。

由于它对资料的正态性和方差齐性不做要求、对自变量类型也不做要求等,使得近年来Logistic回归模型在临床试验中被广泛应用。

但是这并不意味着只要因变量是分类变量就可以直接采用Logistic回归。

Logistic回归要求自变量与logit(y)符合线性关系,所谓 logit(y)实际上就是 log(P/1-P),也就是说,自变量应与log(P/1-P)呈线性关系。

而且,Logistic回归模型只能处理具有独立性的资料,即观测数据应来自完全独立的随机样本。

当自变量与ln(P/1-P)不呈线性关系,或者样本之间具有相互关系,就增加了传统统计方法对该类数据分析的难度。

适合此类数据的统计分析方法大多是传统Logistic回归的扩展。

如果自变量与ln(P/1-P)呈非线性关系,可以采用非线性混合效应模型来拟合Logistic回归。

如果数据间存在自相关性,Logistic回归大致可扩展为两类:边际模型(Marginal model)和随机效应模型(Random effect model)[1]。

对于随机效应的Logistic回归模型,也可以采用非线性混合效应模型来拟合。

本文就两个临床试验的例子来介绍用非线性混合效应模型拟合Logistic回归。

2 模型非线性混合效应模型亦称为多水平非线性模型、非线性随机效应模型或非线性分层模型。

它可以直接拟合非线性模型,不仅能识别和估计个体间和个体内的变异,而且也考虑了解释变量与反应变量参数间的非线性关系,允许固定效应和随机效应进入模型的非线性部分,相对于线性模型的正态假定,非线性模型对资料的分布无特殊要求,资料可以是正态,也可以是二项分布、Poisson分布等。

非线性混合效应模型可作如下表述:其中,yij为第i个体第j次测量预测值,或经过某种单调联系函数(1ink function)转换的值;f(·)为非线性函数,如果其为线性,则退化为线性的混合效应模型;xij为P维解释变量向量;eij为独立正态分布随机误差向量;β为P维固定效应参数;bi为随机效应因子;Ai、Bi为已知的设计矩阵。

其参数估计可以通过伪数据步(pseudo-data step)和线性混合效应步(1inear mixed effects step)两步之间的迭代完成,可分别使用Gauss-Newton迭代法和EM算法解决[2]。

3 应用举例3.1 例一:非线性混合效应模型拟合随机效应Logistic回归某公司开发一种新药用于治疗周围神经痛。

以安慰剂为对照,将所有患者随机分为两组,一组患者先服用新药A,再服用安慰剂B;另一组患者顺序相反,即先服用安慰剂B,再服用新药A,每个阶段用药2周,期间洗脱期1周,进行2×2交叉设计试验,共纳入病例30例。

主要结果指标疗效为每阶段结束后用CGI (Clinical Global Impression)量表评价疼痛的缓解状况。

与基线相比,当疼痛缓解1个分值时,认为有效,赋值为1。

否则认为无效,赋值为0。

统计分析方法以病人疼痛缓解即药物是否有效为应变量,处理(treat)、阶段(period)、受试者(subject)为解释变量,其中处理和阶段纳入为固定效应,受试者(subject)作为随机效应,建立非线性混合效应模型。

其模型基本形式为:yij表示第i个受试者第j个研究药物是否有效。

随机效应 ui~Normal(0,δ2)所有分析过程在SAS软件中完成,使用PROC NLMIXED过程所建立的模型在经过2次迭代后收敛。

采用常用的Dual quasi-Newton最优化技术与Adaptive Gaussian 积分方法,-2Loglikelihood=88.21,参数估计结果见表1。

此表是非线性混合效应模型参数估计值的分析结果,也是较为关键的一部分。

本表列出了4个参数和它们的最大似然估计值、标准误,以及统计推断。

beta0是截距,表示处理和阶段效应为0时的对数优势(log-odds)。

接下来几行分别是处理(beta1)、阶段(beta2)、随机效应(s2u)的估计。

每个系数都可以通过取幂来转换成优势比。

结果表示阶段效应和受试者效应均无统计学意义,但在α=0.2的显著性水平下处理效应显著,统计学解释为,在控制了有关混杂因素后的受试药A的疗效优势是对照药B的exp(0.8239)=2.28倍。

表1 NLMIXED过程拟合随机效应Logistic回归参数估计结果参数估计值标准误自由度 t值 P值α 下限上限梯度beta0 0.3285 0.3337 28 0.98 0.33340.2-0.10950.7665-8.59E-7 beta1 0.8239 0.6046 28 1.360.18380.20.030391.61742.894E-7 beta2 0.2020 0.5806 28 0.35 0.73060.2-0.56000.9640-1.79E-7 s2u 0.6770 1.2602 28 0.54 0.59530.2-0.97702.3311-4.69E-83.2 例二:非线性混合效应模型拟合自变量与logit(P/1-P)不成线性关系logistic 回归这是一个关于避孕药物的二期临床研究。

为了研究药物的剂量效应关系,将所有患者随机分为4组人群,每组按照4∶1比例分别进入药物组和安慰剂组。

4 组的药物组剂量分别 10、50、100、200 mg。

第 1 组有10人有8人剂量10 mg,2人服用安慰剂。

第2组有10人有8人剂量50 mg,2人服用安慰剂。

依次类推。

第1组连续用药14 d后测量药物对排卵的抑制。

接着第2组也连续用药14 d检查药物对排卵的抑制。

然后是第3组用药和评价,直至第4组用药和评价完毕,试验结束。

为了便于分析,将抑制排卵的作用分为即有效和无效,分别赋值为1,0。

进行n次试验成功的概率为:随机变量Y有二项分布Y~Bin(n,p),其中n是观测总数和P的成功概率。

进入非线性模型作为独立变量Y。

用以下3个参数的Emax模型来估计剂量反应关系[3]。

其中E是Logit(p),E0是基线反应,Emax是药物所能产生的最大效应,ED50是产生50%最大效应的剂量。

εij是受试者的随机效应,εij~Normal(0,δ2)。

使用PROC NLMIXED过程建立非线性Logistic回归模型。

所建立的模型在经过28次迭代后收敛。

采用常用的Dual quasi-Newton最优化技术与Adaptive Gaussian积分方法,-2Loglikelihood=13.5,参数估计结果见表2。

从上表可以得到3个参数的估计值,据此可以推算出非线性方程。

根据以下公式可以计算出0、10、50、100、200 mg不同剂量组抑制排卵的概率分别为0.20、0.24、0.38、0.54、0.73。

表2 NLMIXED过程拟合Emax模型参数估计结果参数估计值标准误自由度 t值P值α 下限上限梯度E0 -1.38143 0.673906 5 -2.04988 0.0956570.05-3.113760.3509036.5E-08 Emax 5.454734 9.532441 5 0.5722280.5919340.05-19.049229.958653.21E-08 ED50 254.4097 752.8559 50.337926 0.7491450.05-1680.872189.687-4.7E-104 讨论临床药物试验中常会遇到重复观测二项分布数据分析的问题。

对于此类数据的分析,常用Logistic回归模型,但是标准Logistic回归模型要求数据之间相互独立,重复观测的数据不独立。

如例1中交叉设计的临床试验数据,数据间存在自相关性且随机误差至少分为两个层次,即个体间误差和个体内重复测量误差。

分析此类数据不仅需要考虑不同层次的误差,而且也需要考虑参数间的非线性关系[4]。

非线性混合效应模型考虑了不同层次的误差和参数间的非线性关系,允许固定效应和随机效应进入模型的非线性部分,可以拟合具有随机效应的Logistic回归模型。

由于其非线性的特征,它也可以拟合自变量和logit函数不呈线性关系的Logistic 回归模型。

如例2药物代谢动力学临床试验中,由于药物在体内吸收、分布、代谢和排泄过程的复杂性,常常不能通过简单的算术表达式来建立模型。

而非线性混合效应模型能够很好地模拟药物在体内的过程,可以用来估计模型的参数,解释变异,近年来在群体药代动力学中也有广泛应用[5]。

实例中,采用SAS软件中的PROC NLMIXED过程来分析数据。

PROC NLMIXED是一个开发性的SAS过程,可以用来分析非线性混合效应模型。

它可以使用随机效应的经验Bayes估计方法来构建任意自定义函数,也可以对非随机效应参数的任意自定义函数进行估计,通过delta方法计算其近似的标准误。

与PROC MIXED过程比较,PROC NLMIXED可以被看作是通过PROC MIXED过程拟合的随机效应模型的推广,可以允许随机效应以非线性的形式加入模型。

而在PROC MIXED中随机效应则以线性形式加入模型。

正是由于非线性的特点,PROC NLMIXED不能用REML方法,只能用标准最大似然估计。

这一点与PROC MIXED不同。

另外,PROC MIXED假定数据是正态分布。

相关文档
最新文档