医学统计学第18章 Logistic回归思考与练习参考答案
第18章 Logistic回归案例辨析及参考答案

第18章 Logistic 回归 案例辨析及参考答案案例18-1 一项前瞻性队列研究中,欲研究某疾病与甲、乙两因素的关系,数据见教材表18-13。
教材表18-13 某前瞻性队列研究中疾病与甲、乙两因素的关系 乙 因 素 甲 因 素 发 病 未发病 合计(2X )(1X ) (Y =1) (Y =0) 暴露(2X =1)暴露(1X =1)150250400未暴露(1X =0) 250 150 400 未暴露(2X =0)暴露(1X =1)400150550未暴露(1X =0)200450650疾病发病与否是因变量Y (发病赋值1,未发病赋值0),甲、乙两个因素为两个自变量1X 和2X ,采用logistic 回归研究疾病与甲、乙两个因素的关系。
(1) 单变量模型 分析结果提示:疾病与甲因素有联系(回归系数Wald 检验2χ=44.766,P <0.001);疾病与乙因素没有联系(回归系数Wald 检验2χ=0.000,P =1.000)。
(2)主效应模型 将甲、乙两个因素同时纳入模型,拟合结果见教材表18-14。
提示疾病与甲因素有联系,与乙因素的联系仍然没有统计学意义。
与单变量拟合结果比较,纳入乙因素后,甲因素的优势比只有微小改变。
研究者据此得出结论:疾病与甲因素有联系,疾病与乙因素没有联系,乙因素也不是混杂因素。
教材表18-14 按照模型22110it log X X βββπ++=拟合结果变 量 b SE Wald df Pexp(b ) 1X 0.607 0.091 44.838 1 <0.001 1.835 2X -0.026 0.092 0.077 1 0.781 0.975 Constant-0.2780.07215.0761<0.0010.757(3)有交互效应的模型 根据专业知识判断,甲、乙两因素间可能存在交互效应,选用有交互效应的全模型,拟合结果见教材表18-15。
结果提示:疾病与甲因素有联系,疾病与乙因素也有联系,甲、乙两因素间还有交互效应。
医学统计学:Logistic回归分析

析包含某个或某几个变量的模型是否有统计学意义。
模型s的对数似然函数
模型s的对数似然函数 大样本
G = -2 ( ln Ls- ln LP ) ~ 2 ( p -s)
模型s嵌套 于模型p内
LS :包含s个回归系数的模型的似然函数对数值; LP:包含p个回归系数的模型的似然函数对数值,p > s ;
• G值的大小反映增加某个或某几个自变量的模型拟合优度提高的程度。 • s=0时,是对模型的整体检验;p=s+1时,是对某个自变量的检验。
包括:多元线性回归模型,logistic回归模型,Probit回归模型,
Poisson回归模型,负二项回归模型
2
当因变量是分类变量时,其自变量与因变量更多的是 非线性关系,严重违背了线性回归模型的假设条件。 故直接应用线性回归分析不合理;
不能直接分析 y 与 x 的关系 y=f(x) ,因y仅取有 限的几个值
23
2019/6/6
Logistic回归模型的统计推断 • Logistic回归方程(系数)的假设检验 • Logistic回归模型的拟合优度检验 • Logistic回归模型预测准确度的检验
22
(1) 似然比检验(likelihood ratio test)
通过比较两个相嵌套模型的对数似然函数统计量G (又称Deviance):来分
对数似然 ln L a(0 1) a ln[1 exp(0 1)] b ln[1 exp(0 1)] c0 c ln[1 exp(0)] d ln[1 exp(0 )]
求一非阶线偏性导迭,代并方令法一阶偏导数=0 ——Newton-Raphson迭代法
最大似然估计
ˆ0
ln
c d
生物医学研究的统计学方法 课后答案(思考与联系)

第1章绪论思考与练习参考答案一、最佳选择题1. 研究中的基本单位是指( D)。
A.样本 B. 全部对象C.影响因素D. 个体E. 总体2. 从总体中抽取样本的目的是( B )。
A.研究样本统计量 B. 由样本统计量推断总体参数C.研究典型案例 D. 研究总体统计量E. 计算统计指标3. 参数是指( B )。
A.参与个体数 B. 描述总体特征的统计指标C.描述样本特征的统计指标 D. 样本的总和 E. 参与变量数4. 下列资料属名义变量的是(E)。
A.白细胞计数B.住院天数C.门急诊就诊人数D.患者的病情分级 E. ABO血型5.关于随机误差下列不正确的是(C)。
A.受测量精密度限制B.无方向性 C. 也称为偏倚D.不可避免 E. 增加样本含量可降低其大小二、名称解释(答案略)1. 变量与随机变量2. 同质与变异3. 总体与样本4. 参数与统计量5. 误差6. 随机事件7. 频率与概率三、思考题1. 生物统计学与其他统计学有什么区别和联系?答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。
而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。
2. 某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?答:不能。
因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。
样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。
即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。
因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。
医学统计学第18章 Logistic回归思考与练习参考答案

第18章 Logistic 回归 思考与练习参考答案一、最佳选择题1. Logistic 回归与多重线性回归比较,( A )。
A .logistic 回归的因变量为二分类变量 B .多重线性回归的因变量为二分类变量C .logistic 回归和多重线性回归的因变量都可为二分类变量D .logistic 回归的自变量必须是二分类变量E .多重线性回归的自变量必须是二分类变量 2. Logistic 回归适用于因变量为( E )。
A .二分类变量B .多分类有序变量C .多分类无序变量D .连续型定量变量E .A 、B 、C 均可 3. Logistic 回归系数与优势比OR 的关系为( E )。
A .>β0等价于OR >1B .>β0等价于OR <1C .β=0等价于OR =1D .β<0等价于OR <1E .A 、C 、D 均正确 4. Logistic 回归可用于( E )。
A.影响因素分析 B .校正混杂因素 C .预测 D .仅有A 和C E .A 、B 、C 均可5. Logistic 回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( D )。
A .软件自动筛选的前进法B .软件自动筛选的后退法C .软件自动筛选的逐步法D .应将几个哑变量作为一个因素,整体进出回归方程E .A 、B 、C 均可二、思考题1. 为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中学校,各选择初一年级一个班的全部学生进行调查,并用logistic 回归方程筛选影响因素。
试问上述问题采用logistic 回归是否妥当?答:上述问题采用logistic回归不妥当,因为logistic回归中参数的极大似然估计要求样本结局事件相互独立,而研究的问题中低龄青少年吸烟行为不独立。
2. 分类变量赋值不同对logistic回归有何影响? 分析结果一致吗?答:(1)若因变量交换赋值,两个logistic回归方程的参数估计绝对值相等,符号相反;优势比互为倒数,含义有所区别,实质意义一样;模型拟合检验与回归系数的假设检验结果相同。
医学统计学知到章节答案智慧树2023年湖南中医药大学

医学统计学知到章节测试答案智慧树2023年最新湖南中医药大学第一章测试1.参数是指总体的统计指标。
()参考答案:对2.概率的取值范围为[-1,1]。
()参考答案:错3.统计学中资料类型包括()参考答案:等级资料;计数资料;计量资料4.医学统计学的研究内容包括研究设计和研究分析两个方面。
()参考答案:对5.样本应该对总体具有代表性。
()参考答案:对第二章测试1.抽样单位的数目越大,抽样误差越大。
()参考答案:错2.以下不属于概率抽样的是()参考答案:雪球抽样3.整群抽样的优点()参考答案:易于理解,简单易行4.概率抽样主要包括简单随机抽样、分层抽样、系统抽样、整群抽样和便利抽样。
()参考答案:错5.进行分层抽样时要求()参考答案:各群内差异越小越好第三章测试1.在正态性检验中,P>0.05时可认为资料服从正态分布。
()参考答案:对2.在两样本均数比较的t检验中,无效假设是()参考答案:两总体均数相等3.在两样本率比较的卡方检验中,无效假设是()参考答案:两总体率相等4.配对设计资料,若满足正态性和方差齐性。
要对两样本均数的差别作比较,可选择()参考答案:配对t检验5.用最小二乘法确定直线回归方程的原则是各观测点距直线纵向距离平方和最小。
()参考答案:对第四章测试1.定量数据即计量资料()参考答案:对2.定量数据的统计描述包括集中趋势、离散趋势和频数分布特征。
()参考答案:对3.定量数据的总体均数的估计只有点估计这一种方法。
()参考答案:错4.定性数据是指计数资料。
()参考答案:错5.动态数列是以系统按照时间顺序排列起来的统计指标。
()参考答案:对第五章测试1.单个样本t检验要求样本所代表的总体服从正态分布、()参考答案:对2.配对t检验要求差值d服从正态分布。
()参考答案:对3.Wilcoxon符号秩和检验属于非参数检验。
()参考答案:对4.配对设计可以用于控制研究误差。
()参考答案:对5.配对t检验中,P<0.05时说明两处理组差异无统计学意义。
医学统计学:logistic回归分析

12
0 x
logistic回归模型方程的线性表达
对logistic回归概率(p)模型做logit变换:
p1 log it ( p) ln( ) 1 p1
线性表达形式:
y log it ( p) 0 1 x1
多因素分析作用: 1.可校正混杂因素,正确评价结果的效应. 2.回答哪个因素对事件(疾病)作用更大?
7
第一节
一、基本概念
logistic回归
logistic回归(logistic regression)是研究观 察结果(y)为分类变量与多个影响因素(x)之 间回归关系的多变量统计方法。
根据因变量(y)取值不同, Logistic 回归又 有两分类 Binary Logistic 回归和多分类 Multinomial Logistic 回归方法.
p( y 1, x 1) a / a c odds1 p( y 0, x 1) c / a c p( y 1, x 0) b / b d odds0 p( y 0, x 0) d / b d
odds1 p1 /(1 p1 ) a / c a d OR odds0 p0 /(1 p0 ) b / d b c
6
考虑病情因素,甲医院生存率高于乙医院. 两医院乳腺癌术后5年生存率比较
腋下淋巴 甲医院=1 结转移 病例 生存 生存率% 无=0 45 35 77.7 有=1 710 450 63.4 合计 755 485 64.2
病例 300 83 383
乙医院=0 生存 生存率% 215 71.6 42 50.6 257 67.1
医学统计学logistic回归分析 2018

1 1 1 … 1 1 1
假定同一层的2个人中,只有1人患病。 在 只有1人患病的条件下,恰好第1个人“患 病”而第2个人“未患病”的条件概率为
( 1 1 0 ) P(第1个人患病同一层中两者之一患病 ) ( 1 1 0 ) 0 (1 1 )
e e
( 0 X 1 )
例: 大肠癌患者临床病理因素对其预后可能产生 影响。收集了158例经手术治疗大肠癌患者 的性别、年龄、组织学分类、肿瘤大小、 Dure’s分期、淋巴管浸润、血管浸润、5年 生存状态等资料 • 目的:预测经手术治疗大肠癌患者5年生存 概率。
变量
性别:女=0 ,男=1
年龄:实测值
组织学分类:乳头状腺癌=0,管状腺癌=1
1 :1 配 对 设 计 数 据 的 一 般 格 式 病 例 x 1 2 ... n X 11 X 21 ... X n1 y 1 1 ... 1 x X 10 X 20 ... X n0 对 照 y 0 0 ... 0
配 对 号
每 个 对 子 含 两 个 人 , 第 自 变 量 为 x, 第 X i0 i 层 第
Logistic回归的参数估计
Logistic回归模型中的参数β1 , β2 、… βP
需要通过样本资料,按照一定方法进行估 计,估计量记为b1 , b2 、… bP。 参数估计方法有多种,极大似然估计 ( MLE)最为常用
Logistic回归的参数估计
极大似然估计基本思想 选择能有最大概率获得当前样本的参数值 作为参数的估计值。
( 0 X 1 )
e
( 0 X 0 )
1 1 e
( X1 X 0 )
• 若自变量扩展到个 P个
医学统计学课后习题-全

第一章:单选题(5/5 分数)1.统计学中所说的样本是指()。
.随意抽取的总体中任意部分.有意识的选择总体中的典型部分.依照研究者要求选取总体中有意义的一部分.依照随机原则抽取总体中有代表性的一部分.依照随机原则抽取总体中有代表性的一部分- 正确. 有目的的选择总体中的典型部分2.下列资料属等级资料的是()。
.白细胞计数.住院天数.门急诊就诊人数.病人的病情分级.病人的病情分级- 正确. ABO血型分类3.为了估计某年华北地区家庭年医疗费用的平均支出,从华北地区的5个城市随机抽样调查了1500户家庭,他们的平均年医疗费用支出是997元,标准差是391 元。
该研究中研究者感兴趣的总体是().华北地区1500户家庭.华北地区的5个城市.华北地区1500户家庭的年医疗费用.华北地区所有家庭的年医疗费用.华北地区所有家庭的年医疗费用- 正确. 全国所有家庭的年医疗费用4.欲了解研究人群中原发性高血压病(EH)的患病情况,某研究者调查了1043人,获得了文化程度(高中及以下、大学及以上)、高血压家族史(有、无)、月人均收入(元)、吸烟(不吸、偶尔吸、经常吸、每天)、饮酒(不饮、偶尔饮、经常饮、每天)、打鼾(不打鼾、打鼾)、脉压差(mmHg)、心率(次/分)等指标信息。
则构成计数资料的指标有().文化程度、高血压家族史吸烟、饮酒、打鼾.月人均收入、脉压差、心率.文化程度、高血压家族史、打鼾.文化程度、高血压家族史、打鼾- 正确.吸烟、饮酒. 高血压家族史吸烟、饮酒、打鼾5.总体是指().全部研究对象.全部研究对象中抽取的一部分.全部样本.全部研究指标. 全部同质研究对象的某个变量的值-正确第二章-单选题(10/10 分数)1.描述一组偏态分布资料的变异度,以()指标较好。
. 全距. 标准差. 变异系数. 四分位数间距. 四分位数间距- 正确.方差2.用均数和标准差可以全面描述()资料的特征。
. 正偏态分布. 负偏态分布. 正态分布. 正态分布- 正确. 对称分布.对数正态分布3.各观察值均加(或减)同一数后()。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第18章 Logistic 回归 思考与练习参考答案
一、最佳选择题
1. Logistic 回归与多重线性回归比较,( A )。
A .logistic 回归的因变量为二分类变量 B .多重线性回归的因变量为二分类变量
C .logistic 回归和多重线性回归的因变量都可为二分类变量
D .logistic 回归的自变量必须是二分类变量
E .多重线性回归的自变量必须是二分类变量 2. Logistic 回归适用于因变量为( E )。
A .二分类变量
B .多分类有序变量
C .多分类无序变量
D .连续型定量变量
E .A 、B 、C 均可 3. Logistic 回归系数与优势比OR 的关系为( E )。
A .>β0等价于OR >1
B .>β0等价于OR <1
C .β=0等价于OR =1
D .β<0等价于OR <1
E .A 、C 、D 均正确 4. Logistic 回归可用于( E )。
A.影响因素分析 B .校正混杂因素 C .预测 D .仅有A 和C E .A 、B 、C 均可
5. Logistic 回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( D )。
A .软件自动筛选的前进法
B .软件自动筛选的后退法
C .软件自动筛选的逐步法
D .应将几个哑变量作为一个因素,整体进出回归方程
E .A 、B 、C 均可
二、思考题
1. 为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中学校,各选择初一年级一个班的全部学生进行调查,并用logistic 回归方程筛选影响因素。
试问上述问题采用logistic 回归是否妥当?
答:上述问题采用logistic回归不妥当,因为logistic回归中参数的极大似然估计要求样本结局事件相互独立,而研究的问题中低龄青少年吸烟行为不独立。
2. 分类变量赋值不同对logistic回归有何影响? 分析结果一致吗?
答:(1)若因变量交换赋值,两个logistic回归方程的参数估计绝对值相等,符号相反;优势比互为倒数,含义有所区别,实质意义一样;模型拟合检验与回归系数的假设检验结果相同。
(2)若改变自变量参照类或哑变量设置方法,logistic回归方程形式、参数含义虽有不同,但是模型实质与应用结果相同,可以根据研究需要选择不同赋值方法。
Logistic回归结果报告中,一定要说明分类变量赋值方法及其参照,否则无法理解模型意义。
3. 例18-6研究性别对吸烟行为的影响,采用logistic回归校正了年龄对居民吸烟行为的影响,请考虑有无其他混杂因素需要校正?
答:例18-6的主要目的是研究吸烟行为与性别的联系及其强度,例题采用logistic回归只校正了年龄对居民吸烟行为的影响。
事实上,除年龄外,仍有其他因素会影响吸烟行为与性别的联系强度,如家庭人均年收入、受教育程度、主动获取保健知识等。
建立回归模型时,首先应根据专业知识确定可能的影响因素,再采用logistic回归,将性别作为强制引入变量,对其他可能的影响因素进行变量筛选,最后将性别与筛选出的因素作为自变量建立logistic回归方程,从而正确回答校正混杂因素后吸烟行为与性别的联系及其强度。
4. 配对病例-对照研究资料若采用非条件logistic回归进行分析,对结果有何影响?
答:采用配对(匹配)方法的目的是对可能的混杂因素加以控制,有助于提高研究效率和可靠性。
配对设计的特点是对子内部控制的混杂变量一致,有较好的可比性。
配对(匹配)资料若采用非条件logistic回归进行分析,则忽视了这种可比性,降低了分析方法的检验效能。
三、计算题
探讨肾细胞癌转移有关的因素研究中,收集了26例行根治性肾切除术患者的肾癌标本资料(教材表18-19),有关变量说明如下,试进行logistic回归分析。
X:确诊时患者的年龄(岁)。
1
X:肾细胞癌血管内皮生长因子,其阳性表达由低到高共3个等级,分别赋值1、2、3。
2
X:肾细胞癌组织内微血管数。
3
X:肾细胞癌细胞核组织学分级,由低到高共4级,分别赋值1、2、3、4。
4
5X :肾细胞癌分期,由低到高共4期,分别赋值1、2、3、4。
Y :肾细胞癌转移情况,有转移=1,无转移=0。
教材表18-19 26例行根治性肾切除术患者的肾癌标本资料
数据摘自 倪宗瓒. 卫生统计学 4版,人民卫生出版社,2004。
解:
Logistic 回归分析结果显示:肾细胞癌转移与肾细胞癌血管内皮生长因子和肾细胞癌细胞核组织学分级有关。
肾细胞癌血管内皮生长因子2X 和肾细胞癌细胞核组织学分级4X 的回归系数均为正值,说明两个变量取值越大,则肾细胞癌转移的危险性越大。
在肾细胞癌细胞核组织学分级不变条件下,肾细胞癌血管内皮生长因子每增加一级,肾细胞癌转移的优势增至11.172倍,增加10.172倍;在肾细胞癌血管内皮生长因子不变条件下,肾细胞癌细胞核组织学分级每增加一级,肾细胞癌转移的优势增至8.136倍,增加7.136倍。
(毛宗福 余红梅)。