非吸烟女性肺癌危险因素的多分类logistic模型分析
logistic回归

概念
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同 之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多 重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p, p =L(w‘x+b),然后根据p与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是 多项式函数就是多项式回归。
感谢观看
logistic回归
一种广义的线性回归分析模型
01 概念
目录
02 主要用途
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断, 经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为 例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量 就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。 自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致 了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是 看一下这个人有多大的可能性是属于某病。
这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归几乎已经 成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势,以后会对该方法进行详细 的阐述。实际上有很多其他分类方法,只不过Logistic回归是最成功也是应用最广的。
逻辑回归乳腺癌模型

逻辑回归乳腺癌模型1.引言1.1 概述【概述】乳腺癌是最常见的女性恶性肿瘤之一,对女性的健康和生活质量产生了重大影响。
为了提高乳腺癌的早期诊断和预测模型的准确性,逻辑回归模型被广泛应用于乳腺癌的预测和分类。
逻辑回归是一种常见的统计学习方法,将线性回归模型的输出通过一个逻辑函数(如Sigmoid函数)映射到[0,1]的概率空间内,用于解决分类问题。
相比于其他机器学习模型,逻辑回归模型具有计算简单、解释性强等优点。
本文将首先介绍逻辑回归模型的定义和原理,并分析其适用性。
然后,我们将讨论乳腺癌的背景和其在女性中的重要性。
进一步,我们将详细说明构建逻辑回归乳腺癌模型的过程,包括数据收集和处理、模型的建立和训练等步骤。
在结论部分,我们将评估乳腺癌模型的效果,并对结果进行分析和讨论。
通过这篇文章的阐述,读者将了解到逻辑回归模型在乳腺癌预测中的应用及其优势,为医疗研究和临床实践提供指导意义。
文章结构部分的内容应包括对整篇文章的章节划分和各个章节的主要内容介绍。
以下是文章结构部分的一种可能的内容编写:1.2 文章结构本文主要分为引言、正文和结论三个部分。
在引言部分中,我们将对逻辑回归乳腺癌模型进行简要介绍,并说明文章的结构和目的。
接下来,在正文部分,我们将逐步介绍逻辑回归模型和乳腺癌的背景和重要性,并详细说明如何构建逻辑回归乳腺癌模型。
具体而言,我们将在2.1节介绍逻辑回归模型的定义和原理,以及其适用性。
在2.2节中,我们将探讨乳腺癌的定义和流行情况,以及其对人类健康的危害和影响。
最后,在2.3节,我们将详细说明构建逻辑回归乳腺癌模型的数据收集和处理方法,以及模型的建立和训练过程。
最后,在结论部分,我们将对所构建的逻辑回归乳腺癌模型进行效果评估,并进行结果分析和讨论。
通过以上结构的安排,我们将系统地介绍逻辑回归乳腺癌模型的相关内容,从而使读者更全面地了解这一模型的原理、应用场景以及对乳腺癌研究的重要性。
1.3 目的本文的目的是构建一个逻辑回归乳腺癌模型,并评估其效果。
3种统计模型在预测肺癌术后并发症中的比较

3种统计模型在预测肺癌术后并发症中的比较宋健;苏虹;周洋洋;郭亮亮;王保龙【摘要】目的探讨BP神经网络模型在预测肺癌术后并发症中的应用价值.方法调查肺癌患者术后并发症发生情况.分别应用Logistic回归、BP神经网络模型和经Logistic回归筛选变量后的BP神经网络模型3种办法建立预测模型,并比较3种模型的预测准确度.结果 Logistic回归、BP神经网络模型和经Logistic回归筛选变量后的BP神经网络模型的预测一致率分别为81.6%、89.7%、90.8%.3种模型受试者工作特征曲线(ROC曲线)下面积(AUC)分别为0.636、0.801、0.808.Logistic模型的AUC与两种BP神经网络模型的差异有统计学意义(P<0.05).结论 BP神经网络对肺癌术后并发症预测的效果优于Logistic回归模型.【期刊名称】《安徽医科大学学报》【年(卷),期】2014(049)004【总页数】4页(P472-475)【关键词】Logistic模型;BP神经网络;肺癌;并发症【作者】宋健;苏虹;周洋洋;郭亮亮;王保龙【作者单位】安徽医科大学公共卫生学院流行病与卫生统计学系,合肥230032;安徽医科大学公共卫生学院流行病与卫生统计学系,合肥230032;安徽医科大学公共卫生学院流行病与卫生统计学系,合肥230032;安徽医科大学公共卫生学院流行病与卫生统计学系,合肥230032;安徽医科大学附属省立医院检验科,合肥230001【正文语种】中文【中图分类】R195.1;R734.2;R619.9肺癌是严重威胁人类健康的主要恶性肿瘤之一,其发病率和病死率在全球范围内呈逐年上升趋势[1]。
手术治疗仍是现阶段治疗肺癌患者的主要手段,但肺癌术后并发症的发生却影响了患者的康复。
因此有必要准确地进行术后并发症的预测,提供合适的治疗方案。
以往多采用Logistic回归进行术后并发症危险因素的研究,较少对其预测的准确性进行评价。
肺癌危险因素流行病学论文

姓名:申请学位级别:专业:指导教师:学号:肺癌危险因素的流行病学研究摘要[目的]探寻贵州省肺癌发病的主要危险因素;为肺癌病因研究提供线索:为制定有针对性的预防控制策略和措施提供科学依据。
[方法]采用分子流行病学研究方法与病例一对照研究设计。
研究对象为贵州居民,居住在贵州地区10年以上,共831例。
肺癌病例来自毕节市人民医院、七星关区医院。
病例为经支气管镜、病理诊断确诊的肺癌新病例,配合调查,能清楚回答问题者,共400例。
每一位病人面访调查完成一份问卷,收集一份5ml的血样。
以前往医院探访病人的健康人群为对照,排除肺癌病例的直系家属,面访调查与病例同性别,同地区,年龄与病例相差不超过5岁的对照共431例。
[结果]1.贵州省人群肺癌的危险因素:吸烟及被动吸烟、居住地周围有污染企业、厨房卧室未分开、使用煤为燃料、烧饭时屋内烟雾多、房屋装修入住后有刺激性气味、食用动物油、常吃咸菜、饮酒(包括饮用白酒、米酒)、肺结核病史、使用农药史、性格忧郁、BMI<18.5。
2.肺癌的保护因素:常吃新鲜水果、鸡蛋、常喝奶及奶制品、饮淡茶、锻炼(包括①体力活动或体育锻炼;②以散步作为锻炼或常以步代车)、BMI≥25。
3.被动吸烟(包括家庭及公共场所被动吸烟)、食用动物油、常吃咸菜、使用农药史是男、女性肺癌共同的危险因素。
男性肺癌的危险因素还包括:吸烟、饮酒、肺结核病史、使用煤为燃料、房屋装修入住后有刺激性气味、居住地周围有污染企业、BMI<18.5。
女性肺癌的危险因素还包括:烧饭时房屋内烟雾和被动吸烟。
4.奶及奶制品、常吃蛋类和经常锻炼是男、女性肺癌共同的保护因素。
男性肺癌的保护因素还包括:常吃新鲜水果、BMI>125。
女性肺癌的保护因素还包括:常吃新鲜鱼虾、饮茶。
5.工作场所被动吸烟是肺腺癌与鳞癌共同的危险因素。
肺鳞癌的危险因素包括:吸烟>130包年、肺结核病史、常吃动物油。
肺腺癌的危险因素还包括:家庭被动吸烟、一级亲属肿瘤史。
第十九章+Logistic回归分析

将三阶糖酸锑钾50的不同剂量注入 剂量X 存活
小白鼠后,观察存活与死亡情况, 2.0 12
结果如下表,试研究剂量与死亡率 2.5
7
的关系。
3.0
4
3.5
2
4.0
1
4.5
0
死亡 1 3 7 11 16 17
死亡率% 7.7 30.0 63.6 84.6 94.1
100.0
7.7 412.7 2X 6
•1
1
1
P1
•2
0
1
P2
•3
0
0
q3
•4
1
0
q4
似然函数 L(B0,B1)为
L ( B 0 ,B 1 ) p 1 p 2 q 3 q 4
eB0 B1 p1 1eB0B1
e B0 p2 1 e B0
1 q3 1 e B0
1 q4 1eB0B1
分别对似然函数中的待估参数B0、B1求一阶偏导数, 令其为0得一方程组,求解此方程组可得B0、B1 的估计值b0、b1。
或 loig (tP)B0BX
则称该事件发生的概率与变量间的关系符合多元 Logistic回归或对数优势线性回归
模型中B0、B(B1、B2….Bp)为模型的参数, B0称为 常数项,B称偏回归系数;X(x1、x2…X p)为自变量, Y为应变量;回归分析的目的是研究 X 对Y的影响作用。
Logistic回归分析的过程,即是利用样本数据估 计出模型参数B0、B的估计值b0、b(b1、…bp)。
{P(Y=1/X)/ P(Y=0/X)}为事件的优势。 logitP 与因素呈线性关系,故Logistic regression 又称为对数优势线性回归或对数优势回归。
女性肺癌的发病危险因素分析

世界 2 个 被 动 吸 烟研 究 所 的研 究 表 明 被 动 吸 5
烟能增 加 患肺 癌 的危 险 性 , 动 吸 烟所 吸 入 的 烟雾 被
表 4 肺部疾病史对女性肺癌发生的危险 因素分析
对人体造成的危 害比主动吸烟更严重 , 被动吸烟吸 入支 流烟 雾 中的致 癌 剂 浓 度 、 量远 远 高 于 主 动 吸 含
烟者 吸 入 的主流 烟雾 , 容易 导致肺 癌 , 被 动吸烟 更 且
者年龄普遍较轻 , 暴露于香烟 中的时间长, 对烟雾中 的致癌剂较敏感。研究表明女性对烟草的毒性较男
性更敏 感 , 女性 烟 民发生 肺 癌 的可能 性 是 男 性 烟 民
3 讨 论
的 2 L。女性在 生理机制上对肺癌 比男性更敏 倍4 j
2 结 果
P=O0 1 ( R: . 59 %C =155— . 7 。 .0 )O 2 1 ,5 I .0 3 O ) 4 5
2 1 一 般状 况分 析 .
2 2 危 险因素分 析 .
见 表 1 。
22 1 吸 烟 吸 烟 与女 性 肺 癌 的发 生 未见 明显 联 ..
* 通讯作者
结果见 表 2 。 —4
表 2 女性肺癌各危险因素的 OR值
研究统计分析方法 , 数据由录入员用 E in ( . ) p I o60 f 4 软件进行数据的二次录入 、 核对和逻辑检错 , S S 用 A 软件包进行分析 , 估计各个 因素与女性肺癌的联系 强度 , P<00 为有 统计 学意 义 。 .1
二分类logistic回归案例
二分类logistic回归案例
以下是一个二分类Logistic回归的案例:
假设我们正在研究肺癌的危险因素。
在这个案例中,因变量是是否患有肺癌(是或否),自变量可能包括性别、体重指数(BMI)、是否吸烟、年龄以及是否有慢性阻塞性肺病(COPD)病史等。
首先,我们需要收集数据,包括所有可能的影响因素以及是否患有肺癌的结果。
然后,我们进行数据清理和预处理,包括处理缺失值、异常值和编码问题。
接下来,我们进行单变量分析,单独考察每个自变量与因变量之间的关系。
例如,我们可以使用卡方检验来分析性别、吸烟状况、COPD病史等分类变量与肺癌的关系,使用t检验来分析年龄和BMI等连续变量与肺癌的关系。
根据单变量分析的结果,我们筛选出与肺癌有显著关系的变量,然后进行多因素分析。
在这个案例中,我们可以使用二分类Logistic回归模型来分析这些变量与肺癌的关系。
我们可以通过逐步回归、向前选择或向后删除等方法选择自变量进入模型。
在Logistic回归分析中,我们可以通过估计回归系数、似然比检验和AIC 等信息准则来评估模型的拟合优度和预测能力。
我们还可以使用交叉验证等技术来评估模型的泛化能力。
最后,我们解释结果并撰写研究报告或论文。
在解释结果时,我们需要考虑自变量之间的相互作用和多重共线性问题。
如果存在多重共线性问题,我们需要采取措施解决它,例如使用主成分分析或岭回归等方法。
总之,二分类Logistic回归是一种强大的统计工具,可以帮助我们了解分类结果与一组影响因素之间的关系,并预测新数据点的分类概率。
在案例研究中,我们需要注意数据预处理、变量选择和结果解释等方面的问题。
危险度分析和Logistic回归
为1,患子宫内膜癌与绝经期使用过雌激素有关;并估计绝经 期使用过雌激素的妇女患子宫内膜癌的相对危险度是不用者 的3.71倍。
比数(odds),某事件发生的概率和不发生的概率之比。 Odds=P/(1-P)
病例组中暴露的比数=[a/(a+b)]/[b/(a+b)]=a/b 对照组中暴露的比数=[c/(c+d)]/[d/(c+d)]=c/d
两个比数之比值称为比数比:OR(odds ratio)。 病例组中暴露的比数与对照组中暴露的比数之比值
未分层时ˆ =7.22,似乎表明该危险因素作用很大 ,
二.分层分析
但将混杂因素分为两层后,Ⅰ,Ⅱ层的分别仅 为1.83,1.58。 由此可见该混杂因素的干扰会导 致不正确的推断。分层分析有助于克服混杂因素 之干扰。
分层分析(Stratified Analysis)是对可能的 混杂因素(常常是性别,年龄,或其它有关条件)进 行分层,使得每一层内混杂因素处于同一水平上, 这样就可排除它的干扰。
表17.1 血中儿茶酚胺水平与冠心病发病关系
────────────────────────────────────────
血中儿茶酚胺
冠心病
──────────────────
水平
发病
未发病
小计
────────────────────────────────────────
高
27(a)
95(b)
122
────────────────────────────────────────
Logistic回归分析报告结果解读分析-logit回归解读
Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活与死亡、患病与未患病等)与多个自变量得关系。
比较常用得情形就是分析危险因素与就是否发生某疾病相关联。
例如,若探讨胃癌得危险因素,可以选择两组人群,一组就是胃癌组,一组就是非胃癌组,两组人群有不同得临床表现与生活方式等,因变量就为有或无胃癌,即“就是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、就是否幽门螺杆菌感染等。
自变量既可以就是连续变量,也可以为分类变量。
通过Logistic回归分析,就可以大致了解胃癌得危险因素。
Logistic回归与多元线性回归有很多相同之处,但最大得区别就在于她们得因变量不同。
多元线性回归得因变量为连续变量;Logistic回归得因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。
1、Logistic回归得用法一般而言,Logistic回归有两大用途,首先就是寻找危险因素,如上文得例子,找出与胃癌相关得危险因素;其次就是用于预测,我们可以根据建立得Logistic 回归模型,预测在不同得自变量情况下,发生某病或某种情况得概率(包括风险评分得建立)。
2、用Logistic回归估计危险度所谓相对危险度(risk ratio,RR)就是用来描述某一因素不同状态发生疾病(或其它结局)危险程度得比值。
Logistic回归给出得OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件得风险超出或减少得程度。
如不同性别得胃癌发生危险不同,通过Logistic回归可以求出危险度得具体数值,例如1、7,这样就表示,男性发生胃癌得风险就是女性得1、7倍。
这里要注意估计得方向问题,以女性作为参照,男性患胃癌得OR就是1、7。
如果以男性作为参照,算出得OR将会就是0、588(1/1、7),表示女性发生胃癌得风险就是男性得0、588倍,或者说,就是男性得58、8%。
(仅供参考)二分类Logistic回归的详细SPSS操作
SPSS操作:二分类Logistic回归作者:张耀文1、问题与数据某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系,开展了一项成组设计的病例对照研究。
选择该科室内肺癌患者为病例组,选择医院内其它科室的非肺癌患者为对照组。
通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息:性别、年龄、BMI、COPD病史和是否吸烟。
变量的赋值和部分原始数据见表1和表2。
该医生应该如何分析?表1. 肺癌危险因素分析研究的变量与赋值表2. 部分原始数据ID gender age BMI COPD smoke cancer1 0 34 0 1 1 02 1 32 0 1 0 13 0 27 0 1 1 14 1 28 0 1 1 05 1 29 0 1 0 06 0 60 0 2 0 07 1 29 0 0 1 18 1 29 1 1 1 19 1 37 0 1 0 010 0 17 0 0 0 011 0 20 0 0 1 112 1 35 0 0 0 013 0 17 1 0 1 1…………………2、对数据结构的分析该设计中,因变量为二分类,自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD 病史)。
要探讨二分类因变量与自变量之间的关系,应采用二分类Logistic回归模型进行分析。
在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。
即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。
本例中单变量分析的结果见表3(常作为研究报告或论文中的表1)。
表3. 病例组和对照组暴露因素的单因素比较病例组(n=85)对照组(n=259) χ2 /t统计量P性别,男(%)56 (65.9) 126 (48.6) 7.629 <0.01年龄(岁),x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI,n (%)正常48 (56.5) 137 (52.9) 0.329 0.57超重或肥胖37 (43.5) 122 (47.1)COPD病史,n (%)无21 (24.7) 114 (44.0) 14.123 <0.01轻中度24 (28.2) 75 (29.0)重度40 (47.1) 70 (27.0)是否吸烟,n(%)否18 (21.2) 106 (40.9) 10.829 <0.01是67 (78.8) 153 (59.1)单因素分析中,病例组和对照组之间的差异有统计学意义的自变量包括:性别、COPD病史和是否吸烟。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
年龄(岁) 教育程度 经济收入(元/ 人 , 1987) 身体指数 饮茶 工作场所被动吸烟 儿童期父母吸烟 婚后丈夫吸烟 厨房位置 做饭时厨房内烟雾 每周炸菜次数 每周煎菜次数 做饭时眼咽喉烟雾刺激感 食用油类型 * 月经初潮年龄(岁) 月经周期(天) 避孕药使用 活产次数 生殖系统手术史 肺结核病史 哮喘病史 慢性支气管炎病史 肺癌家族史(一级亲属) 能量摄入(千卡) 胡罗卜素摄入(ug/ 日) 维生素 C 摄入(mg/ 日) 维生素 E 摄入(mg/ 日)
*:1 -包括大细胞 、小细胞等类型 ;2 -具体 细胞学类 型不明 ;3 调查时 5 年前的体重 ;4 -1987 年左右人均月收入 。
首先对女性肺癌的危险因素做了一个初步筛选 , 进行了单因素多分类 logistic 模型的分析 。 总的来看 , 影响女性肺腺癌的危险因素较复杂 , 而类型不明女性 肺癌的影响因素与腺癌接近 。 除了年龄等一般因素之 外 , 厨房小环境污染以及与烹饪活动有关的因素似乎 与各个类型的非吸烟女性肺癌都有关联 , 肺癌家族史 与腺癌 、鳞癌和类型不明肺癌 有关联 , 而 身体质量指 数 、活产次数和食用油类型主要与腺癌关系密切 。 在 单因素分析的基础上 , 并结合逐步回归的分析结果 , 配
504 296 42 49 117 57.8 ±8.8 158.0 ±4.6 55.8 ±8.2 209 76 105 114 94.1 ±42.7
601
59.3 ±7.5 t =2.98(P =0.0030) 157.8 ±4.7 t =0.93(P =0.3532) 57.4 ±8.4 t =3.00(P =0.0028)
*经费资助 :国家八五攻关项目(编号 :85 -914 -01 -11)
Chinese Jou rnal of Healt h S tatist ics , Apr 2005 , Vol .22 , No .2
· 67 ·
表 1 主要的危险因素及其数量化(非吸烟女性肺癌病例对照研究)
变量
数量化及编码
2.35(0.98 ~ 5.60)、4.40(1.42 ~ 13.65)、4.32(1.24 ~ 15.14);饮 茶 的保 护 作用 在 鳞癌 较 明显 , 其 OR 和 95 %CI 为 0.13(0.02 ~ 1.02)。 做饭时厨房内有较多 烟雾和经常炸菜是大细胞和小细胞等类型肺癌的危险 因素 , OR 分别为 2.53(95 %CI 1.07 ~ 5.99)和 5.00 (1.73 ~ 14.43)。类型不明肺癌的危险因素主要是身 体质量指数较低 、做饭时厨房内有较多烟雾 、经常炸菜 或煎菜和肺癌家族史 , 其中肺癌家族史接近于统计学 显著水平 。 工作场所被动吸烟史似乎与腺癌 、鳞癌和 其他类型女性肺癌危险性增加有关 , 因为显著性检验 结果已接近于统计学意义 。
· 66 ·
中国卫生统计 2005 年 4 月第 22 卷第 2 期
非吸烟女性肺癌危险因素的多分类 logistic 模型分析 *
上海交通大学肿瘤研究所 、上海市肿瘤研究所(200032) 项永兵 高玉堂
【提 要】 目的 利 用多分类 lo gistic 模型分析和评价非 吸烟女性不同组织 学类型肺癌的危险因 素 。 方法 资料 来 源于非吸烟女性肺癌病例 504 例及人群对照 601 例 , 拟合多分类 logistic 回归模型估计各因素的比数比 。 结果 影响女 性 腺癌发病的危险因素是厨房小环境污染 、经常食用 菜油 、BM I 较低 、一级亲 属肺癌家 族史 , 而保护 因素是 活产次 数较多 和 胡罗卜素 。 女性鳞癌的危险因素则是厨房小环境污染和一级亲属肺癌家族史 , 保护因素是饮茶 。 女性其他类 型肺癌危 险 因素主要是油炸烹饪次数较多等 , 而类型 不明肺癌发病的危险因素类似于腺癌 。 结论 不同组织 学类型的非 吸烟女性 肺 癌病因可能存在一定的差异 。
【关键词】 肺癌 多分类 logistic 模型 女性 非吸烟
关于非吸烟女性肺癌危险因素的探索 , 国内外开 展了许多病例对照研究和队列研究〔1-23〕 , 但单独分析 和评价不同组织学类型女性肺癌危险因素的研究并不 多 。 本文利用上海市肿瘤研究所于九十年代初在上海 组织的一次大规模全人群病例对照研究资料〔7 -13〕 , 并 采用多分类 logistic 回归模型分析了非吸烟女性不同 组织学肺癌的危险因素 , 结果报告如下 。
284 85 91 141 χ2 =7.31(df =3, P =0.0626) 92.8 ±42.2 t =1.68(P =0.0925)
素主要有身体质量指数较低 、做饭时厨房内有较多烟 雾 、经常炸菜 、经常食用菜油和肺癌家族史 , 其比数比 或最高一组 比数比及其分别为 :1.90(1.22 ~ 2.95)、 1.94(1.17 ~ 3.19)、2.12(1.04 ~ 4.30)、2.16(1.20 ~ 3.89)、3.07(1.55 ~ 6.10);活产次数和胡罗卜素是保 护因素 , 前者最高一组 OR 为 0.32(0.17 ~ 0.59), 后 者四分位最高一组的 OR 为 0.62(0.39 ~ 0.98), 且趋 势检验均有统计学意义(P =0.0082 和 0.0296)。 鳞 癌的危险因素主要有厨房在卧室内 、做饭时厨房内有 较多烟雾和肺癌家族史 , 相应的 OR 和 95 %CI 分别为
比类(reference category)” , 习惯上编码为“0” , 即二分 类模型中的对照 。用 π(i s)=Pr(yi =s)表示个体属于
分类 s(s =1 ,ห้องสมุดไป่ตู้2 , …, t -1)的概率 , 则就某单个自变量
或协变量 xi 而言 , 多分类 log istic 模型的基本模式为
log
照此进行分析 , 但有序分类的做趋势检验 , 无序分类的
不做趋势检验 。 本次分析中所考虑的因素及其数量化
编码见表 1 。
研究中所采用的统计方法为多分类 logist ic 回归 模型 , 其基本假设〔25-31〕如下 , 假定是研究个体所属的
反应变量类别 , 共有 t 个分类 , 其中有一类被作为“参
资料与方法
1.研究对象 :具体研究设计和资料收集请参见文 献〔7 -13〕, 共收集了上 海市区女 性肺癌新 病例 649 例 , 诊断年份为 1992 年 2 月 1 日至 1993 年年底 , 年龄 范围是 35 ~ 69 岁 。 由上海市区 35 ~ 69 岁女性肺癌新 病例的年龄分布(八十年代末资料), 按 5 岁一组的频 数配对法 , 在市区全人群中随机抽取健康人群对照 675 例 。 上述研究对象中非吸烟病例和人群对照数分 别为 504 例 、601 例 。
炸菜次数”换成变量“每周煎菜次数” 、把“做饭时厨房内 照的资料 , 腺癌的比例为 64.8 %, 鳞癌 、大细胞和小细
烟雾”换成变量“做饭时眼和咽喉烟雾刺激感” , 分别再 胞肺癌的比例分别为 17.1 %、15.2 %和 2.9 %, 其分析 拟合一些多分类 logisi tc 模型 , 结果表明经常煎菜主要 结果显示 , 与烹饪活动有关的小环境污染和肺 T B 是危 与其他类型和类型不明女性肺癌的危险性增加有关 , 而 险因素 , 而多摄入新鲜蔬菜则可起到一定的保护作用 。
* 其他食用油类型例数较少
表 2 非吸烟女性肺癌病例与人群对照的一般情况分析
合了多分类 log istic 模型 , 结果列于表 3 。在调整年龄 、
病例
对照
检验
经济收入和教育程度之后 , 影响女性肺腺癌的危险因
例数 腺癌 鳞癌
其他类型1 不明类型2 平均年龄(岁) 平均身高(厘米) 平均体重(公斤)3 教育 小学以下 小学 初中 高中及以上 经济收入(元/ 人)4
2.资料收集 :调 查设计 、调查表内容 、现场调查 、 质量控制措施和数据计算机管理等详见文献〔7 -13〕, 调查内容主要包括一般人口学资料 、居住史 、饮食史 、 居室小环境污染情况 、月经生育史 、肺部既往疾病史 、 家族恶性肿瘤史 、吸烟和被动吸烟等个人生活习惯等 。
3.数据处理和统计分析 :以比数比(OR )作为相 对危险度(RR )的近似指标 , 来衡量各危险因素与非 吸烟女性肺癌的关系 。连续性变量以人群对照的四分 位数为标准 , 划分为等级变量 , 除估计其他三组的比数 比及其 95 %置信区间(CI)外 , 同时进行趋势检验 , 以 判定是否存在剂量反应关系 。 其他等级或属性变量参
4 , 分别对应于人群对照 、腺癌 、鳞癌 、其他类型和类型
不明肺癌 , 即需要建立一个五分类 logist ic 模型 。模型
拟合采用的统计分析软件为 EPILOG Windows 。
结 果
表 2 列出了病例和对照的一般情况和比较 , 其中 病例和对照的年龄与体重有差异 , 达到统计 学意义 。 504 例病例中腺癌 、鳞癌 、其他类型和类型不明肺癌分 别为 296 例(58.7 %)、42 例(8.3 %)、49 例(9.7 %)和 117 例(23.2 %), 由此可见腺癌是女性肺癌最主要的 类型 。 类型不明女性肺癌占近 1/ 4 的比例 , 从前三者 病例数的分布情况来看 , 我们推测其中多数病例可能 是肺腺癌 。
1 =35 ~ 44 、2 =45 ~ 49 、3 =50 ~ 54 、4 =55 ~ 59 、5 =60 ~ 64 、6 =65 ~ 69 教育程度 1 =小学以下 、2 =小学 、3 =初中 、4 =高中及以上 1 =≤61.00 、2 =61.01 ~ 、3 =83.01 ~ 、4 =≥115.51 1 =≤20.96 、2 =20.97 ~ 、3 =22.87 ~ 、4 =≥25.16 1 =否 、2 =是 1 =否 、2 =是 1 =否 、2 =是 1 =否 、2 =是 1 =室外 、2 =走廊或近卧室 、3 =卧室内 1 =无或很少 、2 =有一些 、3 =很多 1 =无 、2 =一次及以上 1 =无 、2 =一次及以上 1 =无 、2 =很少 、3 =有些 、4 =经常 1 =豆油 、2 =菜油 1 =<14 、2 =14 ~ 、3 =15 ~ 、4 =≥17 1 <30 、2 ≥30 1 =否 、2 =是 1 =一次及以下 、2 =二次 、3 =三次 、4 =四次 、5 =五次及以上 1 =无 、2 =有 1 =无 、2 =有 1 =无 、2 =有 1 =无 、2 =有 1 =无 、2 =有 1 =≤1776.98 、2 =1776.99 ~ 、3 =2048.28 ~ 、4 =≥2383.67 1 =≤1483.41 、2 =1483.42 ~ 、3 =2279.57 ~ 、4 =≥2877.58 1 =≤47.88 、2 =47.89 ~ 、3 =66.90 ~ 、4 =≥84.48 1 =≤23.72 、2 =23.73 ~ 、3 =27.27 ~ 、4 =≥33.28