基于SEER数据库的结直肠癌预后因素探讨及预后模型构建
滑膜肉瘤患者3、5年预后预测列线图的构建及验证

滑膜肉瘤患者3、5年预后预测列线图的构建及验证许建发1,冯和林1,檀紫瑞1,苏明明1,王贵英21河北医科大学第四医院,河北石家庄050011;2河北医科大学第三医院摘要:目的构建滑膜肉瘤患者3、5年预后预测列线图,并进行验证。
方法通过SEER*Stat软件搜索SEER 数据库中1975年~2016年的滑膜肉瘤患者资料。
应用单因素Cox回归模型进行生存分析,纳入因素包括性别、年龄、人种、原发灶情况、分期、N分期、M分期、是否手术、淋巴结转移情况、肺转移情况、放疗情况、化疗情况等,初步筛选滑膜肉瘤患者预后影响因素。
采用lasso回归筛选滑膜肉瘤患者预后独立影响因素,构建滑膜肉瘤患者3、5年预后预测列线图。
采用Bootstrap法对列线图进行内部验证,计算C指数值;应用列线图预测模型ROC及临床决策曲线(DCA)对预测列线图准确性进行评价;应用列线图预测模型的校正曲线进行一致性评价。
结果滑膜肉瘤患者的年龄、原发灶情况、分期、N分期、M分期、是否手术、肺转移情况、放疗情况、化疗情况等因素与预后存在相关性(P均<0.05)°年龄、T分期、N分期、M分期、是否手术等5个因素是滑膜肉瘤患者预后独立影响因素,并构建滑膜肉瘤患者3、5年预后预测列线图。
对滑膜肉瘤患者3、5年预后预测列线图的Bootstrap法内部验证C指数为0.813,ROC和DCA准确性评价显示可信度较高,校正曲线结果显示生存率预测值与实际观测值之间具有良好的一致性。
结论成功构建了由年龄、T分期、N分期、M分期、是否手术等5个预后独立影响因素组成的滑膜肉瘤患者3、5年预后预测列线图°关键词:滑膜肉瘤;列线图;预后预测;SEER数据库doi:10.3969/j.issn.I002-266X.2020-33-007中图分类号:R730.I文献标志码:A文章编号:I002-266X(2020)33-0027-04Construction and verification of3-and5-year prognostic nomograms for patientswith synovial sarcomaXU Jianfa1,FENG Helin,TAN Zirui,SU Mingming,WANG Guiying1The Fourth Hospital of Hebei Medical University,Shijiazhuang0500112,ChinaAbstract:Objective To construct and verify the prognostic prediction nomograms of3-year and5-year survival for patients with synovial sarcoma.Methods We searched the data of patients with synovial sarcoma from the National Cancer Institute's Surveillance,Epidemiology,and End Results(SEER)database between1975and2016-The univariate cox regression analysis was performed for factors including gender,age,race,primary tumor status,T stage,N stage,M stage, surgery,lymph node metastasis,lung metastasis,radiotherapy,and chemotherapy,and the aim of analysis was to initially screen the prognostic factors of patients with synovial sarcoma.The multivariate lasso regression model was used to determine independent prognostic factors,which were then utilized to construct a nomogram to predict3-year and5-year survival of patients with synovial sarcoma.The bootstrap method was used to internally verify the nomogram and calculate the consistency index(C-index)value.The accuracy of the prediction nomogram was evaluated through the receptor-operated curve(ROC) and clinical decision curve(DCA).We used the calibration curve of the nomogram prognostic model for consistency evaluation.Results There was significant correlation between prognosis and the age,primary tumor status,T stage,N stage,M stage,surgery,lung metastasis,radiotherapy and chemotherapy for patients with synovial sarcoma(all P<0.05).The age, T stage,N stage,M stage and surgery were independent prognostic factors for patients with synovial sarcoma(all P<0.05).Based on these factors,the nomogram was successfully constructed.The C-index value for internal validation of the nomogram was0.813.The ROC and DCA showed high credibility for accuracy evaluation.The results of the calibration curve showed基金项目:河北省青年科技课题(20201081)°第一作者简介:许建发(1986-),男,博士,主要研究方向为骨与软组织肉瘤的诊治。
左、右半结肠癌患者临床病理特征分析

左、右半结肠癌患者临床病理特征分析卢民泽;陈柏宇;陈利生;高枫;梁君林【摘要】目的比较左、右半结肠癌患者的临床病理特征差异.方法以2015年1月至2016年12月在广西医科大学第一附属医院结直肠肛门外科住院手术的489例结肠癌患者为研究对象,比较左、右半结肠癌临床病理特征差异.结果两组患者肿瘤最长径、大体形态、病理组织学类型、淋巴结检出数、T分期、M分期、TNM 分期比较,差异均有统计学意义(均P<0.05),性别、年龄、肿瘤分化程度、N分期比较,差异均无统计学意义(均P>0.05).结论与左半结肠癌相比,右半结肠癌中粘液细胞癌、印戒细胞癌更多见,浸润深度更深,恶性程度更高,TNM分期更晚.【期刊名称】《结直肠肛门外科》【年(卷),期】2019(025)001【总页数】4页(P53-56)【关键词】左半结肠癌;右半结肠癌;临床病理特征【作者】卢民泽;陈柏宇;陈利生;高枫;梁君林【作者单位】百色市人民医院普通外科广西百色 533000;桂平市人民医院普通外科广西桂平 537200;广西医科大学第一附属医院结直肠肛门外科广西南宁530021;广西医科大学第一附属医院结直肠肛门外科广西南宁530021;广西医科大学第一附属医院结直肠肛门外科广西南宁530021【正文语种】中文【中图分类】R735.3结肠癌是常见的消化道恶性肿瘤,全球范围内其发病率及死亡率居所有恶性肿瘤的第3位[1]。
2013年我国肿瘤流行病学数据显示,结肠癌发病率及死亡率分别占所有恶性肿瘤第4位和第5位,严重威胁人类健康[2]。
以脾曲为界,结肠癌可分为左半结肠癌和右半结肠癌。
近年有关左、右半结肠癌生物学行为差异的研究表明,结肠癌患者药物疗效和预后等与肿瘤原发部位不同有关[3]。
阐明左、右半结肠癌的临床病理特征差异,有利于临床个体化治疗和评估预后。
本文通过回顾性分析489例结肠癌患者的临床病理资料,旨在探讨左、右半结肠癌临床病理特征差异,现报告如下。
基于SEER数据库分析老年乳腺癌患者预后相关因素

基于SEER数据库分析老年乳腺癌患者预后相关因素程梅莲;孙闻;李小琴;庄秀芬【期刊名称】《江苏大学学报:医学版》【年(卷),期】2022(32)3【摘要】目的:基于SEER数据库利用竞争风险模型分析老年女性乳腺癌患者的乳腺癌特异性死亡和非乳腺癌死亡的预后因素。
方法:选择SEER数据库中2006年至2010年期间年龄≥70岁女性乳腺癌患者,利用R统计软件中的“cmprsk”包进行竞争风险模型的单因素及多因素预后分析。
结果:共纳入31823例老年乳腺癌患者,13075例在随访中死亡,其中,3735例因乳腺癌死亡,9340例因非乳腺癌死亡。
患者1年、3年及5年乳腺癌特异性死亡率分别为1.47%、5.39%及8.71%,非乳腺癌死亡率分别为2.17%、8.49%和15.79%。
多因素分析结果显示,高龄、单身状态、黑种人、雌激素受体阳性、低分化、较晚T和N分期及未接受放疗是影响老年患者乳腺癌死亡的独立预后因素;高龄、单身状态、雌激素受体阳性、较晚的T 分期等是影响老年患者非乳腺癌死亡的独立预后因素。
结论:老年乳腺癌患者更多因非乳腺癌死亡而不是乳腺癌,其接受放疗可降低乳腺癌特异性死亡和非乳腺癌死亡。
【总页数】5页(P251-255)【作者】程梅莲;孙闻;李小琴;庄秀芬【作者单位】江苏大学附属医院肿瘤科【正文语种】中文【中图分类】R737.9【相关文献】1.基于SEER数据库分析不同分子分型Ⅳ期乳腺癌的预后及其影响因素2.中青年与老年胃癌术后患者的临床病理特点和预后因素—基于SEER数据库的分析3.年轻乳腺癌的临床病理特点及预后因素分析:基于SEER数据库的回顾性研究4.基于SEER 数据库分析老年乳腺癌肝转移患者临床病理特点及预后5.基于SEER数据库绘制列线图分析软骨肉瘤患者预后相关因素因版权原因,仅展示原文概要,查看原文内容请购买。
AJCC第八版Ⅲ期不同亚组分型的胆囊癌临床特征及预后分析—基于SEER数据库的研究

doi:10.3971/j.issn.1000-8578.2021.20.0190·临床研究·AJCC第八版Ⅲ期不同亚组分型的胆囊癌临床特征及预后分析—基于SEER数据库的研究朱海燕1,2,戴敏3,肖铭甲4Clinical Characteristics and Prognosis of AJCC 8th Edition Stage Ⅲ Gallbladder Cancerwith Different Subtypes: A Study Based on SEER DatabaseZHU Haiyan1,2, DAI Min3, XIAO Mingjia41. Department of Oncology, Haian Hospital of Nantong University, Nantong 226600, China;2. Department of Oncology, Nantong University Affiliated Hospital, Nantong 226600, China;3. Department of General Surgery, Haian Hospital of Nantong University, Nantong 226600,China; 4. Department of Biliary Tract, Oriental Hepatobiliary Hospital, Naval Medical University, Shanghai 200438, ChinaAbstract: Objective To investigate the clinical characteristics, treatment and prognosis of the eighth edition of AJCC stage Ⅲ gallbladder cancer (GBC). Methods We collected the clinical data and follow-up results of 3485 patients with AJCC 8th stage Ⅲ gallbladder cancer. Kaplan Meier survival curves of ⅢA and ⅢB, T3N0M0 (ⅢA), T1-2N1M0 (ⅢB) and T3N1M0 (ⅢB) were drawn and compared. Single factor analysis and Cox multiple factor regression analysis were used to analyze the relation between clinical characteristics, treatment plan, stage Ⅲ subtype and prognosis. Results One-year survival rate of stage ⅢB gallbladder cancer patients was 49.70%, higher than those of stage ⅢA(36.41%); the 1-year survival rate of stage T1-2N1M0 (ⅢB) gallbladder cancer patients was 65.52%, higher than those of stage T3N0M0 (ⅢA) (36.41%) and stage T3N1M0 (ⅢB) (37.05%). According to Cox multivariate analysis, age, tumor grade, tumor size, operation mode, radiotherapy, chemotherapy, AJCC 8th TNM specific subtype and T stage were independentrelated factors affecting the prognosis of stage Ⅲ GBC patients (P<0.01). Conclusion The overall survival of stage ⅢB GBC is better than that of stage ⅢA. The risk of stage Ⅲ GBC death was T1-2N1M0 (ⅢB)<T3N0M0 (ⅢA)<T3N1M0 (ⅢB). Radical cholecystectomy (number of dissected lymph node≥6), radiotherapy and chemotherapy are beneficial to the improvement of prognosis of stage Ⅲ GBC patients.Key words: Gallbladder cancer; AJCC stage; Clinical characteristics; Prognostic factors; SEER databaseCompeting interests: The authors declare that they have no competing interests.摘 要:目的 研究美国癌症联合委员会(AJCC)第8版Ⅲ期胆囊癌(GBC)亚组分型的临床特征、治疗方式及预后。
左右半结直肠癌的区别 ppt课件

60%
患者百分比
40%
20% 0%
腺癌
10.*6%
6.3% 粘液癌
0.7*% 0.2%
未分化癌
0.*9% 0.3%
印戒细胞癌
ppt课件
Benedix F, et al. Dis Colon Rectum. 2010;53(1):57-64.
左右半结直肠癌的组织学分级不同
80% 60% 40%
右半结肠癌患者中低分化肿瘤比例更高1-3
70% 60%
* 63.5%
59.9%
右半结肠癌
左半结肠癌 *组间比较, P<0.01;
* *组间比较, P<0.001
50%
不同原因入院患者百分比
40%
30%
*22.0%
20%
1*4.*9%
* 12.8%11.1%
17.9%
17.5%
*12.7%
10%
7.1%
0% 患者入院原因:
ppt课件
组织学证实 为肿瘤
左半结肠癌 部位
直肠癌
其他
9
ppt课件
患者百分比 患者中位年龄
左右半结直肠癌 在男女患者中的发生比例不同
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
41% 47%
59% 53%
右半结肠癌
左半结肠癌 男女
38%
62% 直肠癌
10
患者年龄不同
右半结肠癌的患者年龄更大1-3
45% 40% 35%
左右半结直肠癌的肿瘤形状及生长方式不同
40% 30% 20%
左半结肠癌中肿瘤呈息肉状、环形生长的患者比例更高
甲状腺癌患者预后列线图的构建及验证

基于SEER数据库的不同分期子宫浆液性腺癌预后比较及危险因素分析
基于SEER数据库的不同分期子宫浆液性腺癌预后比较及危险因素分析李庆梅;朱涛;孙茜;赵海月;胡婷【摘要】目的通过大样本量数据分析,对2009年新版国际妇产科协会(FIGO)分期系统下不同分期的子宫浆液性腺癌进行预后比较,并对其临床病理危险因素进行分析.方法回顾性分析美国国立癌症研究所\"监测、流行病学和结果\"(SEER)数据库中2010~2013年诊断为子宫浆液性腺癌并行根治性手术的1997例患者,用Kaplan-Meier生存分析法计算并比较不同分期患者的总生存率,并对其进行单因素及Cox多因素回归分析,分析因素包括诊断时间、年龄、FIGO分期(2009年)、分化程度、人种、肿瘤大小、切除淋巴结个数、阳性淋巴结个数、腹水细胞学结果.结果子宫浆液性腺癌5年总生存率分别为:Ⅰ期79.3%,Ⅱ期59.8%,Ⅲ期46.7%,Ⅳ期18.0%,不同分期之间的差异均具有统计学意义(均P<0.01).扩展到亚分期上,除Ⅲb期外,不同分期患者的5年总生存率基本按照分期程度递减.多因素Cox回归分析提示肿瘤大小(HR 1.522,95%CI:1.250~1.852)、切除淋巴结个数(HR 0.709,95%CI:0.547~0.920)、阳性淋巴结个数(HR 1.037,95%CI:1.013~1.061)、腹水细胞学结果(HR 2.517,95%CI:1.931~3.282)是总生存率的独立危险因素.结论腹水细胞学阳性对子宫浆液性腺癌的预后影响较大,在今后的研究中可考虑作为针对子宫浆液性腺癌的分期标准.【期刊名称】《华中科技大学学报(医学版)》【年(卷),期】2018(047)005【总页数】5页(P603-607)【关键词】子宫浆液性腺癌;预后;FIGO分期;SEER数据库;生存分析【作者】李庆梅;朱涛;孙茜;赵海月;胡婷【作者单位】广西壮族自治区玉林市妇幼保健院妇产科 ,玉林 537000;华中科技大学同济医学院附属同济医院妇产科 ,武汉 430030;华中科技大学同济医学院附属同济医院妇产科 ,武汉 430030;华中科技大学同济医学院附属同济医院妇产科 ,武汉430030;华中科技大学同济医学院附属同济医院妇产科 ,武汉 430030【正文语种】中文【中图分类】R737.33子宫内膜癌是妇科三大常见恶性肿瘤之一,发病率仅低于乳腺癌和宫颈癌。
基于SHAP的三阴性乳腺癌可解释预测模型的建立
基于SHAP的三阴性乳腺癌可解释预测模型的建立
刘孟昕;葛敏;王世威;陆欢
【期刊名称】《浙江临床医学》
【年(卷),期】2024(26)4
【摘要】目的为三阴性乳腺癌患者构建一种能够同时获得良好效果的、可解释的预测模型。
方法回顾性分析136例乳腺癌患者的临床特征和多序列多参数核磁共振成像,其中三阴性乳腺癌23例,非三阴性乳腺癌113例。
通过勾画提取影像组学特征进行筛选并构建模型,最后结合放射组学特征和独立的临床图像特征,构建机器学习框架。
此外,还采用为实现个性化临床决策支持提供个性化评估和解释的SHAP模型可解释器。
结果经过影像组学特征筛选,11个特征参与计算影像组学评分,其在训练集与测试集的AUC为0.898、0.803。
将其与临床模型结合,使预测精度进一步提高。
结论多模式可解释预测模型可能会帮助临床医师更准确、更迅速识别三阴性乳腺癌风险,及时、准确为患者治疗。
【总页数】3页(P487-489)
【作者】刘孟昕;葛敏;王世威;陆欢
【作者单位】浙江中医药大学附属第一医院
【正文语种】中文
【中图分类】R73
【相关文献】
1.基于SEER数据库建立三阴性乳腺癌预后预测模型列线图
2.基于XGBoost和SHAP的急性肾损伤可解释预测模型
3.基于Shapley additive
explanations(SHAP)分析乳腺X线检查假阴性乳腺癌的特征4.基于机器学习与SHAP的全髋关节置换术患者下肢深静脉血栓可解释性预测模型构建研究5.三阴性乳腺癌患者腋窝淋巴结转移的危险因素分析及其预测模型的建立
因版权原因,仅展示原文概要,查看原文内容请购买。
列线图预测肝癌肺转移患者的总体和癌症特异性生存率:一项回顾性队列研究
列线图预测肝癌肺转移患者的总体和癌症特异性生存率:一项回顾性队列研究冯锦城;李民;熊俊【期刊名称】《华中科技大学学报(医学版)》【年(卷),期】2024(53)1【摘要】目的研究肝癌肺转移患者总生存期和癌症特异性生存期的影响因素,并建立列线图模型。
方法纳入2010年至2016年在美国国立癌症研究所的监测、流行病学、结果数据库(SEER)记录的2242例患者,这些患者在初诊时已确诊为肝癌肺转移。
采用多变量Cox比例风险回归模型分析总生存期和癌症特异性生存期的影响因素,并构建预测1年总生存期和癌症特异性生存期的列线图。
数据分析与列线图模型的建立采用Cox风险比例回归模型、Kaplan-Meier曲线(Log-rank检验)及一致性指数(C指数)。
结果肝癌肺转移患者1年的总生存率和癌症特异性生存率分别为10.5%(95%CI:8.7%~12.7%)和11.8%(95%CI:9.8%~14.2%)。
在多变量生存分析中,保险状态、小肿瘤(大小≤10 cm)、肿瘤分期1~2、甲胎蛋白(AFP)阴性、化疗使用和接受手术是总生存期的独立预后因素;性别、保险状态、肿瘤分期、AFP状态、化疗的使用和接受手术被纳入癌症特异性生存期预测的列线图中。
经重抽样方法,列线图预测总生存期和癌症特异性生存期的校正C指数分别为0.72(95%CI:0.70~0.74)和0.71(95%CI:0.69~0.73)。
模型的校准曲线显示,通过该列线图得出的生存率预测值和实际预测值之间具有良好的一致性。
结论根据独立预后因素建立的列线图可相对准确地预测肝癌肺转移患者的预后。
【总页数】7页(P19-25)【作者】冯锦城;李民;熊俊【作者单位】华中科技大学同济医学院附属协和医院肝脏移植中心;华中科技大学同济医学院附属协和医院肝胆外科【正文语种】中文【中图分类】R735.7【相关文献】1.基于炎症指标和SOFA评分的列线图模型对急性胰腺炎患者预后的预测价值:一项单中心回顾性研究2.构建和验证用于预测脊柱脊索瘤患者特异性生存率的列线图3.甲状腺癌伴肺转移患者总体生存率和癌症特异性生存率的Nomogram模型建立及验证4.预测肝癌术后生存率的列线图模型在评价术后辅助性TACE疗效中的价值5.脑损伤所致意识障碍患者1年后结局预测列线图的构建:一项回顾性多中心研究因版权原因,仅展示原文概要,查看原文内容请购买。
基于SEER数据库的口腔鳞状细胞局部晚期癌预后模型构建
基于SEER数据库的口腔鳞状细胞局部晚期癌预后模型构建刘江凌;李广文;张俊辉;王瑞;李刚;李卉【期刊名称】《实用口腔医学杂志》【年(卷),期】2024(40)3【摘要】目的:构建口腔鳞状细胞癌(OSCC)局部晚期癌患者列线图预后模型并进行验证。
方法:纳入SEER数据库中2010~2015年OSCC局部晚期癌患者7118例临床病例资料,按7∶3比例随机分为训练集和验证集。
在训练集中采用单因素及多因素Cox比例风险模型筛选并确定OSCC局部晚期癌的预后因素,构建列线图模型预测患者3年和5年的特异性生存率(CSS)。
在训练集和验证集中,采用一致性指数(C-index)和ROC曲线评估模型的区分度,采用校准曲线评估模型的预测准确度,使用决策曲线分析法(DCA)评估模型的临床适用度。
结果:训练集和验证集分别包括患者4984例和2134例,两集中各项统计指标差异无统计学意义(P>0.05),在训练集中,确定了10个影响OSCC局部晚期癌患者预后的风险因素,包括年龄、性别、人种、婚姻状态、发病部位、组织学分化程度、T分期、N分期、是否手术、是否放疗(P<0.05)。
训练集和验证集中,列线图模型C-index分别为0.702和0.704,预测3年和5年CSS的AUC在0.727~0.736之间。
校准曲线显示模型预测的3年和5年CSS与实际CSS吻合较好。
DCA曲线显示列线图模型净收益优于第7版AJCC TNM分期系统。
结论:本研究构建的列线图模型能较为准确地预测OSCC局部晚期癌患者生存率。
【总页数】8页(P412-419)【作者】刘江凌;李广文;张俊辉;王瑞;李刚;李卉【作者单位】西南医科大学公共卫生学院;西南医科大学附属口腔医院;空军军医大学唐都医院军队人员医疗保健中心;口颌系统重建与再生全国重点实验室【正文语种】中文【中图分类】R739.8【相关文献】1.基于SEER数据库分析乳腺浸润性乳头状癌的预后因素及预后模型构建2.局部晚期口腔鳞状细胞癌根治性切除术后预后模型的构建3.乳头状肾细胞癌预后预测模型的构建与验证:一项基于SEER数据库的回顾性研究4.基于SEER数据库构建男性鼻咽鳞状细胞癌患者预后模型5.基于SEER数据库和国内队列构建及验证非转移性同时性散发性双肾细胞癌预后模型因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于SEER数据库的结直肠癌预后因素探讨及预后模型构建辛世超;赵玉虹【摘要】The factors influencing the prognosis of colorectal cancer were studied after its characteristic variables were screened by stepwise logistic regression analysis, Bayesian model averaging analysis, and LASSO regression a-nalysis respectively. A model of colorectal cancer prognosis was established according to the artificial neural net-work classification algorithm for the assessment of colorectal cancer. The highest accuracy was detected in the model of colorectal cancer prognosis established by Bayesian model averaging analysis combined with artificial neural net-work classification algorithm.%分别使用logistic逐步回归法、贝叶斯模型平均法和LASSO回归进行特征变量筛选,分析美国SEER数据库的预后数据,探讨影响结直肠癌预后的相关因素,并应用人工神经网络分类算法构建预后模型,指导结直肠癌预后评价.结果证明,贝叶斯模型平均法结合人工神经网络的混合算法所构建的预后模型准确率最高.【期刊名称】《中华医学图书情报杂志》【年(卷),期】2017(026)011【总页数】7页(P7-13)【关键词】结直肠癌;预后模型;特征选择;logistic逐步回归法;LASSO回归;贝叶斯模型平均法【作者】辛世超;赵玉虹【作者单位】中国医科大学医学信息学院,辽宁沈阳 110122;中国医科大学医学信息学院,辽宁沈阳 110122;中国医科大学附属盛京医院,辽宁沈阳 110004【正文语种】中文【中图分类】G35;R730.7结直肠癌包括结肠癌和直肠癌,是胃肠道中常见的恶性肿瘤。
在2015年中国癌症统计和2017年美国癌症统计中,结直肠癌的发病率和死亡率在所有恶性肿瘤中均处在前5位[1-2]。
根据美国SEER(Surveillance,Epidemiology and End Results)数据库的最新统计显示,结直肠癌患者5年生存率仅为64.5%,中国结直肠癌患者5年生存率比美国和欧洲更低[3]。
因此,建立结直肠癌预后模型,对制定临床决策和改善结直肠癌预后具有重要意义。
近年来,随着机器学习的发展,越来越多的机器学习方法应用于医学模型的构建当。
如2015年Kang J等[4]探讨了逻辑回归、支持向量机、人工神经网络等3种方法在预测放射治疗结果中的应用,Bunjira Makond等[5]应用贝叶斯网络方法对肺癌脑转移患者的短期生存能力进行预测,2016年Su Jili等[6]应用支持向量机和基因函数聚类构建喉癌复发模型,曹文哲[7]基于3种机器学习算法建立了前列腺癌诊断模型。
在预后模型构建过程中,特征选择是非常重要的一步,也通常被视作数据挖掘的第一步。
通过特征选择可以去除大量冗余信息和不相关特征的干扰,降低分析成本,提高准确率,提升模型性能[8]。
因此,本文应用人工神经网络(Artificial Neural Network,ANN)分类算法,通过3种不同的变量筛选方法进行特征选择,分别建立结直肠癌预后模型,并进行进一步的比较分析。
1 三种特征选择方法简述1.1 Logistic回归Logistic回归中自变量选择的常用方法为逐步选择法。
该法按照选入变量的顺序不同分为前进法(forward selection)、后退法(backward elimination)和逐步回归法(stepwise regression),其共同特点是每一步只引入或剔除一个自变量Xj,决定其取舍则基于对偏回归平方和的F检验,即(1)式(1)中,p为进行到第l步时方程中自变量的个数,为第l步时Xj的偏回归平方和,为第l步时的残差平方和。
对给定的检验水准α,若是方程外自变量,当F≥Fα,(1,n-p-1)时可决定引入;若是方程内自变量,当F<Fα,(1,n-p-1),可决定剔除[9]。
1.2 贝叶斯模型平均法在标准统计研究中,数据分析者通常从某些类别的诸多模型中选择一个模型,然后进行实验研究。
这种模型选择方法忽略了模型的不确定性,会导致过度的推论和决定[10]。
同样,如果只是针对一种或者少数几种模型进行特征选择,结果也是不准确的。
而贝叶斯模型平均法(Bayesian Model Averaging,BMA)则弥补了这一不足,通过the fast leaps和bounds算法可遍历模型空间中的每一个模型[11]。
假设研究感兴趣的变量为Δ,可能存在的所有模型为M={M1,M2,…,MK}(如果有p个自变量,即特征变量,那么可能存在的模型将会达到2p个)。
在给定数据集D的情况下,Δ的后验分布为:(2)式(2)中,Mk后验模型概率为:(3)公式(3)中,p(D|Mk)是模型Mk的边际似然概率,可由公式(4)得出:(4)公式(4)中,θk是模型Mk的所有参数向量。
由公式(2)、公式(3)、公式(4)可以得出Δ的后验分布,从而可以选择最优模型及其所包含的特征向量。
1.3 LASSO回归Least Absolute Shrinkage and Selection Operator(LASSO)回归的基本思想是通过构造一个惩罚函数压缩一些系数,同时使绝对值较小的系数为0,从而对特征变量进行筛选并且有效降低模型复杂度。
LASSO回归模型的系数估计值可表示为:(5)公式(5)中,参数λ表示LASSO回归模型的复杂度,λ越大则惩罚力度越大,纳入模型的变量越少。
LASSO回归克服了logistic回归逐步选择法的局限,并且保留了岭回归和子集回归的优点[12]。
2 模型构建2.1 数据收集与预处理从SEER数据库的Custom Data中提取被确诊为结直肠癌的患者信息。
纳入标准为:肿瘤部位为结直肠且不含阑尾,确诊年份为2004-2009年;排除标准为:原位癌,信息缺失记录。
最终共纳入65 145名患者信息,涉及24个预后变量。
变量的详细信息见表1。
24个预后变量中有19个为分类型变量、5个为连续型变量。
其中,19个分类型变量又包括6个二分类变量(性别、远处转移情况、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、机构类型)、有序多分类变量2个(肿瘤分期、组织分级)、11个无序多分类变量(种族、居住地、发病部位、病理类型、浸润程度、淋巴受累程度、手术类型、放疗顺序、放疗类型、婚姻状况、保险情况)。
为避免因哑变量过多造成自由度变高而引发维数灾难以及变量的多重共线性等问题,在保证结果准确度的情况下,二分类变量和有序多分类变量无须设置哑变量,只对11个无序多分类变量设置哑变量即可。
表1 结直肠癌预后变量信息变量类型变量名称SEER字段变量简称类数/数值范围分类变量种族Race recoderace3性别Sexsex2居住地Statestate8肿瘤分期Derived AJCC Stage Group,6th edstage4发病部位Primary Site - labeledsite9组织分级Gradegrade4病理类型ICD-O-3Hist/behav,malignanthistology3浸润程度CS extensionextension6淋巴受累程度CS lymph nodesnodes4远处转移情况CS mets at dxmets2手术类型RX Summ--Surg Prim Sitesurg3淋巴结移除情况RX Summ--Scope Reg LN Surscope2放疗顺序Radiation sequence with surgeryradseq4放疗类型Radiation recoderadiation3是否化疗Chemotherapy recodechemotherapy2是否为首要恶性肿瘤First malignant primary indicatorfirst2婚姻状况Marital status at diagnosismarital3机构类型Type of Reporting Sourcesource2保险情况Insurance Recodeinsurance4连续变量年龄Age at diagnosisage15-110肿瘤大小CS tumor sizesize1-995受检淋巴结数量Regional nodes examinedexamined1-90阳性淋巴结数量Regional nodes positivepositive0-90肿瘤个数Total number of in situ/malignant tumors for patienttotal1-14 模型的结局变量为生存状态(survive),将生存期大于等于60个月的患者视为生存(编码为1),不足60个月的患者视为死亡(编码为0)。
其中,生存人数与死亡人数的比值为36841∶28304,比值接近1∶1,可视为平衡数据。
2.2 特征变量筛选将数据集按7:3分为训练集和测试集,在训练集内分别用logistic回归、BMA和LASSO回归3种方法对特征变量进行筛选。
2.2.1 logistic筛选回归特征变量本文设定了α=0.05,作为Logistic回归逐步选择法的纳入标准,一共纳入种族、性别、年龄、居住地、组织分级、病理类型、浸润程度、淋巴受累程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、肿瘤个数、婚姻状况和保险情况等18个特征变量。
Logistic回归、BMA、LASSO回归的结果信息见表2。
表2 Logistic回归、BMA、LASSO回归结果信息变量简称Logisti cBMALASSOrace√√√sex√√√age√√√state√√√stage√site√grade√√√histology√√sizeextension√√√nodes√√mets√√√examined√√√positive√√√surg√√√scope√√√radseqradiationchemotherapy:√√√first√√√total√√marit al√√√sourceinsurance√√√2.2.2 采用贝叶斯模型平均法筛选特征变量贝叶斯模型平均法可遍历模型空间中的每一个模型。