变量选择与lasso-logistic
COPD_合并Ⅱ型呼吸衰竭患者外周血HMGB1_IL-17_及呼出气一氧化氮浓度对预后的预测价值

ʌ文章编号ɔ1006-6233(2023)09-1459-07COPD 合并Ⅱ型呼吸衰竭患者外周血HMGB1IL -17及呼出气一氧化氮浓度对预后的预测价值柏㊀媛,㊀李㊀丽,㊀和㊀瑾,㊀吴㊀涛,㊀李梅华(云南省昆明市第一人民医院,㊀云南㊀昆明㊀650000)ʌ摘㊀要ɔ目的:探讨慢性阻塞性肺疾病(COPD )合并Ⅱ型呼吸衰竭患者外周血高迁移率族蛋白B1(HMGB1)㊁白细胞介素-17(IL -17)及呼出气一氧化氮(FeNO )浓度变化,分析其对预后的预测价值㊂方法:选取2021年1月至2022年12月本院100例COPD 合并Ⅱ型呼吸衰竭患者作为观察组,另选取同期COPD 未合并呼吸衰竭患者60例作为对照组,健康体检者60例作为健康组㊂采集入院时外周血HMGB1㊁IL -17及FeNO ㊂依据住院28d 生存情况分为病死㊁存活患者,并分析外周血HMGB1㊁IL -17及FeNO ㊂采用Lasso -Logistic 回归分析预后的临床影响因素㊂分析FeNO 与外周血HMGB1㊁IL -17交互作用对患者预后的影响及其对预后的预测价值㊂结果:观察组外周血HMGB1㊁IL -17及FeNO 高于对照组㊁健康组,且对照组高于健康组(P <0.05);外周血HMGB1㊁IL -17与FeNO 呈正相关(P <0.05);急性加重次数ȡ2次比例㊁APACHEⅡ评分㊁外周血HMGB1㊁IL -17与FeNO 为预后的独立危险因素(P <0.05);HMGB1㊁IL -17㊁FeNO 高表达与预后不良存在交互作用(P <0.05);HMGB1㊁IL -17㊁FeNO 联合预测预后的AUC 高于单独指标预测(P <0.05)㊂结论:COPD 合并Ⅱ型呼吸衰竭患者外周血HMGB1㊁IL -17及FeNO 浓度升高,且在预后不良中具有协同作用,联合检测其水平预测预后具有临床应用价值㊂ʌ关键词ɔ㊀慢性阻塞性肺疾病;㊀Ⅱ型呼吸衰竭;㊀高迁移率族蛋白B1;㊀白细胞介素-17;㊀呼出气一氧化氮ʌ文献标识码ɔ㊀A㊀㊀㊀㊀㊀ʌdoi ɔ10.3969/j.issn.1006-6233.2023.09.010Predictive Value of HMGB1IL -17and Exhaled Nitric Oxide Concentrations in Peripheral Blood of Patients with COPDCombined with Respiratory Failure Type IIBO Yuan ,LI Li ,HE Jin ,et al(Kunming First People 's Hospital ,Yunnan Kunming 650000,China )ʌAbstract ɔObjective :To investigate the changes of high mobility group protein B1(HMGB1),inter-leukin -17(IL -17)and exhaled nitric oxide (FeNO )levels in peripheral blood of patients with chronic ob-structive pulmonary disease (COPD )combined with respiratory failure type II ,and to analyze its predictivevalue for prognosis.Methods :A total of 100patients with COPD combined with respiratory failure type II in our hospital from January 2021to December 2022were selected as the observation group ,60patients with COPD but without respiratory failure during the same period were selected as the control group ,and 60pa-tients with healthy physical examination were selected as the healthy group.Peripheral blood HMGB1,IL -17and FeNO were collected upon admission.Patients were classified as dead or alive based on survival at 28days of hospitalization ,and peripheral blood was analyzed for HMGB1,IL -17,and FeNO.The clinical influ-encing factors of prognosis were analyzed by Lasso -Logistic regression.To analyze the effect of FeNO interac-tion with peripheral blood HMGB1and IL -17on the prognosis of patients and its predictive value for progno-sis.Results :Peripheral blood HMGB1,IL -17and FeNO were higher in the observation group than in thecontrol group and the healthy group ,and the control group was higher than the healthy group (P <0.05);there was a positive correlation between peripheral blood HMGB1,IL -17and FeNO (P<0.05);the propor-㊃9541㊃㊀㊀第29卷㊀第9期2023年9月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀河㊀北㊀医㊀学HEBEI MEDICINE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.29,No.9Sep.,2023㊀㊀㊀㊀ʌ基金项目ɔ2022年度昆明卫生健康委员会卫生科研课题项目,(编号:2022-03-02-005)ʌ通讯作者ɔ李梅华tion of acute exacerbationsȡ2,the APACHE II score,peripheral blood HMGB1,IL-17and FeNO were in-dependent prognostic risk factors(P<0.05);there was an interaction between high expression of HMGB1,IL -17,and FeNO and poor prognosis(P<0.05);and the AUC of the combination of HMGB1,IL-17,and Fe-NO in predicting prognosis was higher than that predicted by the index alone(P<0.05).Conclusion:The peripheral blood concentrations of HMGB1,IL-17and FeNO were elevated in patients with COPD combined with type II respiratory failure and had synergistic effects in poor prognosis,and the combined detection of their levels to predict prognosis has clinical application value.ʌKey wordsɔ㊀Chronic obstructive pulmonary disease;㊀Type II respiratory failure;㊀High mobility group protein B1;㊀Interleukin-17;㊀Exhaled nitric oxide㊀㊀慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)临床特征为持续渐进性呼吸困难㊁不完全可逆性气流受限,其发病率约为8.2%,5年内病死率约为50%[1,2]㊂随着病情进展可引起二氧化碳潴留,致使Ⅱ型呼吸衰竭发生,血清因子可参与COPD合并Ⅱ型呼吸衰竭发生过程[3]㊂因而血清因子可能作为评估患者病情及预后的潜在指标㊂高迁移率族蛋白B1(HMGB1)属于炎性介质,可调节炎性反应㊁氧化应激反应,参与COPD发生过程[4]㊂白细胞介素-17(IL -17)属于典型炎性因子类物质,且与COPD等呼吸道系统疾病发生发展密切相关[5]㊂呼出气一氧化氮(FeNO)浓度变化可反映COPD病情严重程度[6]㊂目前HMGB1㊁IL-17㊁FeNO与COPD合并Ⅱ型呼吸衰竭相关性研究较少,本研究探讨COPD合并Ⅱ型呼吸衰竭患者外周血HMGB1㊁IL-17水平及FeNO浓度,并分析其对预后的预测价值,为临床治疗提供参考依据㊂1㊀资料与方法1.1㊀一般资料:选取2021年1月至2022年12月本院收治的100例COPD合并Ⅱ型呼吸衰竭患者作为观察组,另选取同期COPD未合并呼吸衰竭患者60例作为对照组,选取同期健康体检者60例作为健康组㊂观察组:男59例㊁女41例,年龄60~76(68.02ʃ2.61)岁,体质量指数(BMI)20~26(22.85ʃ0.85)kg/m2,平均动脉压75~92(83.65ʃ2.73)mmHg,吸烟史20例,饮酒史19例,COPD病程2~10(6.20ʃ1.18)年,合并症:糖尿病20例㊁高血压27例;COPD分级:Ⅲ级56例㊁Ⅳ级44例㊂对照组:男35例㊁女25例,年龄62~ 75(68.74ʃ2.08)岁,BMI19~26(23.01ʃ0.92)kg/m2,平均动脉压75~94(84.32ʃ3.01)mmHg,吸烟史12例,饮酒史11例,COPD病程1~10(6.09ʃ1.07)年,合并症:糖尿病12例㊁高血压16例;COPD分级:Ⅲ级33例㊁Ⅳ级27例㊂健康组:男38例㊁女22例,年龄61~ 75(68.19ʃ2.19)岁,BMI19~27(22.93ʃ1.03)kg/m2,平均动脉压75~93(83.96ʃ2.81)mmHg,吸烟史15例,饮酒史14例㊂各组一般资料比较无明显差异(P>0.05),具有可比性㊂本研究经本院伦理委员会批准㊂1.2㊀纳入与排除标准:纳入标准:符合COPD诊断标准;符合Ⅱ型呼吸衰竭诊断标准,且经血气分析证实;机械通气时间>48h;依从性良好者;认知功能㊁言语沟通正常者;签署知情协议㊂排除标准:闭塞性细支气管炎㊁支气管扩张症;合并间质性肺炎㊁肺结核㊁肺部肿瘤者;入组前两周使用抗生素㊁抗菌药物治疗者;伴有严重血流动力学不稳定者㊂1.3㊀方㊀法1.3.1㊀治疗方法:观察组㊁对照组研究对象入院后予以常规治疗㊂抗生素:依据常见致病菌类型㊁耐药流行趋势选择抗生素;支气管扩张剂:静脉滴注氨茶碱注射液0.25g,1次/d;祛痰药:静脉滴注注射用盐酸氨溴索30mg,1次/d㊂依据住院28d预后情况分为病死者㊁存活者㊂1.3.2㊀收集临床资料:采用问卷调查方式收集受试者临床资料,包括性别㊁年龄㊁BMI㊁COPD病程㊁Ⅱ型呼吸衰竭病程㊁急性加重次数㊁吸烟史㊁饮酒史㊁糖尿病㊁高血压㊁总胆固醇(TC)㊁甘油三酯(TG)㊁高密度脂蛋白胆固醇(HDL-C)㊁低密度脂蛋白胆固醇(LDL-C)㊁pH 值㊁氧分压(PO2)㊁二氧化碳分压(PCO2)㊁心率㊁急性生理和慢性健康状况(APACHEⅡ)评分㊂APACHEⅡ包括急性生理㊁慢性健康㊁年龄,总分为70分,评分越高表明病情越危重㊂1.3.3㊀检测外周血HMGB1㊁IL-17水平及FeNO浓度:健康组于体检当日,观察组㊁对照组于入院时,分别采集空腹静脉血5mL离心后取血清,置于-80ħ冰箱保存㊂采用ELISA法检测血清HMGB1㊁IL-17水平,上海酶联生物公司提供IL-17检测试剂盒,上海江莱生物科技有限公司提供HMGB1检测试剂盒,检测仪器为Bio-Rad550型酶标仪(美国Bio-Rad公司)㊂采用SUNVOU纳库伦呼出气一氧化氮分析仪(无锡市尚沃医疗电子股份有限公司)检测FeNO浓度㊂㊃0641㊃㊀㊀第29卷㊀第9期2023年9月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀河㊀北㊀医㊀学HEBEI MEDICINE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.29,No.9Sep.,2023㊀㊀㊀㊀1.4㊀观察指标:①比较各组外周血HMGB1㊁IL -17水平及FeNO 浓度,并分析HMGB1㊁IL -17与FeNO 相关性㊂②比较不同预后患者外周血HMGB1㊁IL -17水平及FeNO 浓度,分析COPD 合并Ⅱ型呼吸衰竭患者预后影响因素㊂③交互作用分析HMGB1㊁IL -17㊁FeNO 交互作用对COPD 合并Ⅱ型呼吸衰竭患者预后的影响㊂④分析入院时HMGB1㊁IL -17㊁FeNO 对预后的预测价值㊂1.5㊀统计学分析:采用SPSS24.0㊁R4.1.3软件分析数据,计量资料采用( xʃs)表示,两组间比较采用独立样本t 检验,多组间比较采用单因素方差分析(两两间比较采用LSD -t 检验);计数资料采用n (%)表示,采用χ2检验,Pearson 法分析相关性;Lasso 回归分析筛选变量,将筛选出的因素纳入多因素Logistic 回归;交互作用分析FeNO ㊁HMGB1㊁IL -17对预后的影响;受试者工作特征曲线(ROC )分析各指标对预后的预测价值,计算曲线下面积(AUC )㊁敏感度㊁特异度,采用Clopper -Pearson 法计算对应值的95%CI ,以P <0.05为差异有统计学意义㊂2㊀结㊀果2.1㊀各组外周血HMGB1㊁IL -17及FeNO 比较:观察组外周血HMGB1㊁IL -17及FeNO 高于对照组㊁健康组(P<0.05),对照组外周血HMGB1㊁IL -17及FeNO 高于健康组(P<0.05)㊂见表1㊂表1㊀各组外周血HMGB1IL -17及FeNO 比较( xʃs)组别例数HMGB1(μg /L )IL -17(ng /L )FeNO (ppb )观察组1007.31ʃ2.1472.15ʃ18.2650.12ʃ5.41对照组60 4.28ʃ0.9654.89ʃ13.6936.27ʃ3.82健康组602.78ʃ0.5620.61ʃ8.2512.45ʃ2.49F 174.601225.2031400.004P0.0000.0000.0002.2㊀外周血HMGB1㊁IL -17与FeNO 的相关性分析:相关系数分析可知,COPD 合并Ⅱ型呼吸衰竭患者外周血HMGB1㊁IL -17与FeNO 呈正相关(P<0.05)㊂见图1㊂图1㊀外周血HMGB1、IL -17与FeNO 的相关性2.3㊀不同预后患者临床资料比较:不同预后患者性别㊁年龄㊁BMI ㊁COPD 病程㊁Ⅱ型呼吸衰竭病程㊁吸烟史㊁饮酒史㊁糖尿病㊁高血压㊁TC ㊁TG ㊁HDL -C ㊁LDL -C ㊁pH 值㊁PO 2㊁PCO 2及心率比较,差异无统计学意义(P >0.05),病死者急性加重次数ȡ2次比例㊁APACHEⅡ评分㊁外周血HMGB1㊁IL -17与FeNO 均高于存活者(P<0.05)㊂见表2㊂2.4㊀COPD 合并Ⅱ型呼吸衰竭患者预后的Lasso -Lo-gistic 回归分析:本研究纳入100例COPD 合并Ⅱ型呼吸衰竭患者(病死者26例,存活者74例),经Lasso 回归,22个因素精简为5个较为重要的影响因素(急性加重次数ȡ2次㊁APACHEⅡ评分㊁外周血HMGB1㊁IL -17与FeNO ),见图2㊂以COPD 合并Ⅱ型呼吸衰竭患者预后为因变量(存活者=0,病死者=1),将Lasso 筛选出的5个影响因素:急性加重次数(<2次=1,ȡ2次=2)㊁APACHEⅡ评分(按实际值赋值)㊁HMGB1(按实际值赋值)㊁IL -17(按实际值赋值)㊁FeNO (按实际值赋值)作为自变量,多因素Logistic 回归分析显示,急性加重次数ȡ2次比例㊁APACHE Ⅱ评分㊁外周血HMGB1㊁IL -17与FeNO 均为COPD 合并Ⅱ型呼吸衰竭患者预后的独立危险因素(P<0.05)㊂见表3㊂㊃1641㊃㊀㊀第29卷㊀第9期2023年9月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀河㊀北㊀医㊀学HEBEI MEDICINE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.29,No.9Sep.,2023㊀㊀㊀㊀表2㊀不同预后患者临床资料比较[n (%), xʃs ]项目病死者(n =26)存活者(n =74)t /χ2P 性别0.0940.760男16(61.54)43(58.11)女10(38.46)31(41.89)年龄0.2490.618<60岁12(46.15)30(40.54)ȡ60岁14(53.85)44(59.46)BMI 0.0240.876<24kg /m 218(69.23)50(67.57)ȡ24kg /m 28(30.77)24(32.43)COPD 病程(年) 6.12ʃ1.24 6.23ʃ1.150.4110.682Ⅱ型呼吸衰竭病程(年) 4.82ʃ0.96 4.78ʃ1.020.1750.862急性加重次数29.6270.000<2次8(30.77)64(86.49)ȡ2次18(69.23)10(13.51)吸烟史7(26.92)13(17.57) 1.0520.305饮酒史5(19.23)14(18.92)0.0010.972糖尿病6(23.08)14(18.92)0.2080.648高血压8(30.77)19(25.68)0.2530.615TC (mmoL /L ) 1.65ʃ0.25 1.58ʃ0.22 1.3470.181TG (mmoL /L ) 4.62ʃ0.74 4.36ʃ0.78 1.4810.142HDL -C (mmoL /L ) 1.20ʃ0.22 1.24ʃ0.250.7230.471LDL -C (mmoL /L ) 2.47ʃ0.63 2.44ʃ0.650.2040.839pH7.29ʃ0.527.40ʃ0.580.8540.395PO 2(mmHg )55.83ʃ10.8652.33ʃ8.26 1.7070.091PCO 2(mmHg )40.04ʃ6.4138.75ʃ6.070.9190.360心率(次/min )108.56ʃ12.15110.59ʃ12.830.7030.484APACHEⅡ评分(分)17.86ʃ3.1214.37ʃ2.83 5.2670.000HMGB1(μg /L )8.12ʃ2.257.03ʃ2.01 2.3050.023IL -17(ng /L )78.44ʃ20.1269.94ʃ14.83 2.2810.025FeNO (ppb )54.33ʃ5.2648.64ʃ4.815.0640.000㊀㊀注:1mmHg =0.133kPa ㊃2641㊃㊀㊀第29卷㊀第9期2023年9月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀河㊀北㊀医㊀学HEBEI MEDICINE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.29,No.9Sep.,2023㊀㊀㊀㊀表3㊀COPD合并Ⅱ型呼吸衰竭患者预后影响因素的Logistic回归分析因素βS.E.Waldχ2OR95%CI P 急性加重次数 2.1270.48319.3988.392 2.145~32.833<0.001 APACHEⅡ评分 2.4830.49625.06411.979 3.122~45.963<0.001 HMGB1 1.9820.45219.2267.256 1.028~51.222<0.001 IL-17 2.0170.44820.2777.519 1.125~50.247<0.001 FeNO 2.3540.49222.88910.526 1.857~59.664<0.0012.5㊀FeNO与外周血HMGB1㊁IL-17交互作用对COPD合并Ⅱ型呼吸衰竭患者预后的影响:以FeNO> 50.12ppb㊁HMGB1>7.31μg/L㊁IL-17>72.15ng/L为暴露,否则为非暴露,分析FeNO与外周血HMGB1㊁IL-17交互作用对COPD合并Ⅱ型呼吸衰竭患者预后的影响㊂以FeNO㊁HMGB1均无暴露为参比,结果显示,当高FeNO㊁高HMGB1同时处于暴露状态的病死者风险为9.429倍,联合暴露增强了病死者风险;以FeNO㊁IL-17均无暴露为参比,结果显示,当高FeNO㊁高IL-17同时处于暴露状态的病死者风险为6.200倍,联合暴露增强了病死者风险㊂见表4㊂表4㊀FeNO与外周血HMGB1IL-17交互作用对COPD合并Ⅱ型呼吸衰竭患者预后的影响交互项病死者(n=26)存活者(n=74)RR95%CI P高FeNO/高HMGB1-/-333 1.000+/-522 2.2220.581~8.5000.262 -/+716 3.652 1.049~12.7120.044 +/+1139.429 3.084~28.823<0.001趋势性检验<0.001高FeNO/高IL-17-/-427 1.000+/-423 1.1480.317~4.1560.845 -/+621 1.7220.543~5.4670.394 +/+123 6.200 2.400~16.014<0.001趋势性检验<0.0012.6㊀外周血HMGB1㊁IL-17及FeNO对预后的预测价值:以病死者为阳性,存活者为阴性,绘制ROC曲线分析可知,外周血HMGB1㊁IL-17及FeNO预测预后的AUC分别为0.810(0.719~0.881)㊁0.800(0.708~0. 873)㊁0.836(0.748~0.902),建立HMGB1㊁IL-17及FeNO联合预测的Logistic模型,结果显示,HMGB1㊁IL -17及FeNO联合预测预后的AUC为0.938(0.871~ 0.976),进一步对各预测方案预测价值比较显示, HMGB1㊁IL-17及FeNO联合预测的AUC明显较单独指标高(P<0.05)㊂见图3,表5㊂㊃3641㊃㊀㊀第29卷㊀第9期2023年9月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀河㊀北㊀医㊀学HEBEI MEDICINE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.29,No.9Sep.,2023㊀㊀㊀㊀表5㊀HMGB1IL -17及FeNO 对COPD 合并Ⅱ型呼吸衰竭患者预后的预测价值指标AUC 95%CI Z 统计截断值敏感度(%)特异度(%)P HMGB1(μg /L )0.8100.719~0.881 5.529 6.9980.7775.68<0.001IL -17(ng /L )0.8000.708~0.873 5.74069.8388.4664.86<0.001FeNO (ppb )0.8360.748~0.902 6.87556.0661.5495.95<0.001联合预测0.9380.871~0.97616.343/88.4687.84<0.001图2㊀Lasso 回归模型筛选影响COPD 合并Ⅱ型呼吸衰竭患者预后的相关因素注:左图为22个变量的Lasso 系数曲线,右图为在Lasso 模型中通过交叉验证方法筛选最合适λ的过程图3㊀HMGB1㊁IL -17及FeNO 预测预后的ROC 曲线3㊀讨㊀论COPD 发病机制与内皮细胞功能失调㊁气道炎性反应㊁氧化应激损伤有关,肺部感染㊁低氧血症可引起肺小动脉痉挛,增加血流阻力,诱发肺部动脉血管重塑,进而引起Ⅱ型呼吸衰竭,HMGB1可经旁分泌㊁内分泌途径,促进内皮细胞㊁单核细胞合成大量炎性因子,扩大炎性级联反应,促使多器官组织损伤[7]㊂本研究结果显示,观察组外周血HMGB1水平高于对照组㊁健康组,且对照组高于健康组,提示HMGB1水平升高可能促进COPD 合并Ⅱ型呼吸衰竭发生㊂HMGB1释放至细胞外可激活炎性通路,促进炎性因子生成,加重体内炎性细胞浸润,并以趋化因子形成,促进巨噬细胞迁移,引起呼吸道病理变化,损伤呼吸道上皮细胞,影响患者肺功能,并可引起气道平滑肌增生㊁纤维化,致使呼吸功能减退,促进呼吸衰竭发生[8]㊂IL -17可刺激肥大细胞㊁单核细胞等生成炎性细胞因子,放大级联反应,引起肺组织炎性反应,加重肺部损伤程度[9]㊂本研究结果显示,观察组外周血IL -17水平高于对照组㊁健康组,且对照组高于健康组,提示IL -17水平升高可能引起成纤维细胞分化㊁增殖障碍,进而促进Ⅱ型呼吸衰竭发生㊂由此推测IL -17水平升高可激活炎性细胞释放炎性因子,造成呼吸道肺泡上皮损伤,引起肺部换气功能障碍㊂FeNO 属于无创性评估气道炎性的方法,可用于诊断肺部疾病,嗜酸性粒细胞性气道炎症与FeNO 浓度密切相关,同时FeNO 是由多种炎性细胞分泌产生,可参与呼吸道上皮细胞损伤过程,且与肺部感染严重程度有关[10]㊂本研究结果显示,观察组FeNO 高于对照组㊁健康组,且对照组高于健康组,且HMGB1㊁IL -17与FeNO 呈正相关,提示HMGB1㊁IL -17㊁FeNO 可共同参与COPD 合并Ⅱ型呼吸衰竭发生发展过程㊂其原因可能为HMGB1可促进炎性因子表达,放大炎性反应;IL -17可激活Th1细胞免疫应答,促进炎性因子生成,进而提高FeNO 浓度㊂Lasso 回归属于一种变量筛选方法,其在原有损失函数基础上增加惩罚回归系数λ,随着λ值增大,部分㊃4641㊃㊀㊀第29卷㊀第9期2023年9月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀河㊀北㊀医㊀学HEBEI MEDICINE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.29,No.9Sep.,2023㊀㊀㊀㊀自变量回归系数收缩至0,可提高模型的可解释性,多因素Logistic 回归分析进一步筛选独立预测变量建立模型,本研究结果显示,急性加重次数ȡ2次比例㊁A-PACHEⅡ评分㊁HMGB1㊁IL -17与FeNO 为预后的独立危险因素㊂急性加重次数增加㊁APACHEⅡ评分升高可增加COPD 患者预后不良发生风险[11]㊂交互作用是指一个因素不同水平之间反应量差异依赖于其他因素的水平变化,本研究的新发现在于FeNO ㊁HMGB1高表达同时处于暴露状态的COPD 合并Ⅱ型呼吸衰竭患者病死风险为9.429倍,即FeNO ㊁HMGB1同时高表达可增加预后不良发生风险;FeNO ㊁IL -17高表达同时处于暴露状态的COPD 合并Ⅱ型呼吸衰竭患者病死风险为6.200倍,即FeNO ㊁IL -17同时高表达可增加预后不良发生风险㊂其原因可能在于HMGB1㊁IL -17㊁FeNO 高表达者体内炎性反应程度较高,气道损伤程度较为严重,致使患者预后不良㊂本研究采用ROC 分析发现HMGB1㊁IL -17㊁FeNO 联合预测预后的AUC 高于单独指标预测,证实联合预测效能更佳㊂综上所述,COPD 合并Ⅱ型呼吸衰竭患者外周血HMGB1㊁IL -17水平及FeNO 浓度升高,联合检测其水平可提高对患者预后的预测效能㊂ʌ参考文献ɔ[1]㊀Ferrera MC ,Labaki WW ,Han MK.Advances in chronic ob-structive pulmonary disease [J ].Annu Rev Med ,2021,72(1):119-134.[2]㊀Yang IA ,Jenkins CR ,Salvi SS.Chronic obstructive pulmona-ry disease in never -smokers :risk factors ,pathogenesis ,and implications for prevention and treatment [J ].Lancet Respir Med ,2022,10(5):497-511.[3]㊀Sun J ,Li Y ,Ling B ,et al.High flow nasal cannula oxygentherapy versus non -invasive ventilation for chronic obstruc-tive pulmonary disease with acute -moderate hypercapnic re-spiratory failure :an observational cohort study [J ].Int Chron Obstruct Pulmon Dis ,2019,14(1):1229-1237.[4]㊀Lin L ,Li J ,Song Q ,et al.The role of HMGB1/RAGE /TLR4signaling pathways in cigarette smoke -induced inflammationin chronic obstructive pulmonary disease [J ].Immun In-flamm Dis ,2022,10(11):711-721.[5]㊀Ding F ,Han L ,Fu Q ,et al.IL -17aggravates pseudomonasaeruginosa airway infection in acute exacerbations of chronic obstructive pulmonary disease [J ].Front Immunol ,2022,12(1):811803-811813.[6]㊀Zhou A ,Zhou Z ,Deng D ,et al.The value of FENO measure-ment for predicting treatment response in patients with acute exacerbation of chronic obstructive pulmonary disease [J ].Int Chron Obstruct Pulmon Dis ,2020,15(1):2257-2266.[7]㊀Zhang M ,Lu Y ,Liu L ,et al.Role and mechanism of miR -181a -5p in mice with chronic obstructive pulmonary diseaseby regulating HMGB1and the NF -κB pathway [J ].Cells Tissues Organs ,2022,24(1):1-10.[8]㊀Mao Y ,Patial S ,Saini Y.Airway epithelial cell -specific de-letion of HMGB1exaggerates inflammatory responses in micewith muco -obstructive airway disease [J ].Front Immunol ,2023,13(1):944772-944782.[9]㊀Zhu R ,Xie X ,Wang N ,et al.The T helper type 17/regulato-ry T cell imbalance was associated with Ras -GTPase overex-pression in patients with pulmonary hypertension associated with chronic obstructive pulmonary disease [J ].Immunology ,2019,157(4):304-311.[10]㊀Ambrosino P ,Fuschillo S ,Accardo M ,et al.Fractional ex-haled nitric oxide (FeNO )in patients with stable chronicobstructive pulmonary disease :short -term variability andpotential clinical implications [J ].Pers Med ,2022,12(11):1906-1916.[11]㊀Raja W ,Ahmed N ,Rizvi NA ,et parison of DECAF(dysponea ,eosinopenia ,consolidation ,acidaemia ,and atrialfibrillation )and APACHE II (acute physiology and chronic health evaluation ii )scoring system to predict mortality a-mong patients with acute exacerbation of chronic obstructive pulmonary disease [J ].Pak Med Assoc ,2021,71(8):1935-1939.ʌ文章编号ɔ1006-6233(2023)09-1465-08miR -2116-3p 和miR -342-3p 对肝细胞癌诊断及预后价值的研究白子誉1,㊀郦尓启1,㊀刘㊀辉1,㊀任长蓉1,㊀郑㊀彬1,㊀孙启天1,㊀高英梅2,㊀张井松1,㊀李㊀剑1(1.承德医学院附属医院,㊀河北㊀承德㊀0670002.河北省迁安市人民医院神经内科,㊀河北㊀迁安㊀063000)㊃5641㊃㊀㊀第29卷㊀第9期2023年9月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀河㊀北㊀医㊀学HEBEI MEDICINE㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.29,No.9Sep.,2023㊀㊀㊀㊀ʌ基金项目ɔ河北省医学科学研究课题计划,(编号:20231381)ʌ通讯作者ɔ李㊀剑。
Poisson回归模型及Lasso变量选择在研究生成绩影响因素分析中的应用

Poisson回归模型及Lasso变量选择在研究生成绩影响因素分析中的应用艾冬梅;黄若诚;梁晓一;宁晓钧【摘要】探究学生成绩的主要影响因素是研究学生成绩评价体系中一个重要方向.依据某大学三年研究生入学信息数据,利用方差分析研究其入学成绩的影响因素;利用Poisson回归模型结合Lasso变量选择方法,探究入学专业课成绩、培养类别等对研究生学业课程成绩是否有显著影响,其结果为研究生院的招生工作提供了数据支持,对大学教学方法改进、教学质量提高和新生录取工作具有十分重要的现实指导意义.【期刊名称】《大学数学》【年(卷),期】2016(032)002【总页数】5页(P30-34)【关键词】研究生成绩;Poisson回归模型;Lasso;方差分析【作者】艾冬梅;黄若诚;梁晓一;宁晓钧【作者单位】北京科技大学数理学院,北京100083;北京科技大学数理学院,北京100083;北京科技大学数理学院,北京100083;北京科技大学研究生院,北京100083【正文语种】中文【中图分类】O211.3国内各大高校都在推进校园建设的数字化和信息化.在各高校的研究生培养过程中,均已使用较为完善的学生信息管理系统.大量的研究生数据经过日积月累,形成了宝贵的信息资源.然而,在日常行政管理中,这些数据仅用于简单的查询和统计,其所蕴含的内在信息没有得到妥善的发掘和利用.其中影响研究生入学成绩、课程成绩的相关因素尤为值得关注,确定这些影响因素,制定适当的激励政策、教学模式,可以有效提升教学管理质量.目前国内外对学生成绩数据有广泛的研究.吴兆奇等人利用Logistic回归模型分析学生成绩,并探索其中的关键影响因素[1];闫在在等人利用Probit模型分析学生补考率影响因素[2];俞福能通过多元线性回归分析法,根据学生专业课成绩与基础课成绩的相关性,建立了回归方程,进行定量分析[3];杨淑菊利用主成分分析法分析每个学生成绩的影响主成分和综合得分[4];Angeline利用Apriori算法分析学生学业表现与出勤率、作业完成情况等因素之间的关联规则[5];Pandey等人利用决策树算法分析并预测学生学业表现[6].本文首先通过方差分析对某大学研究生院三年的研究生报名、录取数据进行研究,探究影响研究生入学成绩的因素.然后利用Poisson回归模型分析各个属性变量及入学成绩对研究生课程成绩的影响,并结合Lasso方法对自变量加以选择和系数估计,根据回归系数分析研究生课程成绩的影响因素,从而为研究生院的招生工作提供了数据支持.2.1 Poisson回归模型高校信息管理系统中包含大量离散变量,比如研究生所属院系、本科毕业院校类别、录取类别等.在分析这类属性与其他变量之间的关联时,往往会产生计数数据(count data),即取值为自然数的随机变量,用来表示某种属性类型出现的次数.在高校数据中,同一属性下不同类型的计数值相差不会很大,即其计数数据不会“过度分散”(overdispersed),因此本文采用Poisson分布作为研究生信息数据属性计数变量的标准模型,并在此基础上建立Poisson回归模型[7].一般地,假设随机变量Y表示某一事件发生的次数,且服从期望为μ的Poisson分布,则其中E(Y)=Var(Y)=μ.同时假设Xn×k是由k个自变量经过n次观察得到的观察值矩阵,引入连接函数,则可得Poisson回归模型其中系数βi可解释为当xi增加一个单位值时,Y的期望值将变为原来的倍[8].本文将研究生所修的优秀课程数(课程成绩高于90分)记为因变量Y,将研究生入学考试成绩、本科毕业院校类别、培养方式等可能影响研究生学业成绩的因素作为自变量,经过数据整合,可分别拟合出Poisson回归模型,并通过分析自变量系数,探究各因素对学业成绩的影响程度.在选取作为自变量的因素中,除入学考试成绩是连续变量以外,其余自变量多为离散变量,比如本科毕业院校类别、培养方式等.此类因素一般可取多个离散值,不易直接加以回归分析,故引进虚拟变量.设一个离散自变量可取k个不同的值,则可以引入k-1个虚拟变量,每个虚拟变量分别用0或1表示此样本是否属于某一类别,若全部k-1个虚拟变量均为0,则表示该样本属于第k个类别[9].由于大量虚拟变量的引入,同时根据本文方差分析的结果,诸如本科毕业院校类别、培养方式等自变量与同为自变量的入学成绩有显著关联,这将导致普通的最小二乘法或极大化似然函数法估计参数不稳定,因此本文引入Lasso进行Poisson回归模型的变量选择,并估计自变量系数[10].2.2 Poisson回归模型Lasso变量选择在Poisson模型中的应用基于Lasso变量选择的Poisson回归模型方法,在极大化似然函数的过程中,引入惩罚项,要求系数向量β的l1范数不超过某一个参数λ.这个最优化过程的等价形式是上述公式中参数λ的最优值可以通过交叉检验的方式确定.本文将选择交叉检验中使得回归预测值的标准误差最小的λ作为最终参数,并根据该参数下自变量系数的估计值,分析各自变量因素对研究生学业成绩的促进或削弱作用.利用R语言glmnet包实现Poisson回归、Lasso变量选择以及交叉检验的过程[11].3.1 数据预处理与研究生入学分数影响因素分析数据来自某大学2011-2013年研究生院三年研究生报名、录取和课程信息数据库,共5384条学生数据,通过对原始数据进行集成、规范、清理、补遗和转化,建立了录取学院、入学考试成绩、培养方式、优秀课程数等30个字段.首先利用方差分析来探究研究生入学分数的影响因素:若在某因素的不同水平下,研究生入学分数呈现显著差异,则说明该因素是影响研究生入学分数的重要因素.由于各年度、各学院乃至各个专业的录取分数标准有所不同,本文通过Z-变换对研究生入学分数加以标准化,使各年度、各专业研究生标准化录取分数均服从标准正态分布,从而消除了录取标准不同的影响.通过对录取研究生信息原始数据中的字段进行初步筛选,最终对性别(包括男、女等2个属性值)、录取类别(包括定向、非定向、自筹、委培等4个属性值)、报考年龄段(包括22岁以下、22到25岁之间、25岁以上等3个属性值)、毕业院校类别(包括985院校、211研究生院校、211非研究生院校、一本院校、二本院校、三本院校以及本校7个属性值)、是否应届(包括应届、非应届等2个属性值)等5项因素加以方差分析.利用R语言中的Bartlett检验函数对性别因素进行方差齐性检验,结果如表1所示:p值为0.2393,大于0.05,故接受方差齐性假设.在此基础上,利用R语言中的方差分析函数(aov)对研究生录取分数进行关于性别的单因素方差分析,结果如表2所示.由表2可知,关于性别的方差分析p值为0.6443,大于0.05,故应接受原假设,即不同性别之间研究生录取分数无显著差异.因此性别不是影响研究生录取的主要因素.而对研究生录取分数进行关于录取类别的单因素方差分析的结果如表3所示.由表3可知录取类别因素对应的p值为7.0266e-95,故应拒绝原假设,即不同录取类别之间研究生录取分数具有显著差异.因此录取类别是影响研究生录取的主要因素.同样,研究生的本科毕业院校类别和报考年龄段属性对研究生入学成绩有显著影响,其p值分别为8.9623e-05和3.6811e-05.而是否应届对研究生入学成绩无显著影响, p值为0.2875.综合上述分析结果,研究生入学成绩的影响因素为录取类别、本科毕业院校类别、报考年龄.3.2 研究生学业成绩的Poisson回归分析由于各学院课程设置各有不同,本文以数理学院的数据为例.数理学院研究生三年入学、课程数据,共202条记录.将研究生完成学业任务后的优秀课程数(课程成绩高于90分) 作为因变量Y,将研究生入学考试成绩、本科毕业院校类别、培养方式等可能影响研究生学业成绩的因素作为自变量,引入包含虚拟变量与Lasso变量选择的Poisson回归模型,并估计各入选自变量的系数,从而分析其对研究生学业成绩造成的影响.借助R语言glmnet包中的函数cv.glmnet(X, y,family=”poisson”),通过交叉检验得到最优化结果,最终Poisson回归模型的入选自变量如表4所示.表4中优秀课程数的Poisson回归模型结果在交叉检验时所得的标准误差值小于1.1,即其预测值与实际优秀课程数的偏差在1门课程左右,结果比较准确,说明少量的“分散性”没有影响Poisson回归模型的准确性.从各个回归系数上可以看出:如果某研究生在入学考试时两门专业课成绩较高,则该生通过课程并优秀的期望数量将相应提高(专业课每提升10分,则其课程优秀的期望数量将提高1.58倍和1.47倍).如果该生是数学系的,则该生通过某课程并获得90分以上优秀成绩的期望数量将是其他系所的=1.733倍.相反,如果该生本科毕业院校是211研究生院类院校或三本院校,则该生课程优秀的期望数量将减少至其他学生的0.89倍或0.91倍.非定向研究生的优秀课程数的期望值也略高于其他培养类型(如定向、委培)的研究生.由上述分析可知,分析其回归系数可知,研究生入学专业课成绩、所在系所、本科毕业院校类型、培养类别对研究生学业课程成绩有显著影响.专业基础知识对研究生阶段的进一步学习与深造有至关重要的作用,同时对于来自三本院校的学生,需要多加激励,提高其在研究生阶段学习的积极性,而同一院校不同系所之间依然存在课程标准的差异.本文通过方差分析与结合Lasso变量选择的Poisson回归分析方法对积累的各类研究生数据进行处理,将隐藏在丰富数据中的宝贵信息揭示出来,对研究生培养水平有启迪意义的.通过分析对研究生入学成绩以及研究生课程成绩的影响因素,可以为学校研究生院工作的开展提供更为科学的依据,达到促进研究生培养的目标明确化、工作科学化,为院系领导的决策提供理论支持,加强学校研究生院建设,促进研究生培养管理.但是原始数据仍然存在一定的人为因素偏差,比如入学数据中,不同院校入学成绩的评分标准存在较大差异,面试过程中考官的严格程度各有不同;课程数据中,任课教师的授课态度、课程是否必修均会影响最终成绩对研究生水平的反映等,同时高校原始数据的丰富性、多样性和准确性仍有待加强.应根据院系间、师生间的沟通与反馈,建立科学合理的质量评价体系,广泛收集优质、准确、关联性强的研究生入学及培养数据,为更扎实合理的数据分析和挖掘打下基础.【相关文献】[1]吴兆奇, 关蓬莱, 吴晓明. 考试成绩的LOGISTIC回归模型研究[J]. 统计与决策, 2007(5): 21-23.[2]闫在在, 郑丽霞, 赖俊峰,等. 基于Probit模型的学生补考率影响因素分析[J]. 大学数学, 2013, 29(5): 134-137.[3]俞能福. 多元线性回归在分析学生成绩相关性中的应用[J]. 大学数学, 2007, 23(2): 42-46.[4]杨淑菊. 主成分分析法在学生成绩评价中的应用[J]. 数学的实践与认识, 2012, 42(16): 131-133.[5]Angeline D M D. Association Rule Generation for Student Performance Analysis using Apriori Algorithm[J]. The SIJ Transactions on Computer Science Engineering & itsApplications, 2013, 1(1):12-16.[6]Pandey M, Sharma V K. A Decision Tree Algorithm Pertaining to the Student Performance Analysis and Prediction[J]. International Journal of Computer Applications, 2013, 61(13):1-5.[7]张尧庭. 线性模型与广义线性模型[J]. 统计教育, 1995 (4): 18-23.[8]郭志刚, 巫锡炜. 泊松回归在生育率研究中的应用[J]. 中国人口科学, 2006 (4): 2-15.[9]陈希孺. 广义线性模型(一)[J]. 数理统计与管理, 2002, 21(5): 54-61.[10]Hossain, S., Ahmed, E. Shrinkage and penalty estimators of a Poisson regression model [J]. Australian and New Zealand Journal of Statistics, 2012, 54(3): 359-373. [11]Friedman, J., Hastie, T., Tibshirani, R. Regularization paths for generalized linear models via coordinate descent [J]. Journal of statistical software, 2010, 33(1): 1-22.。
基于CT影像组学预测感染性肾结石的价值

· 1401 ·
引用本文:蒋旭,曹海明,吴宇,等 . 基于 CT 影像组学预测感染性肾结石的价值[J]. 安徽医药,2021,25(7):14011406.DOI:10.3969/j.issn.1009-6469.2021.07.032.
· 1402 ·
安 徽 医 药 Anhui Medical and Pharmaceutical Journal 2021 Jul,25(7)
ed 2 pre-clinical factors (female, alkaline urine) and 2 radiomics features (glcm-Cluster Shade, gldm-Large Dependence Low Gray Lev‑ el Emphasis). The AUC was (0.892, 95%CI: 0.830~0.954) in the training set, the AUC was (0.842, 95%CI: 0.702~0.981) in the training set. The calibration curve showed that the model fits well.Conclusion The radiomics features extracted with the help of computer-aid‑ ed diagnostic techniques, combined with pre-clinical factors, is helpful to judge the risk of infectious renal calculi before an operation. Key words: Urolithiasis; Radiomics; Urinary tract infections; Computed tomography; Infectious stones; Nomogram.
Lasso 与其他变量选择方法的模拟比较

摘要:[目的]提出一种基于收缩估计的新的变量选择方法—Lasso,并比较其与其他变量选择方法的异同。
[方法]首先给出了几种常见的变量选择方法如逐步回归、AIC、BIC 准则,再通过随机模拟给出了几种方法进行变量选择的结果及相关准确性分析。
[结果]随机模拟结果表明,当模拟次数n=200 时,Lasso 方法的平均错误率已经为0,具有较为明显的优势,随着模拟次数的增加Lasso 方法的平均正确率(0.951)达到了相对较高的水平。
[结论]Lasso 估计具有较好的可解释性,在变量选择中有较广阔的应用前景。
关键词:变量选择;Lasso 估计;AIC 准则;逐步回归0 引言多元分析是应用最广泛的统计学分支之一,而变量选择问题又是其中一个尤为重要的问题。
对于其不同的用途,对变量选择也有着不同的要求:在描述解释现象时,希望回归方程中所包含的自变量尽可能少一些;在预测时,希望预测的均方误差较小;在控制时,希望各回归系数具有较小的方差和均方误差[1]。
在实际问题中可以提出许多对因变量y有影响的自变量,变量选择太少或不恰当,会使建立的模型与实际有较大的偏离;而变量选得太多,使用不便,并且有时也会削弱估计和预测的稳定性,所以变量选择问题是一个值得我们讨论的问题。
在回归方程中,预测精度和可解释性是评估回归模型的两个重要指标。
传统的变量选择方法当自变量过多而不可避免的出现共线性的问题时.通过传统方法删除变量,有时候会使重要的变量不能进入模型,使得模型的解释力度大为降低。
Robert[2]提出的Lasso回归是一种收缩估计方法,基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。
本文首先对Lasso的建模思路进行了分析,并通过随机模拟比较了逐步回归、AIC准则和LASSO的特征和性能.最后对上述模型的适用性进行了总结归纳,并对研究者在实践中中国科技论文在线针对不同的问题选择如何选择合适的模型提出了建议。
临床医学专业药理学课程期末成绩影响因素:基于LASSO-Logistic分析的研究

临床医学专业药理学课程期末成绩影响因素:基于LASSO-Logistic分析的研究①李雯娟,龚应霞,潘龙瑞,顾新生*(湖北医药学院基础医学院药理学教研室,湖北十堰442000)关于临床医学专业药理学考试成绩影响因素的研究集中在现状描述与理论分析,缺乏实证研究。
国外学者针对考试成绩影响因素做了一定的研究,但针对国内药理学成绩分析研究的文章尚少。
现行的评教体系仅包括学生成绩等基本信息以及学生对老师评价信息,尚未结合其他因素进行分析。
本研究基于LASSO-Logistic[1-4]法筛选变量,对湖北某省属医科院校临床医学专业药理学考试成绩影响因素进行分析,为提升药理学课程的教学及管理提供实证依据。
一、资料与方法(一)问卷制作、信息收集及变量赋值问卷设计查询国内外相关文献,专家咨询讨论修改后确定。
2019年1月期末“考试季”期间,以班级为单位进行自填式匿名调查,按比例在同一年级临床专业不同班级共抽取446人进行问卷调查,实际回收有效问卷446份,回收率100%,问卷星导出原始结果。
期末考试成绩为因变量,其取值为Y=0≥80分,1<80分。
自变量:X1性别、X2学习动机、X3情感、X4学习兴趣、X5学习氛围、X6老师倾向、X7老师类型、X8主动咨询老师、X9辅助资料、X10对未来就业态度、X11睡眠质量、X12课前预习、X13课堂听讲、X14课后复习、X15期末考试复习、X16课后布置习题。
将问卷信息量按照是= 0、否=1赋值。
(二)统计学方法采用构成比、均数±标准差进行统计学描述,采用SPSS23.0软件进行统计分析。
在单因素Logistic的基础上对因变量有显著影响的因素进行多因素Logistic回归分析,计算OR值,分析大学生药理学成绩的影响因素,P<0.05为有统计学意义。
二、研究结果(一)调查问卷基本情况及变量筛选从可靠性检验结果可以看出,问卷的Cronbach’s系数为0.53,Kaiser-Meyer-Olkin值为0.70,P值为0.00,表明问卷具有良好的信度与效度。
一种改进的Lasso方法及其在对数线性模型中的应用

一种改进的Lasso方法及其在对数线性模型中的应用李春红;黄登香;覃朝勇【摘要】变量选择在数据分析中有着重要应用,其参数估计的渐近性质,特别是Oracle性质及组效应性质在变量选择方法上尤其重要。
针对Lasso方法一般情形下不具有Oracle性质及组效应性质,将探讨Lasso的一种改进方法,即Adaptive elastic net方法在Poisson对数线性模型的应用,证明当满足一定条件时,Adaptive elastic net方法估计具有Oracle性质及组效应性质,并利用数值模拟验证其优良性。
%Variable selection plays an important role in data analysis. Its asymptotic properties of parametric estimation ( especially the Oracle properties and the group effect) are particularly impor-tant. However, the Lasso method does not have the two properties in general. To remedy this draw-back, in this paper an improved Lasso method is proposed, which applies the Adaptive Elastic Net method to the Poisson log-linear models. It is proved that the Adaptive Elastic Net procedure estima-tor has the Oracle properties and the group effect under some appropriate conditions. The numerical simulation also confirms the superiority of the proposed method.【期刊名称】《广西大学学报(自然科学版)》【年(卷),期】2015(000)003【总页数】8页(P758-765)【关键词】Adaptive elastic net方法;Poisson对数线性模型;Oracle性质;组效应【作者】李春红;黄登香;覃朝勇【作者单位】广西大学数学与信息科学学院,广西南宁530004;广西大学数学与信息科学学院,广西南宁530004;广西大学数学与信息科学学院,广西南宁530004【正文语种】中文【中图分类】O212.10 引言变量选择是数据分析的重要方法之一。
Lasso方法简要介绍及其在回归分析中的应用

Lasso方法简要介绍及其在回归分析中的应用回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
最早形式的回归分析可以追溯到两百多年前由德国数学家高斯提出的最小二乘法。
而回归分析也是研究时间最长和应用最广泛的的方法。
自从产生以来回归分析一直都是统计学家研究的一个重点领域,直到近二十多年来还有很多对回归分析提出的各种新的改进。
回归模型一般假设响应变量(response variable)也叫自变量和独立变量(independent variables)也叫因变量,有具体的参数化(parametric)形式的关系,而这些参数有很多成熟的方法可以去估计(比如最小二乘法),误差分析方法也有详细的研究。
总的来说,回归分析方法具有数据适应性强,模型估计稳定,误差容易分析等优良特点,即使在机器学习方法发展如此多种多样的今天,依然是各个领域中最常用的分析方法之一。
回归分析中最常见的线性回归假设响应和独立变量间存在明显的线性关系。
如图一所示,响应变量(黑点)的数值大致在一条直线周围,除了每个点都有的随机误差。
线性回归模型看似极大的简化了响应变量和独立变量之间的关系,其实在实际分析中往往是最稳定的模型。
因为线性模型受到极端或者坏数据的影响最小。
例如预测病人的住院成本,很可能出现其中一两个病人会有很大的花费,这个可能是跟病理无关的,这种病人的数据就很可能影响整个模型对于一般病人住院成本的预测。
所以一个统计模型的稳定性是实际应用中的关键:对于相似的数据应该得出相似的分析结果。
这种稳定性一般统计里用模型的方差来表示,稳定性越好,模型的方差越小。
图1. 线性回归示意图在统计学习中存在一个重要理论:方差权衡。
一般常理认为模型建立得越复杂,分析和预测效果应该越好。
而方差权衡恰恰指出了其中的弊端。
复杂的模型一般对已知数据(training sample)的拟合(fitting)大过于简单模型,但是复杂模型很容易对数据出现过度拟合(over-fitting)。
基于Lasso方法的平衡纵向数据模型变量选择

基于Lasso方法的平衡纵向数据模型变量选择曲婷;王静【摘要】The Lasso method is applied to study variable selection problem in balanced longitudinal data model. This method can shrink the coefficients toward to zeros, and even set some coefficients to zeros, then LARS algorithm is used to sequence the coefficients, and AIC and BIC criteria are used to select the tuning parameters. Furthermore , some theoretical properties are proved, and the characteristics of the approach are presented from some simulation results. As an application, this approach is applied to find out the main factors which have influence to the activities of bats effectively.%应用Lasso方法研究平衡纵向数据模型的变量选择问题.通过Lasso方法可将模型的系数进行压缩并使之趋于零,甚至使一些系数等于零,利用LARS算法对回归系数进行排序,并采用AIC和BIC准则进行截取,从而达到变量选择的目的.同时证明该方法的一些理论特性,并从仿真模拟中分析了该方法的主要特点.作为实际应用,本方法可以有效地从众多的环境因素中寻找影响蝙蝠活动的主要因素.【期刊名称】《黑龙江大学自然科学学报》【年(卷),期】2012(029)006【总页数】9页(P715-722,726)【关键词】平衡纵向数据模型;变量选择;Lasso;LARS;AIC;BIC【作者】曲婷;王静【作者单位】东北师范大学人文学院,长春130117;东北师范大学城市与环境科学学院长春130024【正文语种】中文【中图分类】O213纵向数据是对观测对象中的每一个个体按时间顺序重复观测而得到的,它将截面数据和时间数据结合在一起,能够很好地分析出个体随时间变化的趋势,又能反映个体间的差异及个体内的变化趋势,因此在临床医学、流行病学、心理学等研究领域有着重要的应用价值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
单因素回归结果
方程
① ② ③ ④
变量
x1 x2 x3 x4
回归系数
0.4792902 2.537959 0.1381413 0.4835482
标准误SE
0.1153472 0.1411201 0.1077999 0.0742047
t
4.16 17.98 1.28 6.52
P
0.000 0.000 0.210 0.000
回归系数反常的原因
数据中有离群值或者异常值
自变量的观察范围太窄,或 者方差太小
自变量直接存在复共线性 一样般本的含多量重不线够性,回或归者或自者变L量ogistic 回归中,样本规模至少是自变量个 数数的量1过0倍多以上
LASSO
LASSO(套索)
Least absolute shrinkage and selection operator 1996年,Tibshirani提出 可以将变量的系数进行压缩并使某些回归系数为0,实现变量选择
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
逐步向前法
逐步向前法区别于前进法: 每选入一个变量,都要对已在模型中的变量进行检验,
对低于剔除标准的变量要逐一剔除,然后再考虑选变量。 (pe=0.15,pr=0.151,forward)
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
后退法基本思想
1.选定一个标准(P=0.2)
x4
0.5010896
0.0095479
52.48
x1
0.5066342
0.0119867
42.27
0.000 0.000
逐步向后法
逐步后退法区别于后退法:
每剔除一个变量,都要对在模型外的变量进行检 验,对符合入组标准的变量要逐一选入,然后再考虑 剔变量。(pe=0.15,pr=0.151)
全因素已经在方程中,是否删除X3?
选 岭回归 LASS 主成O 分 偏回最归小 二乘回
归
当变量数过多时,逐步 法要优于最优子集法
岭回归使模型变得稳定 LASSO使某些系数为0
产生新变量进行回归
逐步回归
逐步回归中建模的策略
• 建模过程应该从详细的各变量的单因素分析开始 • 对性质相同的一些自变量进行部分多因素分析,并探讨自变量纳入模型时的适
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
X1,X2,X4在方程中,删除哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
x1
0.4742083
0.0263443 18.00
⑨
x2
2.2628200
0.2109613
10.73
x4
0.0816762
0.0493813
1.65
x3
0.0228610
0.0325160
0.70
P
0.179 0.000 0.000
0.000 0.109 0.488
X2,X4,X1已经在方程中,是否增加X3?
方程
③
变量
x3
回归系数
0.1381413
标准误SE
t
P
0.1077999
1.28
0.210
方程中还剩X2,X4,X1,是否删除X2?
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
对剔除的X2,X3做回归分析
方程
变量
回归系数
标准误SE
t
(12)
x2
...
x3
...
...
...
...
...
P
>0.150 >0.150
注意:
1.没有最好的方程:可以多选几个标准,比较在不同标准下所得到的 结果 2.有重要临床意义的自变量可以固定于方程中,对剩下的变量进行逐 步回归 3.逐步回归必须与专业知识相结合
X2已经在方程中,增加哪个变量好?
方程 变量 回归系数 标准误SE t
⑤
x2
2.4005610 0.1683429 14.26
x1
0.0724291 0.0503187 1.44
P
0.000 0.161
⑥
x2
2.5211920 0.1459650 17.27 0.000
x3
0.0184504 0.0333622 0.55 0.584
lambda.lse
将选取的变量纳 入logistic模型
发现结直肠癌淋 巴结转移的危险 因素,构建模型 并在测试队列中 进行验证
LASSO的实现过程
软件:R软件 “glmnet”包
变量选择结果
最终从34个变量中选入16 个变量
利用选择出的17个变量构建Logsitic模型
16个变量进入Logistic模型,表现出 统计学意义的有:慢性下呼吸道疾 病、胃肠减压、深镇静比例分组、 液体负荷平衡、康复锻炼、床头抬 高90°、每日均有压力控制通气、肠 外营养、前免疫抑制剂、雾化吸入、 前纤支镜
数据和研究方法
研究人群及变量
曾经切除手术的结直 肠癌病人 原始队列:326人 测试队列:200人 变量:年龄、性别、 术前组织分级、CEA、 CT成像、血液检查、 淋巴结转移情况等
lambda.min
利用LASSO方法进行 特征选择
软件:R 利用LASSO从数据集 中选择预测变量 150个中选取了24个
逐步向前
逐步向后
向后法不适用 与n<p的情况
前进法基本思想
1.选定一个标准(P=0.2)
2.开始方程中没有自变量(常数项除外)
3.按照自变量对y的贡献大小由大到小依次挑选进入方程(假设检验的P值越小
贡献越大) 4.每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 5.直到方程外变量均达不到入选标准,没有自变量可被引入方程为止
⑦
x2
2.2924620 0.2048952 11.19 0.000
x4
0.0788289 0.0487840 1.62 0.117
X2,X4已经在方程中,增加哪个变量好?
方程
变量
回归系数
标准误SE
t
⑧
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614 18.17
方程
变量
回归系数
标准误SE
t
(8)
x2
0.1806877
0.1312330
1.38
x4
0.4680677
0.0257614
18.17
x1
0.4742083
0.0263443
18.00
P
0.179 0.000 0.000
X4,X1已经在方程中,是否继续增加/删除?
方程
变量
回归系数
标准误SE
t
P
(11)
方程
变量
回归系数
标准误SE
t
(10)
x2
0.1785982
0.1314174
1.36
x4
0.4674274
0.0258027
18.12
x1
0.4720687
0.0264709
17.83
x3
0.0089598
0.0092956
0.96
P
0.185 0.000 0.000 0.344
对剔除的X3做单因素回归
结果对比
结果不同的原因: 逐步法是将单因素分析有意义的变量纳入再进行分析;而lasso-logistic是纳入lasso所
选择的变量。
x1
0.4742083
0.0263443
18.00
⑨
x2
2.2628200