基于SVM_RFE_SFS的基因选择方法
基于SVM-RFE算法的道路交通事故严重程度分析

115智能交通NO.17 2020智能城市 INTELLIGENT CITY 基于SVM-RFE算法的道路交通事故严重程度分析冷 荣(重庆交通大学交通运输学院,重庆 400074)摘 要:为分析影响道路交通事故严重程度的因素,量化事故影响因素,根据支持向量机递归特征消除法(SVM-RFE)选择合适的特征,并量化特征的重要度,再以选择之后的特征作为输入,结合随机森林模型进行预测。
最后应用于具体交通事故数据,将筛选之后的影响因素作为输入,分别使用KNN(K最近邻)、随机森林、支持向量机模型进行预测分析,相比较于全部特征值,预测精度分别提高了2.64%、2.72%、1.45%,对比结果表明模型提高了预测的识别精度与算法效率。
关键词:交通事故;SVM-RFE;特征工程由于交通系统的复杂性,导致交通事故的因素具有随机性、动态性及复杂性等特点,以交通事故为因变量的研究,目前还没有完全统一的模型方法来分析引发道路交通事故的原因,本文从微观方面分析问题,研究道路交通事故诱因的严重程度,并根据数据结果提出相应的改进措施[1]。
道路交通诱因影响程度分析研究与道路交通安全息息相关,并且需要综合考虑分析人、车、路和环境的影响。
近年来,很多学者已经对道路交通事故诱因进行了大量研究[2-6]。
敖谷昌等[7]探讨了驾驶员人为因素对于道路事故的影响,单一从驾驶员的因素进行分析。
杨京帅等[8]研究了道路交通碰撞的影响因素,量化了影响因素;陈艳艳[9]运用logistics回归,从道路环境因素对事故严重度进行研究;马壮林等[10]运用logistics模型针对公路隧道交通事故严重程度进行研究,建立事故严重程度预测模型;陈春[11]运用结构方程模型来研究交通事故影响因素;马符铭等[12]对于降雪天气对快速路交通特征的影响进行了研究。
戢小辉[13]提出基于灰色关联的LS-SVM模型,从宏观上利用国内生产总值、居民消费水平、机动车保有量进行影响因素的相关性分析;石学怀等[14]结合卷积神经网络提取时空维度中的特征,建立组合模型来预测交通事故严重程度,很大程度上提高了预测精度,但是并未对于事故诱因做深度分析。
matlab的svmrfe函数

一、介绍MATLAB是一种流行的技术计算软件,广泛应用于工程、科学和其他领域。
在MATLAB的工具箱中,包含了许多函数和工具,可以帮助用户解决各种问题。
其中,SVMRFE函数是MATLAB中的一个重要功能,用于支持向量机分类问题中的特征选择。
二、SVMRFE函数的作用SVMRFE函数的全称为Support Vector Machines Recursive Feature Elimination,它的作用是利用支持向量机进行特征选择。
在机器学习和模式识别领域,特征选择是一项重要的任务,通过选择最重要的特征,可以提高分类器的性能,并且减少计算和存储的开销。
特征选择问题在实际应用中经常遇到,例如在生物信息学中,选择基因表达数据中最相关的基因;在图像处理中,选择最相关的像素特征。
SVMRFE函数可以自动化地解决这些问题,帮助用户找到最佳的特征子集。
三、使用SVMRFE函数使用SVMRFE函数,用户需要准备好特征矩阵X和目标变量y,其中X是大小为m×n的矩阵,表示m个样本的n个特征;y是大小为m×1的向量,表示m个样本的类别标签。
用户还需要设置支持向量机的参数,如惩罚参数C和核函数类型等。
接下来,用户可以调用SVMRFE函数,设置特征选择的方法、评价指标以及其他参数。
SVMRFE函数将自动进行特征选择,并返回最佳的特征子集,以及相应的评价指标。
用户可以根据返回的结果,进行后续的分类器训练和预测。
四、SVMRFE函数的优点SVMRFE函数具有以下几个优点:1. 自动化:SVMRFE函数可以自动选择最佳的特征子集,减少了用户手工试验的时间和精力。
2. 高性能:SVMRFE函数采用支持向量机作为分类器,具有较高的分类精度和泛化能力。
3. 灵活性:SVMRFE函数支持多种特征选择方法和评价指标,用户可以根据自己的需求进行灵活调整。
五、SVMRFE函数的示例以下是一个简单的示例,演示了如何使用SVMRFE函数进行特征选择:```matlab准备数据load fisheririsX = meas;y = species;设置参数opts.method = 'rfe';opts.nf = 2;调用SVMRFE函数[selected, evals] = svmrfe(X, y, opts);```在这个示例中,我们使用了鸢尾花数据集,设置了特征选择的方法为递归特征消除(RFE),并且要选择2个特征。
生物特征识别白皮书(2019年版)

编写人员
赵 波 杨建军 王文峰 宋继伟 王思翔 杨春林 于雪平 何召峰 樊 磊 钟 陈 刘倩颖 张 璋 耿 力 刘贤刚 林冠辰 徐持衡 谢玉凤 冷 霜 李 军 朱亚军 张立华 郝春亮 孙 彦 宋方方 张亚浩 李星光 赵 静 姚青予 宁 静 温 浩 林 野 张丝潆 方 宁 高升杰 叶明芝 邬晓钧 黄小妮 孙荣荣 刘 刚 陈书楷 林晓清 王丹丹 王晓亮 于 欢 胡文矛 郭 明 胥建民 李 梅 郑晓薇 李志伟 田启川 任敬辉 翁 斌 张 楚 刘 爽 陈 磊 王 栋 吴 斌 蔡春水 胡俊义 张堃博 李 俊
1) 产业链基本形成,市场规模快速增长 从整个产业链来看,我国生物特征识别企业已经覆盖从基础 层的基础器件、基础硬件和基础软件开发、到技术层的模组、算 法和识别系统研发、再到应用层的识别产品和解决方案(如图 2 所示)。
图 2 生物特征识别产业链示意图
目前,我国在生物特征识别领域的企业数量超过 4000 家。2013 年至 2018 年,我国生物特征识别领域新增企业数量呈逐年增长趋
2) 自主企业发展迅速,部分产品已达国际先进水平 总体来说,国外公司提供核心技术的产品在我国生物特征识别 市场仍然占据一定比例,但是部分自主产品已经可以与国际先进 产品相抗衡,且部分企业已在全球范围内具有较高的知名度。 例如在指纹防伪方面,国内相关企业已研制出高性价比的基于 深 度 卷 积 特 征 的指 纹 活 体检 测 方 法和 基于 SVM-RFE (Support Vector Machine-Recursive Feature Elimination,支持向量机 递归特征约减算法)特征选择的假指纹检测方法,该方法无需增 加任何额外硬件辅助;在人脸识别算法方面, 2018 年 11 月 23 日,美国商务部国家标准与技术研究院发布的 2018 年人脸识别测 试结果显示,全球 39 种人脸识别算法中排名前 5 的均来自中国。 3) 多种识别技术蓬勃发展,竞争主体开始合作共赢。 目前,在我国生物特征识别产业中,指纹识别技术和产品仍然 占据主导地位,占比超生物特征识别技术整体市场的 1/3。技术难
基于支持向量机递归特征消除和特征聚类的致癌基因选择方法

收稿日期:2018-03-08 录用日期:2017-07-16 基 金 项 目 :国 家 自 然 科 学 基 金 (61771331) * 通 信 作 者 :yunfengwu@ 引文格式:叶小泉,吴云峰.基于支持向量机 递 归 特 征 消 除 和 特 征 聚 类 的 致 癌 基 因 选 择 方 法 [J].厦 门 大 学 学 报 (自 然 科 学 版 ),
叶 小 泉 ,吴 云 峰 *
(厦门大学 信息科学与技术学院,福建省智慧城市感知与计算重点实验室,福建 厦门 361005)
摘要:癌症通常由基因发生突变引起,因此从大量基因中有 效 地 识 别 出 少 量 致 癌 基 因 具 有 重 要 意 义.针 对 基 因 表 达 谱
数据高维小样本的特点,将支持向量机递归特征消除(SVM-RFE)和特征聚类算法相结合,提出一种新的基因选择方 法:
第57卷 第5期
厦 门 大 学 学 报 (自 然urnalofXiamenUniversity (NaturalScience)
doi:10.6043/j.issn.0438-0479.201803022
Vol.57 No.5 Sep.2018
基于支持向量机递归特征消除和 特征聚类的致癌基因选择方法
关键参数设置进行了讨论.实验结果表明 K-SVM-RFE 算 法 所 选 基 因 较 已 有 方 法 在 分 类 准 确 率 上 有 显 著 提 高,特 别 是
在选择少量致癌基因上效果提升更为明显.
关键词:基因表达谱;特征选择;K 均值聚类;支持向量机
中 图 分 类 号 :TP391.4
文 献 标 志 码 :A
文 章 编 号 :0438-0479(2018)05-0702-06
癌症通常缘于正常组织在物理或化学致癌物的 作用 下 基 因 组 发 生 突 变,即 基 因 表 达 水 平 的 改 变,使 得许多生物过程失 调[1].而 基 因 表 达 信 息 可 以 通 过 基 因芯片技术测得,基因芯片(通常也称为 DNA 微 阵 列 或生物芯片)是 附 着 于 固 体 表 面 的 微 观 DNA 斑 点 的 集合.在 分 子 生 物 学 领 域,根 据 核 苷 酸 分 子 在 形 成 双 链时遵循碱基互补 原 则,研 究 人 员 能 够 使 用 基 因 芯 片 测量大量 基 因 的 表 达 水 平 信 息,从 而 得 到 基 因 表 达 谱.因 此,若 利 用 这 些 基 因 表 达 谱 数 据 确 定 出 与 癌 症 有密切关系的基因,将 对 癌 症 的 诊 断 和 治 疗 发 挥 重 要 意 义 . [2]
一种生物相关性优先的两步卵巢癌化疗疗效敏感基因选取方法

Vol. 31 No. 4 August 2012
一种生物相关性优先的两步卵巢癌化疗疗效敏感基因选取方法
韩 斌
1 ,+ , *
1
王 清
2
1, +
XIE Rui-Fei
2
LI Li-Hua
1
ZHU Lei
1
( College of Life Information Science & Instrument Engineering of Hangzhou Dianzi University ,Hangzhou 310018 ,China ) ( Hangzhou Cancer Hospital ,Hangzhou 310002 ,China )
Biological Effect Relevance Preferred Two Step Gene Marker Selection Methods for Ovarian Carcinoma Chemotherapy Prediction
HAN Bin
1
1 ,+ , *
WANG Qing
2
1 ,+
Abstract : Ovarian cancer ( OvCa ) is one of common and the most lethal types of gynecological cancer. Primary debulking surgery followed by chemotherapy is currently the standard of care for patients with ovarian cancer. However ,patients have different responses to chemotherapy ,predicting the prognosis of chemotherapy therefore become paramount important. In this study ,we proposed a method : first ,identify the gene markers primarily in terms of their diagnostic relevance , and then Monte Carlo simulation is used to rank the selected genes. Technically ,based on singular value decomposition ( SVD ) ,the scatter plots and Kolmogorov-Smirnov test ( KS test ) were used to depict the relevance of the genes and diagnostic outcomes ,then most relevant genes were sorted with Monte Carlo simulation. Compared to existing methods ,this approach gained higher accuracies and more robust to the noise. Out of the 50 identified genes , 4 ( NR2F2 、 CLDN3 、 PURA 、 C1ORF38a ) were reported 17 such as USO1 ,TCF7L2 ,NR2F2 etc ,were either cancer ,or tumor related ,or found to to be linked to OC , be involved in the biological process of cell proliferation ,DNA repair ,and metabolism. Key words : ovarian cancer chemotherapy ; supervised singular value decomposition ; gene selection ; random forests ; decision tree
一种改进的基于小波分析的假指纹检测方法

一种改进的基于小波分析的假指纹检测方法方珊珊;金亦挺;朱叶骏;陈婉君【摘要】假指纹检测技术用于检测假指纹对生物系统的攻击,笔者提出了一种改进的基于小波分析的假指纹检测算法.在原始小波分析方法对图像进行去噪处理后,将去噪图像和残留噪声图像用于计算局部二值模式直方图,从而提取得到指纹特征,该方法比原始小波分析方法可得到更多的纹理信息.随后用SVM-RFE方法进行特征选择.最后,支持向量机SVM 用于分类.在第二届假指纹检测竞赛提供的数据库和第三届假指纹检测竞赛提供的数据库上的测试得到,此方法的分类准确率分别为88.75%和89.37%,而第二届假指纹检测竞赛优胜者的分类准确率为74.41%,第三届假指纹检测竞赛优胜者的分类准确率为86.63%.%Fake fingerprint detection is a way to identify whether a fingerprint is from a live finger or not.This paper proposes an improved wavelet analysis based fake fingerprint detection method.After image denoising processing,wavelet analysis can be used to get noised image and de-noised image.LBP features are extracted from these images and be chosen by SVM-RFE feature selection method.Finally,support vector machine(SVM)is applied to train and classify.T he algorithm has been tested on the datasets provided by the second edition of the fingerprint liveness detectioncompetition(LivDet2011)and the third edition of the Fingerprint Liveness Detection Competition(LivDet2013).T he results show that the proposed method has better classification effect than those winners.The classification accuracy is 88.75%tested on LivDet2011 and 89.37%on LivDet2013.【期刊名称】《浙江工业大学学报》【年(卷),期】2018(046)004【总页数】5页(P382-386)【关键词】小波分析;局部二值模式;支持向量机;假指纹检测技术【作者】方珊珊;金亦挺;朱叶骏;陈婉君【作者单位】浙江工业大学计算机科学与技术学院,浙江杭州 310023;浙江工业大学计算机科学与技术学院,浙江杭州 310023;浙江工业大学计算机科学与技术学院,浙江杭州 310023;浙江工业大学计算机科学与技术学院,浙江杭州 310023【正文语种】中文【中图分类】TP391近年来,生物识别系统得到了越来越广泛的运用.其中指纹是人们最熟悉,也是应用最广泛的生物特征之一[1].但由廉价材料制成的假指纹,及其制作工艺的提高,对指纹识别系统造成了很大的威胁,确定指纹图像是否来自于活体指纹的假指纹检测方法因此产生.目前,普遍存在的假指纹检测方法可以分为:1) 基于硬件的假指纹检测方法,即用脉搏血氧量、手指表面的温度和手指皮肤的导电性等特性,这些特性需要在指纹采集仪中装入特殊的硬件设备来进行检测,因此会提高采集仪的制作成本;2) 基于软件的方法,即对指纹图像进行一定的图像处理,从而检测指纹的活性,进而判断指纹图像是否来自活体指纹.这种方法相对比较经济实用,且能用于现存的指纹采集仪[2].因此,对第二类假指纹检测方法的研究具有更大的推广意义和实用价值.在目前的研究中,多类特征用于检测指纹真伪.基于皮肤形变的方法主要用真假指纹弹性变化的区别来辨别真伪,但是若假指纹的材质与真指纹相似,便会影响算法性能[3];基于小波的分析方法主要通过计算指纹图片中残留噪声的标准来比较手指标明粗糙度,从而区分真假指纹[4],但是此方法对指纹采集仪的分辨率要求比较高(1 000 dpi,目前商用的指纹采集仪分辨率一般为500 dpi).基于空间表面粗糙度分析的方法(Patial surface coarseness analysis,简称SSCA),将空间特征引入小波分析模型[5].在第二届假指纹检测竞赛(LivDet2011)所用的Sagem数据库上实验证明,该方法不仅适用于分辨率为500 dpi的指纹图像,且有更高的识别率.但是此方法只用了残留噪声图像,且只提取标准差作为特征,该特征用于描述指纹纹理特征时可能存在不完整的情况.1 小波分析方法小波分析方法是一种对指纹图像做表面纹理分析的方法[6].由于小波分析可以对输入信号在不同的尺度下进行分析,因此可以将指纹图像谷线/脊线模式对表面粗糙度的影响最小化[7].一般将指纹表面粗糙度设为高斯白噪声,则残留噪声可以表示为η(x,y)=I(x,y)-I′(x,y)(1)式中:I(x,y)为原图像;I′(x,y)为去噪后的图像.指纹图像去噪步骤如下:1) 对指纹图像进行2层静态小波分解,得到一个近似值和6个细节值fv(x,y),v=1,2, (6)2) 对6个细节值分别用软阈值进行小波收缩,即(2)(3)式中:sgn(c)为c的信号;(c)+代表比较c和0得到的较大值;M为细节值的长度;σ为第1层分解得到的3个细节值计算所得的标准方差.3) 将一个近似值和所有的细节值重构,最终得到I′(x,y).原图像、去噪后的图像和相对应的残留噪声图像如图1所示.图1 图像去噪Fig.1 Image denoising2 局部二值模式局部二值模式是一种有效的图像纹理运算符,最早由Ojala等[8]提出.它是一种有效的旋转不变纹理分类方法,将中心像素值作为阈值,比较相邻像素点的值,从而得到一个二值序列.如果相邻像素值小于阈值,相应位置上的二值序列设置为0,大于阈值则设为1.将二值序列与相应权重相乘后相加,即为中心像素点的LBP值. 原始的局部二值模式用3×3的算子,如图2所示,但是它可能获取不到中心纹理特征.Ojala等[8]将原始LBP邻域做了改变,扩展至不同大小,使用了环状邻域,并对图像中的灰度值进行双线性插值.如图3所示,(Q,R)表示在半径为R的圆上的Q个点.对于灰度值的单调变化,LBPQ,R算子都是不变的.LBPQ,R计算公式为(4)其中(5)式中gq(q=0,…,Q-1)为环形对称领域.图2 原始LBP计算步骤Fig.2 An example of original LBP operator图3 环形邻域实例Fig.3 Examples of circular neighborhoods3 新算法指纹活性可以由提取到的特征训练得到模式分类器表述,这些分类器可以用来计算指纹图像的活性概率,从而判断图像来源于活体指纹或假指纹.算法对预处理后的指纹图像用小波分析得到去噪后的图像和噪声图像,从图像中提取得到局部二值模式特征,并用SVM-RFE方法进行特征选择.支持向量机(SVM)用于得到分类准则,从而得到最终值.算法步骤如图4所示.图4 算法步骤Fig.4 The steps of the proposed method3.1 特征提取图片预处理完成后,用小波分析来得到去噪后图像和噪声图像.首先,原图片用离散小波变换分解成两层,得到1个近似值和6个细节值.每1个细节值用软阈值方法进行去噪,通过近似值和去噪后的细节值进行小波重构得到去噪图像.原图像与去噪图像的差值即为噪声图像.由于从整幅图像中提取得到的特征主要反映全局信息,而不是局部信息.为了得到更多的局部信息,可以将去噪图像和残留噪声图像分为PxPy部分,Px和Py的最佳值可通过交叉验证得到.去噪图像和残留噪声图像的每一部分都用来计算局部二值模式直方图,从而得到特征值.局部二值模式直方图比文献[4]中的标准差方法能得到更多的局部信息.Q和R的值可以通过交叉验证方法得到.统一模式和旋转不变可以用来减少特征的维度,其定义如下:1) 统一模式.如果序列中的二进制数空间变换次数U(LBPQ,R)小于2,那么其局部二值模式即为统一模式.其公式定义为U(LBPQ,R)=|s(gQ-1-gc)-s(g0-gc)|+(6)2) 旋转不变.由于当图像旋转时,灰度值gq会根据g0所在圆的周长做相应变化.为了去除旋转所产生的影响,将指纹图像旋转从而得到一系列局部二值模式,中心点的局部二值模式值即为(7)式中ROR(e,i)表示对P位数e进行i次的环形右移操作.3)对所有提取到的特征进行归一化处理.其表达式为(8)式中:Xi为原始的特征向量;为归一化的特征向量.从整幅图像各个部分中提取到的特征可构成指纹图像的特征向量.3.2 特征选择SVM-RFE特征选择方法在文献[9]中用于肿瘤分类中的基因选择,这也是SVM-RFE首次被提出.嵌套的特征子集用后续去除法从所有特征变量中逐次去除一个特征变量的方式选择得到[10].每一步中,线性SVM的权重向量w的系数可以用来计算得到特征排序分值,排序分值ti=(wi)2最小的第特征就会被删除,wi代表权重向量w中相对应的组成部分.把ti=(wi)2作为排序准则,去除其中产生的最小目标函数变化的特征.在SVM-RFE特征选择中,目标函数为J=‖w‖2/2.最佳脑损坏算法(Optimal brain damage,简称OBD)可以解释这一点,删除给定特征后引起目标函数的变化可以近似的表示为对目标函数的二阶泰勒级数,即(9)在J取最优值时,一阶项就可以被忽略,令J=‖w‖2/2,式(9)可以表示为ΔJ(i)=(Δw i)2(10)Δwi=wi即为去除第i个特征.另外一种将(wi)2作为排序准则的解释是,对某个变量的目标函数J=‖w‖2/2进行敏感性分析.加入虚拟比例因子到核函数中计算梯度值,使k(xi,xj)变为k(v·x1,v·xj).对于线性SVM(线性核函数),因为vk=1,敏感度计算公式为(11)SVM-RFE递归消除步骤如下:1) 设R={ }为排完序的特征集,S为特征选择后的集合.2) 所有特征排序完成前重复如下步骤:用特征集合中的特征量作为输入变量训练线性SVM;得到权重向量;计算特征集合S中的排序分值ti=(wi)2;查找具有最小排序分值的特征e=argminiei;对2个集合进行更新R=[e,R],S=S-[e].3) 输出,排完序的特征序列R.在指纹特征提取后加入SVM-RFE特征选择步骤,可以去除冗余特征、减少无关特征,从而提高假指纹检测方法的有效性.用交叉验证方法对各特征子集进行训练测试,得到分类准确率最高的特征子集.3.3 分类提取得到所有特征量后,支持向量机SVM用于分辨真假指纹[11].针对训练集,多项式内核SVM用来得到分类准则,核函数通过交叉验证得到.对于测试集,SVM 用于得到分类结果.4 实验结果新算法在第二届假指纹检测竞赛(LivDet2011)和第三届假指纹检测竞赛(LivDet2013)的指纹图像数据库上进行了检测.LivDet2011数据库包括Biometrika, Digital persona,Italdata和Sagem指纹仪采集到的指纹图像,每种采集仪4 000枚图像,包括真指纹图像和假指纹图像各2 000枚(假指纹分别用5 种材料制作得到,每种材料采集400枚)[12].LivDet2013数据库包括了Biometrika,Crossmatch,Italdata和Swipe[13],指纹图像信息见表1.表1 LivDet2013数据库指纹图像(样本数量/指纹数量)Table 1 Training and testing set in LivDet2013(samples/numbers of fingers)数据库真指纹训练样本真指纹测试样本假指纹训练样本假指纹测试样本Biometrika1 000/2001000/1001 000/501 000/50Italdata1 000/2001 000/1001 000/501000/50Crossmatch1 250/5001 250/4401 000/1251 000/100Swipe1250/5001 250/5001 000/1251 000/100FerrLive,FerrFake和ACE可用于评价假指纹检测算法,FerrLive为据真率,即算法拒绝真指纹的概率,FerrFake为认假率,即算法接受假指纹的概率.平均分类错误率ACE=(FerrLive+FerrFake)/2计算得到,平均准确率则为1-ACE.表2为新算法提出的方法得到的据真率,认假率和平均准确率与LivDet2011竞赛获胜者的算法、文献[5]提出的空间表面粗糙度分析算法(SSCA)的对比.表3为新算法提出的方法得到的据真率,认假率和平均准确率与LivDet2013竞赛获胜者的算法的对比.在LivDet2011竞赛的Sagem数据库上的实验结果表明,新算法提出的算法比SSCA算法能更有效地区分真假指纹.新算法在LivDet2011竞赛、LivDet2013竞赛数据库上的算法平均准确率分别为88.75%和89.37%,比LivDet2011竞赛和LivDet2013竞赛优胜者的算法识别率更高.同时,新算法也对未用SVM-RFE特征选择的算法进行了测试,分类准确率为88.53%和88.98%.实验证明,特征选择也提高了分类准确率.新算法提出的算法能得到更高的分类准确率,主要在于将局部二值模式特征用于纹理分类时,其分类性能不会受到指纹质量的影响,且在此基础上将SVM-RFE用于特征选择,去除冗余特征,在提高算法效率的同时,也在一定程度上能提高算法的分类准确率.表2 各算法在LivDet2011数据库上的据真率、认假率和平均分类准确率Table 2 Comparison of FerrLive, FerrFakeand average rate of accuracy onLivDet2011 %算法类型据真率/认假率/平均分类准确率BiometrikaDigital PersonaItalDataSagemAverageLivDet2011竞赛获胜者38.00/42.00/60.006.20/11.60/91.1015.10/40.10/60.0013.80/13.10/86.5526.6 0/24.50/74.41文献[5]中SSCA算法───14.40/11.30/87.20─未用特征选择的新算法12.40/8.00/89.803.30/16.60/90.0517.00/15.30/83.856.10/13.10/90.409.70/1 3.25/88.53新算法12.25/7.70/90.033.10/16.60/90.2316.50/15.10/84.206.00/12.90/90.559.46/1 3.04/88.75表3 各算法在LivDet2013数据库上的据真率、认假率和平均分类准确率Table 3 Comparison of FerrLive, FerrFakeand average rate of accuracy onLivDet2013 %算法类型据真率/认假率/平均分类准确率BiometrikaCrossmatchItalDataSwipeAverageLivDet2013竞赛获胜者3.00/6.40/95.3031.28/31.10/68.802.10/4.90/96.5011.45/16.10/85.9311.96/14.62/86.63未用特征选择的新算法2.2/2.6/97.641.12/16.9/69.640.10/9.8/95.053.99/9.1/93.6411.85/9.6/88.98新算法2.15/2.55/97.6541.00/16.72/71.140.10/9.65/95.133.85/9.05/93.5511.78/9.49 /89.375 结论新算法提出了一种改进的基于小波分析的假指纹检测算法,改进了文献[5]中提出的算法,通过小波分析得到残留噪声图像和去噪图像,将两幅图像分成PxPy的区域计算局部二值模式直方图,替代标准差得到更多的局部纹理特征,并用SVM-RFE方法进行特征选择.Px和Py通过交叉验证方法获得,SVM用于做最终的决策.该方法可以适用于一般商用的分辨率为500 dpi的指纹采集仪.在LivDet2011数据库和LivDet2013数据库上的测试结果表明:笔者提出的算法比LivDet2011竞赛、LivDet2013竞赛获胜者以及SSCA算法更能有效地区分真假指纹,在LivDet2011数据库上的分类准确率为88.75%,LivDet2013数据库上的分类准确率为89.37%.本文得到了浙江工业大学校级自然科学基金(2014XY006)的资助.参考文献:[1] MARCIALIS G L, COLI P, ROLI F. Fingerprint liveness detection based on fake finger characteristics[J]. International journal of digital crime & forensics,2013,4(3):1-19.[2] GALBALLY J J, ALONSO-FERNANDEZ F, FIERREZ J, et al. A high performance fingerprint liveness detection method based on quality related features[J]. Future generation computer systems,2012,28(1):311-321.[3] SHEETS H D, BUSH P J, BUSH M A. Bitemarks: distortion and covariation of the maxillary and mandibular dentition as impressed in human skin[J]. Forensic science international,2012,223(1/2/3):202-207.[4] MOON Y S, CHEN J S, CHAN K C, et al. Wavelet based fingerprint liveness detection[J]. Electronics letters,2005,41(20):1112-1113.[5] PEREIRA L F A, PINHEIRO H N B, CAVALCANTI G D C, et al. Spatial surface coarseness analysis: technique for fingerprint spoof detection[J].Electronics letters,2013,49(4):260-261.[6] 兰秀菊,张丽霞,鲁建厦,等.基于小波分析和PSO-SVM的控制图混合模式识别[J].浙江工业大学学报,2012,40(5):532-536.[7] KUMAR S, MELKANI N, AWASTHI N, et al. Texture analysis and classification of polarimetric SAR images using histogrammeasures[C]∥International Conference on Signal Processing and Integrated Networks. Noida, India:IEEE,2015:506-511.[8] OJALA T, PIETIKINEN M, MENP T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE transactions on pattern analysis & machine intelligence,2000,24(7):971-987.[9] VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer,1995:988-999.[10] 郑莉莉,黄鲜萍,梁荣华.基于支持向量机的人体姿态识别[J].浙江工业大学学报,2012,40(6):670-675.[11] 王方红,黄文彪.孪生支持向量机的特征选择研究[J].浙江工业大学学报,2016,44(2):146-149.[12] YAMBAY D, GHIANI L, DENTI P, et al. LivDet 2011-Fingerprint liveness detection competition 2011[C]∥IAPR International Conference on Biometrics. New Delhi, India:IEEE,2012:208-215.[13] MURA V, GHIANI L, MARCIALIS G L, et al. LivDet 2015 fingerprint liveness detection competition 2015[C]//IEEE 7th International Conference on Biometrics Theory, Applications and Systems. Paris, France: IEEE,2015:1-6.。
基于SVR-RFE的作战方案评估指标选择方法

基于SVR-RFE的作战方案评估指标选择方法丁晓剑;丁冉【摘要】针对作战方案评价指标权值确定过程存在不确定和主观性的问题,本文提出了基于支持向量回归机的线性和非线性递归特征消除法(SVR-RFE).该方法利用权值向量和函数值作为SVR-RFE的特征选择标准,采用支持向量回归机(SVR)对特征选择前后的回归能力进行了分析比较.在某作战方案样本集上的仿真实验表明,线性和非线性SVR-RFE在作战方案数据集上的特征选择效果是一致的,在特征维度为50%左右时,SVR算法达到最优泛化性能.【期刊名称】《广西师范大学学报(自然科学版)》【年(卷),期】2015(033)004【总页数】6页(P43-48)【关键词】支持向量回归;递归特征消除法;评估指标【作者】丁晓剑;丁冉【作者单位】信息系统工程重点实验室,江苏南京210007;信息系统工程重点实验室,江苏南京210007【正文语种】中文【中图分类】E917;P18作战决策是指挥员进行作战指挥的重要依据,制定合理可行的备选作战方案是指挥员进行指挥决策的重要环节。
现代复杂对抗环境下作战指挥的核心是指挥员定下决心和实现决心,正确的作战决心以合理可行的作战方案为依据。
作战方案评估是对作战方案中评估指标体系进行评析和估量,判断其符合作战目的的程度。
为了适应高时效作战的需求,必须做到对作战方案进行高效评估,为指挥员提供决策支持。
评估指标体系的构建比较复杂,需要从多方面考虑影响作战效果的因素。
为了保证评估结果的全面性和鲁棒性,有必要从多个方面评估作战方案的作战效能,例如可行性、应变性和风险性等。
针对不同的作战效能,评估指标体系中各指标所占的权重是不同的。
有些指标对某种作战效能的评估起促进作用,对其他作战效能的评估可能起相反的作用。
在对每种作战效能评估时,需将具有负作用的指标从指标体系中删除以获得最佳评估结果。
在确定评价指标的权重时,一般多采用主观确定权重的方法,如层次分析法(AHP)[1-2]等。
基于机器学习筛选类风湿关节炎的诊断标志基因和免疫浸润分析

㊀㊀[摘要]㊀目的㊀基于机器学习筛选类风湿关节炎(RA)的诊断标志基因,并分析可能的免疫浸润机制,为RA的临床治疗提供参考㊂方法㊀从基因表达综合(GEO)数据库下载RA基因表达谱芯片数据集,将GSE55235和GSE77298作为联合芯片训练集,GSE55457作为独立验证数据集㊂使用R软件进行差异表达基因(DEGs)的筛选,并对这些DEGs进行基因本体论(GO)富集分析及京都基因与基因组百科全书(KEGG)富集分析㊂进一步应用三种机器学习算法筛选诊断基因,并进行外部验证和受试者工作特征(ROC)曲线分析㊂通过xCell算法分析免疫细胞在RA中的浸润情况㊂结果㊀筛选出RA的DEGs共704个㊂富集分析发现这些DEGs主要涉及白细胞介导的免疫㊁免疫应答的激活㊁白细胞迁移等相关免疫功能,以及趋化因子信号通路㊁利什曼病㊁类风湿关节炎等相关炎症通路㊂通过机器学习筛选出4个诊断基因,包括趋化因子CXC配体13(CXCL13)㊁富含亮氨酸重复序列结构域15(LRRC15)㊁多配体蛋白聚糖⁃1(SDC⁃1)和核酸结合蛋白3(YBX3)㊂免疫浸润分析结果显示,在RA中B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞的水平显著上调(P<0 05)㊂结论㊀RA的发生发展是多基因㊁多通路共同参与的结果,CXCL13㊁LRRC15㊁SDC⁃1和YBX3可能是诊断RA的潜在生物标志物㊂B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞可能在RA的发生中具有重要意义㊂㊀㊀[关键词]㊀类风湿关节炎;㊀机器学习;㊀生物信息学;㊀免疫浸润㊀㊀[中图分类号]㊀R593 22㊀[文献标识码]㊀A㊀[文章编号]㊀1674-3806(2023)12-1240-07㊀㊀doi:10.3969/j.issn.1674-3806.2023.12.07Machinelearning⁃basedscreeningofdiagnosticmarkergenesforrheumatoidarthritisandanalysisofimmuneinfiltration㊀LILing⁃qin,ZHOURui⁃jiao,ZHANGYan⁃ni,etal.DepartmentofRheumatology,AffiliatedHospitalofNorthSichuanMedicalCollege,Nanchong637000,China㊀㊀[Abstract]㊀Objective㊀Toscreenthediagnosticmarkergenesofrheumatoidarthritis(RA)andanalyzethepos⁃sibleimmuneinfiltrationmechanismbasedonbioinformaticsandmachinelearning,andtoprovidereferencefortheclinicaltreatmentofRA.Methods㊀ThegeneexpressionprofilesweredownloadedfromtheGeneExpressionOmnibus(GEO)data⁃base.GSE55235andGSE77298wereusedasthecombinedchiptrainingset,andGSE55457wasusedastheindependentvalidationdataset.Thedifferentiallyexpressedgenes(DEGs)werescreenedusingRsoftware,andGeneOntology(GO)enrichmentanalysisandKyotoEncyclopediaofGenesandGenomes(KEGG)enrichmentanalysiswereperformedfortheseDEGs.Threemachinelearningalgorithmswerefurtherappliedtoscreenthediagnosticgenesandperformtheexternalvalidationandreceiveroperatingcharacteristic(ROC)curveanalysis.Finally,thexCellmethodwasusedtocalculatetheinfiltrationofimmunecelltypesintheRA.TheinfiltrationofimmunecellsinRAwasanalyzedbyusingxCellalgo⁃rithm.Results㊀Atotalof704DEGsofRAwerescreened.TheresultsofenrichmentanalysisrevealedthattheseDEGsweremainlyinvolvedinsomerelatedimmunefunctions,suchasleukocyte⁃mediatedimmunity,activationofimmuneresponse,andleukocytemigration,andsomeinflammatorypathways,suchaschemokinesignalingpathway,Leishmani⁃asisandRheumatoidarthritis.Fourdiagnosticgenes,includingC⁃X⁃Cmotifchemokineligand13(CXCL13),leucinerichrepeatcontaining15(LRRC15),syndecan1(SDC⁃1)andY⁃boxbindingprotein3(YBX3),werescreenedusingmachinelearning.TheresultsoftheimmuneinfiltrationanalysisshowedthattheexpressionlevelsofBcells,CD4+Tcells,dendriticcellsandmonocytesweresignificantlyup⁃regulatedinRA.Conclusion㊀Multiplegenesandpath⁃waysareinvolvedintheoccurrenceanddevelopmentofRA.CXCL13,LRRC15,SDC⁃1andYBX3maybethepoten⁃tialbiomarkersforthediagnosisofRA.Moreover,Bcells,CD4+Tcells,dendriticcellsandmonocytesmayplayanimportantroleintheoccurrenceofRA.㊀㊀[Keywords]㊀Rheumatoidarthritis(RA);㊀Machinelearning;㊀Bioinformatics;㊀Immuneinfiltration㊀㊀类风湿关节炎(rheumatoidarthritis,RA)是一种慢性炎症性自身免疫疾病[1],主要影响滑膜关节,表现为滑膜微血管生成㊁滑膜衬里细胞增生,滑膜间质有大量免疫细胞浸润刺激局部炎症,若不及时治疗,可能会导致永久性关节损伤和残疾[2]㊂全世界大约每200名成年人中就有1人受RA的影响,且女性的发病率是男性的2 3倍,发病高峰期为50 59岁㊂据统计,RA患者的寿命较无RA者少6 11年[3]㊂虽然目前RA仍无法治愈,但早期诊断和及时治疗有助于减缓关节损害的进展,提高患者的生活质量[4]㊂RA的潜在发病机制尚未完全阐明,寻找与RA相关的发病关键基因并阐明其免疫机制有助于临床提高疾病的早期诊断能力[5]㊂目前,基于机器学习算法的免疫浸润和生物信息学分析可以挖掘新的诊断标志物,最近已应用于许多免疫相关疾病,包括溃疡性结肠炎㊁白癜风㊁骨关节炎和银屑病等[6]㊂鉴此,本研究通过生物信息学方法从RA数据集中筛选出差异表达基因(differentiallyexpressedgenes,DEGs),并进一步联合机器学习算法寻找最佳的RA诊断基因,并对RA可能的发病机制及免疫浸润机制进行探索,为RA的早期诊断以及靶向治疗研发提供参考㊂1㊀资料与方法1 1㊀数据资料检索㊀在基因表达综合(GeneExpres⁃sionOmnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)以 rheumatoidarthritis 为检索词进行检索㊂纳入标准:(1)包含RA患者和健康对照数据;(2)样本类别为关节滑膜组织;(3)芯片的平台信息明确㊂排除标准:(1)芯片平台上的基因探针ID无法转化为基因名称;(2)下载文件中的数据不完整或无效㊂根据上述纳入㊁排除标准从GEO数据库中选择了3个基因数据集:GSE55235㊁GSE77298和GSE55457㊂将GSE55457作为独立验证数据集,将GSE55235和GSE77298作为联合芯片训练集㊂各芯片数据文件以及相应的平台信息见表1㊂表1㊀数据集信息数据集平台种属样本类别来源文献RA患者例数健康对照者例数发表年份GSE55235GPL96人关节滑膜组织PMID:2469041410102014GSE77298GPL570人关节滑膜组织PMID:267115337162016GSE55457GPL96人关节滑膜组织PMID:24690414101320141 2㊀数据预处理㊀使用 Limma R包(版本)中的 normalizeBetweenArrays 函数来标准化GSE55235㊁GSE77298和GSE55457数据集,箱线图用于规范化处理后的可视化㊂1 3㊀DEGs的筛选㊀使用R统计软件中的Limma包研究联合芯片训练集的DEGs㊂筛选DEGs的截止值:adjustedP<0 05且|logFC|ȡ1㊂1 4㊀DEGs富集分析㊀应用R软件的ClusterProfiler数据包对DEGs进行基因本体论(GeneOntology,GO)富集分析和京都基因与基因组百科全书(KyotoEncy⁃clopediaofGenesandGenomes,KEGG)富集分析,以P<0 05为标准筛选㊂1 5㊀机器学习筛选诊断基因㊀使用支持向量机⁃递归特征消除(supportvectormachines⁃recursivefeatureelimination,SVM⁃RFE)㊁最小绝对值收敛和选择算子(leastabsoluteshrinkageandselectionoperator,LASSO)和随机森林(randomforest,RF)三种机器学习算法筛选诊断基因,最后取三种方法获得诊断基因的交集㊂1 6㊀诊断基因的验证以及诊断效能分析㊀将GSE55457作为独立的验证数据集,采用成组t检验,以P<0 05判定差异有统计学意义,建立受试者工作特征(receiveroperatingcharacteristic,ROC)曲线,计算曲线下面积(areaunderthecurve,AUC)值,评估研究指标诊断RA的效能㊂1 7㊀诊断模型的构建㊀整合诊断基因在验证集数据集中的表达矩阵,使用logistic回归分析构建诊断模型,应用R软件构建可视化的列线图来诊断RA患者,采用ROC曲线评估模型性能㊂1 8㊀免疫细胞浸润分析㊀应用xCell算法[7]计算淋巴细胞㊁髓系细胞㊁基质细胞㊁干细胞以及其他免疫细胞的相对表达量,并采用秩和检验比较RA组与健康对照组(HC组)的表达差异,以P<0 05为差异有统计学意义㊂2㊀结果2 1㊀数据预处理结果㊀应用R软件Limma包对数据集GSE55235㊁GSE77298和GSE55457进行标化处理,批次校正后各数据集间的数据分布趋于一致㊂见图1㊂GSE55235数据集(ⓐ标化前,ⓑ标化后);GSE77298数据集(ⓒ标化前,ⓓ标化后);GSE55457数据集(ⓔ标化前,ⓕ标化后)图1㊀芯片数据的标化处理结果图2 2㊀DEGs分析结果㊀通过分析联合芯片训练集中的数据,总共筛选出RA组和HC组的DEGs共704个,其中上调476个,下调228个,并将结果可视化为火山图(图2ⓐ)和热图(图2ⓑ)㊂图2㊀DEGs筛选结果图2 3㊀DEGs的GO富集分析和KEGG富集分析结果GO富集分析结果显示,DEGs主要富集于白细胞介导的免疫㊁免疫应答的激活㊁白细胞迁移㊁淋巴细胞介导的免疫㊂见图3ⓐ㊂KEGG富集分析结果显示,DEGs主要富集于趋化因子信号通路㊁利什曼病㊁RA㊁金黄色葡萄球菌感染等㊂见图3ⓑ㊂2 4㊀机器学习筛选诊断基因结果㊀SVM⁃RFE算法挑选出27个诊断基因(见图4ⓐⓑ),构建LASSO回归模型并进行交叉验证,误差最小值对应17个特征基因(见图4ⓒⓓ)㊂RF算法鉴定了39个特征基因(见图4ⓔⓕ)㊂取交集得到4个诊断基因:趋化因子CXC配体13(C⁃X⁃Cmotifchemokineligand13,CXCL13)㊁富含亮氨酸重复序列结构域15(leucinerichrepeatcontaining15,LRRC15)㊁多配体蛋白聚糖⁃1(syndecan1,SDC⁃1)和核酸结合蛋白3(Y⁃boxbindingprotein3,YBX3)㊂见图4ⓖ㊂图3㊀DEGs的GO富集分析和KEGG富集分析结果图图4㊀机器学习筛选RA的诊断基因结果图2 5㊀诊断基因的验证以及诊断效能分析㊀使用GSE55457芯片数据集对筛选出的4个诊断基因进行外部验证,结果显示,相对于HC组,YBX3基因表达在RA患者中显著下调(P<0 05),而CXCL13㊁LRRC15和SDC⁃1基因表达在RA患者中显著上调(P<0 05)㊂见图5㊂这与训练集中的基因表达趋势相同㊂ROC曲线分析结果显示,机器算法筛选得到的4个诊断基因在验证数据集中对RA具有较高的诊断效能(AUC>0 8)㊂见图6㊂2 6㊀诊断RA的列线图模型构建结果㊀基于验证数据集的诊断基因表达矩阵,使用logistic回归方法构建诊断预测模型,并通过列线图对模型进行可视化㊂见图7ⓐ㊂ROC曲线分析结果显示,相对于任意一个单独的诊断基因,组合模型对RA的诊断性能更高(AUC=0 985)㊂见图7ⓑ㊂2 7㊀免疫浸润分析结果㊀与HC组相比,RA组B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞水平显著上调(P<0 05)㊂见图8㊂图5㊀4个诊断基因在验证数据集中表达水平比较图图6㊀验证数据集中4个诊断基因ROC曲线图图7㊀诊断RA的列线图模型构建结果图ⓐ淋巴细胞;ⓑ髓系细胞;ⓒ基质细胞;ⓓ干细胞和其他细胞㊂蓝色为HC组,红色为RA组;∗P<0 05图8㊀免疫细胞在HC组和RA组免疫细胞表达水平比较结果图3㊀讨论在本研究中,笔者对RA的基因表达芯片数据进行了生物信息学分析,共鉴定出了704个DEGs㊂GO和KEGG富集分析结果表明,DEGs在与免疫反应有关的生物过程中明显富集㊂随后联合机器学习筛选出RA的诊断基因,最后得到4个诊断基因,即CXCL13㊁LRRC15㊁SDC⁃1和YBX3㊂在验证数据集中,ROC曲线分析结果显示这些基因对RA的诊断效能较高,具有较好的临床应用前景㊂3 1㊀RA是一种以滑膜炎症和进行性关节破坏为特征的慢性全身免疫介导疾病[8]㊂B细胞在RA发生中发挥了重要作用㊂自身反应性B细胞可产生直接参与关节损伤的IgG自身抗体[9]㊂CXCL13是B细胞一种关键的趋化因子,可通过调节局部免疫反应和抗体产生而参与疾病发生㊂研究表明,在RA患者中CXCL13水平显著升高[10]㊂不仅如此,CXCL13还可反映RA疾病的严重程度㊂Meeuwisse等[11]研究表明,RA患者CXCL13基线水平越高,其关节破坏率越高㊂使用阿达木单抗控制RA病情后,CXCL13水平显著下降,而在治疗中断时,CXCL13的水平上升至治疗前水平[12]㊂动物实验显示,使用抗CXCL13的多克隆抗体治疗可以降低小鼠关节疾病的严重程度并抑制生发中心的形成[13]㊂3 2㊀LRRC15目前被认为是一个有应用前景的抗癌靶点㊂而在RA方面,LRRC15在RA患者的滑膜组织中存在过表达,并与滑膜细胞的增殖㊁迁移㊁侵袭和血管生成能力增加以及促炎细胞因子的加速释放有关㊂动物实验显示,关节炎的发展导致平衡型滑膜成纤维细胞萎缩,出现以LRRC15表达为标志的滑膜成纤维细胞轮廓,其功能是增强炎症反应和基质分解过程[14]㊂敲低LRRC15表达不仅能够在体外抑制滑膜细胞的侵袭性表型,而且在体内也能显著抑制胶原诱导的关节炎小鼠的滑膜增殖,减少骨侵袭和破坏[2]㊂He等[5]也证实了LRRC15在RA模型大鼠滑膜组织中表达显著增加㊂本研究结果也显示LRRC15是参与RA微环境动态平衡失调的关键因子㊂3 3㊀SDC⁃1也被称为CD138,它可与许多配体相互作用,引发与细胞黏附㊁血管生成㊁炎症和组织修复相关的生物事件[15]㊂血清SDC⁃1被认为是炎症活动的潜在标志物[16]㊂阻断白介素(interleukin,IL)⁃34/SDC⁃1通路可减轻胶原诱导的关节炎症和骨破坏,并加剧血管生成[17]㊂Deyab等[18]研究表明,RA患者血清C反应蛋白水平与SDC⁃1水平呈显著正相关,当RA患者病情得到控制后,血清SDC⁃1水平显著降低㊂在其他风湿性疾病中也观察到相似的现象,如SDC⁃1水平与系统性红斑狼疮活动指数及抗dsDNA抗体水平呈正相关,活动性狼疮肾炎患者的血清SDC⁃1水平也高于非活动性狼疮肾炎患者及非肾炎患者[19]㊂3 4㊀YBX3是一个转录因子,参与调节上皮形态发生和稳态调节[20]㊂尤其在肿瘤性疾病方面的研究较为集中㊂YBX3通过调节胆汁酸生物合成途径导致肝细胞癌转移[21]㊂此外,YBX3高表达与直肠癌的深度浸润相关,抑制YBX3表达可以减少体内肿瘤生长[22]㊂另外,抑制YBX3表达也可以提高结直肠癌细胞对化疗药物的敏感性[23]㊂然而,尽管YBX3的上调增加了癌细胞侵袭和肿瘤化疗耐药,但在某些肿瘤中也显示出抗癌作用㊂有学者发现YBX3在低级别肾透明细胞癌中的表达水平较高,而在高级别肾透明细胞癌中表达降低[24]㊂本研究发现YBX3在RA中扮演重要角色,值得进一步通过基础实验开展研究㊂3 5㊀RA是一种全身炎症性自身免疫性疾病,理想的治疗策略应该是在组织损伤之前重新诱导自我耐受[25]㊂因此,明确疾病的免疫机制可为治疗提供重要帮助㊂本研究通过xCell算法探讨了RA的免疫特征,发现B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞呈高表达,这可能是RA发生发展的关键免疫细胞㊂在RA中,B细胞主要向CD4+T辅助细胞呈递自身抗原,外周血中的B细胞可分泌多种不同的细胞因子参与骨破坏,包括肿瘤坏死因子⁃α(tumornecrosisfactor⁃α,TNF⁃α)㊁IL⁃6和IL⁃1β等[26]㊂目前,B细胞抑制剂利妥昔单抗在治疗RA中取得良好效果㊂滑膜组织中的特殊成分和体内产生的内源性物质可由树突状细胞作为自身抗原呈现,激活CD4+T细胞并导致炎症㊂Inamo等[27]认为可使用CD4+T细胞中的转录组数据对RA缓解和非缓解情况进行分类㊂T滤泡辅助细胞是CD4+T细胞的一种亚型,可以帮助B细胞调节抗体产生,从而进一步参与RA的发生[28]㊂在RA中,单核细胞离开血液并浸润发炎的滑膜组织时,可以分化成外周血来源树突状细胞,通过促进IL⁃17的产生和向强效破骨细胞的转化参与骨关节破坏;反之,用于控制RA炎症的生物疗法可调节单核细胞向树突状细胞的转化过程㊂识别和控制外周血来源树突状细胞分化的环境介质以及潜在的分子信号通路,这可能是RA新疗法开发的突破关键[29]㊂综上所述,本研究基于机器学习方法筛选出CXCL13㊁LRRC15㊁SDC⁃1和YBX3等对RA诊断具有应用前景的因子,阐释了相关标志基因在RA中的生物学意义及可能的免疫机制,为RA的诊断和治疗靶点开发提供了参考㊂但本研究由于数据资料的限制,无法评估生物标志物或免疫细胞与RA患者临床特征的关联性,还需要更多的临床研究数据来进一步探索标志基因和相关免疫细胞在RA中的作用㊂参考文献[1]廖㊀霞,姚㊀婷,谢泓源,等.自噬相关基因在Janus蛋白酪氨酸激酶抑制剂治疗类风湿关节炎前后患者外周血单个核细胞中的表达及其临床意义[J].川北医学院学报,2023,38(6):736-740,744.[2]DingH,MeiX,LiL,etal.RUNX1amelioratesrheumatoidarthritisprogressionthroughepigeneticinhibitionofLRRC15[J].MolCells,2023,46(4):231-244.[3]SmithMH,BermanJR.Whatisrheumatoidarthritis?[J].JAMA,2022,327(12):1194.[4]CushJJ.Rheumatoidarthritis:earlydiagnosisandtreatment[J].MedClinNorthAm,2021,105(2):355-365.[5]HeX,YinJ,YuM,etal.Identificationandvalidationofhubgenesforpredictingtreatmenttargetsandimmunelandscapeinrheumatoidarthritis[J].BiomedResInt,2022,2022:8023779.[6]罗永金,胡晓霞,王㊀丹,等.基于生物信息学筛选与宫颈癌免疫相关的分子标志物[J].中国临床新医学,2022,15(4):325-331.[7]AranD,HuZ,ButteAJ.xCell:digitallyportrayingthetissuecellularheterogeneitylandscape[J].GenomeBiol,2017,18(1):220.[8]PrasadP,VermaS,Surbhi,etal.Rheumatoidarthritis:advancesintreatmentstrategies[J].MolCellBiochem,2023,478(1):69-88.[9]BechmanK,DalrympleA,Southey⁃BassolsC,etal.AsystematicreviewofCXCL13asabiomarkerofdiseaseandtreatmentresponseinrheu⁃matoidarthritis[J].BMCRheumatol,2020,4(1):70.[10]CooperDL,MartinSG,RobinsonJI,etal.FcγRⅢaexpressiononmonocytesinrheumatoidarthritis:roleinimmune⁃complexstimulatedTNFproductionandnon⁃responsetomethotrexatetherapy[J].PLoSOne,2012,7(1):e28918.[11]MeeuwisseCM,vanderLindenMP,RullmannTA,etal.Identifi⁃cationofCXCL13asamarkerforrheumatoidarthritisoutcomeusinganinsilicomodeloftherheumaticjoint[J].ArthritisRheum,2011,63(5):1265-1273.[12]KennedyWP,SimonJA,OffuttC,etal.Efficacyandsafetyofpate⁃clizumab(anti⁃lymphotoxin⁃α)comparedtoadalimumabinrheumatoidarthritis:ahead⁃to⁃headphase2randomizedcontrolledstudy(theALTARAStudy)[J].ArthritisResTher,2014,16(5):467.[13]KlimatchevaE,PandinaT,ReillyC,etal.CXCL13antibodyforthetreatmentofautoimmunedisorders[J].BMCImmunol,2015,16(1):6.[14]ArmakaM,KonstantopoulosD,TzaferisC,etal.Single⁃cellmul⁃timodalanalysisidentifiescommonregulatoryprogramsinsynovialfibroblastsofrheumatoidarthritispatientsandmodeledTNF⁃drivenarthritis[J].GenomeMed,2022,14(1):78.[15]XianX,GopalS,CouchmanJR.Syndecansasreceptorsandorgan⁃izersoftheextracellularmatrix[J].CellTissueRes,2010,339(1):31-46.[16]GopalS.Syndecansininflammationataglance[J].FrontImmu⁃nol,2020,11:227.[17]MeyerA,SienesR,ZanottiB,etal.DysregulationofIL⁃34ligationtoSDC⁃1mitigatescollagen⁃inducedarthritis[J].CellMolImmunol,2022,19(9):1070-1072.[18]DeyabG,ReineTM,VuongTT,etal.Antirheumatictreatmentisasso⁃ciatedwithreducedserumsyndecan⁃1inrheumatoidarthritis[J].PLoSOne,2021,16(7):e0253247.[19]KimKJ,KimJY,BaekIW,etal.Elevatedserumlevelsofsyndecan⁃1areassociatedwithrenalinvolvementinpatientswithsystemiclupuserythematosus[J].JRheumatol,2015,42(2):202-209.[20]MastrangeloMA,KleeneKC.DevelopmentalexpressionofY⁃boxprotein1mRNAandalternativelysplicedY⁃boxprotein3mRNAsinspermatogeniccellsinmice[J].MolHumReprod,2000,6(9):779-788.[21]HuangR,YanG,SunH,etal.Identificationofprognosticandmetastasis⁃relatedalternativesplicingsignaturesinhepatocellularcarcinoma[J].BiosciRep,2020,40(7):BSR20201001.[22]LiuRT,WangGR,LiuC,etal.RNAi⁃mediateddownregulationofDNAbindingproteinAinhibitstumorigenesisincolorectalcancer[J].IntJMolMed,2016,38(3):703-712.[23]TongC,QuK,WangG,etal.KnockdownofDNA⁃bindingproteinAenhancesthechemotherapysensitivityofcolorectalcancerviasup⁃pressingtheWnt/β⁃catenin/Chk1pathway[J].CellBiolInt,2020,44(10):2075-2085.[24]DupasquierS,DelmarcelleAS,MarbaixE,etal.Validationofhouse⁃keepinggeneandimpactonnormalizedgeneexpressioninclearcellrenalcellcarcinoma:criticalreassessmentofYBX3/ZONAB/CSDAexpression[J].BMCMolBiol,2014,15:9.[25]JiangQ,YangG,LiuQ,etal.FunctionandroleofregulatoryTcellsinrheumatoidarthritis[J].FrontImmunol,2021,12:626193.[26]WuF,GaoJ,KangJ,etal.Bcellsinrheumatoidarthritis:patho⁃genicmechanismsandtreatmentprospects[J].FrontImmunol,2021,12:750753.[27]InamoJ,SuzukiK,TakeshitaM,etal.MolecularremissionatTcelllevelinpatientswithrheumatoidarthritis[J].SciRep,2021,11(1):16691.[28]WangJ,XueY,ZhouL.Comparisonofimmunecellsanddiagnosticmarkersbetweenspondyloarthritisandrheumatoidarthritisbybioin⁃formaticsanalysis[J].JTranslMed,2022,20(1):196.[29]CoutantF.Shapingofmonocyte⁃deriveddendriticcelldevelopmentandfunctionbyenvironmentalfactorsinrheumatoidarthritis[J].IntJMolSci,2021,22(24):13670.[收稿日期㊀2023-05-12][本文编辑㊀余㊀军㊀韦㊀颖]本文引用格式李玲琴,周睿姣,张燕妮,等.基于机器学习筛选类风湿关节炎的诊断标志基因和免疫浸润分析[J].中国临床新医学,2023,16(12):1240-1246.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
111 SVM SVM 作为一个有效的分类工具 ,最近几年被广
泛应用于模式识别领域 ,它在解决小样本及高维模 式识别问题中表现出许多特有的优势 [ 21 - 22 ] 。 SVM 最初设计为解决两类样本问题 。算法寻求最优分
类面 ( hyperp lane) w x + b = 0 (w 为最优超平面的权 系数向量 , b为分类阈值 ) ,使得分类面不但能将两 类样本无错误地分开 , 而且使两类的分类间隔最 大 。两类之间的分类间隔为 2 / ‖w ‖[ 23 ] 。
29 卷 1 期 2010年 2月
中 国 生 物 医 学 工 程 学 报 Ch inese J ou rna l of B iom ed ica l Eng ineering
Vol. 29 No. 1 Feb rua ry 2010
基于 SVM 2RFE2SFS的基因选择方法
游 伟 李树涛 3 谭明奎
对于线性不可分数据 , SVM 通过引用映射函 数 ,将输入向量映射到一个高维的特征向量空间 , 从而在高维空间中寻求最优分类面 , 实现线性可 分 。判别函数为
l
∑ f ( x) = sgn
α i
yi
K(ຫໍສະໝຸດ xix)+b
(1)
i =1
式中 , sgn{ }为符号函数 ; xi 为训练样本 , i = 1, 2,
( College of E lectrica l and Inform ation Eng ineering, Hunan U niversity, Changsha 410082, Ch ina)
Abstract: M icroarray data usually contain a large quantity of irrelevant, noisy and redundant genes which may seriously deteriorate the p rediction accuracy. In addition, m icroarray data often encounter p roblem s of less samp les and multi2dimensions, which raises many difficulties in cancer diagnosis. In this article, we p roposed a new method for gene selection, combining recursive feature elim ination (RFE) and sequential forward selection ( SFS) based on support vector machine ( SVM ) . The ranking score of each gene was calculated by using SVM. The information of first order difference of the ranking scores was used to divide the genes into some group s. The group with the smallest score was elim inated, while the group with the largest score was selected. Analysis results with real2life benchmark datasets of leukem ia, colon, and breast demonstrate the high effectiveness and efficiency of the p roposed method.
原始 的 SVM 2RFE ( original SVM 2RFE, O 2SVM 2 RFE)每次只消去一个噪声基因 ,这使得它要承受巨 大的计算负担 。为了加快 SVM 2RFE 的运行效率 , 有些方法每次消去数个而不只一个基因 [ 18 - 19 ] ,如每 次消去剩余基因的一半被称作 H 2SVM 2RFE ( half SVM 2RFE) 。这些方法加快了运行速度 ,但是有可 能降低分类效果 [ 15, 20 ] ,并且没有相关理论表明每次 应消去多少个基因才能保证分类结果最优 。
doi: 10. 3969 / j. issn. 025828021. 2010. 01. 015 收稿日期 : 2009206219, 修回日期 : 2009210212 基金项目 :教育部新世纪优秀人才支持计划项目 (NECT22005) ;湖南省杰出青年基金项目 (06JJ1010) 3 通讯作者 。 E2mail: shutao_li@ yahoo. com. cn
基于此 ,本研究提出一种新的 SVM 2RFE2SFS方 法 ,在保证分类性能的同时 ,解决 O 2SVM 2RFE计算 繁重的问题 。首先 ,根据基因的排序准则分数的一 阶差分 ,把基因分成若干小组 。然后 ,对排序准则 分数值最小的基因组进行 RFE 处理 ,消去噪声基 因 ;同时 ,对排序准则分数值最大的基因组进行 SFS 选择 ,选取有效的信息基因 。为了验证本方法的理 论性及实时性 ,在白血病 、结肠癌 、乳腺癌数据集上 进行了相应的实验 。结果表明 ,经本方法进行的基 因选择 , 较 之 O 2SVM 2RFE 方法 , 分类 速度 明显 加 快 ,并且分类能力提高 。
数据进行诊断和应用是不可靠的 。因此 ,从中挑选 出具有最佳分类能力的基因 (即有效信息基因 )是 十分有必要的 [ 4 - 5 ] ,此过程即为基因选择 。
近年来 ,国内外学者已提出了不少用于基因选 择的 方 法 , 具 体 可 分 为 两 类 ———Filter 方 法 和 W rapper方法 [ 6 ] 。用 Filter方法进行基因选择与分 类器无关 ,各种统计学方法 (如 t检验 [ 7 ] 、W ilcoxon 秩检验 [ 8 ]等 )都是 Filter方法 。 Filter方法可以同时 处理大量数据 ,具有处理速度快的优点 ,缺点是只
Key words: gene selection; support vector machine; recursive feature elim ination; sequential forward selection
引言
基因微阵列技术能同时测量数以万计的基因 表达谱数据 ,这对在基因级别上研究疾病的发病机 理 、肿瘤的诊断 、基因药物的研制等都具有重要的 应用价值 [ 1 - 3 ] 。但是 ,基因表达数据存在样本少 、维 数高的问题 ,增加了肿瘤诊断的难度 ;另外 ,在基因 微阵列的高维数据中 , 大量的数据通常为冗余信 息 ,即存在大量的噪声基因 ,因而 ,用原始的微阵列
ci = (w i ) 2
(2)
SVM 2RFE特征选择算法为
输入 :训练样本 X0 = [ x1 , x2 , …, xl ]T ,类标签 y
用 ,实现在错分样本的比例与算法复杂度之间的折
中 ,在多数情况下 ,αi = 0,所对应的样本就称为支持 向量 ( SV ) 。
112 序列后向选择方法和序列前向选择方法
序 列 后 向 选 择 方 法 ( sequential backward
selection, SB S ) 和 序 列 前 向 选 择 方 法 ( sequential
这两种方法都产生嵌套的基因集合 。
113 SVM 2RFE Guyon证明 , SVM 2RFE比原先已有的基因选择
方法的分类能力有显著的提升 [ 14 ] 。该方法在运行
之初假定整个基因集合就是所需要的优化特征集 , 而后在算法的每一步运行中删除一个排序准则分
数最小的基因 ,显然 RFE 是一个 SB S过程 [ 26 ] 。基 因的排序准则分数为 [ 27 ]
forward selection, SFS)都是用于基因选择的搜索策
略方法 [ 24 ] 。在序列后向选择方法中 ,刚开始所需要
的特征集合假定是整个基因集 ,然后每次消去最差
的一个基因 [ 25 ] ;与之相反 ,序列前向选择方法把所
需要的特征集合初始化为一个空集 ,每次向特征集
合增加一个最好的基因 ,直到达到最后的特征集 。
…, l; yi ∈ { + 1, - 1} 为相应的类别标签 ; x为待分
类的样本 ; K ( xi x) 为核函数 ,常用的有 Polynom ial核
函 数 、Gaussian
核 函 数 、Sigmoid
核
函
数
;
α i
为
Lagrange系数 ,且有 0≤αi ≤C, C 为指定的常数 ,称
作惩罚参数 , 起到控制对错分样本惩罚程度的作
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
94
中 国 生 物 医 学 工 程 学 报
29卷
能够对单个基因的分类重要性进行衡量 ,隐含要求 模式是线性可分的 。而在生物过程中 ,往往是通过 多个基因的复杂组合来表达特异性的 ,因此用 Filter 方法会带来较大误差 ,一般用在数据预处理阶段 , 可以去除一部分非相关性的基因 。用 W rapper方法 进行基因选择与具体的分类器有关 ,即在分类过程中 进行基因选择 。W rapper方法包括遗传算法 [9 ] 、Gibbs 采样方法 [10 ] 、无监督学习的聚类法 [11 ] 、贝叶斯回归 分析 [12 ] 、支持向量机 ( SVM ) [13 ] ,等等 。W rapper法将 分类算法和基因选择结合在一起 ,准确性优于 Filter 法 ,但其分类性能与具体的分类器有关 ,因为需要重 复训练数据 ,因此计算量较大 [2 ] ,并且容易陷入局部 最优。 SVM 由于对稀疏和有噪声的小样本数据处理 有良好的效果 ,成为基因选择中广泛采用的重要方 法。基于 SVM , Guyon 首次提出 SVM 2RFE ( support vector machine recursive feature elim ination)方法 [14 ] 。 该方法利用递归特征去除 (RFE) ,逐个消去基因 ,取 得非常好的效果 ,成为基因选择中的经典算法 。围绕 SVM 2RFE,许多学者提出扩展算法 ,包括多重 SVM 2 RFE法 [15 ] 、模糊聚类 SVM 2RFE法 [16 ] 、解决多类问题 的 SVM 2RFE法 [17 ]等 。