基于支持向量机方法的HERG钾离子通道抑制剂分类模型
HERG钾离子通道与药物心脏毒性的安全性评价

HERG钾离子通道与药物心脏毒性的安全性评价郭舜【摘要】The human ether-a-go-go-related gene( HERG )encodes the pore-forming α-subunits of channels that conduct the rapid delayed rectifier K + current, which is one of the most important membrane currents responsible for ventricular action potential repolarization The absence of HERG function or drug inhibition results in a long QT interval,which may induce torsadestachycardia and lead to arrhythmia. The HERG potassium ion channels as anti-arrhythmic drug treatment target, hasmore and more displayed its important roles in new drugs safety test and development.%人类ether-a-go-go相关基因(HERG)编码的快速延迟整流钾离子通道(Ikr)的α亚基介导的快速延迟整流钾电流在心肌动作电位复极过程中发挥着重要作用.HERG功能的缺失及药物抑制影响心脏动作电位复极过程,并会引起QT间期延长,同时可能诱发尖端扭转型室性心动过速,导致心律失常.HERG钾离子通道作为抗心律失常药物治疗的标靶,同时也越来越体现出在新药安全性检测和新药开发过程中的重要作用.【期刊名称】《医学综述》【年(卷),期】2012(018)016【总页数】4页(P2572-2575)【关键词】HERG基因;QT间期延长;药物安全评价【作者】郭舜【作者单位】天津中医药大学,天津,300193【正文语种】中文【中图分类】R966随着科学技术的发展,人类对于生命科学的研究取得了巨大的进步。
计算机辅助药物设计在天然产物多靶点 药物研发中的应用

[19 ]
从已知的具有明确抗
提取其结构片段和功能片段, 哮喘活性的西药化合物出发, 利用片段搜索技术和相似性搜索技术成功获得了能分别作 用于 8 个靶点的来源于 39 个常用中药中的 72 个中药活性 成分, 其中包括多个能作用于多靶点的活性分子 。 同时本研 究进行了多靶点整体治疗方剂的组方设计, 针对寒哮和热哮 2 个证型, 分别获得了 1 个多靶点效应方剂。 1. 4 基于组合方法的虚拟筛选 如上文所述, 基于分子对 接的虚拟筛选具有特异性高 、 能直观的观察配体分子与受体 分子之间的结合关系等优势, 基于药效团和分子片段的虚拟 筛选具有快速高效等优势;同时研究人员已经开发了更多的 QSAR 等, 虚拟筛选方法, 包括相似性搜索、 片段搜索、 这些方 法正在或将会被应用于多靶点药物的研发
[3 ] “多药方式可分为 3 类 , 多靶点 ” 药物, 其本质是 第一类是
“单成分的 多靶点” 药物的发现与设计方法进行系统梳理, 总结各方法的适用性, 为基于天然产物的多靶点药物研发提 供技术指导与帮助。 1 虚拟筛选 虚拟筛选是基于小分子数据库开展的活性化合物筛选, 主要包括分子对接、 药效团筛选和片段搜索等方法, 其能系 统快速地研究药物的杂范性 最有效的方法
咪达唑仑对hERG钾通道的作用

咪达唑仑对hERG钾通道的作用韩圣娜;王沛;张卫;张莉蓉【摘要】目的:观察咪达唑仑对人胚肾上皮细胞(HEK-293)中异源表达的人类相关基因(hERG)钾电流作用及其机制.方法:利用全细胞膜片钳技术,观察咪达唑仑对hERG钾通道的抑制作用,分析其对通道激活、失活动力学过程的影响以及咪达唑仑对Y652A和F656C突变型hERG钾通道的作用.结果:咪达唑仑浓度依赖性地抑制hERG钾电流,其IC50值为(1.31±0.32)μnol/L.1.0μmol/L的咪达唑仑加药前后半数激活电压V1/2由(2.32±0.38)mV变为(-1.96±0.83)mY;加药前后半数失活电压V1/2由(-49.25±0.69)mV变为(-57.53±0.53)mV(P<0.05),失活曲线左移;与野生型(WT)比较,Y652A和F656C突变型可显著减弱咪达唑仑对hERG通道的阻断作用.结论:咪达唑仑能阻断hERG钾通道,失活速度加快,Y652和F656可能是咪达唑仑与bERG钾通道结合的关键位点.【期刊名称】《中国应用生理学杂志》【年(卷),期】2015(031)002【总页数】5页(P143-147)【关键词】咪达唑仑;hERG钾通道;全细胞膜片钳;HEK-293细胞【作者】韩圣娜;王沛;张卫;张莉蓉【作者单位】郑州大学基础医学院药理学教研室,河南郑州450001;郑州大学药学院,河南郑州450001;郑州大学第一附属医院麻醉科,河南郑州450052;郑州大学基础医学院药理学教研室,河南郑州450001【正文语种】中文【中图分类】R978.1心律失常是围手术期常见的一种心血管并发症,是导致患者死亡的重要因素之一。
其中围手术期出现QT间期延长,诱发药源性长QT综合征(long QT syndrome,LQTS),尖端扭转型室性心动过速(torsade de pointes,TdP),甚至猝死等,均增加麻醉和手术的风险,引起临床麻醉医生的高度重视[1,2]。
基于支持向量机与反K近邻的分类算法研究

基于支持向量机与反K近邻的分类算法研究
陈丽;陈静;高新涛;王来生
【期刊名称】《计算机工程与应用》
【年(卷),期】2010(046)024
【摘要】针对支持向量机在对样本进行分类时,决策超平面附近的点较易错分的问题,首先将反K近邻法引入分类问题,提出了反K近邻分类算法;然后,将支持向量机(SVM)与反K近邻分类算法(RRNN)相结合,提出了基于支持向量机与反K近邻的分类算法(SVM-RKNN);最后,为了避免单一分类器可能存在的片面性问题,提出了基于SVM-RKNN的多特征融合分类方法.实验结果表明:SVM-RKNN分类算法的分类准确率比SVM方法平均提高了2.13%,而基于SVM-RKNN的多特征融合分类算法的分类准确率分别比SVM和SVM-RKNN算法平均提高了2.54%和0.41%.【总页数】4页(P135-137,188)
【作者】陈丽;陈静;高新涛;王来生
【作者单位】中国农业大学理学院,北京,100083;中国农业大学理学院,北
京,100083;郑州大学数学系,郑州,450001;中国农业大学理学院,北京,100083【正文语种】中文
【中图分类】TP181
【相关文献】
1.基于支持向量机的人脸图像质量分类算法研究 [J], 李昆仑;兰长明
2.基于支持向量机的模糊特征分类算法研究 [J], 安旭;张树东
3.基于K近邻的支持向量机分类方法 [J], 和文全;薛惠峰;解丹蕊;杜喆
4.基于模糊k近邻的样本预选取的支持向量机分类算法 [J], 南光浩
5.基于改进支持向量机的运动视频内容分类算法研究 [J], 许淑贤
因版权原因,仅展示原文概要,查看原文内容请购买。
HERG钾通道论文:HERG钾通道蛋白酪氨酸磷酸酶非受体型12免疫共沉淀

HERG钾通道论文:HERG钾通道蛋白酪氨酸磷酸酶非受体型12 免疫共沉淀【中文摘要】由人类果蝇相关基因—HERG (Humanether-a-go-go-related gene)编码的心脏HERG钾通道属于电压依赖性钾通道,介导快速激活延迟整流钾电流(rapidly activated delayed rectifier potassium currents, Ikr)。
HERG钾通道是心脏正常电活动的基础,HERG基因突变及药物阻断该通道后可导致长QT综合征(the long QT syndrome, LQTS)。
目前已发现10个与LQTS 相关基因。
其中,HERG突变可以导致第二型的LQTS(LQT2),是LQTS的第二常见原因。
而蛋白质-蛋白质相互作用是很多细胞功能的重要基础,信号转导、细胞周期调控、RNA转录、DNA复制、蛋白质翻译、蛋白质翻译后加工及修饰等功能的完成都依赖于蛋白质-蛋白质的相互作用。
近年已报道一些蛋白质与HERG钾通道存在相互作用并调控该通道蛋白的表达、转运及功能。
本课题组前期研究应用酵母菌双杂交技术初步筛选出与HERG钾通道蛋白氨基末端存在相互作用的15个蛋白质,包括:蛋白酪氨酸磷酸酶非受体型12 (Tyrosine-protein phosphatase non-receptor type 12, PTPN12)、caveolin-1、FHL2、Myotrophin蛋白等,其中的PTPN12可能对HERG钾通道具有重要的调控作用,进一步证明PTPN12与心脏HERG钾通道存在相互作用,并阐明PTPN12对HERG钾通道功能是否存在调控作用,为开发治疗HERG钾通道异常所致心律失常的蛋白质药物奠定基础。
鉴定HERG钾通道的相互作用蛋白,研究PTPN12对HERG钾通道功能的调控作用。
方法:(1)应用免疫共沉淀技术进一步验证酵母双杂交所筛选蛋白与HERG之间的相互作用:将抗HERG特异性抗体和总蛋白进行混合,再加入Protein A/G Plus-Agarose进行混合,离心沉淀,将沉淀物进行电泳,随后应用抗PTPN12抗体进行Western Blot分析。
HERG论文:盐酸昌欣沙星抑制HERG钾离子通道分子机制的研究

HERG论文:盐酸昌欣沙星抑制HERG钾离子通道分子机制的研究【中文摘要】HERG (human ether a-go-go related gene)基因最初发现于人脑的海马组织,编码延迟整流钾通道快速成分(rapid component of delayed rectifier potassium channel, IKr)的α亚基,其介导的HERG钾离子流(IHERG)在心肌动作电位复极化3期过程中发挥重要作用。
研究表明,HERG突变是2型遗传性长QT综合征(long QT syndrome, LQT2)发病的分子生物学基础,而药物引起的HERG钾通道的阻断是获得性LQTS的主要原因。
严重时二者均可引起心肌动作电位复极化时程延长,诱发心律失常,如尖端扭转型室性心动过速(Torsades de pointes, Tdp),以体表心电图QT间期延长,发作性晕厥或心源性猝死为典型临床症状。
HERG钾通道能被多种药物阻断是由其特殊的分子结构决定的。
HERG钾通道与其他钾通道相比,内腔较大,易被一些药物结合,且内腔中的一些氨基酸,如Tyr652, Phe656与多种药物高度亲和,抑制IHERG°目前已知能够通过阻断HERG钾离子通道引起LQTS的药物有心血管系统药物以及多种非心血管系统药物,如抗疟疾药、抗组胺类药、和抗肿瘤药、肌肉松弛剂,抗生素和抗菌剂等都可通过与HERG钾通道内腔氨基酸结合,不同程度地抑制IHERG,诱发心律失常。
因此,近年来在新药研发过程中,药物对IHERG的阻断作用就成为药物研发过程中心脏安全评价的重要指标之一,精确理解药物阻断作用的分子机制则成为临床工作者和基础研究人员关注的焦点问题。
氟喹诺酮类抗菌药是广泛用于感染性疾病的第三代喹诺酮类抗菌药。
因其口服易吸收,抗菌活性强而在临床上广泛应用。
然而,近年来随着这类药物临床应用面的扩大,因几种氟喹诺酮类抗菌药物抑制HERG而使心肌复极化3期时程延长,进而导致体表心电图QT间期延长,诱发获得性LQTS的报道不断公诸于世。
HERG钾通道与疾病

HERG钾通道与疾病【摘要】herg是筛选人类海马的cdna文库而分离得到的。
herg 编码快速型延迟整流钾电流(ikr)的α亚基,在人脑、心肌、肝脏和脾脏等多种组织中均有表达。
越来越多的临床研究表明许多药物引起的心血管不良反应与抑制herg钾通道有关。
另外,herg在一些肿瘤细胞中的高表达也提示herg很可能在肿瘤的发生发展过程中起着重要的作用。
【关键词】herg;心血管不良反应;肿瘤herg最初是由warmke,ganetzky通过用小鼠的ether-a-go-go 同源染色体筛选人类海马的cdna文库而分离得到的[1]。
herg属于eag基因家族,定位于人类7号染色体上(7p35-36),全长55 kb,有16个外显子,大小不一。
herg编码的蛋白含有1159个氨基酸,氨基酸两端(n端和c端)均位于细胞内,n端与通道的失活关系密切。
herg通道由4个亚单位组成,每个亚单位具有6个α螺旋的跨膜结构(s1-s6)和1个孔区,其中s4携带7个正电荷,是通道的电压敏感区。
herg在人脑、心肌、肝脏和脾脏等多种组织中均有表达,在心肌组织中表达最多。
herg编码快速型延迟整流钾电流(ikr)是人类心肌细胞动作电位3相快速复极的主要电流。
herg基因突变导致herg通道的激活、失活功能异常,形成各种疾病,如心律失常。
长qt综合征( long qt syndrome,lqts)最常见原因就是herg基因突变,如herg基因y475c突变导致2型长qt综合征[2]。
lqts的特征是心室复极化延长,反复发作的晕厥(常在运动或情绪紧张时发作),伴有突发心源性猝死的危险性。
心电图表现为qt间期延长(> 460ms),t波和u波异常。
临床特点是发作性心律失常,产生尖端扭转性室速(torsade de pointes,tdp),后者可转变为室颤,严重者可致心源性猝死[3]。
一些herg基因还可以增加ikr电流引起短qt综合征(sqts)[4]。
【国家自然科学基金】_herg_基金支持热词逐年推荐_【万方软件创新助手】_20140730

科研热词 推荐指数 herg 3 长qt综合征2型 1 长qt综合征 1 钾通道 1 酵母双杂交 1 蛋白酪氨酸磷酸酶非受体型 1 蛋白质相互作用 1 蛋白质 1 药物致心律失常 1 药物拯救 1 胞内钙离子 1 胃癌 1 盐酸昌欣沙星 1 氨基糖甙类药物 1 氟喹诺酮 1 无义突变 1 抗心律失常药 1 尖端扭转性室性心动过速 1 增殖 1 基因突变 1 在体动物模型 1 凋亡 1 侵袭 1 体外模型 1 herg钾离子通道 1 herg基因 1 herg k+通道蛋白 1 e-4031 1 12 1 1
科研热词 推荐指数 钾离子通道 4 herg钾通道 4 膜片钳技术 2 胃癌 2 herg 2 caveolin-1 2 靶向治疗 1 长qt综合征 1 通道合成 1 蛋白酪氨酸磷酸酶非受体型12 1 药物治疗 1 药物应用 1 苄基 1 膜电流 1 膜片钳 1 脂筏 1 肿瘤 1 肥厚型心肌病 1 细胞增殖 1 细胞凋亡 1 短qt间期 1 电生理特性 1 电流密度 1 心血管病学 1 心源性猝死 1 心律失常 1 延胡索乙素 1 增殖 1 基因突变 1 动作电位 1 免疫荧光细胞化学 1 免疫共沉淀 1 人类果蝇相关基因,钾通道 1 人eag相关基因 1 support vector machine(svm) 1 scn5a 1 rna干扰 1 qt延长综合征 1 ptc124 1 pegfp-c2 1 pcdna3 1 mutation 1 moe descriptors 1 maccs fingerprints 1 kcnq1 1 kcnfa 1 human ether-a-go-go-related gene 1 herg通道阻断剂 1 herg potassium ion channel 1 hek293细胞 1 eukaryotic expression vector 1 classification models 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于支持向量机方法的HERG 钾离子通道抑制剂分类模型李平2谈宁馨2饶含兵1李泽荣1,*陈宇综3(1四川大学化学学院,成都610065;2四川大学化学工程学院,成都610065;3Department of Pharmacy,National University of Singapore,Singapore 117543)摘要:对human ether -a -g ò-g òrelated genes(HERG)钾离子通道(钾通道)抑制剂,计算了表征分子组成、电荷分布、拓扑、几何结构及物理化学性质等特征的1559个分子描述符,采用Fischer Score(F -Score)排序过滤和Monte Carlo 模拟退火法相结合从中筛选与HERG 钾通道抑制剂分类相关的分子描述符.采用支持向量机(SVM)方法,分别以IC 50=1.0、10.0μmol ·L -1为分类标准,建立了三个分类预测模型.对367个训练集分子,用五重交叉验证,得到正、负样本的平均预测精度分别为84.8%-96.6%、80.7%-97.7%,其总的平均预测精度为87.1%-97.2%,优于其它文献报道结果.对97个外部测试集分子,所建三个模型的总样本预测精度在67.0%-90.1%之间,接近或优于其它文献报道结果.关键词:支持向量机;HERG 钾通道抑制剂;Monte Carlo 模拟退火法中图分类号:O641Classification Models for HERG Potassium Channel InhibitorsBased on the Support Vector Machine ApproachLI Ping 2TAN Ning -Xin 2RAO Han -Bing 1LI Ze -Rong 1,*CHEN Yu -Zong 3(1College of Chemistry,Sichuan University,Chengdu 610065,P.R.China ;2College of Chemical Engineering,Sichuan University,Chengdu 610065,P.R.China ;3Department of Pharmacy,National University of Singapore,Singapore 117543)Abstract :We calculated 1559molecular descriptors including constitutional,charge distribution,topological,geometrical,and physicochemical descriptors to characterize the molecular structure of human ether -a -g ò-g òrelated genes (HERG)potassium channel inhibitors.A hybrid filter/wrapper approach combing the Fischer Score (F -Score)and Monte Carlo simulated annealing was used to select molecular descriptors relevant to the discrimination of HERG potassium channel inhibitors.Three classification models with threshold values of IC 50=1.0,10.0μmol ·L -1,respectively,were built using the support vector machine (SVM)approach.Models developed from 367training set molecules were validated through 5-fold cross -validation (CV)and the average prediction accuracies were 84.8%-96.6%,80.7%-97.7%,and 87.1%-97.2%for the positive,negative,and overall samples,respectively,which showed better performance than models previously reported in literature.Overall prediction accuracies for the three models using an external test set of 97molecules were between 67.0%and 90.1%,which were close to or better than the results reported in literature.Key Words :Support vector machine;HEGR potassium channel inhibitor;Monte Carlo simulated annealing[Article]物理化学学报(Wuli Huaxue Xuebao )Acta Phys.-Chim.Sin .,2009,25(8):1581-1586Received:February 20,2009;Revised:April 20,2009;Published on Web:June 1,2009.*Corresponding author.Email:lizrscu@;Tel:+86-28-85406139鬁Editorial office of Acta Physico -Chimica SinicaHERG 基因编码的钾离子通道存在于人类心室和心房肌细胞中,其HERG 通道编码心脏快速延迟整流钾电流I Kr ,为心肌细胞动作电位三相复极期的主要外向钾电流,在心脏动作电位复极化过程中发挥着重要作用[1].此外,快速延迟整流钾通道(I Kr /HERG 通道)是III 类抗心律失常药物的作用靶点,被某些药物作用时,会引起长QT 间期综合征(LQTS),进而导致尖端扭转性室性心动加速(TdP,Torsade deAugust 1581Acta Phys.-Chim.Sin.,2009Vol.25Pointes),甚至猝死[2].因此,药物通过阻滞HERG通道产生心律失常的不良反应已成为药物开发中一个必须考虑的问题.药物从研发到上市的过程非常漫长,其中很多化合物因为药物吸收、分布、代谢、排泄及毒性(ADMET)性质不佳而被中止开发,给制药企业造成巨大的经济损失.目前很多公司运用高通量筛选的方法和虚拟ADMET预测的方法以降低药物研发后期的风险性.具有HERG阻滞活性的部分药物,其化学结构具有多样性,如能借助计算机模拟技术对新化学实体是否具有致心律失常的不良反应进行有效的预测和筛选,这将为新药的设计和研究中避免心律失常的不良反应产生指导作用.近年来,有一些关于药物对HERG钾通道抑制活性的虚拟预测方法的报道,例如定量构效关系(QSAR)[3-7]和分类方法[1,8],包括朴素贝叶斯(naive bayes)[9]、决策树(decision tree)[10]、随机森林(random forests)[11]、偏最小二乘(PLS)[11,12]和SVM[12-15]等方法.然而,这些研究大多使用结构差异性小的数据组构建的分类模型,其应用范围有限;有的模型虽用了结构差异性大的数据组,结果却不很理想.因此,为了提高模型的预测精度,拓宽模型的应用范围,有必要详细研究如何使用结构差异性大的数据组来构建分类预测模型.1原理与方法1.1数据收集所研究的化合物包含两个部分:训练集和外部测试集.训练集含367个结构多样性的化合物,其实验半数抑制浓度IC50数据来自文献[3],列于附表S1(见Supporting Information,在物理化学学报网站上可免费下载).该文献共提供了371个HERG钾通道抑制剂,其中有两个(附表S1中No.277(RP58866)和No.290(terikalant)[3])化合物为旋光异构体,由于本文的分子描述符中没有包含区别旋光异构体的描述符,所以本研究仅保留了其中一个,即terikalant.另外,附表S1中145号、238号和246号化合物[3] (分别为dofetilide N-acetyl,N-demethylerythromycin, noracetylmethadone),因不清楚其结构,所以本文数据集中也没有包含这三个化合物.在分类模型的建立中,需根据化合物IC50大小将数据集中化合物分类为有活性化合物和无活性化合物.本文采用与文献[3]相同的分类标准,即IC50=1.0、10.0μmol·L-1为阈值,构造了三个分类模型:模型I,按IC50=1.0μmol·L-1为标准,有118个化合物IC50<1.0μmol·L-1,被划分为活性化合物,有249个化合物IC50≥1.0μmol·L-1,被划分为非活性化合物;模型II,按IC50= 10.0μmol·L-1为标准,有229个化合物IC50<10.0μmol·L-1,被划分为活性化合物,有135个化合物IC50≥10.0μmol·L-1,被划分为非活性化合物;模型III,同时采用IC50=1.0μmol·L-1和IC50=10.0μmol·L-1为分类标准,将IC50<1.0μmol·L-1的化合物划分为活性化合物,而将IC50>10.0μmol·L-1的化合物划分为非活性化合物,这样,数据集中有118个化合物被划分为活性化合物,132个化合物作为被划分为非活性化合物.对每一个模型,分别使用五重交叉方法进行模型验证,即将所有数据随机地分成样本数目相等(或近似相等)的五组,每次取其中的四组用于训练模型,称为训练集,剩余的一组用于测试模型的预测精度,称为测试集,如此交替反复五次,使每一组依此用作测试集.外部测试集为从文献[16-19]中收集的97个新化合物(列于附表S2,见Supporting Information),用于衡量由训练集建立模型的预测能力.所有分子的稳定结构均用Hyperchem7.0[20]中的MM+分子力场优化得到.1.2分子描述符分子描述符用本小组自行编制的MODEL[21]软件计算.此软件可以计算3778个描述符,共有六类,分别为组成描述符、电荷相关描述符、物理化学性质描述符、拓扑描述符、几何描述符和量子化学描述符.为了节约计算时间和成本,本文未包含量子化学描述符.因而,对每个分子计算了1559个描述符,包括21个组成描述符、19个电荷相关描述符、2个物理化学性质描述符、471个拓扑描述符和1046个几何描述符.1.3描述符筛选方法由于所计算的1559个描述符并非都与分子的所研究的活性相关,且描述符之间可能存在线性相关,因此,有必要从中选择恰当的描述符子集以使所建立的模型具有最优的预测能力.本文采用一套混合描述符筛选方法来寻找最佳的描述符子集.其步骤如下.(1)预处理.首先,如果有90%样本的同一个描述符值是相同的,而这些样本的活性又具有显著区别,显然,这个描述符对区别分子的活性无效,将它删除.其次,如果对任意一个描述符,遍及所有的样1582No.8李平等:基于支持向量机方法的HERG钾离子通道抑制剂分类模型本计算该描述符的相对标准偏差,如果小于0.05,则删除该描述符.最后,如果两个描述符的Pearson相关系数[22]大于0.9,则说明这两个描述符高度相关,删除其中之一描述符.(2)描述符排序.经过预处理后的描述符,按照Fischer Score(F-Score)[23]值递减的顺序排序.F-Score 值(F(i))是单个描述符的分辨能力的简单度量,定义为,F(i)=(μ+i-μ-i)2(σ+i+σ-i)2(1)其中μ+i和μ-i分别是第i个描述符的正、负样本的平均值,σ+i和σ-i分别是它们的标准偏差.某个描述符的F-Score值越大,它的分辨能力就越强.筛选步骤如下:①计算每一个描述符的F-Score值;②将所有描述符按照F-Score值从大到小的顺序排序;③用五重交叉方法得到SVM模型平均推广误差,并优化模型参数σ,使SVM模型平均推广误差最小;④删除最后10个描述符,回到第③步,直至推广误差最小.由此,得到按F-Score值过滤的优化描述符子集及其对应的优化σ值.(3)Monte Carlo模拟退火算法.模拟退火算法是一种物理模拟过程,在此,运用蒙特卡洛模拟退火法(MC-SA)结合SVM,文献[24]有类似的描述.可以简要概括步骤如下:①给定高斯核函数的初值σ;②给定模拟初始温度T;③随机选择一组描述符子集作为初始解;④用五重交叉验证计算SVM模型的平均总预测精度作为适应度函数Q old;⑤对描述符子集给一随机微扰,得到一新描述符子集,按照上述方法获得新的适应度函数Q new;⑥如果Q old<Q new,则接受新的描述符子集替代原来的描述符子集;如果Q old>Q new,则以概率P=e-(Q old-Q new)/T接受为新描述符子集;⑦回到步骤⑤,直到达到此温度下的最大平衡步数;⑧降低模拟退火温度T,回到步骤③,直到达到最低模拟退火温度;⑨系统地调整σ值,返回步骤②,直至得到最大平均总的预测精度.由此,可得最佳描述符子集和对应的σ值,给出最终的SVM-MC模型.1.4SVM方法SVM是Vapnik等在20世纪90年代提出的一种学习算法,文献[25]中有详细介绍,在此仅简述.对于两类分类问题,给定一训练集{(x i,y i),i=1,2,…, n},其中y i∈{-1,+1},表示任一样本x i的分类标识,如果训练集是线性可分的,SVM就是寻求超平面,f(x)=w·x+b=0(2)其中,“·”是点积,w是n维向量,b为偏移量.使正样本(y i=+1)和负样本(y i=-1)可分,且使其边界上的点到该超平面的距离最大.这可以转化为以下条件w·x i+b≥+1(y i=+1)和w·x i+b≤-1(y i=-1)(3)限制下求函数ψ(w,b)=12||w||2的最小值.Lagrange 乘数法可得解w=iΣαi y i x i(4)αi是Lagrange乘子,(4)式满足限制条件iΣαi y i=0,并有最优分类决策函数f(x)=sgn(w·x+b)=sgniΣαi y i(x i·x)+ΣΣb(5)式(5)中sgn为符号函数.由于很多两类情形并非线性可分,为此,SVM将样本点x通过函数准(x)投影到高维空间以使其线性可分.但SVM并非直接引入准(x),而是通过核函数K(x i,x)方法间接引入的: K(x i,x)=准(x i)·准(x)(6)其分类决策函数变为:f(x)=sgniΣαi y i K(x i,x)+ΣΣb(7)核函数K(x i,x)可以有多种形式,本文使用Gaussian 核函数,即K(x i,x)=exp-||x i-x||2/2σΣΣ2(8) SVM模型参数σ的选择是通过最小化推广误差进行的.1.5结果评价采用广泛使用的预测正确率[26]来评估分类模型的预测能力,模型的敏感性SE=TP/(TP+FN)用于评估正样本的预测正确率,专一性SP=TN/(TN+FP)用于评估负样本的预测正确率,Q用于评估总样本的预测正确率,表达式如下:Q=TP+TN(9)其中,TP、TN、FP、FN分别代表预测正确的正样本数、预测正确的负样本数、预测错误的正样本数以及预测错误的负样本数.2结果与讨论2.1SVM模型的预测结果根据不同的分类标准,分别建立了模型I、模型1583Acta Phys.-Chim.Sin.,2009Vol.25II 和模型III 三个模型.首先对每个分子计算了1559个描述符以表征其结构.然后,经预处理、过滤筛选和模拟退火筛选,分别建立分类模型.变量筛选对模型预测精度的影响列于表1,最终筛选出的描述符列于附表S3(见Supporting Information).从表1可见,经预处理后,三个模型的描述符的数目分别从1559个减小到633、631和617个.结果表明:在最初计算的1559个描述符中,大量描述符信息含量低或与其它描述符高度相关,经预处理即可去掉.经过预处理,用五重交叉验证得到的三个模型,正样本的平均预测正确率分别为63.7%、84.7%、84.8%,负样本的平均预测正确率分别为88.3%、63.0%、84.0%,总的预测正确率分别为80.4%、76.6%、84.4%.经过描述符按F -Score 排序并过滤后,模型I 、II 、III 的描述符数目分别由633个减少到118个,631个减少到95个,617个减少到166个.正样本的预测正确率分别为72.9%、83.0%、89.9%;负样本的预测正确率分别为88.8%、72.6%、92.4%,总的预测正确率为83.7%、79.1%和91.2%.可见无论正、负样本预测正确率,还是总样本预测正确率都有所提高.结果表明,排序过程在描述符的选择中起了重要的作用,能大大减少描述符的数目,有利于提高模型建立的效率.然而,描述符的数目仍然很大,因此,采用Monte Carlo 模拟退火法进一步筛选描述符,最终模型I 、II 、III 的描述符数目分别分为42、25、40个,这三个模型的正样本的预测正确率分别为84.8%、90.8%、96.6%,负样本的预测正确率分别为92.8%、80.7%、97.7%,总样本的预测正确率分别是90.2%、87.1%、97.2%.研究结果表明,变量选择在简化模型的同时明显地提高了各模型的预测精度,最后的SVM -MC 模型具有良好的预测能力.对模型I 、II 、III 其五重交叉验证平均预测精度对正样本在84.8%-96.6%范围,负样本在80.7%-97.7%范围,总样本在87.1%-97.2%范围.而且,值得注意的是,模型III 具有优良的预测能力,其正、负样本的预测精度分别为96.6%和97.7%,优于其它文献报道的最好结果[3].同时,从这三个模型的所有化合物及所筛选的分子描述符出发,并固定以上交叉验证优化得到的模型参数σ,分别建立模型,并计算含97个化合物的外部测试集的预测精度,得到三个训练模型总的预测精度分别为67.0%、85.5%、90.1%.模型I 结果接近文献[14]结果,而模型II 、III 结果明显优于文献[14]结果.2.2与文献报道结果[3,14]比较表1变量筛选对SVM 性能的影响Table 1Effect of feature selection on the performance of SVMa)step 1:preprocessing,step 2:ranking and backward selection,step 3:Monte Carlo simulated annealing;b)optimized values for the exponent of the Gaussian kernel of SVM;c)CV set:cross -validation set;d)SE:sensitivity;e)SP:specificity;f)Q :overall prediction accuracyStep a Number of descriptor(σb )CV set cPrediction accuracySE d (%)SP e (%)Q f (%)IIIIIIIII III I II III I II III 1633(19.0)631(13.0)617(20.0)175.087.091.792.074.188.986.582.290.2258.389.179.294.063.096.382.479.588.2345.887.075.092.066.780.877.079.578.0469.674.087.080.063.073.176.769.979.6569.686.791.383.748.280.879.272.285.7average63.784.784.888.363.084.080.476.684.42118(8.5)95(8.5)166(10.0)179.289.1100.094.074.192.689.283.696.1275.080.483.386.070.4100.082.476.792.2362.584.875.090.085.288.581.184.982.0469.678.395.780.077.892.376.778.193.9578.382.295.793.955.688.588.972.291.8average72.983.089.988.872.692.483.779.191.2342(6.0)25(3.5)40(9.0)187.593.595.896.085.2100.093.290.498.0287.587.095.890.081.596.389.284.996.1370.893.595.896.081.5100.087.889.098.0482.689.195.786.085.2100.084.987.798.0595.791.1100.095.970.492.395.883.395.9average 84.890.896.692.880.797.790.287.197.21584No.8李平等:基于支持向量机方法的HERG 钾离子通道抑制剂分类模型将本文建立的SVM -MC 模型,与文献报道的采用其它机器学习方法建立的模型所得的预测结果进行比较,有助于检测本研究的模型精度是否与其它模型的精度处于相似的水平.但是,值得注意的是,由于使用不同的样本、分子描述符、分类方法和参数以及验证的方法,将不同模型的预测结果进行直接比较是不恰当的.无论如何,可以进行尝试性比较,以便对HERG 钾通道抑制剂预测精度的大致水平,进行粗略的评价.本研究结果与文献结果[3,14]比较列于表2.由表2可知,本研究的SVM -MC 模型的预测结果无论是交叉验证结果还是外部测试结果,都接近或优于文献[3,14]报道结果,尤其是模型III,明显优于文献[3,14]报道的结果.因此,本研究的SVM -MC 模型有助于HERG 钾通道抑制剂先导化合物的筛选.3结论在一个差异性较大的HERG 钾通道抑制剂数据集的基础上,从一个大的分子描述符集合出发,经描述符的预处理、按F -Score 排序过滤和Monte Carlo 模拟退火法的筛选,建立了按不同IC 50为分类标准的分类预测模型.结果表明,在去除多余的描述符和提高SVM 模型的预测能力方面,本文所提出的描述符选择方法是很有效的,在简化模型的同时模型的预测能力可显著提高.通过本研究建立的SVM -MC 模型与文献报道结果比较表明,SVM -MC 模型用于预测化合物的HERG 钾通道抑制活性有较好的预测能力,从而可用于从化合物数据库进行虚拟筛选,有助于发现潜在的HERG 钾通道抑制剂.总之,采用SVM 构建了较高精度的HERG 钾通道抑制剂鉴别模型.Supporting Information Available:Table S1listed 367HERG potassium channel inhibitors in the training set with their experimental HERG IC 50value (μmol ·L -1),therapeutic area,and cell line.Table S2listed 97compounds in the external testing set with their experimental HERG IC 50value (μmol ·L -1).The selected molecular descriptors by the three models were listed in Table S3.Table S4listed 1559molecular descriptors.This information is available free of charge via the internet at .References1Roche,O.;Trube,G.;Zuegge,J.;Pflimlin,P.;Alanine,A.;Schneider,G.ChemBioChem ,2002,3:4552Trudeau,M.C.;Warmke,J.W.;Ganetzky,B.;Robertson,G.A.Science ,1995,269:923Thai,K.M.;Ecker,G.F.Bioorg.Med.Chem .,2008,16:41074Cianchetta,G.;Li,Y.;Kang,J.;Rampe,D.;Fravolini,A.;Cruciani,G.;Vaz,R.J.Bioorg.Med.Chem.Lett .,2005,15:36375Coi,A.;Massarelli,I.;Murgia,L.;Saraceno,M.;Calderone,V.;Bianucci,A.M.Bioorg.Med.Chem .,2006,14:31536Aptula,A.O.;Cronin,M.T.SAR QSAR Environ.Res .,2004,15:3997Keseru,G.M.Bioorg.Med.Chem.Lett .,2003,13:27738Chen,X.;Li,H.;Yap,C.W.;Ung,C.Y.;Jiang,L.;Cao,Z.W.;Li,Y.X.;Chen,Y.Z.Cardiovasc.Hematol.Agents Med.Chem .,2007,5:119Sun,H.M.ChemMedChem ,2006,1:31510Gepp,M.M.;Hutter,M.C.Bioorg.Med.Chem .,2006,14:532511Gavaghan,C.L.;Arnby,C.H.;Blomberg,N.;Strandlund,G.;Boyer,put.Aided Mol.Des .,2007,21:18912Song,M.;Clark,M.J.Chem.Inf.Model .,2006,46:39213Yap,C.W.;Cai,C.Z.;Xue,Y.;Chen,Y.Z.Toxicol.Sci .,2004,79:17014Tobita,M.;Nishikawa,T.;Nagashima,R.Bioorg.Med.Chem.a)10-fold cross -validation;b)LOO cross -validation;c)5-fold cross -validation;d)TdP -and non -TdP -causing agent,unavailable IC 50values;e)result for compounds with IC 50<1.0μmol ·L -1and IC 50>10.0μmol ·L -1only表2文献[3,14]和本文中HERG 抑制剂分类模型的预测精度比较Table 2Comparison of the prediction accuracies of different classification models for HERGinhibitors from literature [3,14]and this workStudy Method Threshold (μmol ·L -1)Training setExternal testing Compd.SE(%)SP(%)Q (%)Compd.Q (%)Ref.[14]SVM 40.07397.087.095.0a 827d 67.0-78.01.07386.093.090.0a827d67.0-78.0Ref.[3]Bayes1.022370.093.085.0b5884.010.022390.068.083.0b 5878.0active(<1.0),inactive(>10.0)15095.080.087.0b,e5886.0this work SVM -MC 1.036784.892.890.2c9667.010.036490.880.787.1c9785.5active(<1.0),inactive(>10.0)25096.697.797.2c,e7190.11585Acta Phys.-Chim.Sin.,2009Vol.25Lett.,2005,15:288615Leong,M.K.Chem.Res.Toxicol.,2007,20:21716Duncton,M.A.J.;Chekler,E.L.P.;Katoch-Rouse,R.;Sherman,D.;Wong,W.C.;Smith,L.M.;Kawakami,J.K.;Kiselyov,A.S.;Milligan,D.L.;Balagtas,C.;Hadari,Y.R.;Wang,Y.;Patel,S.N.;Rolster,R.L.;Tonra,J.R.;Surguladze,D.;Mitelman,S.;Kussie,P.;Bohlen,P.;Doody,J.F.Bioorg.Med.Chem.,2009,17:73117Kawai,M.;Ando,K.;Matsumoto,Y.;Sakurada,I.;Hirota,M.;Nakamura,H.;Ohta,A.;Sudo,M.;Hattori,K.;Takashima,T.;Hizue,M.;Watanabe,S.;Fujita,I.;Mizutani,M.;Kawamura,M.Bioorg.Med.Chem.Lett.,2007,17:555818Berglund,S.;Egner,B.J.;Gradén,H.;Gradén,J.;Morgan,D.G.A.;Inghardt,T.;Giordanetto,F.Bioorg.Med.Chem.Lett.,2008,18:485919Guay,D.;Boulet,L.;Friesen,R.W.;Girard,M.;Hamel,P.;Huang, Z.;Laliberté,F.;Laliberté,S.;Mancini,J.A.;Muise,E.;Pon,D.;Styhler,A.Bioorg.Med.Chem.Lett.,2008,18:555420Hyperchem release7.0(Beta1.04),software available at http:// 21Li,Z.R.;Han,L.Y.;Xue,Y.;Yap,C.W.;Li,H.;Jiang,L.;Chen, Y.Z.Biotechnol.Bioeng.,2007,97:38922Yang,C.W.;Su,J.Y.;Tsou,A.P.;Chau,G.Y.;Liu,H.L.;Chen,C.H.;Chien,C.Y.;Chou,mun.,2005,330:48923Fisher,R.A.Annals of Eugenics,1936,7:17924Ajmani,S.;Jadhav,K.;Kulkarni,S.A.J.Chem.Inf.Model.,2006, 46:2425Czerminski,R.;Yasri,A.;Hartsourgh,D.Quant.Struct.-Act.Relat.,2001,20:22726Bhasin,M.;Zhang,H.;Reinherz,E.L.;Reche,P.A.FEBS Lett., 2005,579:43021586。