基于支持向量机的有机化合物水溶解度的分类和预测的研究解读

合集下载

支持向量机在水质监测中的应用

支持向量机在水质监测中的应用

支持向量机在水质监测中的应用支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,它在分类和回归问题上具有广泛的应用。

而在水质监测中,支持向量机同样发挥着重要的作用。

首先,支持向量机在水质监测中的应用可以帮助我们对水质进行准确的分类。

水质监测是保障水资源安全的重要环节,而水质的分类对于判断水质是否合格至关重要。

支持向量机通过构建合适的分类超平面,将不同水质的样本点分开,从而实现对水质的分类。

其次,支持向量机在水质监测中的应用还可以帮助我们预测水质的变化趋势。

水质的变化受到多种因素的影响,如气候、人类活动等。

通过收集历史水质数据,并结合支持向量机的回归分析方法,可以建立水质变化的预测模型。

这样,我们可以提前了解水质的变化趋势,采取相应的措施,保障水质的安全。

此外,支持向量机在水质监测中的应用还可以帮助我们识别水质异常。

水质异常往往意味着潜在的水质问题,可能对人类健康和环境造成危害。

通过对水质监测数据的分析,结合支持向量机的异常检测算法,可以及时发现水质异常,并采取相应的措施进行处理,以保障水质的安全。

另外,支持向量机在水质监测中的应用还可以帮助我们优化监测方案。

传统的水质监测方法通常需要大量的人力、物力和财力投入,而且监测结果的准确性和实时性也存在一定的问题。

而通过支持向量机的模型建立和优化算法,可以在一定程度上减少监测点的数量,提高监测效率和准确性。

这样,我们可以更加合理地安排监测资源,提高水质监测的效益。

综上所述,支持向量机在水质监测中的应用具有重要的意义。

它可以帮助我们准确地对水质进行分类,预测水质的变化趋势,识别水质异常,优化监测方案。

通过支持向量机的应用,我们可以更好地保障水资源的安全,为人类的生活和环境的可持续发展提供有力的支持。

因此,进一步研究和应用支持向量机在水质监测中的方法和技术具有重要的意义。

基于主成分——支持向量机的用水量预测

基于主成分——支持向量机的用水量预测

基于主成分——支持向量机的用水量预测
陈高波
【期刊名称】《科教文汇》
【年(卷),期】2009(000)030
【摘要】利用主成分分析消除变量问的多重共线性,对数据实现降维;利用支持向量机对提取的主成分进行非线性逼近,充分发挥两者的优点.算例表明主成分一支持向量机模型具有很高的精度.
【总页数】1页(P285-285)
【作者】陈高波
【作者单位】武汉工业学院数理科学系,湖北·武汉,430023
【正文语种】中文
【中图分类】TP399
【相关文献】
1.基于主成分和支持向量机浓度参量同步荧光光谱油种鉴别 [J], 王春艳;史晓凤;李文东;任伟伟;张金亮
2.基于主成分回归模型的哈尔滨市用水量预测 [J], 丛凌博
3.基于核主成分支持向量机的火成岩QAPF分类--以青海格尔木地区为例 [J], 林楠;姜琦刚;陈永良;杨佳佳;崔瀚文
4.基于主成分和粒子群优化支持向量机的管道内腐蚀预测 [J], 毕傲睿;骆正山;乔伟;孙阳阳
5.基于主成分与支持向量机的邵阳县烟草产量预测 [J], 张泰;张莉;彭佳红
因版权原因,仅展示原文概要,查看原文内容请购买。

支持向量机在水质评价中的应用

支持向量机在水质评价中的应用

;#" %) .$ ;为分类阈值& !!% 为权值向量#
样本分类如下$ # ! " ;’" %) .$ . #$! 7
! " !
! " %
&
# ! " ;(" .$ . #4! %) 7 " # (
支持向量机在水质评价中的应用!!徐劲力 常用的核函数有(种$ !!目前! B 多项式核函数 A" ) " ) ) )’ ) #( $! .! .# >#
% "! ] ) ) )4) !!径向基核函数 A" #2 .! ./ # B ># %/ % ) ( ) E J 7 E @核函数 A" ) ) ) ) C 1 ? F !!/ #0 $ D *" .! .’ .# >#
应用 / 首先将输 -+ 模式进行分类的基本思路可概括为$ 入向量映像到一个特征空间! 然后在特征空间中寻找优化的线 性分界线! 即 构 建 一 个 可 分 离 两 类 的 超 平 面! 使两类正确分
! ! %! ! ! % .#! 9 = 为惩罚参数& . ’" ’ 利用I 函数 ! 原线性可分优化问题可简化为对偶 1 8 1 ? 2 D D 问题$
9
# 1" J 1 ] #" ( ( .4
. ! # 9
! " # ) ) & ( ( . . .’ 7 7 > >" ># " " %. !. ! # # " # O
) ( 开( &/ -+ 的训练过程就是寻找全局最优解& 其步骤可概括

支持向量机在药物活性预测中的应用研究

支持向量机在药物活性预测中的应用研究

支持向量机在药物活性预测中的应用研究支持向量机(Support Vector Machine,简称SVM)是一种常用的机器学习算法,具有在分类和回归问题中表现出色的能力。

在药物活性预测中,SVM也被广泛应用于药物发现和设计的研究中。

一、SVM的基本原理SVM是一种监督学习算法,其基本原理是通过寻找一个最优超平面将不同类别的样本分开。

这个超平面被称为决策边界,它使得不同类别的样本之间的间隔最大化。

SVM还通过引入核函数来处理非线性问题,将样本映射到高维特征空间中进行分类。

二、药物活性预测的挑战药物活性预测是一个重要的研究领域,它可以帮助科学家快速筛选出有潜力的候选药物,从而加速药物研发过程。

然而,药物活性预测面临着一些挑战。

首先,药物分子的结构复杂多样,导致特征空间非常庞大。

其次,药物的活性与多种因素相关,如分子结构、物理化学性质等,这增加了预测的难度。

因此,需要一种高效准确的方法来解决这些挑战。

三、SVM在药物活性预测中的应用SVM作为一种强大的分类器,已经被广泛应用于药物活性预测中。

研究人员通过提取药物分子的特征,并将其作为SVM的输入,来构建药物活性预测模型。

这些特征可以包括分子的二维和三维描述符,如分子权重、化学键长度等。

此外,还可以使用分子指纹和子结构等方法来表示药物分子的特征。

四、SVM在药物活性预测中的优势相比其他机器学习算法,SVM在药物活性预测中具有一些独特的优势。

首先,SVM可以处理高维数据,并且在处理小样本问题时表现出色。

这对于药物活性预测来说非常重要,因为可供研究的药物样本通常较少。

其次,SVM能够处理非线性问题,通过引入核函数来将样本映射到高维特征空间中进行分类,提高了预测的准确性。

五、SVM在药物活性预测中的挑战和改进尽管SVM在药物活性预测中表现出色,但仍然存在一些挑战。

首先,SVM对于大规模数据的训练和预测需要较长的时间,这限制了其在实际应用中的效率。

其次,选择合适的核函数和调整参数对于SVM的性能至关重要。

一种多核加权支持向量机的水质预测方法

一种多核加权支持向量机的水质预测方法
Li n e h n a g Xu c u Go g Ya bn n n ig Xi o Di a
(Col eo tmao n l tcl nier g Naj gUnvri f eh oo y Naj g2 0 0 ,C ia l g f o t nadEe r a E gn ei , ni iesyo cn lg , ni 10 9 hn ) e Au i ci n n t T n ( S ho f uies Hoa U iesy hn zo 102, hn ) c ol s s, h i nvri ,C agh u2 3 2 C ia oB n t
第4 1卷 增- ? l J
21 0 1年 9 月
东 南 大 学 学 报 (自然科 学版 )
J R OU NALOFS UT E TU V R I ( aua S i c dt n O H AS NI E STY N trl c n eE io ) e i
Vo . S p 1 41 u பைடு நூலகம்
A b t a t n t s pa e sr c :I hi p r, a n w eh d b s d o u t— e ne la n n s p o t v co a h n o e m t o a e n m lik r l e r i g u p r e t r m c i e t s l e te wae u l y p e i t n i r s ntd. Th e n lf n t n a d isp e ee c s a ec reae o v h trq a i r d ci sp e e e t o e k r e u ci n t r f r n e r o r ltd o w i e daa d srb to t t t iti u i n,S ti i c l t e aif c o y p e ito e utwh n usn i g eke - hh O i sd f ut o g ts tsa t r r d ci n r s l i e i g sn l r

《基于支持向量机的microRNA识别研究》范文

《基于支持向量机的microRNA识别研究》范文

《基于支持向量机的microRNA识别研究》篇一一、引言MicroRNA(miRNA)是一类重要的非编码单链小分子RNA,其在生物体内扮演着重要的调控角色。

近年来,随着生物信息学和基因组学研究的深入,miRNA的识别与功能研究已成为生物学领域的研究热点。

本文将重点介绍基于支持向量机(SVM)的miRNA识别研究,通过分析SVM算法在miRNA序列特征提取和分类识别中的应用,为miRNA的深入研究提供新的思路和方法。

二、支持向量机基本原理支持向量机(SVM)是一种基于统计学习理论的机器学习方法,主要用于模式识别和分类问题。

SVM通过寻找一个最优的超平面来对数据进行分类,使得不同类别的数据被最大程度地分隔开。

SVM算法的核心思想是构造一个分类超平面,使得该超平面能够将不同类别的样本正确分开,并使得超平面两侧的间隔最大化。

三、miRNA序列特征提取miRNA序列特征提取是miRNA识别的重要步骤。

由于miRNA序列具有独特的碱基组成和空间结构特征,因此需要采用合适的方法进行特征提取。

常用的特征提取方法包括基于序列的统计特征、基于序列的物理化学性质特征以及基于序列的局部结构特征等。

在基于SVM的miRNA识别研究中,一般采用基于序列的统计特征和物理化学性质特征进行特征提取。

四、基于SVM的miRNA识别方法基于SVM的miRNA识别方法主要包括特征提取、模型训练和模型测试三个步骤。

首先,从miRNA序列中提取出有意义的特征,如碱基组成、局部结构等;然后,利用SVM算法构建分类器模型,通过训练数据集进行模型训练;最后,利用测试数据集对模型进行测试,评估模型的分类性能和准确度。

五、实验结果与分析本部分将详细介绍基于SVM的miRNA识别实验结果和分析。

首先,对实验数据进行预处理和特征提取;然后,利用SVM算法构建分类器模型,并采用交叉验证等方法对模型进行评估;最后,将实验结果与其它方法进行比较和分析。

实验结果表明,基于SVM的miRNA识别方法具有较高的准确度和稳定性,能够有效地识别miRNA序列。

基于最小二乘支持向量回归的水质预测

计算机与现代化JISUANja YU XIUNDAIHUA2019年第9期总第289期文章编号:1006-2475(2019)09-0031-04基于最小二乘支持向量回归的水质预测刘红梅1,徐英岚1,张博2,李荣1(1.北京农业职业学院,北京102442;2.北京理工大学,北京100020)摘要:水质系统是一个开放的、复杂的、非线性动力学系统,具有时变复杂性,针对水质预测方法的研究虽然已经取得了一些成果,但也存在预测精度与计算复杂度等难题。

为Q,本文提出一种基于最小二乘支持向量回归的水质预测算法。

支持向量机是机器学习中一种常用的分类模型,通过核函数将非线性数据从低维映射到高维空间,在高维空间实现线性分类和回归,最小二乘支持向量回归!LS-SVR)利用所有的样本参与回归拟合,使得回归的损失函数不再只与小部分支持向量样本有关,而是由所有样本参与学习修正误差,提高预测精度;同时该算法将标准SVR求解问题由不等式的约束条件及凸二次规划问题转化成线性方程组来求解,提高了运算速度,解决了非线性复杂特性的水质预测问题。

关键词:支持向量回归(SVR);最小二乘支持向量回归(LS-SVR);水质预测中图分类号:TP301文献标识码:A doi:10.3969/j.issn.1006-2475.2019.09.006Prediction of Water Quality Based on Leash Square Supporh Vector RegressionLIU Hong-mei1,XU Ying-Ian1,ZHANG Bo2,LI Rong1(1.Beijing Vocational Collexe of Agriculture,Beijing102442,China;2.Beijing Institute of Technology,Beijing100020,China)Abstraci:The water quality system is an open,complex,and nonlinear dynamic system with time-varying complexity.Although some achievements have been made in the research of water qualita prediction methods,there are still some difficueies such as prediction accuracy and computational complexity.Therefore,this paper proposes a water qualita prediction aleorithm based on least squares support vector resression.Support vector machine(SVM)is a kind of commonly used machine learning classifico-tion modei,nonlinear data are mapped from low-dimensionai space W high-dimensionai space through the kernei function,linear classification and resression are realized in the high diniensional space,the least squares support vector resression(LS-SVR)u­ses ali samples a participate in resression fitting,which makes the resression loss function be no longer only related a a smali numbeeAfsuppAeeeeceesampees,buea e sampeespaeeicipaeein eeaeninge cA e ecee e Aeand impeAeeehepeedicein peecisin.Ae ehesameeime,byehisaegoeiehm,eheseandaed SVRsoeeingpeobeem iseeansfoemed feom inequaeieyconseeainecondieionsand con-eetquadeaeicpeogeammingpeobeem ineosoeeingeineaeequaeions,which inceeasesopeeaeion speed and soeeesehewaeeequaeiey peediceion peobeem wieh noneineaecompeetchaeaceeeiseics.Key words:Support Vector Resression(SVR);Least Square Support Vector Resression(LS-SVR);water qualita predictiono引言水质预测主要是利用实测数据,通过不同的预测方法来预测环境变量(预测指标以外的所有可能变量)与待预测指标之间的非线性关系,或者待预测水质指标本身随时间的变化规律'T。

支持向量机在水质监测预测与治理中的应用步骤与方法

支持向量机在水质监测预测与治理中的应用步骤与方法随着工业化进程的加快和人口的增长,水资源的污染问题日益严重,给人们的生活和环境带来了巨大的威胁。

水质监测预测与治理成为了当今社会亟待解决的重要问题之一。

在这个过程中,支持向量机(Support Vector Machine,SVM)作为一种强大的机器学习算法,被广泛应用于水质监测预测与治理中。

支持向量机是一种非常有效的分类和回归算法,其核心思想是寻找一个最优的超平面,将不同类别的数据点分隔开来。

在水质监测预测中,支持向量机可以通过学习历史水质数据,建立一个预测模型,对未来水质进行预测,从而及时采取相应的治理措施。

首先,进行数据收集和预处理是支持向量机应用于水质监测预测的第一步。

我们需要收集大量的水质监测数据,包括水质指标、水源地特征等。

在收集到数据后,需要对数据进行预处理,包括数据清洗、特征选择和数据标准化等。

这些步骤可以提高支持向量机模型的准确性和稳定性。

接下来,选择合适的核函数和参数是支持向量机应用于水质监测预测的关键步骤。

核函数是支持向量机的核心,它可以将低维的输入空间映射到高维的特征空间,从而使得数据在特征空间中更容易分隔。

常用的核函数有线性核函数、多项式核函数和径向基函数等。

在选择核函数的同时,还需要调整相应的参数,如惩罚系数C 和核函数的参数γ等。

通过交叉验证等方法,可以选择最优的核函数和参数组合。

然后,进行支持向量机模型的训练和评估。

在训练过程中,我们将历史水质数据作为输入,利用支持向量机算法学习数据的特征和规律,建立一个预测模型。

在评估过程中,我们将模型应用于测试数据集,计算模型的准确性和泛化能力。

常用的评估指标包括准确率、召回率和F1值等。

最后,根据支持向量机模型的预测结果,制定相应的水质治理措施。

根据预测结果,我们可以判断水质是否达到标准要求,如果不达标,就可以及时采取相应的治理措施,如增加水处理设备、改善污水排放等。

通过不断优化和迭代,可以提高水质监测预测与治理的效果。

基于小波变换和支持向量机的水质预测

基于小波变换和支持向量机的水质预测梁坚;何通能【期刊名称】《计算机应用与软件》【年(卷),期】2011(028)002【摘要】The paper proposes a prediction model of water quality based on wavelet transform and support vector machine (SVM). It uses wavelet to obtain characteristics of water quality time-series at different scales,also uses improved particle swarm optimization (PSO) to optimise three parameters of regressive SVM ,which improves the prediction accuracy. The model is applied to 1-step and 2-step predictions of dissolved oxygen concentration measured at Wangjiangjing automatic monitoring station. The maximum MAPE of 10-group test samples is 4.54% ,and this is compared with the prediction of BP neural network model. The results show that the model is of good performance,high precision, easy to use and has better prediction effect than the BP neural network model' s, so it is an effective method for water quality prediction .%提出基于小波变换和支持向量机的水质预测模型.该模型运用小波变换得到水质时间序列在不同尺度下的变化特性,并用改进后的粒子群算法优化回归支持向量机的三个参数,提高了模型预测精度.运用该模型对王江泾自动监测站测得的溶解氧浓度进行了1步预测及2步预测,10组测试样本最高MAPE为4.54%,并用基于BP神经网络的预测结果进行了比较.结果表明,该模型性能良好、预测精度高、简便易行,比基于BP神经网络的模型具有更好的预测效果,为水质预测提供了一种有效的方法.【总页数】4页(P83-86)【作者】梁坚;何通能【作者单位】浙江工业大学信息工程学院,浙江,杭州,310023;浙江工业大学信息工程学院,浙江,杭州,310023【正文语种】中文【相关文献】1.基于智能遗传算法与复合最小二乘支持向量机的长江水质预测与评价 [J], 戴宏亮2.基于支持向量机回归和小波变换的O3预报方法 [J], 苏筱倩;安俊琳;张玉欣3.基于Gabor小波变换和多核支持向量机的电梯导靴故障诊断方法 [J], 朱晓玲;李琨;张长胜;杜付鑫4.基于遗传算法与支持向量机的水质预测模型 [J], 马创;王尧;李林峰5.基于支持向量机的水质预测应用实例 [J], 张秀菊;安焕;赵文荣;张琴玲因版权原因,仅展示原文概要,查看原文内容请购买。

支持向量机(SVM)在作物需水预测中的应用研究综述

第卷第期农业水土工程研究进展课程论文V ol. Supp. . 2015年11月Paper of agricultural water and soil engineering progress subject Nov.2015 1支持向量机(SVM)在作物需水预测中的应用研究综述(1.中国农业大学水利与土木工程学院,北京,100083)摘要:水资源的合理配置对于社会经济的发展具有重要意义。

而在农业水资源的优化配置中常常需要提供精确的作物需水信息才能接下来进行水量的优化配置。

支持向量机是基于统计学习理论的新型机器学习方法,因为其出色的学习性能,已经成为当前机器学习界的研究热点。

但是目前对支持向量机的研究与应用大多集中在分类这一功能上,而在农业水资源配置中的应用又大多集中于预测径流量,本文系统介绍了支持向量机的理论与一些应用,并对支持向量机在作物需水预测的应用进行了展望。

关键词:作物需水预测;统计学习理论;支持向量机;中图分类号:S16 文献标志码:A 文章编号:0引言作物的需水预测是农业水资源优化配置的前提和基础之一。

但目前在解决数学模型中需要输入有预期的预测精度的数据时还是会遇到困难。

例如,当大量的用水者的用水需求作为优化模型的输入时,预测精度太低时优化结果可能会出现偏差。

此外,不确定性也存在于水的需求中,水需求受到一些影响因子和系统组成的影响(即人类活动,社会发展,可持续性要求以及政策法规),这不仅在不确定性因子间相互作用过程中使得问题更为复杂,也使得决策者在进行水资源分配过程中的风险增加。

所以,准确的预测对水资源的需求对制定有效的水资源系统相关规划很重要。

而提高需水量预测精度一直是国内外学术界研究难点和热点。

支持向量机(Support V ector Machine,SVM)是根据统计学理论提出的一种新的通用学习方法,该方法采用结构风险最小化准则(Structural Risk Minimization Principle),求解二次型寻优问题,从理论上寻求全局最优解,较好地兼顾了神经网络和灰色模型的优点[1][2],克服了人工神经网络结构依赖设计者经验的缺点,具有对未来样本的较好的泛化性能,较好解决了高维数、局部极小等问题[3]。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于支持向量机的有机化合物水溶解度的分类和预测的研究引言有机化合物的水溶解度是一个重要的吸收、分布、代谢、排泄(abso甲tion,distribution,metabolism,evacuation,ADME)性质。

在药物设计方面,有机化合物的水溶解度决定其生物利用度和生物活性,从而决定该化合物能否成为药物,能否根据人为设定的大致溶解度的范围分类,对于药物的初步筛选具有重要的参考价值。

因此,较准确地预测有机化合物的水溶解度,对于筛选药物有极重要的意义。

支持向量机法是近年来普遍应用于化学化工和制药领域的一种智能算法。

Yang 等川利用支持向量算法预测47个烷基苯的若干物理化学性质。

瞿海斌等预测中药材三七提取液的近红外光谱[2〕都初步显示了支持向量机法的优越性。

本文运用支持向量机分类和预测有机化合物的水溶解度。

化合物的水溶解度受多种因素影响、比如:溶质状态、分子极性、立体效应、分子形状和尺寸以及分子参与形成氢键的能力等。

为了建立水溶解度模型,作者用描述符定量描述那些与水溶解度相关的各项因素。

在水溶解度的分类方面,Thil。

等!’〕将9以刃多个化合物的溶解度分类,结果较好。

David等利用基于神经网络的算法,将化合物分为可溶和难溶两类,分类准确率较高[’]。

f(x)二、Tx+6=o(l)一1一一一一y,yl,飞二一多蕊冲0.D++TxTx却叨护l‘l要找到最佳的超平面,即是找到最佳的、与b值,使边界最大,即每个类别中的数据点与其它类别的数据点距离最大。

数据点x到超平面f(x)的距离表示如下:T打I、侧X十g气叨,0,不)=~下下一下(2)!}功}}所以要求得最佳切与b 值,也就是求最小}}。

}l,利用压-grange乘子求得最佳解[lz了。

回归与分类不同,分类是预测出少数几个固定值,回归则是精细的分类器,并且一定数值之内容许误差。

最先提出回归分析的损失函数仁”〕是。

一不敏感损失函数〔’4〕,是由vo-jislav提出最适合用于SVM。

一不敏感损失函数的区域表示如下式:y一f(x,、)}落e其他情况切Xf(一y0|!2.1在水溶解度的预测方面,Jorgensen等综述前人通过化合物结构预测溶解度[5]。

David等建立了988个化合物的随机分层抽样回归模型,结果也较好[6]。

分类是对水溶解度的定性分析,对进一步的定量研究具有重要意义,准确的分类能够避免药物研发前期将不可能成药的分子纳人研究范围,从而减少成本。

作者采用Jorgens-en 川的分类方法,将化合物按照水溶解度的对数(lo萝,s的单位为moFL)值分为三类,其中fo爵在一1一5之间,为第二类,有可能成为药物,具有均衡的亲水性和亲脂性。

fo舒在一1以上为第一类,lo萝在一5以下为第三类,均不可能成为药物。

前者水溶解度很大,亲脂性太小,不能通过生物膜。

后者溶解度太小,通过生物膜后不能水解,不能被人体吸收。

在此分类基础上,用训练集建模,预测测试集,预测准确度较高。

在水溶解度的预测方面,作者曾用多元线性回归和反向传播神经网络法建立了1293个有机化合物的水溶解度模型,结果较好阁。

作者利用支持向量机法预测1293个有机化合物的水溶解度,预测结果更好。

},一;一){2实验部分2.1数据来源本论文采用的1293个有机化合物及其水溶解度的实验值均来自于自己以前的工作〔吕],最初引自Huuskonen[9]的数据库。

这里的水溶解度表达为fo萝,S是分子在饱和溶液中的浓度,单位为m0FLo2.2有机化合物描述符的选择本论文采用的描述符与以前工作中使用的相同阁,根据化合物的结构算出18个描述符,包括脂水分布系数(lo驴),平均电子极化率(MMP),分子脂肪族指示子(i_ali),分子芳香族指示子(i“aro),最高氢键受体电位(M_H_ACC)(即在化合物包括NOF等的原子中具有最多孤对电子电负性的原子),最高氢键给体电位(M_H_DON)(在含有氢键的原子团如一oH,一NH,一sH中具有最高正电荷的基团),氢键给予体个数(H_donors),氢原子个数(H一atom。

),氮原子个数(N一atoms),氧原子个数(0一atom。

),氟原子个数(r 一atoms),硫原子个数(S一atoms),氯原子个数(CI一atoms),以及5个ZD 自相关系数向量(孤对电子电负性(en场_1),二一电负性(e叩i一l),a电负性(en号19一l),二一电荷(qPi一l)),总的原子电荷(qtot--l)。

2.3支持向l机算法本课题采用台湾大学林智仁教授所发展的支持向量机的工具箱uBsvM[’0]。

支持向量机(su酗rtveetorMachine,SVM),是v即nik在1979年开始研究的一种分类法[川。

其主要思想是建立一个超平面作为决策曲面,使正反例之间的最小距离不能再小。

这样支持向量机就完成分类任务。

假设一简单的两类别分类问题,设训练向量x,输出值为以当y=1时表示第一类,y=一1时表示第二类),SvM就是建立一个超平面作为分类面。

超平面的表示式子如下:(3)如果损失函数值等于0,表示预测值f(x,、)与实际值y的距离小于8。

因此,可以在引人一定的松弛因子的基础上得出预测值和实际值之间的距离,如式(4):;。

,:一合}一,2·。

(客。

·客:·)(4)其限制条件是:(wT沪(x‘)+6)一“感s+若‘,J‘一(、T沪(二‘)+b)簇e+若厂若‘,盯〕o,i=l,…,l,e〕oR为总的预测值与实验值之间的距离;e为误差概率因子;盯,若‘为引人的松弛因子;d‘是建立模型的输出值。

因此,支持向量机回归目的即是让这一距离R最小,并且使上述的d(w,b,x)最大,即}},}}最小。

同理,采用把最佳问题转换为1五『ange问题的方法求得最佳解〔‘,〕。

3结果与讨论3.1基于支持向且机的水溶解度分类模型选择上述的18个描述符作为输人,由于各输人描述符涵盖的范围不同,为了避免输人中因0过多而引起边缘效应,也为了避免输人输出范围不同产生误差。

首先将所有输人数据初始化到0.1一0.9之间;其计算公式为:x,‘=二止二,匕、0.5+0.1(5)xmax一xmi。

其中,x、是原始值,x*。

是数据的最小值,x~是数据的最大值,x“是经初始化的值。

当化合物的lo薛大于一1时,虽然其分子极性非常大,如糖等,膜的通透性却很低。

不能够穿过生物膜,不能被人体吸收,则不能做药。

因此,fo爵大于一1的化合物不能成为药物,称之为第一类一易溶类。

对于fo爵小于一5的化合物,其膜通透性较高,能够通过生物膜,但是其溶解度极低,通过生物膜后,不能溶于水,不能被细胞吸收利用,不能被人体利用。

因此,对于fo薛小于一5的化合物也不能成为药物,称之为第三类一难溶类。

总之,化合物要成为药物,必须要在水溶解度和生物膜通透性方面合适,既不能太大也不能太小,大约85%的药物的fo爵值在一5一1之间川,称之为第二类一可溶类。

在新药研发中,不能在不能成为药物的化合物上耗费太多人力和物力,肯定是一种浪费,也阻碍了药物工作的发展。

因此,在药物研发前,先除掉不能成为药物的化合物,不妨先研究化合物水溶解度的分类。

训练集和测试集的分类方法,依然采用以前的方法闭,林智仁教授所发展的支持向量机的工具箱HBsvM〔’“]。

基于上述的训练集和测试集,用支持向量机法建立分类模型。

先用训练集建模,然后验证测试集分类的准确率。

本文用支持向量机分类,当用默认参数时,训练集的训练结果为70.6%,验证结果为65.8%;然后采用自动寻优的方式选择参数,用线性核函数,参数。

为犯,g为0.5时,得到了最优结果。

此时,训练集的正确率为92.2%,测试集的验证结果也为92.2%。

3.2基于支持向t机的水溶解度预测模型同样采用林智仁的支持向量机的工具箱,输入数据初始化后的数值作为输人,再用相同的方法将fo朗值进行同样的初始化后作为输出。

参数选择对支持向量机建模非常重要,这里,采用10重交互检验法(10一foldeoss一validation)自动程序寻优,其中。

,g,p均在(2一‘”一210)之间变化,得出寻优结果为。

二1,g二1,p二0.0巧625。

以此为基础,在上述最优值的附近,用手动法寻优更精确的参数,首先在。

二1附近变化。

值,发现当。

取1.3时,达到最优。

然后在g=1附近变化g的值,直到当g达到2.51时达到最优。

寻优结果表明,当。

=1.3,g=2.51,p二0.015625时,预测效果有明显提高。

此时,训练集的训练结果为:r,=0.97,‘=0.35(见图1)。

然后用此模型测试测试集,验证结果是:产=0.95,:=0.50(见图2)。

最后检验含21个药物或农药的附加测试集,结果为:r2=0.56,:=0.79。

如下表(表l)所示,21个测试集的预测结果见表(表2)。

表1本文中SVM模型与以前的ANN模型的比较Table1ComP面sonOfthepredictionPowerOfthem树,l,衍thourformermodelbasedonHuuskonen,sdatasetandadatasetOfanother21eompoudsbyAlt访eialNeuralNe扣胃ork(ANN).讨论:由表l可以看出,本文得出了比人工神经网络模型更好的预测结果。

训练集由产二0.92改进到0.97,由:二0.51,改进到0.35;测试集将尸由0.94改进到0.95,且将:由0.52改进到0.50;对21个划11练集的数据,将其;,由0.53改进到0.86,将:由0.80改进到0.79。

从而证明本文的支持向量机模型较人工神经网络模型有较为明显的优越性,值得进一步在制药的预测和分类的各个方面推广。

表221个化合物的水溶解度的实验值以及由svM和人工神经网络模型得到的预测值Table2Predietedandex那rimentalaqueoussolubilityfor21eompoudsbysup即rtveetormachine(SVM)叨dArtifieialNeu司Network.NO.CAS登记号CASn,一m卜r名称n斑m户实验值】。

叭呷「吕,9]洲N预测值胡N【8]SVM预测值SVM打邸O一7321994一刁50一8-258一5习印名0-01912-24-91950石石330.54·l阶泛O-95741刁439·14-558一刃58召9-956一8233341-5197,一名121一石2921名8-236324石50-29-357一4-92,2,,4,5,5‘代B悦,脚ain户一7.89一2.32一1.花一1.390.39一3.85一2.32一3.8一3.38一3.9一3.76一4.的一4.科一4.砧一3.科一2.9一3.37一5.49一2.47一8.08一6.86一7.71一1.卯一1.57一0.79一2.08一2.65一3.07一3.12一1.卯一3.79一4.40一4.03一5.四一3.97一4.田一5.16一2.32一5.17一4.43一7.86一6.45一7.2一1.97一1.87一1.18一0.78一3.83一2.印一3.98一3.77一3.41一4,16一4,67一4.33一4.07一3.99一5.22一2.铭一5.71一3.20一6.89一6.11.In皿舔antiPboathaneFhenohazbitaldiuzon﹄Fhenyt0in蜘︸﹄晒﹄Fben0lPbthaf﹄﹄﹃﹃﹄1.1,乙八、曰冷峥口、曰矛O一200八,roll 论1314巧1617201819刀肠幼JxP:水溶解度的实验值;sVM:水溶解度的支持向量机预测值;ANN:我们之前建立的人工神经网络模型的水溶解度预侧值。

相关文档
最新文档