用模拟退火方法研究支持向量机的参数决定

用模拟退火方法研究支持向量机的参数决定
用模拟退火方法研究支持向量机的参数决定

基于模拟退火方法的支持向量机参数确定及特征选择

Shih-Wei Lin a,b,*, Zne-Jung Lee b, Shih-Chieh Chen c, Tsung-Yuan Tseng b

a Department of Information Management, Chang Gung University, No. 259 Wen-Hwa 1st Road,

Kwei-Shan Tao-Yuan 333, Taiwan, ROC

b Department of Information Management, Huafan University, No. 1 Huafan Road, Taipei, Taiwan,

ROC

c Department of Industrial Management, National Taiwan University of Science an

d Technology, No.

43 Keelung Road, Sec. 4, Taipei, Taiwan, ROC

Received 31 January 2007; received in revised form 6 October 2007; accepted 21 October 2007

Available online 26 October 2007

摘要

支持向量机是一种新颖的分类法方法,它在许多应用中都极具价值。在支持向量机的训练过程中,核参数设置及特征选择对分类准确率具有显著的影响。该研究的目的是找到最优参数值,同时寻找一个不会降低支持向量机分类准确率的特征子集。本研究提出了一种用于支持向量机中确定参数和特征选择的模拟退火方法,命名为SA-SVM。

为了衡量所提的SA –SVM方法,从UCI机器学习库中选用了一些数据集,用于计算分类准确率。将所提方法与用于参数设置的传统格搜索方法及其他多种方法进行了比较。实验结果表明,所提方法的分类准确率超过了格搜索方法和其他方法。因此,SA-SVM在支持向量机的参数测定和特征选择中很有用。

关键词:支持向量机; 模拟退火; 参数测定; 特征选择

1 引言

对分类问题已经有了广泛研究。对于一个给定的模型参数值的选择,像数据不完整等众多因素可能会影响分类的成果。以前的分类问题通常是用统计方法,如物流,回归或判别分析等来处理。技术进步导致了解决分类问题的新技术,包括决策树,BP神经网络,粗糙集理论和支持向量机(SVM)的产生。支持向量机是首先被Vapnik[1]开发的一个新兴的数据分类技术,并已在最近的分类问题[2-9]广泛的应用于各个领域。

在支持向量机中,采用抽样成本在训练阶段产生分类模式。然后,分类是基于训练模式的基础上完成的。在建立支持向量机模型中最大的困难是选择核函数及其参数值。如果参数值设置的不合适,那么分类的结果将不是最优的[10]。利用分化与整合,低收入和高通过率和数据库的光谱数据,对原始数据及预处理的数据进行分类,得到轴承条件。在复杂的分类领域,某些功能可能含有虚假相关性,它们阻碍数据的处理。此外,一些功能可能是多余的,因为他们补充的信息包含在其他功能里。冗余功能会延长计算时间,影响分类精度。因此,在分类过程中必须用最少的功能且快速,准确,这时通过使用特征选择实现目标。特征选择已用于提高分类性能,并减少数据噪声[11-13]。

如果没有特征选择而采用支持向量机,那么输入的空间维数大,且数据不干净,就会降低支持向量机的功能。因此,需要一个支持向量机拥有高效,稳定的特征选择方法,它忽略嘈杂的,不相关和冗余数据,同时仍保留判别数据的权力。特征提取采用原始数据,以在支持向量机分类器中输入。

本研究整合了模拟退火(SA )为基础支持向量机的方式来确定最优的分类结果,被称为模拟退火-支持向量机(SA-SVM ),以上提出的的SA-SVM 方法不仅仅可以得到更好的SVM 参数值,也找到了特定问题的功能子集,从而最大限度地提高了SVM 分类准确率。这使两个分离的最优超平面既可采用线性,又可采用非线性分类。

本文的其余部分组织如下:第二部分回顾关于支持向量机和特征选择的相关文献,第三部分对以上提出的模拟退火-支持向量机(SA-SVM )进行介绍,旨在改进有或者无特征选择的支持向量机参数。第四部分是对该实验方法与现存的其他方法的结果进行的比较。最后在第五部分得出结论,以及给出未来研究的建议。

2 文献综述

2.1 支持向量机

支持向量机可简述如下[14-16]。设

()(){}1,......,11±?∈X y x y x m m 表示的训练数

据集,其中X 表示从该模式设置一些非空变量i X ,i Y 表示目标变量{}1±∈i Y 。

支持向量机视图在一个多维空间找出一个超平面,这个超平面的功能是作为数据分类的一个分离平面。考虑到超平面在某些点产生的空间H 下,参数w 和b 被描述如下:

()0=+?b x w ,where R b H w ∈∈, (1)

如果一个超平面满足等式(1),那么

就可以得到线性分离。这种情况下w 和b 就满足以下条件:

{}

m i b x w H x x x i N

i R b H w ......1,0,min max 1,==+?∈-≤≤∈∈ (2) 让点到超平面的距离是w 1。 在分离超平面中包括一个最优分类超平面(OSH),在两边的支持向量点中它拥有最大的距离。因为两个支持向量点的距离为

2

1w ,而距离以上超平面的最小距离可以

从等式(2)中求得。

超平面的边距w 2可以理解为这个超平面的推广功能,这个超平面拥有在所有分离的超平面中最大的边距。2w 可以通过等式(2)和拉格朗日多项式得到其最小值。我们记()m a a ......1,结合拉格朗日多项式和等式(2)得到以下最大化的等式:

()j i j i j m

j i i m

i i x x y y a W ααα∑∑==-=1,1

21 (3)

其中0≥i α且对于所有的m i ......1=都成立,并有01=∑=i m

i i y α (4)

二次规划可用来解决这个最大化问题。

给定一个方程满足最大化方程(3),则超平面中()b w ,可以写成以下形式:

i i m

i i x y W ∑==1α

其中支持向量点必须满足等式(2)和

0≥i α。当考虑到在约束等式(4)中的扩

张,超平面的函数式可以写成如下:

()0,sgn 1=??

? ??+=∑=m i i i i b x x y x f α (6) 大部分情况下,数据是不可线性分离的,因此被映射到更高维的特征空间中。这就意味着如果数据不能在现有的维数空间中被严格的分离,那么支持向量机就要把数据映射到更高维的空间中进行分离。

通过绘制一条非线性曲线,将输入数据映射到高维空间。然后在特征空间中建立这个超平面。特征空间向量'

,x x 是建立在核K

评价输入模式的',x x ,其中()

'',,x x x x k =。

核函数之所以可以被应用是因为所有的特征向量仅仅产生于点产品中。权重向量,成为功能空间的一个扩展,因此不再单独对应一个输入空间向量。

这个决定函数描述如下:

()()()(),

,sgn ,sgn 11??

?

??+=?

??

??+Φ=∑∑==m i j i i i m i i i i b x x k y a b x x y a x f (7) 这个二次规划方程为:

()j i j i j m

j i i m

i i R x x k y y a a W m

ααα∑∑==∈-=1,1

21max (8) 其中0≥i α且对于所有的m i ......1=都成立,并有01=∑=i

m

i i y α (9)

在寻找最优方法中,几个核函数帮助了支持向量。最常用的函数是多项式核,径向基核和基础放射核(RBF) [17–19]。一般情况下,RBF 最常用,因此它可以分类多维数据,而不像线性核函数那样。此外,RBF 比多项式核有更少的参数。总体来说,RBF 与其他核函数没有明显区别,因此,对于核函数,RBF 是一个很好的选择。所以,本研究是在支持向量机中采用径向基函数寻求最优解。

适应于径向基支持向量的两个参数C 和γ必须设置合理,参数C 是惩罚因子,该参数C 的值影响分类结果。如果C 过大,则在训练阶段的分类准确率非常高,而在试验阶段的分类准确率则很低;如果C 过小,那么分类的准确率很低,使得模型没有用处。 相比参数C 参数γ在分类结果上有更大的影响力,因为它的值影响在特征空间划分结果。对于参数γ过多的值将会导致过度拟合,而不成比例的小值又会使得拟合结果偏小[20]。

网络搜索[13,21]是确定参数C 和γ的最简单方法。在搜索中通过对参数C 和参数γ设置上限和下限,或是跳跃间隔都可以使得搜索的准确率达到很高。然而,这种搜索只是本地搜索,很有可能产生一个局部最优。此外,如何设置搜索间隔也是一个问题。太大的搜索间隔会浪费计算能力,太小的搜索间隔可能得不到满意的结果。为获得最佳

的方法,在支持向量机中的参数目前还在研

究之中。

除了普遍采用的网络搜索技术,其他的应用在支持向量机中的用于选择一个合适的参数的方法也在进一步提高被改进的可能性。这种F-评分方法采用Ⅰ型和Ⅱ型的误差概念统计方法以及随机森林(RF) [22]。Pai and Hong [23]提出了一种结合遗传算法(GA)和支持向量机的方法,他们的模型模仿他们的染色体编码遗传算法产生的参数值设置为支持向量机。Pai and Hong [24,25]还提出了一个遗传算法用来得到支持向量机,并将其应用到了实际的数据。然而他们的做法并不具有地址选择功能,因此可能会排除最好的结果。

2.2 特征选择

支持向量机的分类准确率不仅仅由参数C 和参数γ决定,其他的因素包括特征数据集的质量也会有影响。例如,特征之间的相关性影响分类的结果;意外的重要特征的消除可能影响分类的准确率。此外,一些数据集的某些特征可能一点影响也没有,或者包含一个高级别的噪音。祛除这些功能可能提高搜索的准确率。

特征选择方法可分为过滤器模型和包装模型[26],筛选模型[26]在调查其他间接表现的措施上利用统计技术,如主成分分析(PCA),因子分析(FA),独立成分分析(ICA)和判别分析(DA)等,这些技术大部分是基于距离和信息的措施。Chen and Hsieh [27]提出了潜在语义分析(LSA)和网页特征选择(WPFA),这是与支持向量机技术相结合的屏幕特征。Gold et [28]等人发明了贝叶斯支持向量分类器,它为了确定不相关功能的参数标准采用超参数值。Chapelle et [29]等人研发了一种自动调整多个参数,并应用到主成分获得支持向量机的功能。支持向量机是应用在癌症基因选择分类中的一种特征选择方法,这是被Guyon et [30]等人称作的支持向量机特征消除(SVM-RFE)。因此,他们提出了应用相关的方法来消除多余的功能,以提高支持向量机的特征消除RFE 。拟议的

方法不仅减少了分类的数量,还保持了分类的精度。尽管过滤模型的分类速度很快,但它可能不会产生最优特征子集[26]。

特征选择的最简单形式是包装模型,它按照表现的准确率进行分类。一些研究者认为,如果最高的预测精度得到了最大限度的减少错误率和分类均衡的所有功能,包装模型最合适不过了。分类器的最大目的是最大化的提高分类的准确性。通过分类的特征应用选择最优的特征。该包装模型通常使用元启发式办法帮助寻找最优特征子集。虽然元启发式的方法是缓慢的,但是它能够找到附近最优的特征子集。

Neumaan[33]等人观察到特征选择是监督模式分类问题上的一个显著的组合优化问题。并在不同的凸函数基础上提出了额外的正规化和嵌入式非线性选择方法,这是对于非凸不断优化问题的一个框架。Jack and Nandi [34] and Shon [35]在筛选数据集的特征中应用了遗传算法,这个选择数据集的特征被应用到了支持向量机中的分类测试。Zhang [16]等人提出了一种基于遗传算法的方法来获得一个在支持向量机监测状态的有利子集。然而,他们的方法没有解决支持向量机的参数设置问题,因此可能会排除最优的结果。Samanta[36]等人研发了一种遗传算法用来改变支持向量机特征选择中的径向宽度基参数,不过,由于他们的方法只搜索支持向量机的径向基宽度,它也可能排除最佳参数的设定。据我们所知,很少有人能够同时考虑到支持向量机中特征选择和最佳参数的设定。

3 支持向量机-模拟退火方法

模拟退火算法(SA)是一个全局搜索算法,它首先是被Metropolis [37]等人提出的,稍后又被Kirkpatrick [38]等人推广。模拟退火算法借助于最基本的冶金技术。随着温度的逐渐减少,分子慢慢结晶成低能量状态。只要金属能够加热到足够高的初始温度,而且它的冷却速度足够的慢,所有的晶粒就能够达到最低的温度。由Metropolis [37]等人提出的模拟退火算法不仅能改善搜索的结果,而且能避免得到局部最优结果。类似于金属的冷却,它的冷却过程使得模拟退火衔接搜索结果,进而达到最优解。

本研究提出的―隐藏和寻求-模拟退火‖算法,首先是被Romeijn [39,40]等人研发的,主要用于搜寻支持向量机的参数值,并确定相应的功能子集。―隐藏和寻求-模拟退火‖算法,可以处理连续变量,使其能在可行界的范围内和收敛范围内找到最优的解决方案。―隐藏和寻求-模拟退火‖算法比传统的模拟退火算法使用更少的参数。这些约束和目标函数可以是不可微的,且可行域可以是凸的,甚至可以是断开的。该算法是目前唯一的一个解决算法。通过一个随机向量,它选择一个可行域内的点作为搜索过程的下一

个迭代点,―隐藏和寻求-模拟退火‖算法不同于传统的模拟退火迭代算法,因为它产生的下一个迭代数据是在所有的解决方案地区

之中,而传统的迭代方法产生的下一个迭代数据是在临区域。―隐藏和寻求-模拟退火‖算法要求Metropolis为下一解决方案选择验收规则和一个合适的模拟退火过程。不管如何使温度迅速下降到零,当前的解决方案总是可能得到一个最近的全局最优解。―隐藏和寻求-模拟退火‖算法与传统的模拟退火

算法最大的不同在于每当找到一个解决方

案时,前者总是立即执行模拟退火,而不必等待电流退火周期的结束。但是在传统的模拟退火算法中,它会减少跳跃退火的次数,而是在每一个退火周期中会随着温度慢慢

降低,通过逐渐减少跳跃周期,慢慢收敛到全局最优解。因此―隐藏和寻求-模拟退火‖算法比传统的模拟退火算法能够更迅速的

得到全局最优解。图1展示了―隐藏和寻求-模拟退火‖算法。

图1 ―隐藏和寻求-模拟退火‖算法。

(完整版)支持向量机(SVM)原理及应用概述

支持向量机(SVM )原理及应用 一、SVM 的产生与发展 自1995年Vapnik (瓦普尼克)在统计学习理论的基础上提出SVM 作为模式识别的新方法之后,SVM 一直倍受关注。同年,Vapnik 和Cortes 提出软间隔(soft margin)SVM ,通过引进松弛变量i ξ度量数据i x 的误分类(分类出现错误时i ξ大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM 的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程;1996年,Vapnik 等人又提出支持向量回归 (Support Vector Regression ,SVR)的方法用于解决拟合问题。SVR 同SVM 的出发点都是寻找最优超平面(注:一维空间为点;二维空间为线;三维空间为面;高维空间为超平面。),但SVR 的目的不是找到两种数据的分割平面,而是找到能准确预测数据分布的平面,两者最终都转换为最优化问题的求解;1998年,Weston 等人根据SVM 原理提出了用于解决多类分类的SVM 方法(Multi-Class Support Vector Machines ,Multi-SVM),通过将多类分类转化成二类分类,将SVM 应用于多分类问题的判断:此外,在SVM 算法的基本框架下,研究者针对不同的方面提出了很多相关的改进算法。例如,Suykens 提出的最小二乘支持向量机 (Least Square Support Vector Machine ,LS —SVM)算法,Joachims 等人提出的SVM-1ight ,张学工提出的中心支持向量机 (Central Support Vector Machine ,CSVM),Scholkoph 和Smola 基于二次规划提出的v-SVM 等。此后,台湾大学林智仁(Lin Chih-Jen)教授等对SVM 的典型应用进行总结,并设计开发出较为完善的SVM 工具包,也就是LIBSVM(A Library for Support Vector Machines)。LIBSVM 是一个通用的SVM 软件包,可以解决分类、回归以及分布估计等问题。 二、支持向量机原理 SVM 方法是20世纪90年代初Vapnik 等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。 支持向量机的基本思想:首先,在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输

含参不等式恒成立问题中求参数取值范围一般方法(教师版)

恒成立问题是数学中常见问题,也是历年高考的一个热点。大多是在不等式中,已知一个变量的取值范围,求另一个变量的取值范围的形式出现。下面介绍几种常用的处理方法。 一、分离参数 在给出的不等式中,如果能通过恒等变形分离出参数,即:若()a f x ≥恒成立,只须求出()max f x ,则()m ax a f x ≥;若()a f x ≤恒成立,只须求出()min f x ,则()m in a f x ≤,转化为函数求最值。 例1、已知函数()lg 2a f x x x ??=+ - ???,若对任意[)2,x ∈+∞恒有()0f x >,试确定a 的取值范围。 解:根据题意得:21a x x + ->在[)2,x ∈+∞上恒成立, 即:23a x x >-+在[)2,x ∈+∞上恒成立, 设()23f x x x =-+,则()2 3924f x x ??=--+ ??? 当2x =时,()max 2f x = 所以2a > 例2、已知(],1x ∈-∞时,不等式() 21240x x a a ++-?>恒成立,求a 的取值范围。 解:令2x t =,(],1x ∈-∞ (]0,2t ∴∈ 所以原不等式可化为:22 1t a a t +-<, 要使上式在(]0,2t ∈上恒成立,只须求出()2 1t f t t +=在(]0,2t ∈上的最小值即可。 ()22211111124t f t t t t t +????==+=+- ? ? ???? 11,2t ??∈+∞???? ()()min 324f t f ∴== 234a a ∴-< 1322 a ∴-<< 二、分类讨论 在给出的不等式中,如果两变量不能通过恒等变形分别置于不等式的两边,则可利用分类讨论的思想来解决。 例3、若[]2,2x ∈-时,不等式2 3x ax a ++≥恒成立,求a 的取值范围。 解:设()2 3f x x ax a =++-,则问题转化为当[]2,2x ∈-时,()f x 的最小值非负。 (1) 当22a -<-即:4a >时,()()min 2730f x f a =-=-≥ 73 a ∴≤又4a >所以a 不存在;

支持向量机算法

支持向量机算法 [摘要] 本文介绍统计学习理论中最年轻的分支——支持向量机的算法,主要有:以SVM-light为代表的块算法、分解算法和在线训练法,比较了各自的优缺点,并介绍了其它几种算法及多类分类算法。 [关键词] 块算法分解算法在线训练法 Colin Campbell对SVM的训练算法作了一个综述,主要介绍了以SVM为代表的分解算法、Platt的SMO和Kerrthi的近邻算法,但没有详细介绍各算法的特点,并且没有包括算法的最新进展。以下对各种算法的特点进行详细介绍,并介绍几种新的SVM算法,如张学工的CSVM,Scholkopf的v-SVM分类器,J. A. K. Suykens 提出的最小二乘法支持向量机LSSVM,Mint-H suan Yang提出的训练支持向量机的几何方法,SOR以及多类时的SVM算法。 块算法最早是由Boser等人提出来的,它的出发点是:删除矩阵中对应于Lagrange乘数为零的行和列不会对最终结果产生影响。对于给定的训练样本集,如果其中的支持向量是已知的,寻优算法就可以排除非支持向量,只需对支持向量计算权值(即Lagrange乘数)即可。但是,在训练过程结束以前支持向量是未知的,因此,块算法的目标就是通过某种迭代逐步排除非支持向时。具体的做法是,在算法的每一步中块算法解决一个包含下列样本的二次规划子问题:即上一步中剩下的具有非零Lagrange乘数的样本,以及M个不满足Kohn-Tucker条件的最差的样本;如果在某一步中,不满足Kohn-Tucker条件的样本数不足M 个,则这些样本全部加入到新的二次规划问题中。每个二次规划子问题都采用上一个二次规划子问题的结果作为初始值。在最后一步时,所有非零Lagrange乘数都被找到,因此,最后一步解决了初始的大型二次规划问题。块算法将矩阵的规模从训练样本数的平方减少到具有非零Lagrange乘数的样本数的平方,大减少了训练过程对存储的要求,对于一般的问题这种算法可以满足对训练速度的要求。对于训练样本数很大或支持向量数很大的问题,块算法仍然无法将矩阵放入内存中。 Osuna针对SVM训练速度慢及时间空间复杂度大的问题,提出了分解算法,并将之应用于人脸检测中,主要思想是将训练样本分为工作集B的非工作集N,B中的样本数为q个,q远小于总样本个数,每次只针对工作集B中的q个样本训练,而固定N中的训练样本,算法的要点有三:1)应用有约束条件下二次规划极值点存大的最优条件KTT条件,推出本问题的约束条件,这也是终止条件。2)工作集中训练样本的选择算法,应能保证分解算法能快速收敛,且计算费用最少。3)分解算法收敛的理论证明,Osuna等证明了一个定理:如果存在不满足Kohn-Tucker条件的样本,那么在把它加入到上一个子问题的集合中后,重新优化这个子问题,则可行点(Feasible Point)依然满足约束条件,且性能严格地改进。因此,如果每一步至少加入一个不满足Kohn-Tucker条件的样本,一系列铁二次子问题可保证最后单调收敛。Chang,C.-C.证明Osuna的证明不严密,并详尽地分析了分解算法的收敛过程及速度,该算法的关键在于选择一种最优的工

支持向量机(SVM)原理及

支持向量机(SVM)原理及应用概述

支持向量机(SVM )原理及应用 一、SVM 的产生与发展 自1995年Vapnik (瓦普尼克)在统计学习理论的基础上提出SVM 作为模式识别的新方法之后,SVM 一直倍受关注。同年,Vapnik 和Cortes 提出软间隔(soft margin)SVM ,通过引进松弛变量i ξ度量数据i x 的误分类(分类出现错误时i ξ大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM 的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程;1996年,Vapnik 等人又提出支持向量回归 (Support Vector Regression ,SVR)的方法用于解决拟合问题。SVR 同SVM 的出发点都是寻找最优超平面(注:一维空间为点;二维空间为线;三维空间为面;高维空间为超平面。),但SVR 的目的不是找到两种数据的分割平面,而是找到能准确预测数据分布的平面,两者最终都转换为最优化问题的求解;1998年,Weston 等人根据SVM 原理提出了用于解决多类分类的SVM 方法(Multi-Class Support Vector Machines ,Multi-SVM),通过将多类分类转化成二类分类,将SVM 应用于多分类问题的判断:此外,在SVM 算法的基本框架下,研究者针对不同的方面提出了很多相关的改进算法。例如,Suykens 提出的最小二乘支持向量机 (Least Square Support Vector Machine ,LS —SVM)算法,Joachims 等人提出的SVM-1ight ,张学工提出的中心支持向量机 (Central Support Vector Machine ,CSVM),Scholkoph 和Smola 基于二次规划提出的v-SVM 等。此后,台湾大学林智仁(Lin Chih-Jen)教授等对SVM 的典型应用进行总结,并设计开发出较为完善的SVM 工具包,也就是LIBSVM(A Library for Support Vector Machines)。LIBSVM 是一个通用的SVM 软件包,可以解决分类、回归以及分布估计等问题。 二、支持向量机原理 SVM 方法是20世纪90年代初Vapnik 等人根据统计学习理论提出的一种新的机器学习方 法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。 支持向量机的基本思想:首先,在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输

支持向量机分类器

支持向量机分类器 1 支持向量机的提出与发展 支持向量机( SVM, support vector machine )是数据挖掘中的一项新技术,是借助于最优化方法来解决机器学习问题的新工具,最初由V.Vapnik 等人在1995年首先提出,近几年来在其理论研究和算法实现等方面都取得了很大的进展,开始成为克服“维数灾难”和过学习等困难的强有力的手段,它的理论基础和实现途径的基本框架都已形成。 根据Vapnik & Chervonenkis的统计学习理论 ,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化 ( SRM,structural risk minimization)原则,而不是经验风险最小化原则,通俗地说就是应当使错误概率的上界最小化。SVM正是这一理论的具体实现。与传统的人工神经网络相比, 它不仅结构简单,而且泛化( generalization)能力明显提高。 2 问题描述 2.1问题引入 假设有分布在Rd空间中的数据,我们希望能够在该空间上找出一个超平面(Hyper-pan),将这一数据分成两类。属于这一类的数据均在超平面的同侧,而属于另一类的数据均在超平面的另一侧。如下图。 比较上图,我们可以发现左图所找出的超平面(虚线),其两平行且与两类数据相切的超平面(实线)之间的距离较近,而右图则具有较大的间隔。而由于我们希望可以找出将两类数据分得较开的超平面,因此右图所找出的是比较好的超平面。 可以将问题简述如下: 设训练的样本输入为xi,i=1,…,l,对应的期望输出为yi∈{+1,-1},其中+1和-1分别代表两类的类别标识,假定分类面方程为ω﹒x+b=0。为使分类面对所有样本正确分类并且具备分类间隔,就要求它满足以下约束条件: 它追求的不仅仅是得到一个能将两类样本分开的分类面,而是要得到一个最优的分类面。 2.2 问题的数学抽象 将上述问题抽象为: 根据给定的训练集

集合、函数基本性质中的参数问题(含详解)

集合、函数基本性质中的参数问题 1、已知集合},1{},,3,1{m B m A ==,A B A = ,则=m ( ) A 、0或3 B 、0或3 C 、1或3 D 、1或3 2、已知集合}{},1{2a M x x P =≤=,若P M P = ,则a 的取值范围是( ) A 、]1,(--∞ B 、),1[+∞ C 、]1,1[- D 、),1[]1,(+∞--∞ 3、设集合},1{R x a x x A ∈<-=,},51{R x x x B ∈<<=,若?=B A ,则实数a 的取值范围是( ) A 、}60{≤≤a a B 、}42{≥≤a a a 或 C 、}62{≥≤a a a 或 D 、}42{≤≤a a 4、已知函数32)(2--=ax x x f 在区间]2,1[上单调,则实数a 的取值范围是 5、已知函数)(x f y =在定义域)1,1(-上是减函数,且)12()1(-<-a f a f ,则a 的取值范围是 6、已知函数???<≥+=0 ,10,1)(2x x x x f ,则满足不等式)2()1(x f x f >-的x 的取值范围是 7、若R a ∈,且对于一切实数x 都有032 >+++a ax ax ,那么a 的取值范围是( ) A 、),0(+∞ B 、),0[+∞ C 、)4,(--∞ D 、),0()4,(+∞--∞ 8、关于x 的方程02)12(22=-+--a x a x 至少有一个非负实根,则a 的取值范围是 9、已知集合}32{},12{≤≤-=+≤≤=x x B a x a x A ,若A B A = ,求实数a 的取值范围

支持向量机算法学习总结

题目:支持向量机的算法学习 姓名: 学号: 专业: 指导教师:、 日期:2012年6 月20日

支持向量机的算法学习 1. 理论背景 基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据 (样本) 出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。迄今为止,关于机器学习还没有一种被共同接受的理论框架,关于其实现方法大致可以分为三种: 第一种是经典的(参数)统计估计方法。包括模式识别、神经网络等在内,现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学的,在这种方法中,参数的相关形式是已知的,训练样本用来估计参数的值。这种方法有很大的局限性,首先,它需要已知样本分布形式,这需要花费很大代价,还有,传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。 第二种方法是经验非线性方法,如人工神经网络(ANN。这种方法利用已知样本建立非线性模型,克服了传统参数估计方法的困难。但是,这种方法缺乏一种统一的数学理论。 与传统统计学相比,统计学习理论( Statistical Learning Theory 或SLT) 是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。V. Vapnik 等人从六、七十年代开始致力于此方面研究[1] ,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。 统计学习理论的一个核心概念就是VC维(VC Dimension)概念,它是描述函数集或学习机器的复杂性或者说是学习能力(Capacity of the machine) 的一个重要指标,在此概念基础上发展出了一系列关于统计学习的一致性(Consistency) 、收敛速度、推广性能(GeneralizationPerformance) 等的重要结论。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy) 和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以

支持向量机参数设置详解

程序中SVM 的参数: TestSVM_Parameter.svm_type=C_SVC; TestSVM_Parameter.kernel_type= RBF; TestSVM_Parameter.degree=3.0; TestSVM_Parameter.coef0=1; TestSVM_Parameter.gamma=1; TestSVM_Parameter.cache_size=40; TestSVM_Parameter.eps=0.01; TestSVM_Parameter.C=1.0; TestSVM_Parameter.shrinking=1; TestSVM_Parameter.nr_weight=0; TestSVM_Parameter.weight=NULL; TestSVM_Parameter.weight_label=NULL; SVM 参数含义: int svm_type :SVM 问题类型: 0: C_SVC: 多类别识别问题,求解问题 ,,min b w ξ 1 12l t i i C ξ=+∑w w 1: NU_SVC :多类别识别问题,求解问题 ,,,min b ρw ξ 1 112l t i i l νρξ=-+∑w w 2: ONE_CLASS :两类别识别问题,求解问题 ,,,min b ρw ξ 1 112l t i i l ρξν=-+∑w w 3: EPSILON_SVR :回归分析,求解问题 *,,,min b w ξξ *1112l l t i i i i C C ξξ==++∑∑w w 4: NU_SVR :回归分析,求解问题 *,,,,min b εw ξξ ()*112l t i i i C νεξξ=??+++ ???∑w w int kernel_type :核函数类型: 0: LINEAR ,线性,(),t K =x y x y 1: POL Y ,多项式,()(),d t K C γ=+x y x y 2: RBF ,径向基函数,()()2,exp K γ=--x y x y 3: SIGMOID ,Sigmoid 函数,()( ),tanh t K C γ=+x y x y double degree :多项式核函数参数 double gamma :多项式、径向基函数和Sigmoid 函数的参数 double coef0:多项式和Sigmoid 函数的参数

求解含参数的两个集合的关系常用五法

求解含参数的两个集合的关系常用五法 判断两个集合之间的关系是集合中的重要题型,且是高考热点内容之一。其中,含参数的两个集合的关系更是许多同学解题的难点。怎样求解含参数的两个集合的关系题呢?本文将结合例题介绍五种破解术,供大家参考: 法一:借助数轴或韦恩图寻找关系 例1:已知全集+ =N U ,集合},3{+∈==N n n x x P ,},6{+∈==N n n x x Q , 则=U ( ) A Q P ? B Q P C U ? C Q C P U ? D Q C P C U U ? 解:依题意得,P Q ?,则其韦恩图如下: 由韦恩图可知,=U Q C P U ?,即选C 法二:列举对比法 例2:数集},)12{(Z m m M ∈+=π与数集},)14{(Z n n N ∈±=π之间的关系是( ) A N M ? B N M = C M N ? D N M ≠ 解:取 ,2,1,0,1,-=m ,则},5,3,,,{ ππππ-=M ;取 ,1,0,=n ,则},5,3,,,{ ππππ-=N . N M =∴即选B 法三:合理分类讨论,利用集合有关定义准确判断 例3:已知集合}),12(51{Z k k x x M ∈+==,},5 154{Z k k x x N ∈±==,则集合N M ,之间的关系为( ) A N M ? B M N ? C N M = D N M ≠ 解:设M x ∈1,则有Z k k x ∈+=111),12(5 1 当Z n n k ∈=,21时,5 154)14(511+=+=n n x N x ∈∴1 当Z n n k ∈-=,121时,5 154)124(511-=+-=n n x N x ∈∴1 从而有N M ? 又设N x ∈2,则Z k k k x ∈±=±=2222),14(5 15154 )(1422Z k k ∈± 表示奇数,)(12Z n n ∈+也表示奇数 Z n n k x ∈+=±=∴),12(5 1)14(5122 M x ∈∴2从而有M N ? 综上可得,N M =

集合中的求参数的取值范围

集合中的求参数的取值范围 题组一 子集中的求参数取值范围 1. 已知集合{ } 01032 ≤--=x x x A . (1)若{}121,-≤≤+=?m x m x B A B ,求实数m 的取值范围;(3≤m ) (2)若{}126,-≤≤-==m x m x B A B ,求实数m 的取值范围;(43≤≤m ) 2. 已知集合{}12<≤-=x x A ,{},m x x B >=若B A ?,求m 的取值范围.(2-

题组二 方程或不等式有解问题中的求参数取值范围 1. 方程()01452=---x x a 有实数根,求实数a 的取值范围.(1≥a ) 2. 若关于x 的不等式()()02112>+-+-x m x m 的解集为R ,求m 的取值范围.(91<≤m ) 3. 若方程0)1(2 =-++k x x k 有且仅有一个实数根,求实数k 的取值范围.(1-=k 或2 1- =k ) 题组三 集合运算中的求参数取值范围 1. 已知两个集合{} {}32,022 +<<=≤--=a x a x B x x x A ,且满足φ=B A ,求实数a 的 取值范围.(4-≤a 或1≥a ) 2. 对于实数集{ } 03422 =-+-=a ax x x A 和{} 022222=+++-=a a ax x x B ,是否存在实数a ,使φ=B A ?若不存在,请说明理由;若存在,求出a 的取值范围.(21<

支持向量机数据分类预测

支持向量机数据分类预测 一、题目——意大利葡萄酒种类识别 Wine数据来源为UCI数据库,记录同一区域三种品种葡萄酒的化学成分,数据有178个样本,每个样本含有13个特征分量。50%做为训练集,50%做为测试集。 二、模型建立 模型的建立首先需要从原始数据里把训练集和测试集提取出来,然后进行一定的预处理,必要时进行特征提取,之后用训练集对SVM进行训练,再用得到的模型来预测试集的分类。 三、Matlab实现 3.1 选定训练集和测试集 在178个样本集中,将每个类分成两组,重新组合数据,一部分作为训练集,一部分作为测试集。 % 载入测试数据wine,其中包含的数据为classnumber = 3,wine:178*13的矩阵,wine_labes:178*1的列向量 load chapter12_wine.mat; % 选定训练集和测试集 % 将第一类的1-30,第二类的60-95,第三类的131-153做为训练集 train_wine = [wine(1:30,:);wine(60:95,:);wine(131:153,:)]; % 相应的训练集的标签也要分离出来 train_wine_labels = [wine_labels(1:30);wine_labels(60:95);wine_labels(131:153)]; % 将第一类的31-59,第二类的96-130,第三类的154-178做为测试集 test_wine = [wine(31:59,:);wine(96:130,:);wine(154:178,:)]; % 相应的测试集的标签也要分离出来 test_wine_labels = [wine_labels(31:59);wine_labels(96:130);wine_labels(154:178)]; 3.2数据预处理 对数据进行归一化: %% 数据预处理 % 数据预处理,将训练集和测试集归一化到[0,1]区间 [mtrain,ntrain] = size(train_wine); [mtest,ntest] = size(test_wine); dataset = [train_wine;test_wine]; % mapminmax为MATLAB自带的归一化函数 [dataset_scale,ps] = mapminmax(dataset',0,1); dataset_scale = dataset_scale';

支持向量机(SVM)算法推导及其分类的算法实现

支持向量机算法推导及其分类的算法实现 摘要:本文从线性分类问题开始逐步的叙述支持向量机思想的形成,并提供相应的推导过程。简述核函数的概念,以及kernel在SVM算法中的核心地位。介绍松弛变量引入的SVM算法原因,提出软间隔线性分类法。概括SVM分别在一对一和一对多分类问题中应用。基于SVM在一对多问题中的不足,提出SVM 的改进版本DAG SVM。 Abstract:This article begins with a linear classification problem, Gradually discuss formation of SVM, and their derivation. Description the concept of kernel function, and the core position in SVM algorithm. Describes the reasons for the introduction of slack variables, and propose soft-margin linear classification. Summary the application of SVM in one-to-one and one-to-many linear classification. Based on SVM shortage in one-to-many problems, an improved version which called DAG SVM was put forward. 关键字:SVM、线性分类、核函数、松弛变量、DAG SVM 1. SVM的简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。 对于SVM的基本特点,小样本,并不是样本的绝对数量少,而是与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。非线性,是指SVM擅长处理样本数据线性不可分的情况,主要通过松弛变量和核函数实现,是SVM 的精髓。高维模式识别是指样本维数很高,通过SVM建立的分类器却很简洁,只包含落在边界上的支持向量。

用于分类的支持向量机

文章编号:100228743(2004)0320075204 用于分类的支持向量机 黄发良,钟 智Ξ (1.广西师范大学计算机系,广西桂林541000;  2.广西师范学院数学与计算机科学系,广西南宁530001) 摘 要:支持向量机是20世纪90年代中期发展起来的机器学习技术,建立在结构风险最小化原理之上的支持向量机以其独有的优点吸引着广大研究者,该文着重于用于分类的支持向量机,对其基本原理与主要的训练算法进行介绍,并对其用途作了一定的探索. 关键词:支持向量机;机器学习;分类 中图分类号:TP181 文献标识码:A 支持向量机S VM (Support Vector Machine )是AT&T Bell 实验室的V.Vapnik 提出的针对分类和回归问题的统计学习理论.由于S VM 方法具有许多引人注目的优点和有前途的实验性能,越来越受重视,该技术已成为机器学习研究领域中的热点,并取得很理想的效果,如人脸识别、手写体数字识别和网页分类等. S VM 的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界. 1 基本原理 支持向量机理论最初来源于数据分类问题的处理,S VM 就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin 尽可能最大. 设输入模式集合{x i }∈R n 由两类点组成,如果x i 属于第1类,则y i =1,如果x i 属于第2类,则y i =-1,那么有训练样本集合{x i ,y i },i =1,2,3,…,n ,支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来,通常分为两类情况来讨论,(1)线性可分,(2)线性不可分. 1.1 线性可分情况 在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为: w ?x +b =0(1) 其中,“?”是点积,w 是n 维向量,b 为偏移量. 最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面.最优超平面可以通过解下面的二次优化问题来获得: min <(w )= 12‖w ‖2(2) Ξ收稿日期:2004202206作者简介:黄发良(1975-),男,湖南永州人,硕士研究生;研究方向:数据挖掘、web 信息检索. 2004年9月 广西师范学院学报(自然科学版)Sep.2004 第21卷第3期 Journal of G u angxi T eachers Education U niversity(N atural Science Edition) V ol.21N o.3

集合中参数问题的解答方法(部分答案)

集合中参数问题的解答方法 集合中的参数问题主要包括:①集合与集合关系中的参数问题;②集合运算过程中的参数问题;每类问题又涉及到求参数的值和求参数的取值范围两种情况。那么在实际解答这类问题时,到底应该怎样展开思路,寻求解答方法呢?下面通过对典型例题的解析来回答这个问题。 【典例1】解答下列问题: 1、含有三个元素的集合可以表示为{a, b a ,1},也可以表示为{2a ,a+b,0}. 求:20092010a b +的值。 2、设A={x|2x -3x+2=0},B={x|x+2>a },如果A ? B,求实数a 的取值范围; 3、已知集合A={x|0<ax+1≤5},B={x|- 12 <x ≤2}. ①若A ? B, 求实数a 的取值范围; ②若B ? A, 求实数a 的取值范围; ③A 、B 能否相等?若能求出实数a 的值;若不能说明理由。 4、已知集合A={x|a 2x -3x+2=0,a ∈R }. ①若A 是空集,求实数a 的取值范围; ②若A 中只有一个元素,求a 的值,并把这个元素求出来; ③若A 中至多有一个元素,求实数a 的取值 【解析】 1、【知识点】①集合相等的定义与性质;②集合元素的定义与特性;③参数值的求法;④代数式的值的意义与求法; 【解答思路】根据集合相等的定义与性质,结合结合元素的特性求出参数a ,b 的值,再把求得的值代入代数式通过计算得出结果; 【详细解答】Q {a,b a ,1}={2a ,a+b,0},0∈{a,b a ,1},a ≠0,∴b a =0,?b=0,2a =1, ?a=±1,Q a ≠1,∴a=-1,∴20092010a b +=2009(1)-+20100=-1+0=-1。 2、【知识点】①集合的表示方法;②一元二次方程的定义与解法;③一元一次不等式的定义与解法;④数轴的定义与运用;⑤子集的定义与性质; 【解答思路】根据一元二次方程的定义与解法把集合A 用列举法表示出来,由一元一次不等式的定义与解法把集合B 用描述法表示出来,运用A B 结合数轴得到关于a 的不等式,求解不等式就可得出结果; 【详细解答】如图,Q A ?B ,∴a-2≤1,?a ≤3 0 1 2 ∴当A ?B ,实数a 的取值范围是(-∞,3]。 3、【知识点】①集合的表示法;②一元一次不等式的定义与解法;③参数分类讨论的原则与方法;④子集的定义与性质; 【解答思路】根据一元一次不等式的定义与解法把集合A 用描述法表示出来,由A ?B 得

支持向量机训练算法综述_姬水旺

收稿日期:2003-06-13 作者简介:姬水旺(1977)),男,陕西府谷人,硕士,研究方向为机器学习、模式识别、数据挖掘。 支持向量机训练算法综述 姬水旺,姬旺田 (陕西移动通信有限责任公司,陕西西安710082) 摘 要:训练SVM 的本质是解决二次规划问题,在实际应用中,如果用于训练的样本数很大,标准的二次型优化技术就很难应用。针对这个问题,研究人员提出了各种解决方案,这些方案的核心思想是先将整个优化问题分解为多个同样性质的子问题,通过循环解决子问题来求得初始问题的解。由于这些方法都需要不断地循环迭代来解决每个子问题,所以需要的训练时间很长,这也是阻碍SVM 广泛应用的一个重要原因。文章系统回顾了SVM 训练的三种主流算法:块算法、分解算法和顺序最小优化算法,并且指出了未来发展方向。关键词:统计学习理论;支持向量机;训练算法 中图分类号:T P30116 文献标识码:A 文章编号:1005-3751(2004)01-0018-03 A Tutorial Survey of Support Vector Machine Training Algorithms JI Shu-i wang,JI Wang -tian (Shaanx i M obile Communicatio n Co.,Ltd,Xi .an 710082,China) Abstract:Trai n i ng SVM can be formulated into a quadratic programm i ng problem.For large learning tasks w ith many training exam ples,off-the-shelf opti m i zation techniques quickly become i ntractable i n their m emory and time requirem ents.T hus,many efficient tech -niques have been developed.These techniques divide the origi nal problem into several s maller sub-problems.By solving these s ub-prob -lems iteratively,the ori ginal larger problem is solved.All proposed methods suffer from the bottlen eck of long training ti me.This severely limited the w idespread application of SVM.T his paper systematically surveyed three mains tream SVM training algorithms:chunking,de -composition ,and sequenti al minimal optimization algorithms.It concludes with an illustrati on of future directions.Key words:statistical learning theory;support vector machine;trai ning algorithms 0 引 言 支持向量机(Support Vector M achine)是贝尔实验室研究人员V.Vapnik [1~3]等人在对统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法,也使统计学习理论第一次对实际应用产生重大影响。SVM 是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,表现出了很好的泛化能力。由于SVM 方法有统计学习理论作为其坚实的数学基础,并且可以很好地克服维数灾难和过拟合等传统算法所不可规避的问题,所以受到了越来越多的研究人员的关注。近年来,关于SVM 方法的研究,包括算法本身的改进和算法的实际应用,都陆续提了出来。尽管SVM 算法的性能在许多实际问题的应用中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。 训练SVM 的本质是解决一个二次规划问题[4]: 在约束条件 0F A i F C,i =1,, ,l (1)E l i =1 A i y i =0 (2) 下,求 W(A )= E l i =1A i -1 2 E i,J A i A j y i y j {7(x i )#7(x j )} = E l i =1A i -1 2E i,J A i A j y i y j K (x i ,x j )(3)的最大值,其中K (x i ,x j )=7(x i )#7(x j )是满足Merce r 定理[4]条件的核函数。 如果令+=(A 1,A 2,,,A l )T ,D ij =y i y j K (x i ,x j )以上问题就可以写为:在约束条件 +T y =0(4)0F +F C (5) 下,求 W(+)=+T l -12 +T D +(6) 的最大值。 由于矩阵D 是非负定的,这个二次规划问题是一个凸函数的优化问题,因此Kohn -Tucker 条件[5]是最优点 第14卷 第1期2004年1月 微 机 发 展M icr ocomputer Dev elopment V ol.14 N o.1Jan.2004

集合间基本关系及运算测试题(含答案)

集合间基本关系及运算 一、单选题(共11道,每道9分) 1.设集合,则=( ) A. B. C. D. 答案:B 解题思路: 试题难度:三颗星知识点:补集及其运算 2.已知, ,则实数a的值是( ) A.1或2 B.2或4 C.1或2或4 D.2 答案:D 解题思路: 试题难度:三颗星知识点:集合关系中的参数取值问题 3.设,,下列关系正确的是

A. B. C. D. 答案:D 解题思路: 试题难度:三颗星知识点:集合的包含关系判断及应用 4.设,则下列关系正确的是( ) A. B. C. D.M和P没有关系 答案:C 解题思路: 试题难度:三颗星知识点:集合的包含关系判断及应用 5.设,,则下列说法正确的是

A. B. C. D. 答案:C 解题思路: 试题难度:三颗星知识点:集合的包含关系判断及应用 6.已知集合,,若,则实数m的取值范围是( ) A. B. C. D. 答案:B 解题思路:

试题难度:三颗星知识点:集合关系中的参数取值问题 7.集合,若,则实数a,m的值是( ) A.a=3;m=3 B.a=2或3;m=3 C. D. 答案:D 解题思路: 试题难度:三颗星知识点:集合关系中的参数取值问题 8.若集合中,仅有一个元素a,则a,b的值分别是( ) A.-1或1 B. C. D. 答案:C 解题思路:

试题难度:三颗星知识点:集合关系中的参数取值问题 9.集合,,,若,,则实数a的值为( ) A.-2或5 B.2或-5 C.-2 D.5 答案:C 解题思路: 试题难度:三颗星知识点:集合关系中的参数取值问题 10.已知全集,集合,若

支持向量机训练算法的实验比较

支持向量机训练算法的实验比较 姬水旺,姬旺田 (陕西移动通信有限责任公司,陕西西安710082) 摘 要:S VM是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,表现出了很好的泛化能力。并对目前的三种主流算法S VM light,Bsvm与SvmFu在人脸检测、M NIST和USPS手写数字识别等应用中进行了系统比较。 关键词:统计学习理论;支持向量机;训练算法 中图法分类号:TP30116 文献标识码:A 文章编号:100123695(2004)1120018203 Experimental C omparison of Support Vector Machine Training Alg orithms J I Shui2wang,J I Wang2tian (Shanxi Mobile Communication Co.,LTD,Xi’an Shanxi710082,China) Abstract:Support vector learning alg orithm is based on structural risk minimization principle.It combines tw o remarkable ideas:maxi2 mum margin classifiers and im plicit feature spaces defined by kernel function.Presents a com prehensive com paris on of three mainstream learning alg orithms:S VM light,Bsvm,and SvmFu using face detection,M NIST,and USPS hand2written digit recognition applications. K ey w ords:S tatistical Learning T heory;Support Vector Machine;T raining Alg orithms 1 引言 支持向量机(Support Vector Machine)是贝尔实验室研究人员V.Vapnik等人[30]在对统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法,也是统计学习理论第一次对实际应用产生重大影响。S VM是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,表现出了很好的泛化能力。由于S VM 方法有统计学习理论作为其坚实的数学基础,并且可以很好地克服维数灾难和过拟合等传统算法所不可规避的问题,所以受到了越来越多的研究人员的关注。近年来,关于S VM方法的研究,包括算法本身的改进和算法的实际应用,都陆续提了出来。但是,到目前为止,还没有看到有关支持向量算法总体评价和系统比较的工作,大多数研究人员只是用特定的训练和测试数据对自己的算法进行评价。由于支持向量机的参数与特定的问题以及特定的训练数据有很大的关系,要对它们进行统一的理论分析还非常困难,本文试从实验的角度对目前具有代表性的算法和训练数据进行比较,希望这些比较所得出的经验结论能对今后的研究和应用工作有指导意义。本文所用的比较算法主要有S VM light[14],Bsvm[12]和SvmFu[25],它们分别由美国C ornell University的Thorsten Joachims教授,National T aiwan U2 niversity的Chih2Jen Lin教授和美国麻省理工学院Ryan Rifkin博士编写的,在实验的过程中,笔者对算法进行了修改。由于这些算法有很大的相似之处,而且训练支持向量机是一个凸函数的优化过程,存在全局唯一的最优解,训练得到的模型不依赖于具体的算法实现,因此,本文在实验过程中不对具体的算法做不必要的区别。实验所采用的训练和测试数据也是目前非常有代表性的,它们大部分由国内外研究人员提供。 2 比较所用数据简介 本文所用的人脸检测数据是从美国麻省理工学院生物和计算学习中心[31](Center for Biological and C omputational Lear2 ning)得到的,这些数据是C BC L研究人员在波士顿和剑桥等地收集的,每个训练样本是一个由19×19=361个像素组成的图像,我们用一个361维的向量来代表每一个图像,每一个分量代表对应的像素值。用于训练的样本共有6977个,其中有2429个是人脸,其余4548个是非人脸;在测试样本集中共有24045个样本,包含472个人脸和23573个非人脸。这是一个两类分类问题。图1是训练样本中部分人脸的图像。 图1 人脸检测数据中部分人脸的图像 M NIST手写数字识别数据是由美国AT&T的Y ann LeCun 博士收集的[32],每个样本是0~9中的一个数字,用28×28= 784维的向量表示。在训练集中有60000个样本,测试集中有10000个样本。图2是训练样本中前100个样本的图像。 USPS手写识别数据是由美国麻省理工学院和贝尔实验室的研究人员共同从U.S.P ostal Service收集的[33],每个样本是0~9中的一个数字,用16×16=256维的向量中的各个分量表示所对应像素的灰度值。训练集中共有7291个样本,测试集中有2007个样本。图3是训练集中部分样本的图像。 ? 8 1 ?计算机应用研究2004年 收稿日期:2003206220;修返日期:2003211212

相关文档
最新文档