回归型支持向量机的调节熵函数法

回归型支持向量机的调节熵函数法
回归型支持向量机的调节熵函数法

第24卷第11期

Vol.24No.11

控 制 与 决 策

Cont rol

an d

Decision

2009年11月

 

Nov.2009

收稿日期:2008210208;修回日期:2009203221.

基金项目:国家自然科学基金项目(60574075,60674108).

作者简介:吴青(1975—),女,山东临沂人,博士生,从事模式识别、机器学习和最优化理论及其应用的研究;刘三

阳(1959—),陕西临潼人,教授,博士生导师,从事最优化理论方法、数据挖掘、支持向量机等研究.

文章编号:100120920(2009)1121609206

回归型支持向量机的调节熵函数法

吴 青1,2,刘三阳1,张乐友1

(1.西安电子科技大学数学科学系,西安710071;2.西安邮电学院信息与控制系,西安710061)

摘 要:基于最优化理论中的KKT 互补条件建立支持向量回归机的无约束不可微优化模型,并给出了一种有效的光滑近似解法———调节熵函数方法.该方法不需参数取值很大便可逼近问题的最优解,从而避免了一般熵函数法为了逼近精确解,参数取得过大而导致数值的溢出现象,为求解支持向量回归机提供了一条新途径.数值实验结果表明,回归型支持向量机的调节熵函数法改善了支持向量机的回归性能和效率.关键词:支持向量机;回归;ε2不敏感损失函数;调节熵函数;Newton 算法中图分类号:TP181 文献标识码:A

Adjustable entropy f unction method for support vector regression

W U Qi ng

1,2

,L I U S an 2y an g 1,Z H A N G L e 2you

1

(1.Department of Mathematical Sciences ,Xidian University ,Xi ’an 710071,China ;2.Department of Information and Control ,Xi ’an Institute of Posts and Telecommunications ,Xi ’an 710061,China.Correspondent :WU Qing ,E 2mail :xidianwq @https://www.360docs.net/doc/6110781933.html, )

Abstract :Based on Karush 2Kuhn 2Tucker (KKT )complementary condition in optimization theory ,unconstrained non 2differential optimization models for support vector regression are proposed ,and an adjustable entropy f unction method is given.This method can find an optimal solution with a relatively small parameter.It avoids the numerical overflow in the entropy f unction methods available.It is a new approach to solve support vector regression.Numerical results show that the new approach improves the regression performance and increases the learning efficiency.

K ey w ords :Support vector machine ;Regression ;ε2insensitive loss f unction ;Adjustable entropy f unction ;Newton algorithm

1 引 言

近年来,建立在统计学习理论基础上的支持向

量机(SVM )方法,已成为数据挖掘和机器学习领域研究的一个热点.SVM 作为一种通用有效的学习机,已成功地应用于模式分类、回归分析和密度估计等问题[1,2].支持向量回归对离散数据的拟合具有很好的效果.目前,对于支持向量回归机(SVR )[3,4]模型的算法机理已有较为明确的认识,但算法的设计和实现依然比较困难,而且收敛速度较慢.

将光滑函数用于SV R ,可使原来不可微的模型变成可微模型,从而可以采用快速的求解算法,降低SVM 的计算复杂性.2005年,Lee 等提出了光滑的SVR 模型ε2SSVR [5],结果表明ε2SSVR 的效果好于L IBSVM [6]和SVM light [7]算法.2008年,熊金志等运用插值函数和复合函数的方法提出一类新的光滑函

数[8],回归性能有了进一步的改善.采用光滑化技巧解决SVR 的研究尚有很大的发展空间,有待于进一步深入地研究.

极大熵方法是近几年出现的一种新的数值优化方法,可以有效地处理极大极小问题和多约束非线性规划等优化问题.它具有收敛速度快、数值稳定性好、易于计算机实现等优点,是求解大型多约束优化问题和某些不可微优化问题的有效方法.文献[9212]中的数值例子表明,该方法具有一定的应用价值,但进一步的分析表明它存在严重的不足[11],只有当参数p 趋于无穷大时,才能逼近问题的精确解,然而当p 取较大值时,又容易产生数值的溢出现象.[13,14]分别采用传统的熵函数和分段熵函数法训练SVM 的分类问题,虽然避免了数值的溢出现象,但只有参数p 取值很大时才能取得满意的结

控 制 与 决 策

第24卷

果.[15]提出将调节熵函数法应用于支持向量机的分类问题,使得当参数p 的取值不太大时,便可以逼近问题的最优解.

本文给出了带调节因子的熵函数法,并将其应用于SVR 问题,克服了极大熵函数法训练SV R 所造成的数值溢出的现象,不需要参数p 取值很大,便可以逼近问题的精确解.本文将调节熵函数应用于SVR ,从而为求解SVM 的回归问题提供了一种新途径.数值实验结果表明,A EF 2SV R 具有较好的回归性能和效率,并成功地避免了数值的溢出现象.

2 支持向量机

考虑回归问题,给定训练样本{x i ,y i },i =1,2,…,l.其中:x i ∈R k ,y i ∈R ,x i 为k 维输入样本,l 为

样本的总个数.SV R 的学习问题就是一个二次规划问题,通常采用Vap nik 的ε2不敏感损失函数,即指

定容许误差ε.若样本x i 误差为ξi ,则当|ξi |≤

ε时,不计损失;否则,损失计为|ξi |-ε.回归函数可表示为

p (x )=

l

i =1

(αi -α3

i )k (x ,x i )+b.

其中:α和α3均为待求的k 维向量;k (x i ,x j )=

φ(x i )?φ(x j )称为核函数,φ(x )为从样本空间到高

维特征空间的映射函数,核函数表示为两个φ(?)的点积.SVR 需求解如下二次规划问题(P1):

min

12‖w ‖2+C ∑

l

i =1

(ξi +ξ3

i );

s.t.y i -(w ?φ(x i ))-b ≤ε+ξi ,

(w ?φ(x i ))+b -y i ≤ε+ξ3

i ,

ξi ,ξ3i

≥0,i =1,2,…,l.其中:(w ?

φ(x i ))表示内积;参数C 为常数,表示对超出误差ε样本的惩罚程度.

模型(P1)的对偶形式为(P2)

min α,α

3

1

2

∑l i =1∑

l

j =1

(αi -α3i )(αj -α3

j )k (x i ,x j )- ∑l

i =1y i (αi -α3

i )+ε∑

l

i =1

(αi +α3

i );s.t.

∑l

i =1

(αi

-α3

i

)

=0,

αi ,α3

i

∈[0,C],i =1,2,…,l.其中

α=(α1,α2,…,αl )

T

,α3=(α31,α32,…,α3l )T .

求得α及α3后,可得回归函数p (x ).令

f (α,α3

12

∑l

i =1∑l

j =1

(αj

-α3j

)k (x i

,x j

)(αi

-α3

i

),

g i (α,α3

,b )Χ

y i -

l

j =1

(αj -α3

j )k (x i ,x j )+

b ,

i =1,2,…,l.(1)

则模型(P1)等价于模型(P3)

min α,α

3

f (α,α3

)+C ∑l

i =1

(ξi

+ξ3

i

);

s.t.g i (α,α3,b )≤ε+ξi ,

-g i (α,α3

,b )≤ε+ξ3

i ,

ξi ,ξ3

i

≥0,i =1,2,…,l.对于优化问题(P3),引入Lagrange 乘子β,β3,γ,γ3,其中

β=(β1,β2,…,βl )

T

,β3=(β31,β32,…,β3l )

T ,γ=(γ1,γ2,…,γl )

T ,γ3=(γ31,γ32,…,γ3l )T

.

建立Lagrange 函数

L (α,α3,b,β,β3,γ,γ3

)=

f (α,α3

)+C

l

i =1

(ξi +ξ3

i )-

l

i =1βi (ε+ξi -g i (α,α3

,b ))-∑

l

i =1

γi ξi

-∑l

i =1

β3

i

(ε+ξ3

i

+g i (α,α3

,b ))-

l

i =1

γ3i

ξ3

i

.

利用KKT 互补条件,有

βi (ε+ξi -g i (

α,α3,b ))=0,(2)β3i (ε+ξ3i +g i (α,α3,b ))=0,(3)(C -βi -γi )ξi =0,(4)(C -β3i -γ3i )ξ3i

=0.(5)

由式(2)~(5)可知

ξi =max {0,g i (

α,α3,b )-ε},ξ3i

=max {0,-g i (α,α3,b )-ε}.因此,模型(P1)可等价为无约束优化模型(P4)

min α,α3

,b

f (α,α3

)+C

l

i =1

[max {0,g i

(α,α3

,b )-

ε}+max {0,-g i (α,α3

,b )-ε}].

引入函数

r i (α,α3,b )=g i (α,α3

,b )-ε,

r i+1(α,α3,b )=-g i (α,α3

,b )-ε,

i =1,2,…,l.

则无约束不可微优化模型(P4)可等价于如下含有2l +1个变量的无约束不可微规划(P5)

min α,α3

,b

f (α,α3

)+C ∑

2l

i =1

max {0,r i

(α,α3

,b )}.0

161

第11期吴青等:回归型支持向量机的调节熵函数法

‖ξ‖1=∑

2l

i =1

max {0,r i (α,α3,b )},

ξ‖∞=max {0,r 1(α,α3,b ),r 2(α,α3

,b ),…,r 2l (α,α3

,b )},

则由有限维线性空间上的向量范数等价性定理,可得如下不等式:

12l

‖ξ‖1≤‖ξ‖∞≤‖ξ‖1.

(6)

因此,若用‖ξ‖∞代替式(6)中‖ξ‖1,则可得无约束优化模型(P6)

min α,α3

,b

Γ(α,α3,b )=f (α,α3)+C max {0,r 1(α,α3

,b ),

r 2(α,α3,b ),…,r 2l (α,α3

,b )}.

显然,无约束优化模型(P6)在形式上更加简洁.

(P6)的目标函数是凸的,但不可微,当k 较小时,可用直接搜索法求解,如Nelder 2Mead 单纯形法、Powell 方向加速法.当k 较大时,直接搜索法效率

低,需采用其他方法(熵方法是处理这类极大值函数不可微优化的一种有效技巧).下面给出优化问题

(P6)的一种光滑函数的解法.

3 调节熵函数法

对于极大极小问题min x ∈R

k

max l ≤i ≤m

f i (x )(这里f i (x )

是R k 中连续可微的函数,m ≥2是正整数),利用极大熵原理推导出的可微函数

F p (x )=

1

p

ln (

∑m

i =1

exp (pf i (x ))),

常称为极大熵函数.用该可微函数来逼近最大值函数F (x )=max 1≤i ≤m

f i (x ),只有当参数p 趋于无穷大时,

F p (x )的解才趋于F (x )的精确解,所以当精度要求

很高时,p 必须取得很大.由文献[9]知,这样容易产生数值的溢出现象.为了克服F p (x )的不足,本文提出了带调节因子的熵函数法来训练SV R ,即A EF 2SV R 方法.

定义调节熵函数F (p ,μ)(x )=1

p ln

(

m i =1

μi

exp (pf i

(x ))).

(7)

其中:p 和μ均为参数,p >0,μ∈R m ,μi ≥0且

m

i =1

μi =1.通过引入调节熵函数,问题(P6)的求解可转化为如下的无约束优化问题(P7)

Γ(p ,μ)(α,α3,b )=

f (α,α3

)+C

p

ln (∑

2l i =0

μi

exp (pr i

(α,α3

,b ))).(8)

其中:r 0(α,α3,b )=0,p >0,μ∈Δ={μ∈R 2l+1,

μi ≥0,i =0,1,…,2l ,

2l

i =0

μi

=1}为参数.由以上分析,优化问题(P1)等价于无约束优化问题(P7),容易证明Γ(p ,μ)(α,α3,b )是任意阶可微的凸函数.因此,优化问题(P7)的任一局部最优解都是全局最优解.

定义R (α,α3,b )=max 0≤i ≤2l

r i (α,α3,b ),I (α,α3,b )

={i |r i (α,α3

,b )=R (α,α3

,b ),i =0,1,…,2l},ΔI

={μ∈Δ,对i |I (α,α3,b ),μi =0},由极大熵函数的逼近性质可得如下定理:

定理1 设μ∈Δ且μ≠0,则C ln i ∈I

μmax /p ≤

Γ(p ,μ)(α,α3,b )-Γ(α,α3,b )≤0,其中μmax

=max {μi ,i ∈I (α,α3,b )},且当p ?∞时,Γ(p ,μ)(α,α3,b )一致收敛到Γ(α,α3,b ).

证明 显然有Γ(p ,μ)(α,α3,b )≤

f (α,α3

)+C

p

ln (∑

2l i =0

μi

exp (pR (α,α3

,b )))=

f (α,α3)+CR (α,α3,b )=Γ(α,α3

,b ).

因为对于i ∈I (α,α3,b ),有r i (α,α3,b )=R (α,α3,b ),则

Γ(p ,μ)(α,α3,b )≥

f (α,α3

)+C p ln (μi exp (pR (

α,α3,b )))=f (α,α3)+CR (α,α3

,b )+C p

ln μi .

于是有

Γ(p ,μ)(α,α3,b )≥Γ(α,α3,b )+C p

ln μmax .

所以,当μ∈Δ,μ≠0时

C ln i ∈I

μmax /p ≤

Γ(p ,μ)(α,α3,b )-Γ(α,α3,b )≤0,

当p →∞时,Γ(p ,μ)(α,α3,b )一致收敛于Γ(α,α3,

b ).

定理2[11] 对于(α,α3,b )

R +,有Γ(p ,μ)(α,α3,b )=Γ(α,α3

,b ),当且仅当μ∈ΔI .

以上2个定理表明,不仅可以调节p ,而且可以通过调节μ,使Γ(p ,μ)(α,α3,b )更快地逼近Γ(α,α3,b ).如果一直调节p 使p 充分大,则会出现exp (pr i )溢出的数值计算问题.所以调节熵函数法在取得充分大的p 后,便不再增大p 的值,而是调节μ,使得Γ(p ,μ)(α,α3,b )收敛到Γ(α,α3,b ),从而避免数值的溢出问题.下面给出μ的调节方法.

1

161

控 制 与 决 策第24卷

设p >0,μ∈

Δ是当前的迭代点值,即对于p >Δ,μ∈Δ,(α,α3,b )是Γ(p ,μ)(α,α3,b )的极小解,则有 Γ(p ,μ)(α,α3,b )=0,即 Γ(p ,μ)(α,α3,b )=

K (α-α3

)-K (α-α3

)

+

C

[

l

i =0

μi

exp (pr i

)-

2l

i =l+1

μi

exp (pr i

)∑

2l

j =0

μi exp (pr j )]

-K e i

K e i -1

=0.

(9)

其中:核矩阵K =(k (x i ,x j ))l i ,j =1为对称矩阵,e i 表示第i 个分量为1的l 维单位向量.选取

σi =μi exp (pr i )

2l

j =0

μj exp (pr j ),i =0,1,

…,2l ,(10)

则σi ∈

Δ且满足K (α-α3

)-K (α-α3

)

+C (

l

i =0

σi

-∑2l

i =l+1

σi

)-K e i K e i -1

=0,

(11)所以式(10)定义的σi 可作为下一个调解因子的值,

Γ(p ,μ)(α,α3,b )的Hessian 矩阵也容易求出.

4 支持向量机的调节熵函数法

Newton 下降法具有二次收敛性.下面给出二次无约束规划问题(P7)的Newton 算法.

算法1 输入{(x i ,y i )}l i =1,初值z 0=(α0,α3

0,

b 0),ε1>0,ε2>0,p 0=1,μ0

i =1/(l +1),i =0,1,…,2l ,k =0.

Step1:计算g k = Γ(p k ,μk )(z k ),若‖g k ‖≤ε1,则转Step4.

Step2:计算

H k = 2Γ(p k ,μk )(z k ),d k =-H -1

k g k .Step3:一维搜索min λ>0

Γ(p k ,μk )(z k +λd k ),得λk ,

z k+1=z k +λk d k ,k =k +1,转Step1.

Step4:z 3(p k )=z k ,若满足‖z 3

(p k )-

z 3

(p k-1)‖>ε2,则计算

p k+1=10p k ,

μk+1

i

=μk

i exp (p k r i (z k ))

2l

j =0

μk

j

exp (p k

r j

(z k ))

,

i =0,1,…,2l ,k =k +1,

转Step1;否则转Step5.

Step5:算法结束,输出最优解(^α,^α3

,^b )=z k .由于Newton 算法是二次收敛的,对于较小的

p ,只需很少几部迭代便满足了ε1限制.整个算法具

有二次收敛性.

传统的SV R 训练算法需要解决大规模样本条件下的凸二次规划问题,需要处理l ×l 阶矩阵,运算量和所需内存都比较大.A EF 2SVR 在求解过程中,除必须存储原始数据外,只涉及到2k +1阶方阵的存储和求逆,对于回归问题,一般有k νl.相比而言,对于大规模的回归问题,该算法的存储量和计算量都较小.

5 数值实验

为了充分比较A EF 2SVR ,M EF 2SVR 和传统

ε2SVR 的性能差异,分别将这3种算法应用于2个人工数据集和3个实际数据集回归问题.采用高斯核函数

k (x i ,x j )=exp (-θ‖x i -x j ‖2

),

i ,j =1,2,…,l ,

其中θ为高斯核的宽度参数.实验均在P 2IV 机上完成,程序采用Matlab7.0编写.以二范数相对误差(SRE )作为性能指标来衡量不同方法对训练数据的拟合效果以及对测试数据的预测效果.

SRE =‖y -^y ‖2

‖y ‖2

.

(12)

其中:y 为实际观测值,^y 为预测值.

实验1 人工数据集回归问题

sin c 函数

f (x )=015?sin (30

πx

)30π

x +ρ

是例证SVR 的流行选择.其中ρ是附加的高斯白噪

声,均值为0,方差σ2

=0108.在区间[-1,1]上等间

隔产生101个点作为训练样本,观测值由sin c 函数产生.用随机产生的1000个无噪声样本度量误差,取10次实验的平均值作为测试误差.设ε=0102,θ

=5156,C =30.在M EF 2SV R 和A EF 2SV R 中,分

别取10000和10.

实验结果表明,与ε2SVR 相比,M EF 2SVR 和A EF 2SVR 的相对误差较小,且二者相差不大,M EF 2SVR 和A EF 2SVR 的CPU 用时也比传统的

ε2SVR 短.但是,A EF 2SVR 算法中参数p 的取值远

远小于M EF 2SVR 中p 的取值.

图1给出了A EF 2SV R 的回归曲线.其中:“+”表示训练样本点,中间一条实线是A EF 2SVR 产生的回归曲线,上下两条点线到回归曲线垂直方向的

间距为ε,从而上下两条点线形成了ε2管道,该管道套住了训练集中的所有样本点.具体实验结果见表1.

2

161

第11期吴青等:回归型支持向量机的调节熵函数法

表1 3种算法的实验结果比较

算 法(θ,C,ε,p)训练误差测试误差CPU时间/s

A EF2SVR(5.56,30,0.02,10)0.05330.04920.036

MEF2SVR(5.56,30,0.02,10000)0.05270.04990.031

ε2SVR(5.56,30,0.02,\)0.06110.05700.

049

图1 调节熵函数支持向量回归机产生的回归曲线

实验2 实际数据集回归问题

波士顿住房问题[16]是检验算法回归性能的基准数据集,该实验分别测试了A EF2SV R在波士顿住房问题、K in2f h数据集[17]和Comp2activ数据集[18]上的性能,并与M EF2SVR和ε2SV R分别进行了比较.对于波士顿住房问题,试验中随机选取450个样本作为训练样本,其余的作为测试样本;对于Kin2f h数据集,从整个数据集中随机选择7373个样本作为训练样本,其余的作为测试样本;对于Comp2activ数据集,随机选取7373个样本作为训练样本,其余的作为测试样本.实验中对所有的样本数据都进行了归一化处理,取10次实验的平均值作为最终结果.表2给出了所使用的回归基准问题的数据特征;表3为A EF2SVR,M EF2SV R和ε2SV R在3个回归基准问题上的实验结果,包括回归问题的均方误差(MSE)和训练时间(CPU)比较.

表2 基准问题的数据特征

数据集训练样本/个测试样本/个特征数Boston Housing4505613 K in2f h737381932 Comp2activ737381921

A EF2SV R算法因为可以同时调节参数p和μ,从而p不需取得很大便可以得到较好的实验结果.在以上3个试验中,p分别取10,10,12.M EF2SV R 采用传统的极大熵函数法训练SVR,可以得到很好的回归效果,但p的取值都较大.在以上3个实验中,p分别取5000,5000,100000,3种算法均具有很高的拟合能力,而A EF2SVR和M EF2SV R的回归性能和训练速度均优于ε2SVR.M EF2SVR算法虽然避免了数值的溢出现象,训练时间略短于A EF2SVR,但参数p的取值比较大,均不小于5000,甚至达到105才取得了表3所示的结果.A EF2SV R 在p的取值很小、训练时间较短的前提下,取得了比较好的回归性能.

表3 基准问题上的对比实验结果

数据集算 法参数(C,ε,p)训练误差测试误差CPU时间/s

A EF2SVR(50,0.1,10)0.20340.19560.045 Boston MEF2SVR(50,0.1,5000)0.20400.19520.040ε2SVR(50,0.1,\)0.20650.19880.99

A EF2SVR(10,0.1,10)0.13460.1340 2.332

K in2f h MEF2SVR(10,0.1,5000)0.13230.1354 2.207ε2SVR(10,0.1,\)0.13460.135912.310

A EF2SVR(60,0.2,12)0.0280.033 1.664 Comp2activ MEF2SVR(60,0.2,100000)0.0310.033 1.525ε2SVR(60,0.2,\)0.0370.0348.652

6 结 论

本文在ε2SVR约束优化模型的基础上,依据最优化理论建立了无约束模型.为了解决目标函数不可微问题给求解带来的困难,引入了调节熵函数这一光滑化技术,将上述问题转化为可微的无约束优化问题,进而给出一种简单易行且二次收敛的Newton算法,为求解SVR提供了一种新思路.SV R的调节熵函数法可以同时调节参数p和μ,以任意精度逼近原问题的解,避免了数值的溢出现象,节约了学习过程的存储空间,在保证回归性能不减(或稍有增加)的前提下,提高了学习效率.

参考文献(R eferences)

[1]Vapnik V N.The nature of statistical learning theory

[M].New Y ork:Springer2Verlag,2000.

3161

控 制 与 决 策第24卷

[2]Vapnik V N,G olowich S,Smola A.Support vector

method for f unction approximation,regression estimation,and signal processing[C].Advances in Neural Information Processing Systems.Cambridge: MIT Press,1996,9:2812287.

[3]Smola A J,Sch lkopf B.A tutorial on support vector

regression[J].Statistics and Computing,2004,14(3): 1992222.

[4]Shevade S K,Keerthi S S,Bhattacharyya C,et al.

Improvements to SMO algorithm for regression[J].

IEEE Trans on Neural Networks,2000,11(5):11882 1193.

[5]Lee Y J,Hsieh W F,Huang C F.ε2SSVR:A smooth

support vector machine forε2insensitive regression[J].

IEEE Trans on Knowledge and Data Engineering,2005, 17(5):6782685.

[6]Chang C C,Lin C J.L IBSVM:A library for support

vector machine[DB/OL].https://www.360docs.net/doc/6110781933.html,.

tw/~cjlin/libsvm.2001211227.

[7]Joachims T.SVM light[DB/OL].http://svmlight.

https://www.360docs.net/doc/6110781933.html,.2002205213.

[8]熊金志,胡金莲,袁华强,等.支持向量回归机的光滑

函数研究[J].模式识别与人工智能,2008,21(2): 2732279.

(Xiong J Z,Hu J L,Yuan H Q,et al.Smoothing

f unctions for support vector regressions[J].Pattern

Recognition and Artificial Intelligence,2008,21(2): 2732279.)

[9]李兴斯.一类不可微优化问题的有效解法[J].中国科

学(A),1994,24(4):3712377.

(Li X S.An efficient method for a sort of non2 differential optimization problems[J].Science in China

(A),1994,24(4):3712377.)

[10]李兴斯.非线性极大极小问题的一个有效解法[J].科

学通报,1991,36(19):144821451.

(Li X S.An efficient method for nonlinear minmax problems[J].Chinese Science Bulletin,1991,36(19): 144821451.)[11]杨庆之,杨德庄,张敏洪.调节熵函数[J].计算数学,

2001,23(1):81286.

(Yang Q Z,Yang D Z,Zhang M H.Adjustable entropy function method[J].Mathmatica Numerica Sinica,2001,23(1):81286.)

[12]Zhang L W,Tang H W.A maximum entropy

algorithm with parameters for solving minimax problem [J].Archives of Control Sciences,1997,6(1/2):472

59.

[13]郭崇慧,孙建涛,陆玉昌.广义支持向量机优化问题

的极大熵方法[J].系统工程理论与实践,2005,25

(6):27232.

(Guo C H,Sun J T,L u Y C.Maximum entropy approach for generalized support vector machine optimization problems[J].Systems Engineering2 Theory&Practice,2005,25(6):27232.)

[14]周水生,周利华.训练支持向量机的低维Newton算法

[J].系统工程与电子技术,2004,26(9):131521318.

(Zhou S S,Zhou L H.Lower dimension Newton2 algorithm for training the support vector machines[J].

Systems Engineering and Electronics,2004,26(9): 131521318.)

[15]Wu Q,Liu S Y,Zhang L Y.Adjustable entropy

f unction method for support vector machines[J].J of

Systems Engineering and Electronics,2008,19(5): 102921034.

[16]Murphy P M,Aha D W.UCI machine learning

repository[DB/OL]https://www.360docs.net/doc/6110781933.html,/~mlearn/

ML Repository.html.1996210210

[17]Delve.Data for evaluating learning in valid

experiments,Kin2family dataset[DB/OL].http://

https://www.360docs.net/doc/6110781933.html,/~delve/data/kin/desc.html.

1996210205.

[18]Delve.Data for evaluating learning in valid

experiments,comp2activ dataset[DB/OL].http://

https://www.360docs.net/doc/6110781933.html,/~delve/data/comp2activ/desc.

html.1996210208.

(上接第1608页)

[52]Zhang Y,Tian Y2P.Consentability and protocol

design of multi2agent systems with stochastic switching topology[J].Automatica,2009,45(5):119521201. [53]Hatano Y,Mesbahi M.Agreement over random

networks[J].IEEE Trans on Automatic Control, 2005,50(11):186721872.

[54]Fagnani F,Zampieri S.Average consensus with packet

drop communication[J].SIAM J on Control and Optimization,2009,48(1):1022133.

[55]Mehyar M,Spanos D,Pongsajapan J,et al.

Asynchronous distributed averaging on communication networks[J].IEEE/ACM Trans on Networking, 2007,15(3):5122520.

4161

实验2分类预测模型_支持向量机

实验2分类预测模型——支持向量机SVM 一、 实验目的 1. 了解和掌握支持向量机的基本原理。 2. 熟悉一些基本的建模仿真软件(比如SPSS 、Matlab 等)的操作和使用。 3. 通过仿真实验,进一步理解和掌握支持向量机的运行机制,以及其运用的场景,特别是 在分类和预测中的应用。 二、 实验环境 PC 机一台,SPSS 、Matlab 等软件平台。 三、 理论分析 1. SVM 的基本思想 支持向量机(Support Vector Machine, SVM ),是Vapnik 等人根据统计学习理论中结构风险最小化原则提出的。SVM 能够尽量提高学习机的推广能力,即使由有限数据集得到的判别函数,其对独立的测试集仍能够得到较小的误差。此外,支持向量机是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。这希尔特点使支持向量机成为一种优秀的基于机器学习的算法。 SVM 是从线性可分情况下的最优分类面发展而来的,其基本思想可用图1所示的二维情况说明。 图1最优分类面示意图 图1中,空心点和实心点代表两类数据样本,H 为分类线,H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线,他们之间的距离叫做分类间隔(margin )。所谓最优分类线,就是要求分类线不但能将两类正确分开,使训练错误率为0,而且还要使分类间隔最大。前者保证分类风险最小;后者(即:分类间隔最大)使推广性的界中的置信范围最小,从而时真实风险最小。推广到高维空间,最优分类线就成为了最优分类面。 2. 核函数 ω

支持向量机的成功源于两项关键技术:利用SVM 原则设计具有最大间隔的最优分类面;在高维特征空间中设计前述的最有分类面,利用核函数的技巧得到输入空间中的非线性学习算法。其中,第二项技术就是核函数方法,就是当前一个非常活跃的研究领域。核函数方法就是用非线性变换 Φ 将n 维矢量空间中的随机矢量x 映射到高维特征空间,在高维特征空间中设计线性学习算法,若其中各坐标分量间相互作用仅限于内积,则不需要非线性变换 Φ 的具体形式,只要用满足Mercer 条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。 常用的满足Mercer 条件的核函数有多项式函数、径向基函数和Sigmoid 函数等,选用不同的核函数可构造不同的支持向量机。在实践中,核的选择并未导致结果准确率的很大差别。 3. SVM 的两个重要应用:分类与回归 分类和回归是实际应用中比较重要的两类方法。SVM 分类的思想来源于统计学习理论,其基本思想是构造一个超平面作为分类判别平面,使两类数据样本之间的间隔最大。SVM 分类问题可细分为线性可分、近似线性可分及非线性可分三种情况。SVM 训练和分类过程如图2所示。 图2 SVM 训练和分类过程 SVM 回归问题与分类问题有些相似,给定的数据样本集合为 x i ,y i ,…, x n ,y n 。其中, x i x i ∈R,i =1,2,3…n 。与分类问题不同,这里的 y i 可取任意实数。回归问题就是给定一个新的输入样本x ,根据给定的数据样本推断他所对应的输出y 是多少。如图3-1所示,“×”表示给定数据集中的样本点,回归所要寻找的函数 f x 所对应的曲线。同分类器算法的思路一样,回归算法需要定义一个损失函数,该函数可以忽略真实值某个上下范围内的误差,这种类型的函数也就是 ε 不敏感损失函数。变量ξ度量了训练点上误差的代价,在 ε 不敏感区内误差为0。损失函数的解以函数最小化为特征,使用 ε 不敏感损失函数就有这个优势,以确保全局最小解的存在和可靠泛化界的优化。图3-2显示了具有ε 不敏感带的回归函数。 o x y 图3-1 回归问题几何示意图 o x y 图3-2 回归函数的不敏感地

支持向量机及支持向量回归简介

3.支持向量机(回归) 3.1.1 支持向量机 支持向量机(SVM )是美国Vapnik 教授于1990年代提出的,2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器,是构造分类规则的通用方法。SVM 方法的贡献在于,它使得人们可以在非常高维的空间中构造出好的分类规则,为分类算法提供了统一的理论框架。作为副产品,SVM 从理论上解释了多层感知器的隐蔽层数目和隐节点数目的作用,因此,将神经网络的学习算法纳入了核技巧范畴。 所谓核技巧,就是找一个核函数(,)K x y 使其满足(,)((),())K x y x y φφ=,代 替在特征空间中内积(),())x y φφ(的计算。因为对于非线性分类,一般是先找一个非线性映射φ将输入数据映射到高维特征空间,使之分离性状况得到很大改观,此时在该特征空间中进行分类,然后再返会原空间,就得到了原输入空间的非线性分类。由于内积运算量相当大,核技巧就是为了降低计算量而生的。 特别, 对特征空间H 为Hilbert 空间的情形,设(,)K x y 是定义在输入空间 n R 上的二元函数,设H 中的规范正交基为12(),(),...,(), ...n x x x φφφ。如果 2 2 1 (,)((),()), {}k k k k k K x y a x y a l φφ∞ == ∈∑ , 那么取1 ()() k k k x a x φφ∞ ==∑ 即为所求的非线性嵌入映射。由于核函数(,)K x y 的定义 域是原来的输入空间,而不是高维的特征空间。因此,巧妙地避开了计算高维内 积 (),())x y φφ(所需付出的计算代价。实际计算中,我们只要选定一个(,)K x y ,

(完整版)支持向量机(SVM)原理及应用概述

支持向量机(SVM )原理及应用 一、SVM 的产生与发展 自1995年Vapnik (瓦普尼克)在统计学习理论的基础上提出SVM 作为模式识别的新方法之后,SVM 一直倍受关注。同年,Vapnik 和Cortes 提出软间隔(soft margin)SVM ,通过引进松弛变量i ξ度量数据i x 的误分类(分类出现错误时i ξ大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM 的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程;1996年,Vapnik 等人又提出支持向量回归 (Support Vector Regression ,SVR)的方法用于解决拟合问题。SVR 同SVM 的出发点都是寻找最优超平面(注:一维空间为点;二维空间为线;三维空间为面;高维空间为超平面。),但SVR 的目的不是找到两种数据的分割平面,而是找到能准确预测数据分布的平面,两者最终都转换为最优化问题的求解;1998年,Weston 等人根据SVM 原理提出了用于解决多类分类的SVM 方法(Multi-Class Support Vector Machines ,Multi-SVM),通过将多类分类转化成二类分类,将SVM 应用于多分类问题的判断:此外,在SVM 算法的基本框架下,研究者针对不同的方面提出了很多相关的改进算法。例如,Suykens 提出的最小二乘支持向量机 (Least Square Support Vector Machine ,LS —SVM)算法,Joachims 等人提出的SVM-1ight ,张学工提出的中心支持向量机 (Central Support Vector Machine ,CSVM),Scholkoph 和Smola 基于二次规划提出的v-SVM 等。此后,台湾大学林智仁(Lin Chih-Jen)教授等对SVM 的典型应用进行总结,并设计开发出较为完善的SVM 工具包,也就是LIBSVM(A Library for Support Vector Machines)。LIBSVM 是一个通用的SVM 软件包,可以解决分类、回归以及分布估计等问题。 二、支持向量机原理 SVM 方法是20世纪90年代初Vapnik 等人根据统计学习理论提出的一种新的机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。 支持向量机的基本思想:首先,在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输

支持向量回归简介

支持向量回归简介 人类通过学习,从已知的事实中分析、总结出规律,并且根据规律对未来 的现象或无法观测的现象做出正确的预测和判断,即获得认知的推广能力。在对智能机器的研究当中,人们也希望能够利用机器(计算机)来模拟人的良好学习能力,这就是机器学习问题。基于数据的机器学习是现代智能技术中的重要方面,机器学习的目的是通过对已知数据的学习,找到数据内在的相互依赖关系,从而获得对未知数据的预测和判断能力,在过去的十几年里,人工神经网络以其强大的并行处理机制、任意函数的逼近能力,学习能力以及自组织和自适应能力等在模式识别、预测和决策等领域得到了广泛的应用。但是神经网络受到网络结构复杂性和样本复杂性的影响较大,容易出现“过学习”或低泛化能力。特别是神经网络学习算法缺乏定量的分析与完备的理论基础支持,没有在本质上推进学习过程本质的认识。 现有机器学习方法共同的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。 与传统统计学相比, 统计学习理论(Statistical Learning Theory 或SLT ) 是一种专门研究小样本情况下机器学习规律的理论Vladimir N. Vapnik 等人从六、七十年代开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟[17] ,也由于神经网络等学习方法在理论上缺乏实 质性进展, 统计学习理论开始受到越来越广泛的重视。 统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择问题、局部极小点问题)等;同时, 在这一理论基础上发展了一种新的通用学习方法—支持向量机(Support Vector Machine 或SVM ) ,它已初步表现出很多优于已有方法的性能。一些学者认为,SVM 正在成为继神经网络研究之后新的研究热点,并将有力地推动机 器学习理论和技术的发展。 支持向量机(SVM )是一种比较好的实现了结构风险最小化思想的方法。它的机器学习策略是结构风险最小化原则为了最小化期望风险,应同时最小化经验风险和置信范围) 支持向量机方法的基本思想: (1 )它是专门针对有限样本情况的学习机器,实现的是结构风险最小化:在对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷,以期获得最好的推广能力; (2 )它最终解决的是一个凸二次规划问题,从理论上说,得到的将是全局最优解,解决了在神经网络方法中无法避免的局部极值问题; (3 )它将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性决策函数来实现原空间中的非线性决策函数,巧妙地解决了维数问题,并保证了有较好的推广能力,而且算法复杂度与样本维数无关。 目前,SVM 算法在模式识别、回归估计、概率密度函数估计等方面都有应用,且算法在效率与精度上已经超过传统的学习算法或与之不相上下。

支持向量机算法

支持向量机算法 [摘要] 本文介绍统计学习理论中最年轻的分支——支持向量机的算法,主要有:以SVM-light为代表的块算法、分解算法和在线训练法,比较了各自的优缺点,并介绍了其它几种算法及多类分类算法。 [关键词] 块算法分解算法在线训练法 Colin Campbell对SVM的训练算法作了一个综述,主要介绍了以SVM为代表的分解算法、Platt的SMO和Kerrthi的近邻算法,但没有详细介绍各算法的特点,并且没有包括算法的最新进展。以下对各种算法的特点进行详细介绍,并介绍几种新的SVM算法,如张学工的CSVM,Scholkopf的v-SVM分类器,J. A. K. Suykens 提出的最小二乘法支持向量机LSSVM,Mint-H suan Yang提出的训练支持向量机的几何方法,SOR以及多类时的SVM算法。 块算法最早是由Boser等人提出来的,它的出发点是:删除矩阵中对应于Lagrange乘数为零的行和列不会对最终结果产生影响。对于给定的训练样本集,如果其中的支持向量是已知的,寻优算法就可以排除非支持向量,只需对支持向量计算权值(即Lagrange乘数)即可。但是,在训练过程结束以前支持向量是未知的,因此,块算法的目标就是通过某种迭代逐步排除非支持向时。具体的做法是,在算法的每一步中块算法解决一个包含下列样本的二次规划子问题:即上一步中剩下的具有非零Lagrange乘数的样本,以及M个不满足Kohn-Tucker条件的最差的样本;如果在某一步中,不满足Kohn-Tucker条件的样本数不足M 个,则这些样本全部加入到新的二次规划问题中。每个二次规划子问题都采用上一个二次规划子问题的结果作为初始值。在最后一步时,所有非零Lagrange乘数都被找到,因此,最后一步解决了初始的大型二次规划问题。块算法将矩阵的规模从训练样本数的平方减少到具有非零Lagrange乘数的样本数的平方,大减少了训练过程对存储的要求,对于一般的问题这种算法可以满足对训练速度的要求。对于训练样本数很大或支持向量数很大的问题,块算法仍然无法将矩阵放入内存中。 Osuna针对SVM训练速度慢及时间空间复杂度大的问题,提出了分解算法,并将之应用于人脸检测中,主要思想是将训练样本分为工作集B的非工作集N,B中的样本数为q个,q远小于总样本个数,每次只针对工作集B中的q个样本训练,而固定N中的训练样本,算法的要点有三:1)应用有约束条件下二次规划极值点存大的最优条件KTT条件,推出本问题的约束条件,这也是终止条件。2)工作集中训练样本的选择算法,应能保证分解算法能快速收敛,且计算费用最少。3)分解算法收敛的理论证明,Osuna等证明了一个定理:如果存在不满足Kohn-Tucker条件的样本,那么在把它加入到上一个子问题的集合中后,重新优化这个子问题,则可行点(Feasible Point)依然满足约束条件,且性能严格地改进。因此,如果每一步至少加入一个不满足Kohn-Tucker条件的样本,一系列铁二次子问题可保证最后单调收敛。Chang,C.-C.证明Osuna的证明不严密,并详尽地分析了分解算法的收敛过程及速度,该算法的关键在于选择一种最优的工

熵函数的来历及统计学意义

熵函数的来历及统计学意义 12级物理学 阴爽 热力学第一定律就是能量守恒与转换定律,但是它并未涉及能量转换的过程能否自发地进行以及可进行到何种程度。热力学第二定律就是判断自发过程进行的方向和限度的定律,它有不同的表述方法:热量不可能自发地从低温物体传到高温物体;热量不可能从低温物体传到高温物体而不引起其他变化;不可能从单一热源取出热量使之全部转化为功而不发生其他变化;第二类永动机是不可能造成的。热力学第二定律是人类经验的总结,它不能从其他更普遍的定律推导出来,但是迄今为止没有一个实验事实与之相违背,它是基本的自然法则之一。 由于一切热力学变化(包括相变化和化学变化)的方向和限度都可归结为热和功之间的相互转化及其转化限度的问题,那么就一定能找到一个普遍的热力学函数来判别自发过程的方向和限度。可以设想,这种函数是一种状态函数,又是一个判别性函数(有符号差异),它能定量说明自发过程的趋势大小,这种状态函数就是熵函数。 如果把任意的可逆循环分割成许多小的卡诺循环,可得出 ∑(δQi/Ti)r=0 (1) 即任意的可逆循环过程的热温商之和为零。其中,δQi为任意无限小可逆循环中系统与环境的热交换量;Ti为任意无限小可逆循环中系统的温度。上式也可写成? ∮(δQr/T)=0 (2) 克劳修斯总结了这一规律,称这个状态函数为“熵”,用S来表示,即 dS=δQr/T (3) 对于不可逆过程,则可得? dS>δQr/T (4) 或 dS-δQr/T>0 (5) 这就是克劳修斯不等式,表明了一个隔离系统在经历了一个微小不可逆变化后,系统的熵变大于过程中的热温商。对于任一过程(包括可逆与不可逆过程),则有? dS-δQ/T≥0 (6)

支持向量机算法介绍

支持向量机算法介绍 众所周知,统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的有效工具,已随着计算机硬件和软件技术的发展得到了广泛的应用。 但多年来我们也受制于一个难题:传统的模式识别或人工神经网络方法都要求有较多的训练样本,而许多实际课题中已知样本较少。对于小样本集,训练结果最好的模型不一定是预报能力最好的模型。因此,如何从小样本集出发,得到预报(推广)能力较好的模型,遂成为模式识别研究领域内的一个难点,即所谓“小样本难题”。支持向量机(support vector machine ,简称SVM )算法已得到国际数据挖掘学术界的重视,并在语音识别、文字识别、药物设计、组合化学、时间序列预测等研究领域得到成功应用。 1、线性可分情形 SVM 算法是从线性可分情况下的最优分类面(Optimal Hyperplane )提出的。所谓最优分类面就是要求分类面不但能将两类样本点无错误地分开,而且要使两类的分类空隙最大。 设线性可分样本集为),(i i y x ,d R x n i ∈=,,,1 ,}1,1{-+∈y ,d 维空间中线性判别函数的一般形式为 ()b x w x g T +=, 分类面方程是 0=+b x w T , 我们将判别函数进行归一化,使两类所有样本都满足()1≥x g ,此时离分类面最近的 样本的 ()1=x g ,而要求分类面对所有样本都能正确分类,就是要求它满足 n i b x w y i T i ,,2,1,01)( =≥-+。 (4)

式(4)中使等号成立的那些样本叫做支持向量(Support Vectors )。两类样本的分类空隙(Margin )的间隔大小: Margin =w /2(5) 因此,最优分类面问题可以表示成如下的约束优化问题,即在条件(4)的约束下,求函数 ())(2 1221w w w w T == φ(6) 的最小值。为此,可以定义如下的Lagrange 函数: ]1)([21),,(1 -+-=∑=b x w y a w w a b w L i T i n i i T (7) 其中,0≥i a 为Lagrange 系数,我们的问题是对w 和b 求Lagrange 函数的最小值。把式(7)分别对w 、b 、i a 求偏微分并令它们等于0,得: i i n i i x y a w w L ∑==?=??10 001 =?=??∑=i n i i y a b L 0]1)([0=-+?=??b x w y a a L i T i i i 以上三式加上原约束条件可以把原问题转化为如下凸二次规划的对偶问题: () ???? ? ???? ==≥∑∑∑∑====-0,,1,0.m a x 1111 21i n i i i j T i j i j n i n j i n i i y a n i a t s x x y y a a a (8) 这是一个不等式约束下二次函数机制问题,存在唯一最优解。若*i a 为最优解,则 ∑== n i i i i x y a w 1* * (9) *i a 不为零的样本即为支持向量,因此,最优分类面的权系数向量是支持向量的线性组合。

支持向量机算法学习总结

题目:支持向量机的算法学习 姓名: 学号: 专业: 指导教师:、 日期:2012年6月20日

支持向量机的算法学习 1.理论背景 基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。迄今为止,关于机器学习还没有一种被共同接受的理论框架,关于其实现方法大致可以分为三种: 第一种是经典的(参数)统计估计方法。包括模式识别、神经网络等在内,现有机器学习方法共同的重要理论基础之一是统计学。参数方法正是基于传统统计学的,在这种方法中,参数的相关形式是已知的,训练样本用来估计参数的值。这种方法有很大的局限性,首先,它需要已知样本分布形式,这需要花费很大代价,还有,传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。 第二种方法是经验非线性方法,如人工神经网络(ANN)。这种方法利用已知样本建立非线性模型,克服了传统参数估计方法的困难。但是,这种方法缺乏一种统一的数学理论。 与传统统计学相比,统计学习理论(Statistical Learning Theory或SLT)是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。V. Vapnik 等人从六、七十年代开始致力于此方面研究[1],到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。 统计学习理论的一个核心概念就是 VC 维(VC Dimension)概念,它是描述函数集或学习机器的复杂性或者说是学习能力(Capacity of the machine)的一个重要指标,在此概念基础上发展出了一系列关于统计学习的一致性(Consistency)、收敛速度、推广性能(GeneralizationPerformance)等的重要结论。 支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以

(完整版)支持向量回归机

3.3 支持向量回归机 SVM 本身是针对经典的二分类问题提出的,支持向量回归机(Support Vector Regression ,SVR )是支持向量在函数回归领域的应用。SVR 与SVM 分类有以下不同:SVM 回归的样本点只有一类,所寻求的最优超平面不是使两类样本点分得“最开”,而是使所有样本点离超平面的“总偏差”最小。这时样本点都在两条边界线之间,求最优回归超平面同样等价于求最大间隔。 3.3.1 SVR 基本模型 对于线性情况,支持向量机函数拟合首先考虑用线性回归函数 b x x f +?=ω)(拟合n i y x i i ,...,2,1),,(=,n i R x ∈为输入量,R y i ∈为输出量,即 需要确定ω和b 。 图3-3a SVR 结构图 图3-3b ε不灵敏度函数 惩罚函数是学习模型在学习过程中对误差的一种度量,一般在模型学习前己经选定,不同的学习问题对应的损失函数一般也不同,同一学习问题选取不同的损失函数得到的模型也不一样。常用的惩罚函数形式及密度函数如表3-1。 表3-1 常用的损失函数和相应的密度函数 损失函数名称 损失函数表达式()i c ξ% 噪声密度 ()i p ξ ε -不敏感 i εξ 1 exp()2(1) i εξε-+ 拉普拉斯 i ξ 1 exp()2 i ξ- 高斯 212 i ξ 21 exp()22i ξπ -

标准支持向量机采用ε-不灵敏度函数,即假设所有训练数据在精度ε下用线性函数拟合如图(3-3a )所示, ** ()()1,2,...,,0 i i i i i i i i y f x f x y i n εξεξξξ-≤+??-≤+=??≥? (3.11) 式中,*,i i ξξ是松弛因子,当划分有误差时,ξ,*i ξ都大于0,误差不存在取0。这时,该问题转化为求优化目标函数最小化问题: ∑=++?=n i i i C R 1 ** )(21 ),,(ξξωωξξω (3.12) 式(3.12)中第一项使拟合函数更为平坦,从而提高泛化能力;第二项为减小误差;常数0>C 表示对超出误差ε的样本的惩罚程度。求解式(3.11)和式(3.12)可看出,这是一个凸二次优化问题,所以引入Lagrange 函数: * 11 ****1 1 1()[()] 2[()]() n n i i i i i i i i n n i i i i i i i i i i L C y f x y f x ωωξξαξεαξεξγξγ=====?++-+-+-+-+-+∑∑∑∑ (3.13) 式中,α,0*≥i α,i γ,0*≥i γ,为Lagrange 乘数,n i ,...,2,1=。求函数L 对ω, b ,i ξ,*i ξ的最小化,对i α,*i α,i γ,*i γ的最大化,代入Lagrange 函数得到对偶形式,最大化函数:

支持向量机(SVM)算法推导及其分类的算法实现

支持向量机算法推导及其分类的算法实现 摘要:本文从线性分类问题开始逐步的叙述支持向量机思想的形成,并提供相应的推导过程。简述核函数的概念,以及kernel在SVM算法中的核心地位。介绍松弛变量引入的SVM算法原因,提出软间隔线性分类法。概括SVM分别在一对一和一对多分类问题中应用。基于SVM在一对多问题中的不足,提出SVM 的改进版本DAG SVM。 Abstract:This article begins with a linear classification problem, Gradually discuss formation of SVM, and their derivation. Description the concept of kernel function, and the core position in SVM algorithm. Describes the reasons for the introduction of slack variables, and propose soft-margin linear classification. Summary the application of SVM in one-to-one and one-to-many linear classification. Based on SVM shortage in one-to-many problems, an improved version which called DAG SVM was put forward. 关键字:SVM、线性分类、核函数、松弛变量、DAG SVM 1. SVM的简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。 对于SVM的基本特点,小样本,并不是样本的绝对数量少,而是与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。非线性,是指SVM擅长处理样本数据线性不可分的情况,主要通过松弛变量和核函数实现,是SVM 的精髓。高维模式识别是指样本维数很高,通过SVM建立的分类器却很简洁,只包含落在边界上的支持向量。

支持向量机训练算法综述_姬水旺

收稿日期:2003-06-13 作者简介:姬水旺(1977)),男,陕西府谷人,硕士,研究方向为机器学习、模式识别、数据挖掘。 支持向量机训练算法综述 姬水旺,姬旺田 (陕西移动通信有限责任公司,陕西西安710082) 摘 要:训练SVM 的本质是解决二次规划问题,在实际应用中,如果用于训练的样本数很大,标准的二次型优化技术就很难应用。针对这个问题,研究人员提出了各种解决方案,这些方案的核心思想是先将整个优化问题分解为多个同样性质的子问题,通过循环解决子问题来求得初始问题的解。由于这些方法都需要不断地循环迭代来解决每个子问题,所以需要的训练时间很长,这也是阻碍SVM 广泛应用的一个重要原因。文章系统回顾了SVM 训练的三种主流算法:块算法、分解算法和顺序最小优化算法,并且指出了未来发展方向。关键词:统计学习理论;支持向量机;训练算法 中图分类号:T P30116 文献标识码:A 文章编号:1005-3751(2004)01-0018-03 A Tutorial Survey of Support Vector Machine Training Algorithms JI Shu-i wang,JI Wang -tian (Shaanx i M obile Communicatio n Co.,Ltd,Xi .an 710082,China) Abstract:Trai n i ng SVM can be formulated into a quadratic programm i ng problem.For large learning tasks w ith many training exam ples,off-the-shelf opti m i zation techniques quickly become i ntractable i n their m emory and time requirem ents.T hus,many efficient tech -niques have been developed.These techniques divide the origi nal problem into several s maller sub-problems.By solving these s ub-prob -lems iteratively,the ori ginal larger problem is solved.All proposed methods suffer from the bottlen eck of long training ti me.This severely limited the w idespread application of SVM.T his paper systematically surveyed three mains tream SVM training algorithms:chunking,de -composition ,and sequenti al minimal optimization algorithms.It concludes with an illustrati on of future directions.Key words:statistical learning theory;support vector machine;trai ning algorithms 0 引 言 支持向量机(Support Vector M achine)是贝尔实验室研究人员V.Vapnik [1~3]等人在对统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法,也使统计学习理论第一次对实际应用产生重大影响。SVM 是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,表现出了很好的泛化能力。由于SVM 方法有统计学习理论作为其坚实的数学基础,并且可以很好地克服维数灾难和过拟合等传统算法所不可规避的问题,所以受到了越来越多的研究人员的关注。近年来,关于SVM 方法的研究,包括算法本身的改进和算法的实际应用,都陆续提了出来。尽管SVM 算法的性能在许多实际问题的应用中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。 训练SVM 的本质是解决一个二次规划问题[4]: 在约束条件 0F A i F C,i =1,, ,l (1)E l i =1 A i y i =0 (2) 下,求 W(A )= E l i =1A i -1 2 E i,J A i A j y i y j {7(x i )#7(x j )} = E l i =1A i -1 2E i,J A i A j y i y j K (x i ,x j )(3)的最大值,其中K (x i ,x j )=7(x i )#7(x j )是满足Merce r 定理[4]条件的核函数。 如果令+=(A 1,A 2,,,A l )T ,D ij =y i y j K (x i ,x j )以上问题就可以写为:在约束条件 +T y =0(4)0F +F C (5) 下,求 W(+)=+T l -12 +T D +(6) 的最大值。 由于矩阵D 是非负定的,这个二次规划问题是一个凸函数的优化问题,因此Kohn -Tucker 条件[5]是最优点 第14卷 第1期2004年1月 微 机 发 展M icr ocomputer Dev elopment V ol.14 N o.1Jan.2004

熵函数

熵函数 方法一: A=-(0.3*log2(0.3)+0.1*log2(0.1)+0.21*log2(0.21)+0.09*log2(0.09) +0.05*log2(0.05)+0.25*log2(0.25)); disp(A) 2.3549 方法二: A=[0.3 0.1 0.21 0.09 0.05 0.25]; B=-sum(A.*log2(A)); disp(B) 2.3549 平均互信息 方法一: A=[0.3 0.1 0.21 0.09 0.05 0.25]; B=[0.1 0.23 0.4 0.27;0.2 0.2 0.3 0.3;0.06 0.65 0.2 0.09;0.1 0.4 0.2 0.3;0.7 0.1 0.1 0.1;0.3 0.1 0.3 0.3]; C=A*B D=-sum(C.*log2(C))%H(Y) E=-(B.*log2(B)) F=sum(A*E) %(H(Y|X)) G=D-F %(H(Y)- H(Y|X)) C = 0.1816 0.2915 0.2900 0.2369 D = 1.9755

0.3322 0.4877 0.5288 0.5100 0.4644 0.4644 0.5211 0.5211 0.2435 0.4040 0.4644 0.3127 0.3322 0.5288 0.4644 0.5211 0.3602 0.3322 0.3322 0.3322 0.5211 0.3322 0.5211 0.5211 F = 1.7617 G = 0.2137 方法二: A=[0.3 0.1 0.21 0.09 0.05 0.25]; B=[0.1 0.23 0.4 0.27;0.2 0.2 0.3 0.3;0.06 0.65 0.2 0.09;0.1 0.4 0.2 0.3;0.7 0.1 0.1 0.1;0.3 0.1 0.3 0.3]; C=-sum((A*B).*log2(A*B))-sum(A*-(B.*log2(B))); disp(C) 0.2137 平均失真度Dmax和Dmin Dmin(先取小再求和) A=[0.3 0.1 0.21 0.09 0.05 0.25] B=[0.1 0.23 0.4 0.27;0.2 0.2 0.3 0.3;0.06 0.65 0.2 0.09;0.1 0.4 0.2 0.3;0.7 0.1 0.1 0.1;0.3 0.1 0.3 0.3]'%转置 C=min(B) D=A.*C Dmin=sum(D) A = 0.3000 0.1000 0.2100 0.0900 0.0500 0.2500

3.支持向量机(回归)

3.支持向量机(回归) 3.1.1 支持向量机 支持向量机(SVM是美国Vapnik教授于1990年代提出的,2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器,是构造分类规则的通用方法。SVh方法的贡献在于,它使得人们可以在非常高维的空间中构造出好的分类规则,为分类算法提供了统一的理论框架。作为副产品,SVM从理论上解释了多层感知器的 隐蔽层数目和隐节点数目的作用,因此,将神经网络的学习算法纳入了核技巧范畴。 所谓核技巧,就是找一个核函数K(x, y)使其满足K(x,y) ( (x), (y)),代 替在特征空间中内积((x), (y))的计算。因为对于非线性分类,一般是先找一个非线性映射将输入数据映射到高维特征空间,使之分离性状况得到很大改观,此时在该特征空间中进行分类,然后再返会原空间,就得到了原输入空间的非线性分类。由于内积运算量相当大,核技巧就是为了降低计算量而生的。 特别,对特征空间H为Hilbert空间的情形,设K(x, y)是定义在输入空间 R n上的二元函数,设H中的规范正交基为1(x), 2(x),..., n(x), ...。如果 2 K(x, y) a k ( k(x), k(y)), k 1 那么取(x) 3k k(x)即为所求的非线性嵌入映射。由于核函数K(x,y)的定义k 1 域是原来的输入空间,而不是高维的特征空间。因此,巧妙地避开了计算高维内积((x), (y))所需付出的计算代价。实际计算中,我们只要选定一个K(x,y), 并不去重构嵌入映射(x) a k k(x)。所以寻找核函数K(x,y)(对称且非负) k 1

熵函数的唯一性和有根概率树

熵函数的唯一性和有根概率树 苏驷希 在信息论中,对于离散随机变量X 的熵的计算公式来自 C.E.Shannon 。 () ()[()]()log()p x x H X I x p x x E ==-∑ (1) 或者简单记为: 12()(,,...,)n H X H p p p =,其中i p 为X 的概率分布 (2) 下面来说明,如果不考虑常数差别,这个公式是唯一的。 由于()H X 用来度量X 的不确定性,则它应该满足下面三个条件, [1] ()H X 是概率的连续函数; [2] 当X 是等概率随机变量时,()H X 应该是X 取值符号数n 的增函数; [3] 可加性; 其中第一和第二个条件简单,并且容易理解;下面简单说明第三个条件,考虑一个有三个结果的试验α, 1231 2 3 :( )a a a p p p α 它的熵为: 123()(,,)H X H p p p = (3) 为了确定那一个结果出现,可以考虑两个相继的试验。在第一次试验 1α中,先确定是1a 出现,还是2a 或3a 出现,它的熵为 1123()(,)H X H p p p =+。如果1a 出现,则结果确定,无须第二次试验; 如果2a 或3a 出现,则需要做第二次试验2α以确定是2a 或3a 出现,试验

2α的熵为32 22323 ()( ,)p p H X H p p p p =++。 由于整个试验不确定性的客观性,应该有: 32 123123232323 (,,)(,)()( ,)p p H p p p H p p p p p H p p p p =+++++ (4) 下面来考虑C.E.Shannon 的定理。 定理1 唯一满足条件[1],[2]和[3]的()H X 有下面的形式, 1()()log()log n i i x i H X C p x x C p p ==-=-∑∑,其中C 为正常数 (5) 证明:记11 1(,,...,)()H f n n n n =,当然()f n 为n 的单调增函数。然后考虑一个有nm 个结果的等概试验,将它分解为m 个有n 个等概结果的试验,根据[3],应该有: 1()()()()()f nm f m m f n f m f n m =+=+ (6) 根据微积分知识,满足(6)的单调增函数一定有形式 ()log f n C n =, 其中C 为正常数 (7) 为了证明一般的情形,先假设所有的i p 为有理数,不妨认为 1 i i n k k n p n == ∑。然后考虑一个有1 n k k n =∑个等概结果的试验α,并且这个试验 α被认为是两类相继的试验,其中第一类试验i α的概率是i p ,而i α包 括有i n 个等概试验结果,而第二个试验是在出现试验i α的基础上,考虑它是i n 个等概结果中的那一个,则根据[3]有: 121 1 log (,,...,)log n n i n i i i i C n H p p p C p n ===+∑∑ 整理得:

支持向量机非线性回归通用MATLAB源码

支持向量机非线性回归通用MA TLAB源码 支持向量机和BP神经网络都可以用来做非线性回归拟合,但它们的原理是不相同的,支持向量机基于结构风险最小化理论,普遍认为其泛化能力要比神经网络的强。大量仿真证实,支持向量机的泛化能力强于BP网络,而且能避免神经网络的固有缺陷——训练结果不稳定。本源码可以用于线性回归、非线性回归、非线性函数拟合、数据建模、预测、分类等多种应用场合,GreenSim团队推荐您使用。 function [Alpha1,Alpha2,Alpha,Flag,B]=SVMNR(X,Y,Epsilon,C,TKF,Para1,Para2) %% % SVMNR.m % Support Vector Machine for Nonlinear Regression % All rights reserved %% % 支持向量机非线性回归通用程序 % GreenSim团队原创作品,转载请注明 % GreenSim团队长期从事算法设计、代写程序等业务 % 欢迎访问GreenSim——算法仿真团队→ % 程序功能: % 使用支持向量机进行非线性回归,得到非线性函数y=f(x1,x2,…,xn)的支持向量解析式,% 求解二次规划时调用了优化工具箱的quadprog函数。本函数在程序入口处对数据进行了% [-1,1]的归一化处理,所以计算得到的回归解析式的系数是针对归一化数据的,仿真测 % 试需使用与本函数配套的Regression函数。 % 主要参考文献: % 朱国强,刘士荣等.支持向量机及其在函数逼近中的应用.华东理工大学学报 % 输入参数列表 % X 输入样本原始数据,n×l的矩阵,n为变量个数,l为样本个数 % Y 输出样本原始数据,1×l的矩阵,l为样本个数 % Epsilon ε不敏感损失函数的参数,Epsilon越大,支持向量越少 % C 惩罚系数,C过大或过小,泛化能力变差 % TKF Type of Kernel Function 核函数类型 % TKF=1 线性核函数,注意:使用线性核函数,将进行支持向量机的线性回归 % TKF=2 多项式核函数 % TKF=3 径向基核函数 % TKF=4 指数核函数 % TKF=5 Sigmoid核函数 % TKF=任意其它值,自定义核函数 % Para1 核函数中的第一个参数 % Para2 核函数中的第二个参数 % 注:关于核函数参数的定义请见Regression.m和SVMNR.m内部的定义 % 输出参数列表 % Alpha1 α系数 % Alpha2 α*系数 % Alpha 支持向量的加权系数(α-α*)向量

相关文档
最新文档