数据挖掘原理与SPSS Clementine应用宝典第14章 支持向量机

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

14.3支持向量机的实现技术 14.3.1 chunking算法 14.3.2 Decomposing算法 14.3.3 SMO算法 14.3.5 SMO算法的特点和优势 14.4支持向量回归机 14.4.1不敏感损失函数 14.4.2支持向量回归机模型 14.5支持向量机的改进算法
2
数据挖掘原理与SPSS Clementine应用宝典
成了最小化期望风险 R(w。) 在实际的问题中,R(w)无法直接的计算得到。
在传统的机器学习方法中,通常将经验风险作为期望风险
的估计值,学习的目标就是使经验风险Remp最小,强调利用经 验风险最小化( ERM )原则进行学习。但实际上,用ERM
原则代替最小化期望风险泛函,只是直观上合理的想当然做
法而已,理论依据并不充分,容易“过学习”(overfitting)。
程的规范化形式为:w x b 0
其几何表示如下图:
L
L1
L2
分类直线示意图
由直线间的距离公式可证:L1与L2之间的距离为:2 / w ,并且
使训练集中的点距离分类线尽可能的远,也就是寻找一个分类线使它两 侧的空白区域(margin)最大 。
进一步推广到n>2时,则同样存在超平面 wT x b 0 ,其中
这是一个严格凸规划问题,可以转换成拉格朗日(Lagrange)
问题进行求解。为此,可以定义如下的Lagrange函数:
L p
(w,b, a)

1 2
wT
w

n i 1
(ai
yi
(wT
xi

b)
1)
其中 ai 0 为Lagrange乘子。
由Karush-Kuhn-Tucker (KKT)条件
的一个正分量

* j
,
并据此计算
i 1
l
b* yj
yi
* i
xi xj
i 1
构造分划超平面 w* x b* 0 ,决策函数 f x sgn((w* x) b*)
事实上,
*
的每一个分量

* i
都与一个训练点相对应。而分
划超平面仅仅依赖于
R(w) L( y, f (x, w))dF(x, y)
其中 F(x, y) 联合概率分布是未知的,L(y, f (x,w)) 是用 对y进行预测时造成的损失,称为损失函数。简单地 说,学习的目标就是求一映射函数 f(x, w) ,使之与实 际系统映射的差异最小。
14.1.2经验风险最小化问题
n
H
(ln
2n H
1) n

ln

4


1

其中,H VC Dim() 是函数集的VC维,n是样本数。上式实质上
给出了ERM原则的泛化能力的界。在此基础上,Vapnik等人从理论角度
解释了机器学习中的过学习问题,并建立起适用于小样本数据的结构风险
最小化原则。上式中的界由两部分组成:经验风险(即训练误差)和置信
样本学习的一般模型
x y
G
S
LM
可见,学习问题就是从给定的函数集 ,选择出能够最好地逼近训练器响应的函数。
机器学习的目标可以形式化的表示为:根据n个独立 同分布的观测样本 (x1,y1 ), ,ຫໍສະໝຸດ Baidu(xn,y,n )在一组函数 f(x, w0 ) 中求出一个最优函数 f(x, w) ,使其对未知样本进行估 计时,最小化期望风险泛函。
小经验风险,然后选择使最小 经验风险和置信范围之和最小 的子集; 2. 设计函数集的某种结构使每个 子集中都能取得最小的经验风 险,如使训练误差为0,然后只 需选择适当的子集使置信范围 最小,则这个子集中使经验风 险最小的函数就是最优函数。
14.2支持向量机的基本原理
基本概念 1. 一般地,如果一个线性函数能够将样本完全正确的分开,就
14.2.1线性支持向量机 一个二值分类问题:设线性可分样本集
(x1,y1), (x2,y2),…,(xm,ym), x∈Rn,y∈{+1,-1} 是类别标号,X为具有个属性的向量。要求在 上找,得到决策函数,这就是分类学习机器。 在2维线性空间中线性判别函数的一般形式为
: g(x) w x b 。其中,最优分类线L的方
变量(Slack Variable) i 0 ,把约束条件放松
到 yi w xi b i 1。 (即“软化” 约束条件)
1, l T
l
体现了训练集被错分的情况,可采用 i 作
i 1
为一种度量来描述错划程度。
l
两个目标:1. 间隔
2 尽可能大
w
2. 错划程度 i 尽可能小 i1
统计学习理论的4个部分:
1. 学习过程一致性的理论。一个基于经验风险最小化原则的学习过程满足什 么条件,它的经验风险与实际风险趋向一致。
2. 学习过程收敛速度的理论。如果学习过程的经验风险与实际风险趋向一致 ,那么它们间的接近速度随着训练样本数的增加是如何变化的。哪些因素 控制着它们接近的速度。
x∈Rn,w,b∈Rn。使得样本集中的任意二元组(xi,yi),满足:

wT xi b 1,
当 yi 1 时

wT xi b 1,
可以统一起表示为:
当 yi 1 时

yi [(wT x) b] 1 0 i 1,2,,m
其中,满足上式的超平面就是分类超平面(Seperating Hyperplane)。在样本线性可分时,存在无数个这样的超平面。R2的线 性可分情况如图14-6所示:
元昌安 主编 邓 松 李文敬 刘海涛 编著
电子工业出版社
14.1支持向量机基础 支持向量机(support vector machines)是由贝尔实
验室研究者Vapnik于20世纪90年代最先提出的一种 新的机器学习理论,是建立在统计学习理论的VC维 理论和结构风险最小原理基础上的,根据有限的样 本信息在模型的复杂性和学习能力之间寻求最佳折 衷,以期获得最好的推广能力。 支持向量机从诞生至今才10多年,发展史虽短,但 其理论研究和算法实现方面却都取得了突破性进展 ,有力地推动机器学习理论和技术的发展。这一切 与支持向量机具有较完备的统计学习理论基础的发 展背景是密不可分的。
,上式所示的函数在其鞍点位置满
足:


m
m
w L p
b
Lp
(14-2-8)
0,
w

i 1
ai yi xi ,
i 1
ai yi
0
将上式代入(14-2-6),消去w和b得到原问题的Wolf对偶(Dual)
问题:
min a
La (a)
m
ai
i 1

1 2
i,
m
ai
j 1
风险
欠学习 真实风险的界
过学习
最小化算法的经验风险与置信 范围之和(而不仅仅是最小化经验 风险)被称作结构风险最小化原则。
s1
s2
函数集子集: S1 S2 S3
VC 维: h1 h2 h3 图14-4 结构风险最小化原则
置信范围
经验风险 h
s3
实现SRM原则可以有两种思路: 1. 对函数集S的每个子集Si求最
学习机器产生的映射函数与实际系统的映射之间的差异可 以用单个样本点上的损失函数 L(y, f (x,w)) 来描述 。损失函数
在总体样本集上的数学期望,即为期望风险的泛函:
min
Remp (w)

1 n
n i 1
L( yi ,
f
(xi , w))
损失函数描述了映射函数与实际系统在总体集上的差异,将学习的目标变

* i
不为零的训练点
xi, yi,而与对应


* i
为零的那些训练点无关。
其中

* i
不为零的这些训练点的输入
x
i
为支持向量(SV)
14.2.2广义线性支持向量机
对于近似线性可分问题不要求所有训练点都满足约束条
件 yi w xi b 1,为此对第 i 个训练点 xi, yi 引入松弛
3. 控制学习过程泛化能力的理论。采用前两部分的结论改进学习过程。 4. 构造学习算法的理论。采用前三部分的结论,在分类和拟合问题中构造现
实的学习算法。
14.1.1机器学习的基本问题
统计学习理论领域里把学习问题看作是利用有限数量的观测来 寻找待求的依赖关系的问题。而基于数据的机器学习问题,则
是根据已知样本估计数据之间的依赖关系,从而对未知或无法 测量的数据进行预测和判断。
p
inf Remp(wl ) l
R(w).
w
p
inf R(wl ) l
R(w),
w
图14-3 经验风险最小一致性
在VC维和学习一致理论基础上,Vapnik等人证明了对二值分
类问题,指示函数集中所有的函数,经验风险和实际风险之间 至少以概率满足如下关系:

limPR(w) Remp(w)
称这些数据是线性可分的,否则称为非线性可分的。 如果 不关注函数空间的维数,这种线性函数还有一个统一的名称 ,叫超平面(Hyper Plane)。 2. 通常人们称由线性函数作为分类决策函数的分类器叫线性分 类器。同样地,称由非线性函数作为分类决策函数的分类器 叫非线性分类器。相应地,由线性函数作为分类决策函数的 支持向量机称为线性支持向量机,反之,由非线性函数作为 分类决策函数的支持向量机称为非线性支持向量机。
图14-6 分类超平面示意图
图14-7 最优分类超平面图
使间隔margin最大实际上等价于使 w 2最小。因此,满足上述条件且使 w 2 最小的分类超平面就是最优分类超平面。两类样本中离分类面最近的点且平行 于最优分类超平面的样本点叫做支持向量。
最优分类超平面最后可以表示成一个约束优化问题:
范围 (Confidence Interval)。
14.1.4结构化风险最小化
通常,在小样本的情况下,对于复杂的学习机器,其训练 误差过小,但反而造成了置信范围的增大,从而导致泛化性能 下降。这往往是由于学习机器的结构不合理造成的。因此, ERM原则在样本有限时是不合理的。为此,统计学习理论提出 了一种新的策略,在保证ERM原则的基础上,降低学习机器的 VC维,能够使得期望风险在整个总体集上得到控制,即在训 练误差和置信范围二者之间寻求一个折衷。这种思想就是结构 风险最小化(Structural Risk Minimization,SRM)原则。
underfitting
good fit
overfitting
14.1.3 VC维与学习一致性理论
对于二值分类问题,其目标函数f只有0和1两种取值,称这类函 数为指示函数。
对于一个指示函数集的VC维是指能够被“打散”(即,被里的 函数按照所有可能的形式分开)的样本集合可能具有的最大样 本数(或称作样本集合的最大基数),记作VC Dim(H) 。
a
j
y
i
y
j
xi
T
x
j
m
s.t
ai yi 0, ai 0,i 1,m
i 1
这是一个标准的二次规划问题,是在一个不等式约束条件下进
行二次函数寻优。该类问题存在唯一解 * 。
根据最优解
* (a1* , , al* )T
l
计算 w*
yi i* xi,选择
a*
一般而言,VC维代表了机器的学习能力,其值越大表明其学 习机器的学习能力越强,但学习机器就越复杂。然而,目前还 没有通用的关于计算任意函数集的VC维的理论,只有对一些 特殊函数集的VC维可以准确知道。
对于指示函数集和概率分布函数,如果下列两序列概率地收敛 到同一极限,则称为经验风险最小一致性。
统计方法是从事物的外在数量上的表现去推断该事物可能的 规律性,它主要考虑测试预想的假设和数据模型拟合,依赖 于显式的基本概率模型。
统计学习理论是针对小样本情况下的机器学习理论,它依据 算法的经验风险以及算法本身的构造推测它的实际风险,获 得了较好的算法泛化能力。统计学习理论将算法的训练过程 看作算法向训练样本学习的过程。
数据挖掘原理与SPSS Clementine应用宝典
元昌安 主编 邓 松 李文敬 刘海涛 编著
电子工业出版社
14.1支持向量机基础 14.1.1机器学习的基本问题 14.1.2经验风险最小化问题 14.1.3 VC维与学习一致性理论 14.1.4结构化风险最小化 14.2支持向量机的基本原理 14.2.1线性支持向量机 14.2.2广义线性支持向量机 14.2.3非线性支持向量机 14.2.3.1到高维空间的影射 14.2.3.2核函数
相关文档
最新文档