支持向量机简介PPT课件

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Support Vector Machine支持向量机简介
报告概览
系统辨识和模式识别问题一般描述及存在问题统计学习理论基本思想支持向量机算法
➢ 线性可分 ➢ 近似线性可分 ➢ 非线性可分
SVM软件包故障诊断中的应用
系统辨识和模式识别问题一般描述
输入x
系统（S）
F (x, y)
输出y
研究小样本下机器学习规律的理论。基本思想：折衷考虑经验风险和推广的置信界
限，取得实际期望风险的最小化。两大核心： VC维和结构风险最小化。
VC维的概念
描述函数复杂性的指标假如存在一个由h个样本的样本集能够被一个
函数集中的函数按照所有可能的2h 种形式分为两类，则函数集能够把样本数为h的样本集打散(shattering)。函数集的vc维就是用这个函数集中的函数所能够打散的最大样本集数的样本数目。
X表示成
x
xp
r
||
w w
||
xp ：x在H上的投影向量 r：是x到H的垂直距离
g (x ) w T (x p r||w w ||) b w T x p b r|w |w T w || r||w g ||(x)w wT /(|x |wp ||：r||是w w w||)方b 向上w T 的xp单b 位向r|w |量w Tw ||r||w ||
从上面可以看出，学习机器的VC维h越大，(n / h) 越大经验风险和期望风险之间的偏差越大。这样即使在经验误差很小的情况下，其推广误差会越大。
结构风险最小化思想
将函数集构造为一个函数子集序列, 使各个子集按照VC 维的大小(亦即 φ的大小) 排列; 在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信界限,取得实际风险的最小.
支持向量机算法-线性可分情况
Class 1
Class 2
许多决策平面都可以将两类样本分开
我们应该选择哪一个呢？
支持向量机算法-线性可分情况
即：r g ( x ) || w ||
支持向量机算法-线性可分情况
设两类问题训练样本集为(x1,y1),……(xl,yl),其中xi ∈Rn,yi={1,-1},i=1,…l。问题线性可分是指，存在着超平面wTx+b=0，使得训练样本中的正类输入和负类输入分别位于该超平面的两侧。或者说存在着参数对(w,b)，使得 yi=sgn(wTx+b), i=1,…,l.
损失函数
0yf(x,w) L(y,f(x,w)) 1yf(x,w)
模式识别问题
L (y ,f(x ,w )) (y f(x ,w ))2 回归问题
期望风险R(w)要依赖联合概率F(x,y)的信息，实际问题中无法计算。
一般用经验风险Remp(w)代替期望风险R(w)
Remp (w)
1 n
n i1
分类超平面的一些基本概念
g(x)wT(x)b0定义了一个超平面H
W是超平面H的法向量,决定超平面的方向； b 决定超平面的位置
g (x ) w T x b 0 确定一个超平面 H
在两类分类问题中，通常用g(x)表示分类平面。对样本x来说： g(x)>0表示一类； g(x)<0表示另一类。
经验风险最小化思想图示
举例：神经网络的构造过程
先确定网络结构：网络层数，每层节点数相当于VC维确定， (n / h) 确定。
通过训练确定最优权值，相当于最小化 R emp ( w ) 。目前存在的问题是神经网络结构的确定大多是凭经验
选取，有一定的盲目性，无法确定泛化的置信界限，所以无法保证网络的泛化能力。即使经验误差很小，但可能推广或泛化能力很差。这就是神经网络中的过学习难题。
3个样本被线性分类器打散的情况
VC维举例
VC维是目前为止对函数集学习性能的最好描述指标。但遗憾的是目前尚没有通用的关于如何计算任意函数集的VC维的理论。
结构风险最小化的思想
Vapnik证明，期望风险与经验风险之间的关系满足如下公式：
R (w )R em p(w ) (n/h )
其中n表示样本数，h为学习机器的VC维，(n / h) 称为置信区间。(n / h) 是随n/h增大而减小的函数。
神经网络中，如果对于有限的训练样本来说网络的学习能力过强，足以记住每一个训练样本，此时经验风险很快可以收敛到很小甚至零，但却根本无法保证它对未来新的样本的能够得到好的预测。
结论：在有限样本情况下，经验风险最小并不意味着期望风险最小。
统计学习理论基本思想
统计学习理论由贝尔实验室Vapnik于1992年首次提出。
f(x,),
从给定的函数集Ω中选择出能够最好地逼近系统响应的函数ω
系统辨识和模式识别问题一般描述
已知：n个观测样本，(x1,y1), (x2,y2)…… (xn,yn)
求：最优函数y= f (x, w)，这个函数系统辨识中称为
辨识模型，模式识别问题中称为分类器。
满足条件：期望风险最小
R (w ) L (y ,f(x ,w )d )(x F ,y )
L( yi ,
f
(xi, w))
错分数
nБайду номын сангаас
R em p(w )
|yf(x)|
a ll o b served{(x,y)}
现存问题
经验风险最小不等于期望风险最小，不能保证学习机的推广能力.算法或方法对未来输出进行正确预测的能力成为推广能力或泛化能力。
从概率论中的大数定律可知：经验风险只有在样本
数无穷大趋近于期望风险，需要非常多的样本才能
保证学习机的性能。
Remp ( )
某些情况下，当经验风险过小时，推广能力反而下降，这就是神经网络中令人头疼的所谓过学习 (overfitting) 问题。
使经验风险最小的点与期望风险最小的点并非同一个点
Remp和R的关系
举例
假设我们有一组训练样本(x,y),x分布在实数范围内，而y取值在 [0,1]之间，那么不论这些样本是依据什么函数模型产生的，只要我们用一个函数f(x,a)=sin(ax)来拟合这些样本，其中a是待定参数，总能够找到一个a使训练误差为零，但显然这个“最优函数”不能正确代表原来的函数模型。原因就是试图用一个复杂的模型来拟合有限的样本，结果导致丧失了推广能力。