支持向量机简介PPT课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Support Vector Machine支持向量机简介
报告概览
系统辨识和模式识别问题一般描述及存在问题 统计学习理论基本思想 支持向量机算法
➢ 线性可分 ➢ 近似线性可分 ➢ 非线性可分
SVM软件包 故障诊断中的应用
系统辨识和模式识别问题一般描述
输入x
系统(S)
F (x, y)
输出y
研究小样本下机器学习规律的理论。 基本思想:折衷考虑经验风险和推广的置信界
限,取得实际期望风险的最小化。 两大核心: VC维和结构风险最小化。
VC维的概念
描述函数复杂性的指标 假如存在一个由h个样本的样本集能够被一个
函数集中的函数按照所有可能的2h 种形式分 为两类,则函数集能够把样本数为h的样本集 打散(shattering)。函数集的vc维就是用这个函 数集中的函数所能够打散的最大样本集数的样 本数目。
X表示成
x
xp
r
||
w w
||
xp :x在H上的投影向量 r:是x到H的垂直距离
g (x ) w T (x p r||w w ||) b w T x p b r|w |w T w || r||w g ||(x)w wT /(|x |wp ||:r||是w w w||)方b 向 上w T 的xp单b 位 向r|w |量w Tw ||r||w ||
从上面可以看出,学习机器的VC维h越大,(n / h) 越 大经验风险和期望风险之间的偏差越大。这样即使在 经验误差很小的情况下,其推广误差会越大。
结构风险最小化思想
将函数集构造为一个函数子集序列, 使各个子集按照VC 维的大小(亦即 φ的大小) 排列; 在每个子集中寻找 最小经验风险,在子集间折衷考虑经 验风险和置信界限,取得实际风险的 最小.
支持向量机算法-线性可分情况
Class 1
Class 2
许多决策平面都可 以将两类样本分开
我们应该选择哪一 个呢?
支持向量机算法-线性可分情况
即:r g ( x ) || w ||
支持向量机算法-线性可分情况
设两类问题训练样本集为(x1,y1),……(xl,yl),其 中xi ∈Rn,yi={1,-1},i=1,…l。问题线性可分是指, 存在着超平面wTx+b=0,使得训练样本中的正 类输入和负类输入分别位于该超平面的两侧。 或者说存在着参数对(w,b),使得 yi=sgn(wTx+b), i=1,…,l.
损失函数
0yf(x,w) L(y,f(x,w)) 1yf(x,w)
模式识别问题
L (y ,f(x ,w )) (y f(x ,w ))2 回归问题
期望风险R(w)要依赖联合概率F(x,y)的信息,实际 问题中无法计算。
一般用经验风险Remp(w)代替期望风险R(w)
Remp (w)
1 n
n i1
分类超平面的一些基本概念
g(x)wT(x)b0定义了一个超平面H
W是超平面H的法向量,决定超平面的方向; b 决定超平面的位置
g (x ) w T x b 0 确 定 一 个 超 平 面 H
在两类分类问题中,通常用g(x)表示分类平 面。对样本x来说: g(x)>0表示一类; g(x)<0表示另一类。
经验风险最小化思想图示
举例:神经网络的构造过程
先确定网络结构 :网络层数,每层节点数 相当于VC维确定, (n / h) 确定。
通过训练确定最优权值,相当于最小化 R emp ( w ) 。 目前存在的问题是神经网络结构的确定大多是凭经验
选取,有一定的盲目性,无法确定泛化的置信界限, 所以无法保证网络的泛化能力。 即使经验误差很小,但可能推广或泛化能力很差。这 就是神经网络中的过学习难题。
3个样本被线性分类器打散的情况
VC维举例
VC维是目前为止对函数集学习性能的最好描 述指标。但遗憾的是目前尚没有通用的关于如 何计算任意函数集的VC维的理论。
结构风险最小化的思想
Vapnik证明,期望风险与经验风险之间的关系满足如 下公式:
R (w )R em p(w ) (n/h )
其中n表示样本数,h为学习机器的VC维,(n / h) 称为 置信区间。(n / h) 是随n/h增大而减小的函数。
神经网络中,如果对于有限的训练样本来说网络的学习能力过强, 足以记住每一个训练样本,此时经验风险很快可以收敛到很小甚 至零,但却根本无法保证它对未来新的样本的能够得到好的预测。
结论:在有限样本情况下,经验风险最小并不意味着期望风险最 小。
统计学习理论基本思想
统计学习理论由贝尔实验室Vapnik于1992年首 次提出。
f(x,),
从给定的函数集Ω中选择出能够最好地 逼近系统响应的函数ω
系统辨识和模式识别问题一般描述
已知:n个观测样本,(x1,y1), (x2,y2)…… (xn,yn)
求:最优函数y= f (x, w),这个函数系统辨识中称为
辨识模型,模式识别问题中称为分类器。
满足条件:期望风险最小
R (w ) L (y ,f(x ,w )d )(x F ,y )
L( yi ,
f
(xi, w))
错分数
nБайду номын сангаас
R em p(w )
|yf(x)|
a ll o b served{(x,y)}
现存问题
经验风险最小不等于期望风险最小,不能保证学习 机的推广能力.算法或方法对未来输出进行正确预测 的能力成为推广能力或泛化能力。
从概率论中的大数定律可知:经验风险只有在样本
数无穷大趋近于期望风险,需要非常多的样本才能
保证学习机的性能。
Remp ( )
某些情况下,当经验风险过小时,推广能力反而下 降,这就是神经网络中令人头疼的所谓过学习 (overfitting) 问题。
使经验风险最小的点与期望风险最小的点并非同一 个点
Remp和R的关系
举例
假设我们有一组训练样本(x,y),x分布在实数范围内,而y取值在 [0,1]之间,那么不论这些样本是依据什么函数模型产生的,只要 我们用一个函数f(x,a)=sin(ax)来拟合这些样本,其中a是待定参数, 总能够找到一个a使训练误差为零,但显然这个“最优函数”不能 正确代表原来的函数模型。原因就是试图用一个复杂的模型来拟 合有限的样本,结果导致丧失了推广能力。
相关文档
最新文档