支持向量机通俗导论(理解SVM的三层境界)

合集下载

支持向量机（svm）介绍

⽀持向量机（svm）介绍⽀持向量机(SVM)介绍⽬标本⽂档尝试解答如下问题:如何使⽤OpenCV函数训练⼀个SVM分类器，以及⽤测试训练结果。

什么是⽀持向量机(SVM)?⽀持向量机 (SVM) 是⼀个类分类器，正式的定义是⼀个能够将不同类样本在样本空间分隔的超平⾯。

换句话说，给定⼀些标记(label)好的训练样本 (监督式学习), SVM算法输出⼀个最优化的分隔超平⾯。

如何来界定⼀个超平⾯是不是最优的呢? 考虑如下问题：假设给定⼀些分属于两类的2维点，这些点可以通过直线分割，我们要找到⼀条最优的分割线.Note在这个⽰例中，我们考虑卡迪尔平⾯内的点与线，⽽不是⾼维的向量与超平⾯。

这⼀简化是为了让我们以更加直觉的⽅式建⽴起对SVM概念的理解，但是其基本的原理同样适⽤于更⾼维的样本分类情形。

在上⾯的图中，你可以直觉的观察到有多种可能的直线可以将样本分开。

那是不是某条直线⽐其他的更加合适呢? 我们可以凭直觉来定义⼀条评价直线好坏的标准:距离样本太近的直线不是最优的，因为这样的直线对噪声敏感度⾼，泛化性较差。

因此我们的⽬标是找到⼀条直线，离所有点的距离最远。

由此， SVM算法的实质是找出⼀个能够将某个值最⼤化的超平⾯，这个值就是超平⾯离所有训练样本的最⼩距离。

这个最⼩距离⽤SVM术语来说叫做间隔(margin) 。

概括⼀下，最优分割超平⾯最⼤化训练数据的间隔。

如何计算最优超平⾯?下⾯的公式定义了超平⾯的表达式:叫做权重向量，叫做偏置(bias)。

See also关于超平⾯的更加详细的说明可以参考T. Hastie, R. Tibshirani 和 J. H. Friedman的书籍Elements of Statistical Learning， section 4.5 (Seperating Hyperplanes)。

最优超平⾯可以有⽆数种表达⽅式，即通过任意的缩放和。

习惯上我们使⽤以下⽅式来表达最优超平⾯式中表⽰离超平⾯最近的那些点。

支持向量机（SVM）原理详解

⽀持向量机（SVM）原理详解SVM简介⽀持向量机（support vector machines, SVM）是⼀种⼆分类模型，它的基本模型是定义在特征空间上的间隔最⼤的线性分类器，间隔最⼤使它有别于感知机；SVM还包括核技巧，这使它成为实质上的⾮线性分类器。

SVM的的学习策略就是间隔最⼤化，可形式化为⼀个求解凸⼆次规划的问题，也等价于正则化的合页损失函数的最⼩化问题。

SVM的的学习算法就是求解凸⼆次规划的最优化算法。

⼀、⽀持向量与超平⾯在了解svm算法之前，我们⾸先需要了解⼀下线性分类器这个概念。

⽐如给定⼀系列的数据样本，每个样本都有对应的⼀个标签。

为了使得描述更加直观，我们采⽤⼆维平⾯进⾏解释，⾼维空间原理也是⼀样。

举个简单⼦：如下图所⽰是⼀个⼆维平⾯，平⾯上有两类不同的数据，分别⽤圆圈和⽅块表⽰。

我们可以很简单地找到⼀条直线使得两类数据正好能够完全分开。

但是能将据点完全划开直线不⽌⼀条，那么在如此众多的直线中我们应该选择哪⼀条呢？从直观感觉上看图中的⼏条直线，是不是要更好⼀些呢？是的，我们就是希望寻找到这样的直线，使得距离这条直线最近的点到这条直线的距离最短。

这读起来有些拗⼝，我们从如下右图直观来解释这⼀句话就是要求的两条外⾯的线之间的间隔最⼤。

这是可以理解的，因为假如数据样本是随机出现的，那么这样分割之后数据点落⼊到其类别⼀侧的概率越⾼那么最终预测的准确率也会越⾼。

在⾼维空间中这样的直线称之为超平⾯，因为当维数⼤于三的时候我们已经⽆法想象出这个平⾯的具体样⼦。

那些距离这个超平⾯最近的点就是所谓⽀持向量，实际上如果确定了⽀持向量也就确定了这个超平⾯，找到这些⽀持向量之后其他样本就不会起作⽤了。

⼆、SVM算法原理 2.1 点到超平⾯的距离公式既然这样的直线是存在的，那么我们怎样寻找出这样的直线呢？与⼆维空间类似，超平⾯的⽅程也可以写成⼀下形式：（1）有了超平⾯的表达式之后之后，我们就可以计算样本点到平⾯的距离了。

支持向量机原理SVMPPT课件

回归分析
除了分类问题，SVM也可以用于回归分析，如预测股票价格、预测天气等。通过训练模型，SVM
能够预测未知数据的输出值。
数据降维
SVM还可以用于数据降维，通过找到数据的低维表示，降低数据
的复杂性，便于分析和理解。
02 支持向量机的基本原理
线性可分与不可分数据
线性可分数据
在二维空间中，如果存在一条直线，使得该直线能够将两类样本完全分开，则称这些数据为线性可分数据。
支持向量机原理 svmppt课件
目录
CONTENTS
• 引言 • 支持向量机的基本原理 • 支持向量机的数学模型 • 支持向量机的优化问题 • 支持向量机的核函数 • 支持向量机的训练和预测 • 支持向量机的应用案例 • 总结与展望
01 引言
什么是支持向量机
定义
支持向量机（Support Vector Machine，简称SVM）是一种监督学习算法，用于分类和回归分析。它通过找到一个超平面来分隔数据集，使得分隔后的两类数据点到该平面的距离最远。
支持向量机的优势和局限性
01
对大规模数据集效率较低
对于大规模数据集，支持向量机可能需要较长时间进行训练和预测。
02
核函数选择和参数调整
核函数的选择和参数调整对支持向量机的性能有很大影响，需要仔细选择和调整。
03
对多分类问题处理不够灵活
对于多分类问题，支持向量机通常需要采用一对一或一对多的策略进行处理，可能不够灵活。
图像识别
• 总结词：支持向量机用于图像识别，通过对图像特征的提取和分类，实现图像的自动识别和分类。
• 详细描述：支持向量机在图像识别中发挥了重要作用，通过对图像特征的提取和选择，将图像数据映射到高维空间，然后利用分类器将相似的图像归为同一类别，不相似图像归为不同类别。

支持向量机通俗导论

支持向量机通俗导论（理解SVM的三层境界）第一层、了解SVM支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

1.1、分类标准的起源：Logistic回归理解SVM，咱们必须先弄清楚一个概念：线性分类器。

给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。

如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ wT中的T代表转置）：可能有读者对类别取1或-1有疑问，事实上，这个1或-1的分类标准起源于logistic回归。

Logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。

因此，使用logistic函数（或称作sigmoid 函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。

假设函数其中x是n维特征向量，函数g就是logistic函数。

而的图像是可以看到，将无穷映射到了(0,1)。

而假设函数就是特征属于y=1的概率。

从而，当我们要判别一个新来的特征属于哪个类时，只需求即可，若大于0.5就是y=1的类，反之属于y=0类。

此外，只和有关，>0，那么，而g(z)只是用来映射，真实的类别决定权还是在于。

再者，当时，=1，反之=0。

如果我们只从出发，希望模型达到的目标就是让训练数据中y=1的特征，而是y=0的特征。

Logistic回归就是要学习得到，使得正例的特征远大于0，负例的特征远小于0，而且要在全部训练实例上达到这个目标。

接下来，尝试把logistic回归做个变形。

支持向量机通俗导论(理解SVM的三层境界)LaTeX最新版_2015.1.9

2 第二层：深入 SVM 2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.3
从线性可分到线性不可分 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 从原始问题到对偶问题的求解 . . . . . . . . . . . . . . . . . . . . . 12 K.K.T. 条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 对偶问题求解的 3 个步骤 . . . . . . . . . . . . . . . . . . . . . . . 14 线性不可分的情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 特征空间的隐式映射：核函数 . . . . . . . . . . . . . . . . . . . . . 18 核函数：如何处理非线性数据 . . . . . . . . . . . . . . . . . . . . . 19 几个核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 核函数的本质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1 1+e−z
即因变量（值域）
(1.2) 的图像如
其中， x 是 n 维特征向量，函数 g 就是 Logistic 函数。而 g (z ) = 图1，将无穷映射到了 (0, 1)。而假设函数就是属于 y = 1 的概率： P (y = 1|x; θ) = hθ (x) P (y = 0|x; θ) = 1 − hθ (x)

支持向量机(SVM)

合概率，即 x 和 y 之间存在一定的未知依赖关系。

支持向量机的理论基础
1. 期望风险最小化
L ( y , f ( x , w )) 为用 f ( x , w ) 对
y 进行预测而造成的损失。不同类型
的学习问题有不同形式的损失函数。预测函数通常也称作学习函数、学习模型或学习机器。模式识别问题中，损失函数的定义为：
1 2 2 || w || 最小的分类面就叫做最优分类面。过两类样本中离分类面最近的点且平
行于最优分类面的超平面 H1，H2 上的训练样本就是使（7）式等号成立的那些样本，他们叫做支持向量（Support Vectors）。
最优分类面统计学习理论指出，在 d 维空间中，设样本分布在一个半径为 R 的超球范
围内，则满足条件 || w || c 的正则超平面构成的指示函数集
f ( x , w , b ) sg n { ( w x ) b } ,
的 VC 维满足下面的界
h m in([ R c ], d ) 1.
2
因此使 || w || 最小就是使 VC 维的上界最小，从而实现结构风险最小化（SRM）准则中对函数复杂性的选择:固定经验风险，最小化期望风险就转化为最小化
支持向量机的理论基础
4.经验风险与真实风险的关系因此，（5）式可以简单地表示为：
R ( w ) R em p ( w ) ( h / n )
（6）
它表明,在有限训练样本下,学习机器的 VC 维越高(复杂性越高)则置信范围越大,导致真实风险与经验风险之间可能的差别越大.这就是为什么会出现过学习现象的原因.机器学习过程不但要使经验风险最小,还要使 VC 维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性.

支持向量机(SVM)原理详解

支持向量机（SVM）原理详解支持向量机(Support Vector Machine, SVM)是一种机器学习算法，用于二分类和多分类问题。

它的基本思想是寻找一个超平面，能够将不同类别的数据分隔开来，并且与最近的数据点之间的间隔最大。

一、原理概述：SVM的基本原理是将原始数据映射到高维空间中，使得在该空间中的数据能够线性可分，然后在高维空间中找到一个最优的超平面。

对于线性可分的情况，SVM通过最大化分类边界与最近数据点之间的距离，并将该距离定义为间隔，从而使分类边界具有更好的泛化能力。

二、如何确定最优超平面：1.线性可分的情况下：SVM寻找一个能够将不同类别的数据分开的最优超平面。

其中，最优超平面定义为具有最大间隔(margin)的超平面。

间隔被定义为超平面到最近数据点的距离。

SVM的目标是找到一个最大化间隔的超平面，并且这个超平面能够满足所有数据点的约束条件。

这可以通过求解一个凸二次规划问题来实现。

2.线性不可分的情况下：对于线性不可分的情况，可以使用一些技巧来将数据映射到高维空间中，使其线性可分。

这种方法被称为核技巧(kernel trick)。

核技巧允许在低维空间中计算高维空间的内积，从而避免了直接在高维空间中的计算复杂性。

核函数定义了两个向量之间的相似度。

使用核函数，SVM可以在高维空间中找到最优的超平面。

三、参数的选择：SVM中的参数有两个主要的方面：正则化参数C和核函数的选择。

1.正则化参数C控制了分类边界与数据点之间的权衡。

较大的C值将导致更少的间隔违规，增加将数据点分类正确的权重，可能会导致过拟合；而较小的C值将产生更宽松的分类边界，可能导致欠拟合。

2.核函数选择是SVM中重要的一步。

根据问题的特点选择合适的核函数能够更好地处理数据，常用的核函数有线性核函数、多项式核函数和高斯核函数等。

四、优缺点：SVM有以下几个优点：1.在灵活性和高扩展性方面表现出色，尤其是在高维数据集上。

2.具有良好的泛化能力，能够很好地处理样本数量较少的情况。

SVM支持向量机原理

SVM⽀持向量机原理（⼀）SVM的简介⽀持向量机(Support Vector Machine)是Cortes和Vapnik于1995年⾸先提出的，它在解决⼩样本、⾮线性及⾼维模式识别中表现出许多特有的优势，并能够推⼴应⽤到函数拟合等其他机器学习问题中[10]。

⽀持向量机⽅法是建⽴在统计学习理论的VC 维理论和结构风险最⼩原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能⼒（即⽆错误地识别任意样本的能⼒）之间寻求最佳折衷，以期获得最好的推⼴能⼒[14]（或称泛化能⼒）。

以上是经常被有关SVM 的学术⽂献引⽤的介绍，我来逐⼀分解并解释⼀下。

Vapnik是统计机器学习的⼤⽜，这想必都不⽤说，他出版的《Statistical Learning Theory》是⼀本完整阐述统计机器学习思想的名著。

在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够解答需要的样本数等等⼀系列问题。

与统计机器学习的精密思维相⽐，传统的机器学习基本上属于摸着⽯头过河，⽤传统的机器学习⽅法构造分类系统完全成了⼀种技巧，⼀个⼈做的结果可能很好，另⼀个⼈差不多的⽅法做出来却很差，缺乏指导和原则。

所谓VC维是对函数类的⼀种度量，可以简单的理解为问题的复杂程度，VC维越⾼，⼀个问题就越复杂。

正是因为SVM关注的是VC维，后⾯我们可以看到，SVM解决问题的时候，和样本的维数是⽆关的（甚⾄样本是上万维的都可以，这使得SVM很适合⽤来解决⽂本分类的问题，当然，有这样的能⼒也因为引⼊了核函数）。

结构风险最⼩听上去⽂绉绉，其实说的也⽆⾮是下⾯这回事。

机器学习本质上就是⼀种对问题真实模型的逼近（我们选择⼀个我们认为⽐较好的近似模型，这个近似模型就叫做⼀个假设），但毫⽆疑问，真实模型⼀定是不知道的（如果知道了，我们⼲吗还要机器学习？直接⽤真实模型解决问题不就可以了？对吧，哈哈）既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多⼤差距，我们就没法得知。

支持向量机(SVM)

其中，�� ≥ 0, �� = 1,2, ⋯ , ��。
��
��
0 < �� ≤ 1 分类正确
�� > 1 分类错误
对于给定的训练样本： ��1 , ��1 , �� 2 , �� 2 , ⋯ , (�� , �� ) 找到权值向量W 和偏置b，使其在满足 �� (�� T �� + ��) ≥ 1 − �� , �� = 1,2, ⋯ , �� ≥ 0, �� = 1,2, ⋯ , ��
��
��0��
��=1
1 T = min �� + �� ,��,�� ∈�� 2
��
��
��=1
= max min �� , ��, ��, ��, �� = ��(��0 , ��0 , ��0 , ��0 , ��0 )
T ��
=: ��
��
对偶问题：在满足约束条件
的情况下最大化函数
�� =1 ��

支持向量机SVM

1 ( w 可 6* 维见空x ，) 间只，b 要* 然利后用0 在，变这其换个，中 6把维w 空* x间( 所中[ w 在，* ] 的使1 , 2用维线[ 空w 性* 间学] 6 的) 习T 两机类求输出入分点划映超射平到面：x 所在的
[ w * ] 1 2 [ w * ] 2 [ x ] 1 2 [ w * ] 3 [ x ] 2 2 [ w * ] 4 [ x ] 1 [ x ] 2 [ w * ] 5 [ x ] 1 2 [ w * ] 6 [ x ] 2 2 b 0
SVM相关概念解释
VC维：对于一个指示函数（即只有0和1 两种取值的函数）集，如果存在h个样本能够被函数集里的函数按照所有可能的2h 种形式分开，则称函数集能够把h个样本打散，函数集的VC维就是能够打散的最大样本数目。
圈代表0；点代表1；
SVM相关概念解释
经验风险：使用分类器在样本数据上的分类的结果与真实结果（因为样本是已经标注过的数据，是准确的数据）之间的差值。
上式可将2维空间上x二(次[x曲]1,线[x映]2)射T 为6维空间上的一个超平面：
[ w ] 1 [ X ] 1 2 [ w ] 2 [ X ] 2 2 [ w ] 3 [ X ] 3 2 [ w ] 4 [ X ] 4 [ w ] 5 [ X ] 5 [ w ] 6 [ X ] 6 b 0
持向量机SVM
单击此处添加文本具体内容，简明扼要地阐述你的观点。单击此处添加正文，文字是您思想的提炼，请尽量言简意赅的阐述观点。
演讲人姓名
主要内容
CONTENTS
01 S V M 简介
单击添加文本具体内容
03 S V M 原理
单击添加文本具体内容
05 2 线性不可分

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

支持向量机通俗导论（理解SVM的三层境界）
在本文中，你将看到，理解SVM分三层境界，
∙第一层、了解SVM(你只需要对SVM有个大致的了解，知道它是个什么东西便已足够)；
∙第二层、深入SVM(你将跟我一起深入SVM的内部原理，通宵其各处脉络，以为将来运用它时游刃有余)；
∙第三层、证明SVM(当你了解了所有的原理之后，你会有大笔一挥，尝试证明它的冲动)；
第一层、了解SVM
1.0、什么是支持向量机SVM
然在进入第一层之前，你只需了解什么是支持向量机SVM就够了，而要明白什么是SVM，便得从分类说起。

分类作为数据挖掘领域中一项非常重要的任务，目前在商业上应用最多(比如分析型CRM里面的客户分类模型，客户流失模型，客户盈利等等，其本质上都属于分类问题)。

而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器)，该模型能吧数据库中的数据项映射到给定类别中的某一个，从而可以用于预测未知类别。

其实，若叫分类，可能会有人产生误解，以为凡是分类就是把一些东西或样例按照类别
给区分开来，实际上，分类方法是一个机器学习的方法，分类也成为模式识别，或者在概率统计中称为判别分析问题。

你甚至可以想当然的认为，分类就是恰如一个商场进了一批新的货物，你现在要根据这些货物的特征分门别类的摆放在相关的架子上，这一过程便可以理解为分类，只是它由训练有素的计算机程序来完成。

说实话，上面这么介绍分类可能你不一定内心十分清楚。

我来举个例子吧，比如心脏病的确诊中，如果
我要完全确诊某人得了心脏病，那么我必须要进行一些高级的手段，或者借助一些昂贵的机器，那么若我
们没有那些高科技医疗机器怎么办？还怎么判断某人是否得了心脏病呢？
当然了，古代中医是通过望、闻、问、切“四诊”，但除了这些，我们在现代医学里还是可以利用一些比
较容易获得的临床指标进行推断某人是否得了心脏病。

如作为一个医生，他可以根据他以往诊断的病例对
很多个病人(假设是500个)进行彻底的临床检测之后，已经能够完全确定了哪些病人具有心脏病，哪些没
有。

因为，在这个诊断的过程中，医生理所当然的记录了他们的年龄，胆固醇等10多项病人的相关指标。

那么，以后，医生可以根据这些临床资料，对后来新来的病人通过检测那10多项年龄、胆固醇等指标，以此就能推断或者判定病人是否有心脏病，虽说不能达到100%的标准，但也能达到80、90%的正确率，而这一根据以往临场病例指标分析来推断新来的病例的技术，即成为分类classification技术。

OK，既然讲到了病例诊断这个例子，接下来咱们就以这个例子来简单分析下SVM。

假定是否患有心脏病与病人的年龄和胆固醇水平密切相关，下表对应10个病人的临床数据(年龄用[x1]表示，胆固醇水平用[x2]表示)：
这样，问题就变成了一个在二维空间上的分类问题，可以在平面直角坐标系中描述如下：根据病人的两项指标和有无心脏病，把每个病人用一个样本点来表示，有心脏病者用“+”形点表示，无心脏病者用圆形点，如下图所示：
如此我们很明显的看到，是可以在平面上用一条直线把圆点和“+”分开来的。

当然，事实上，还有很多线性不可分的情况，下文将会具体描述。

So，本文将要介绍的支持向量机SVM算法便是一种分类方法。

所谓支持向量机，顾名思义，分为两个部分了解，一什么是支持向量(简单来说，就是支持or 支撑平面上把两类类别划分开来的超平面的向量点，下文将具体解释)，二这里的“机”是什么意思。

我先来回答第二点：这里的“机（machine,机器）”便是一个算法。

在机器学习领域，常把一些算
法看做是一个机器，如分类机(当然，也叫做分类器)，而支持向量机本身便是一种监督式学习的
方法(什么是监督学习与非监督学习，请参见第一篇)，它广泛的应用于统计分类以及回归分析中。

支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。

对于不想深究SVM原理的同学(比如就只想看看SVM是干嘛的)，那么，了解到这里便足够了，不需上层。

而对于那些喜欢深入研究一个东西的同学，甚至究其本质的，咱们则还有很长的一段路要走，万里长征，咱们开始迈第一步吧(相信你能走完)。

1.1、线性分类
OK，在讲SVM之前，咱们必须先弄清楚一个概念：线性分类器(也可以叫做感知机，这里的机表示的还是一种算法，本文第三部分、证明SVM中会详细阐述)。

这里我们考虑的是一个两类的分类问题，数据点用x来表示，这是一个n维向量，而类别用y来表示，可以取 1 或者-1 ，分别代表两个不同的类。

一个线性分类器就是要在n维的数据空间中找到一个超平面，其方程可以表示为：
w T x+b=0
对应的几何示意图如下：
1.2、线性分类的一个例子
来理论可能读者看不懂，咱们来直接举一个例子吧，且举最简单的例子，一个二维平面(一个超平面，在二维空间中的例子就是一条直线)，如下图所示，平面上有两种不同的点，
分别用两种不同的颜色表示，一种为红颜色的点，另一种则为蓝颜色的点，红颜色的线表示一个可行的超平面。

从上图中我们可以看出，这条红颜色的线把红颜色的点和蓝颜色的点分开来了。

而这条红颜色的线就是我们上面所说的超平面，也就是说，这个所谓的超平面的的确确便把这两种
不同颜色的数据点分隔开来，在超平面一边的数据点所对应的y全是-1 ，而在另一边全是1 。

接着，我们可以令分类函数（下文将一直用蓝色表示分类函数）
f(x)=w T x+b，
显然，如果f(x)=0，那么x是位于超平面上的点。

我们不妨要求对于所有满
足f(x)<0的点，其对应的y等于-1 ，而f(x)>0则对应y=1的数据点。

（有一朋友飞狗来自Mare_Desiderii，看了上面的定义之后，问道：请教一下SVM functional margin 为γˆ=y(wTx+b)=yf(x)中的Y是只取1和-1 吗？y的唯一作用就是确保functional margin的非负性？真是这样的么？当然不是，详情请见本文评论下第43楼）
当然，有些时候（或者说大部分时候）数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲)，这里先从最简单的情形开始推导，就假设数据都是线性可分的，亦即这样的超平面是存在的。