支持向量机通俗导论(理解SVM的三层境界)Latex版

合集下载

支持向量机（svm）介绍

⽀持向量机（svm）介绍⽀持向量机(SVM)介绍⽬标本⽂档尝试解答如下问题:如何使⽤OpenCV函数训练⼀个SVM分类器，以及⽤测试训练结果。

什么是⽀持向量机(SVM)?⽀持向量机 (SVM) 是⼀个类分类器，正式的定义是⼀个能够将不同类样本在样本空间分隔的超平⾯。

换句话说，给定⼀些标记(label)好的训练样本 (监督式学习), SVM算法输出⼀个最优化的分隔超平⾯。

如何来界定⼀个超平⾯是不是最优的呢? 考虑如下问题：假设给定⼀些分属于两类的2维点，这些点可以通过直线分割，我们要找到⼀条最优的分割线.Note在这个⽰例中，我们考虑卡迪尔平⾯内的点与线，⽽不是⾼维的向量与超平⾯。

这⼀简化是为了让我们以更加直觉的⽅式建⽴起对SVM概念的理解，但是其基本的原理同样适⽤于更⾼维的样本分类情形。

在上⾯的图中，你可以直觉的观察到有多种可能的直线可以将样本分开。

那是不是某条直线⽐其他的更加合适呢? 我们可以凭直觉来定义⼀条评价直线好坏的标准:距离样本太近的直线不是最优的，因为这样的直线对噪声敏感度⾼，泛化性较差。

因此我们的⽬标是找到⼀条直线，离所有点的距离最远。

由此， SVM算法的实质是找出⼀个能够将某个值最⼤化的超平⾯，这个值就是超平⾯离所有训练样本的最⼩距离。

这个最⼩距离⽤SVM术语来说叫做间隔(margin) 。

概括⼀下，最优分割超平⾯最⼤化训练数据的间隔。

如何计算最优超平⾯?下⾯的公式定义了超平⾯的表达式:叫做权重向量，叫做偏置(bias)。

See also关于超平⾯的更加详细的说明可以参考T. Hastie, R. Tibshirani 和 J. H. Friedman的书籍Elements of Statistical Learning， section 4.5 (Seperating Hyperplanes)。

最优超平⾯可以有⽆数种表达⽅式，即通过任意的缩放和。

习惯上我们使⽤以下⽅式来表达最优超平⾯式中表⽰离超平⾯最近的那些点。

支持向量机（SVM）原理详解

⽀持向量机（SVM）原理详解SVM简介⽀持向量机（support vector machines, SVM）是⼀种⼆分类模型，它的基本模型是定义在特征空间上的间隔最⼤的线性分类器，间隔最⼤使它有别于感知机；SVM还包括核技巧，这使它成为实质上的⾮线性分类器。

SVM的的学习策略就是间隔最⼤化，可形式化为⼀个求解凸⼆次规划的问题，也等价于正则化的合页损失函数的最⼩化问题。

SVM的的学习算法就是求解凸⼆次规划的最优化算法。

⼀、⽀持向量与超平⾯在了解svm算法之前，我们⾸先需要了解⼀下线性分类器这个概念。

⽐如给定⼀系列的数据样本，每个样本都有对应的⼀个标签。

为了使得描述更加直观，我们采⽤⼆维平⾯进⾏解释，⾼维空间原理也是⼀样。

举个简单⼦：如下图所⽰是⼀个⼆维平⾯，平⾯上有两类不同的数据，分别⽤圆圈和⽅块表⽰。

我们可以很简单地找到⼀条直线使得两类数据正好能够完全分开。

但是能将据点完全划开直线不⽌⼀条，那么在如此众多的直线中我们应该选择哪⼀条呢？从直观感觉上看图中的⼏条直线，是不是要更好⼀些呢？是的，我们就是希望寻找到这样的直线，使得距离这条直线最近的点到这条直线的距离最短。

这读起来有些拗⼝，我们从如下右图直观来解释这⼀句话就是要求的两条外⾯的线之间的间隔最⼤。

这是可以理解的，因为假如数据样本是随机出现的，那么这样分割之后数据点落⼊到其类别⼀侧的概率越⾼那么最终预测的准确率也会越⾼。

在⾼维空间中这样的直线称之为超平⾯，因为当维数⼤于三的时候我们已经⽆法想象出这个平⾯的具体样⼦。

那些距离这个超平⾯最近的点就是所谓⽀持向量，实际上如果确定了⽀持向量也就确定了这个超平⾯，找到这些⽀持向量之后其他样本就不会起作⽤了。

⼆、SVM算法原理 2.1 点到超平⾯的距离公式既然这样的直线是存在的，那么我们怎样寻找出这样的直线呢？与⼆维空间类似，超平⾯的⽅程也可以写成⼀下形式：（1）有了超平⾯的表达式之后之后，我们就可以计算样本点到平⾯的距离了。

支持向量机原理SVMPPT课件

回归分析
除了分类问题，SVM也可以用于回归分析，如预测股票价格、预测天气等。通过训练模型，SVM
能够预测未知数据的输出值。
数据降维
SVM还可以用于数据降维，通过找到数据的低维表示，降低数据
的复杂性，便于分析和理解。
02 支持向量机的基本原理
线性可分与不可分数据
线性可分数据
在二维空间中，如果存在一条直线，使得该直线能够将两类样本完全分开，则称这些数据为线性可分数据。
支持向量机原理 svmppt课件
目录
CONTENTS
• 引言 • 支持向量机的基本原理 • 支持向量机的数学模型 • 支持向量机的优化问题 • 支持向量机的核函数 • 支持向量机的训练和预测 • 支持向量机的应用案例 • 总结与展望
01 引言
什么是支持向量机
定义
支持向量机（Support Vector Machine，简称SVM）是一种监督学习算法，用于分类和回归分析。它通过找到一个超平面来分隔数据集，使得分隔后的两类数据点到该平面的距离最远。
支持向量机的优势和局限性
01
对大规模数据集效率较低
对于大规模数据集，支持向量机可能需要较长时间进行训练和预测。
02
核函数选择和参数调整
核函数的选择和参数调整对支持向量机的性能有很大影响，需要仔细选择和调整。
03
对多分类问题处理不够灵活
对于多分类问题，支持向量机通常需要采用一对一或一对多的策略进行处理，可能不够灵活。
图像识别
• 总结词：支持向量机用于图像识别，通过对图像特征的提取和分类，实现图像的自动识别和分类。
• 详细描述：支持向量机在图像识别中发挥了重要作用，通过对图像特征的提取和选择，将图像数据映射到高维空间，然后利用分类器将相似的图像归为同一类别，不相似图像归为不同类别。

SVM支持向量机PPT

核函数的改进方向可能包括研究新的核函数形式，如高阶核函数、多核函数等，以提高SVM的分类精度和泛化能力。
增量学习与在线学习
增量学习是指模型能够随着新数据的不断加入而进行自我更新和调整的能力。在线学习则是增量学习的一种特殊形式，它允许模型在实时数据流上进行学习和更新。
随着大数据时代的到来，增量学习和在线学习在许多领域中变得越来越重要。未来的SVM研究将更加注重增量学习和在线学习方面的研究，以提高SVM在处理大规模、高维数据集时的效率和准确性。
SVM
如前所述，SVM通过找到能够将不同类别的数据点最大化分隔的决策边界来实现分类。 SVM具有较弱的表示能力和学习能力，但具有较好的泛化能力。
比较
神经网络和SVM在分类问题上有不同的优势和局限性。神经网络适合处理复杂和高度非线性问题，而SVM在处理大规模和线性可分数据集时表现更佳。选择哪种算法取决于具体问题和数据特性。
与贝叶斯分类器比较
贝叶斯分类器
贝叶斯分类器是一种基于概率的分类方法。它通过计算每个类别的概率来对新的输入数据进行分类。贝叶斯分类器具有简单和高效的特点，但需要较大的训练样本。
SVM
如前所述，SVM通过找到能够将不同类别的数据点最大化分隔的决策边界来实现分类。SVM具有较好的泛化能力和处理大规模数据集的能力，但计算复杂度较高。
svm支持向量机
contents
目录
• SVM基本概念 • SVM分类器 • SVM优化问题 • SVM应用领域 • SVM与其他机器学习算法的比较 • SVM未来发展方向
01 SVM基本概念
定义
定义
SVM（Support Vector Machine）是一种监督学习模型，用于分类和回归分析。

超详细SVM（支持向量机）知识点

超详细SVM（支持向量机）知识点一. 简单概括一下SVM：SVM 是一种二类分类模型。

它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类，具体来讲，有三种情况（不加核函数的话就是个线性模型，加了之后才会升级为一个非线性模型）：•当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；•当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；•当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

二. SVM 为什么采用间隔最大化（与感知机的区别）：当训练数据线性可分时，存在无穷个分离超平面可以将两类数据正确分开。

感知机利用误分类最小策略，求得分离超平面，不过此时的解有无穷多个。

线性可分支持向量机利用间隔最大化求得最优分离超平面，这时，解是唯一的。

另一方面，此时的分隔超平面所产生的分类结果是最鲁棒的，对未知实例的泛化能力最强。

三. SVM的目标（硬间隔）：有两个目标：第一个是使间隔最大化，第二个是使样本正确分类，由此推出目标函数：稍微解释一下，w是超平面参数，目标一是从点到面的距离公式化简来的，具体不展开，目标二就相当于感知机，只是把大于等于0进行缩放变成了大于等于1，为了后面的推导方便。

有了两个目标，写在一起，就变成了svm的终极目标：四. 求解目标（硬间隔）：从上面的公式看出，这是一个有约束条件的最优化问题，用拉格朗日函数来解决。

上式的拉格朗日函数为：在满足Slater定理的时候，且过程满足KKT条件的时候，原问题转换成对偶问题：先求内部最小值，对和 b 求偏导数=0可得将其带入到上式中可以得到此时需要求解α ，利用SMO（序列最小优化）算法：五. 软间隔：不管直接在原特征空间，还是在映射的高维空间，我们都假设样本是线性可分的。

虽然理论上我们总能找到一个高维映射使数据线性可分，但在实际任务中，寻找一个合适的核函数核很困难。

支持向量机通俗导论

支持向量机通俗导论（理解SVM的三层境界）第一层、了解SVM支持向量机，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

1.1、分类标准的起源：Logistic回归理解SVM，咱们必须先弄清楚一个概念：线性分类器。

给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。

如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ wT中的T代表转置）：可能有读者对类别取1或-1有疑问，事实上，这个1或-1的分类标准起源于logistic回归。

Logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。

因此，使用logistic函数（或称作sigmoid 函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。

假设函数其中x是n维特征向量，函数g就是logistic函数。

而的图像是可以看到，将无穷映射到了(0,1)。

而假设函数就是特征属于y=1的概率。

从而，当我们要判别一个新来的特征属于哪个类时，只需求即可，若大于0.5就是y=1的类，反之属于y=0类。

此外，只和有关，>0，那么，而g(z)只是用来映射，真实的类别决定权还是在于。

再者，当时，=1，反之=0。

如果我们只从出发，希望模型达到的目标就是让训练数据中y=1的特征，而是y=0的特征。

Logistic回归就是要学习得到，使得正例的特征远大于0，负例的特征远小于0，而且要在全部训练实例上达到这个目标。

接下来，尝试把logistic回归做个变形。

支持向量机通俗导论(理解SVM的三层境界)LaTeX最新版_2015.1.9

2 第二层：深入 SVM 2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.3
从线性可分到线性不可分 . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 从原始问题到对偶问题的求解 . . . . . . . . . . . . . . . . . . . . . 12 K.K.T. 条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 对偶问题求解的 3 个步骤 . . . . . . . . . . . . . . . . . . . . . . . 14 线性不可分的情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 特征空间的隐式映射：核函数 . . . . . . . . . . . . . . . . . . . . . 18 核函数：如何处理非线性数据 . . . . . . . . . . . . . . . . . . . . . 19 几个核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 核函数的本质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1 1+e−z
即因变量（值域）
(1.2) 的图像如
其中， x 是 n 维特征向量，函数 g 就是 Logistic 函数。而 g (z ) = 图1，将无穷映射到了 (0, 1)。而假设函数就是属于 y = 1 的概率： P (y = 1|x; θ) = hθ (x) P (y = 0|x; θ) = 1 − hθ (x)

支持向量机(SVM)原理详解

支持向量机（SVM）原理详解支持向量机(Support Vector Machine, SVM)是一种机器学习算法，用于二分类和多分类问题。

它的基本思想是寻找一个超平面，能够将不同类别的数据分隔开来，并且与最近的数据点之间的间隔最大。

一、原理概述：SVM的基本原理是将原始数据映射到高维空间中，使得在该空间中的数据能够线性可分，然后在高维空间中找到一个最优的超平面。

对于线性可分的情况，SVM通过最大化分类边界与最近数据点之间的距离，并将该距离定义为间隔，从而使分类边界具有更好的泛化能力。

二、如何确定最优超平面：1.线性可分的情况下：SVM寻找一个能够将不同类别的数据分开的最优超平面。

其中，最优超平面定义为具有最大间隔(margin)的超平面。

间隔被定义为超平面到最近数据点的距离。

SVM的目标是找到一个最大化间隔的超平面，并且这个超平面能够满足所有数据点的约束条件。

这可以通过求解一个凸二次规划问题来实现。

2.线性不可分的情况下：对于线性不可分的情况，可以使用一些技巧来将数据映射到高维空间中，使其线性可分。

这种方法被称为核技巧(kernel trick)。

核技巧允许在低维空间中计算高维空间的内积，从而避免了直接在高维空间中的计算复杂性。

核函数定义了两个向量之间的相似度。

使用核函数，SVM可以在高维空间中找到最优的超平面。

三、参数的选择：SVM中的参数有两个主要的方面：正则化参数C和核函数的选择。

1.正则化参数C控制了分类边界与数据点之间的权衡。

较大的C值将导致更少的间隔违规，增加将数据点分类正确的权重，可能会导致过拟合；而较小的C值将产生更宽松的分类边界，可能导致欠拟合。

2.核函数选择是SVM中重要的一步。

根据问题的特点选择合适的核函数能够更好地处理数据，常用的核函数有线性核函数、多项式核函数和高斯核函数等。

四、优缺点：SVM有以下几个优点：1.在灵活性和高扩展性方面表现出色，尤其是在高维数据集上。

2.具有良好的泛化能力，能够很好地处理样本数量较少的情况。

支持向量机通俗导论(理解SVM的三层境界)

1.1、分类标准的起源：Logistic回归理解SVM，咱们必须先弄清楚一个概念：线性分类器。

给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。

Logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。

因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。

假设函数其中x是n维特征向量，函数g就是logistic函数。

而的图像是可以看到，将无穷映射到了(0,1)。

而假设函数就是特征属于y=1的概率。

从而，当我们要判别一个新来的特征属于哪个类时，只需求即可，若大于0.5就是y=1的类，反之属于y=0类。

此外，只和有关，>0，那么，而g(z)只是用来映射，真实的类别决定权还是在于。

再者，当时，=1，反之=0。

如果我们只从出发，希望模型达到的目标就是让训练数据中y=1的特征，而是y=0的特征。

Logistic回归就是要学习得到，使得正例的特征远大于0，负例的特征远小于0，而且要在全部训练实例上达到这个目标。

接下来，尝试把logistic回归做个变形。

支持向量机(SVM)的详细推导

支持向量机（SVM）的详细推导过程及注解（一）谢宏 seamusmore@支持向量机的原理很简单，就是VC维理论和最小化结构风险。

在阅读相关论文的时候，发现很多文章都语焉不详，就连《A Tutorial on Support Vector Machines for Pattern Recognition》这篇文章对拉格朗日条件极值问题的对偶变换都只是一笔带过，让很多人觉得很困惑。

下面我将对线性可分的情况作详尽的推导。

如上图所示，有一堆训练数据的正负样本，标记为：假设有一个超平面H：可以把这些样本正确无误地分割开来，同时存在两个平行于H的超平面H1和H2：使离H最近的正负样本刚好分别落在H1和H2上，这样的样本就是支持向量。

那么其他所有的训练样本都将位于H1和H2之外，也就是满足如下约束：写成统一的式子就是：（1）而超平面H1和H2的距离可知为：SVM的任务就是寻找这样一个超平面H把样本无误地分割成两部分，并且使H1和H2的距离最大。

要找到这样的超平面，只需最大化间隔Margin，也就是最小化。

于是可以构造如下的条件极值问题：（2）对于不等式约束的条件极值问题，可以用拉格朗日方法求解。

而拉格朗日方程的构造规则是：用约束方程乘以非负的拉格朗日系数，然后再从目标函数中减去。

于是得到拉格朗日方程如下：（3）其中：（4）那么我们要处理的规划问题就变为：（5）上式才是严格的不等式约束的拉格朗日条件极值的表达式。

对于这一步的变换，很多文章都没有多做表述，或者理解有偏差，从而影响了读者后续的推演。

在此我将详细地一步步推导，以解困惑。

（5）式是一个凸规划问题，其意义是先对α求偏导，令其等于0消掉α，然后再对w 和b求L的最小值。

要直接求解（5）式是有难度的，通过消去拉格朗日系数来化简方程，对我们的问题无济于事。

所幸这个问题可以通过拉格朗日对偶问题来解决，为此我们把（5）式做一个等价变换：上式即为对偶变换，这样就把这个凸规划问题转换成了对偶问题：（6）其意义是：原凸规划问题可以转化为先对w和b求偏导，令其等于0消掉w和b，然后再对α求L的最大值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

支持向量机 . 所谓支持向量机，顾名思义，分为两个部分了解：一，什么是支持向量（简单来说，就是支持或支撑平面上把两类类别划分开来的超平面的向量点，下文将具体解释）；二，这里的 “机（machine，机器） ”便是一个算法。在机器学习领域，常把一些算法看做是一个机器，如分类机（当然，也叫做分类器），而支持向量机本身便是一种监督式学习的方法（至于具体什么是监督学习与非监督学习，请参见此系列Machine Learning & Data Mining 第一篇），它广泛的应用于统计分类以及回归分析中。
目录 3.5 SMO 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 3.5.2 3.5.3 3.6 3.6.1 参考资料 SMO 算法的解法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . SMO 算法的步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . SMO 算法的实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 文本分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 27 28 29 29 30
线性分类的一个例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 函数间隔与几何间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 1.4.2 函数间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 点到超平面的距离定义：几何间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 /?page_id=683
第1层
了解 SVM
1.1
什么是 SVM
要明白什么是支持向量机 Support Vector Machines, SVM ，便得从分类说起。分类作为数据挖掘领域中一项非常重要的任务，它的目的是学会一个分类函数或分类模型（或者叫做分类器），该模型能吧数据库中的数据项映射到给定类别中的某一个，从而可以用于预测未知类别。本文将要介绍的支持向量机算法便是一种分类方法。
分类标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 或 –1 分类标准的起源：Logistic 回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 形式化表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
使用松弛变量处理离群点的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
第三章证明 SVM 3.1 3.2 3.3 3.4 线性学习器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 3.2.1 感知机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mercer 定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 非线性学习器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 损失函数 3.4.1 3.4.2
而支持向量机是 90 年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。对于不想深究支持向量机原理的同学（比如就只想看看支持向量机是干嘛的），那么，了解到这里便足够了，不需上层。而对于那些喜欢深入研究一个东西的同学，甚至究其本质的，咱们则还有很长的一段路要走，万里长征，咱们开始迈第一步吧（相信你能走完）。
1.5 1.6
最大间隔分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 支持向量
第二章深入 SVM 2.1 从线性可分到线性不可分 2.1.1 2.1.2 2.1.3 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.3 从原始问题到对偶问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 序列最小最优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 线性不可分的情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 特征空间的隐式映射：核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 如何处理非线性数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 几个核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 核函数的本质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
最小二乘法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 什么是最小二乘法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 最小二乘法的解法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
支持向量机的应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
前言
动笔写这个支持向量机（support vector machine）是费了不少劲和困难的，原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友写得不错了（见文末参考链接），但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明，我还是想尝试写一下，希望本文在兼顾通俗易懂的基础上，真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。本文在写的过程中，参考了不少资料，包括《支持向量机导论》、《统计学习方法》及网友 pluskid 的支持向量机系列1 等等，于此，还是一篇学习笔记，只是加入了自己的理解和总结，有任何不妥之处，还望海涵。全文宏观上整体认识支持向量机的概念和用处，微观上深究部分定理的来龙去脉，证明及原理细节，力保逻辑清晰 & 通俗易懂。同时，阅读本文时建议大家尽量使用 chrome 等浏览器，如此公式才能更好的显示，再者，阅读时可拿张纸和笔出来，把本文所有定理.公式都亲自推导一遍或者直接打印下来（可直接打印网页版或本文文末附的 PDF，享受随时随地思考、演算的极致快感），在文稿上演算。 Ok，还是那句原话，有任何问题，欢迎任何人随时不吝指正 & 赐教，感谢。