svm为什么需要核函数

合集下载

解读支持向量机的核心概念及原理

解读支持向量机的核心概念及原理支持向量机（Support Vector Machine，SVM）是一种常用的机器学习算法，具有广泛的应用领域和强大的分类能力。

它的核心概念和原理是什么呢？本文将对支持向量机进行解读，深入探讨其核心概念及原理。

支持向量机的核心思想是找到一个最优的超平面，将不同类别的样本点分开。

这个超平面被称为决策边界，它能够最大化样本点与决策边界的间隔，从而提高分类的准确性。

在支持向量机中，样本点被看作是在高维空间中的向量，而决策边界则是这些向量的线性组合。

支持向量机的核心概念之一是支持向量。

支持向量是离决策边界最近的样本点，它们决定了决策边界的位置和形状。

支持向量机的目标是最大化支持向量到决策边界的距离，这个距离被称为间隔。

通过最大化间隔，支持向量机能够更好地处理噪声和异常值，提高分类的鲁棒性。

支持向量机的核心原理是通过核函数将样本点从原始空间映射到高维空间，从而使得原本线性不可分的样本点在高维空间中变得线性可分。

核函数是支持向量机的关键，它可以将低维的非线性问题转化为高维的线性问题。

常用的核函数有线性核函数、多项式核函数和高斯核函数等。

线性核函数是最简单的核函数，它将样本点直接映射到高维空间。

多项式核函数通过多项式的方式将样本点映射到高维空间，可以处理一些非线性问题。

高斯核函数是最常用的核函数之一，它通过高斯分布将样本点映射到高维空间，具有很强的非线性拟合能力。

支持向量机的训练过程是通过求解一个凸优化问题来实现的。

凸优化是一种数学优化问题，它的目标是找到一个全局最优解。

在支持向量机中，通过最小化损失函数来求解最优的决策边界。

常用的损失函数有hinge损失和二次损失等。

支持向量机的训练过程可以通过拉格朗日乘子法来实现。

拉格朗日乘子法是一种优化方法，通过引入拉格朗日乘子将约束条件转化为目标函数的形式。

通过求解拉格朗日对偶问题，可以得到支持向量机的最优解。

支持向量机在实际应用中具有广泛的应用领域，如文本分类、图像识别和生物信息学等。

支持向量机简介与基本原理

支持向量机简介与基本原理支持向量机（Support Vector Machine，SVM）是一种常用的机器学习算法，被广泛应用于模式识别、数据分类以及回归分析等领域。

其独特的优势在于可以有效地处理高维数据和非线性问题。

本文将介绍支持向量机的基本原理和应用。

一、支持向量机的基本原理支持向量机的基本思想是通过寻找一个最优超平面，将不同类别的数据点分隔开来。

这个超平面可以是线性的，也可以是非线性的。

在寻找最优超平面的过程中，支持向量机依赖于一些特殊的数据点，称为支持向量。

支持向量是离超平面最近的数据点，它们对于确定超平面的位置和方向起着决定性的作用。

支持向量机的目标是找到一个超平面，使得离它最近的支持向量到该超平面的距离最大化。

这个距离被称为间隔（margin），最大化间隔可以使得分类器更具鲁棒性，对新的未知数据具有更好的泛化能力。

支持向量机的求解过程可以转化为一个凸优化问题，通过求解对偶问题可以得到最优解。

二、支持向量机的核函数在实际应用中，很多问题并不是线性可分的，此时需要使用非线性的超平面进行分类。

为了解决这个问题，支持向量机引入了核函数的概念。

核函数可以将低维的非线性问题映射到高维空间中，使得原本线性不可分的问题变得线性可分。

常用的核函数有线性核函数、多项式核函数、高斯核函数等。

线性核函数适用于线性可分问题，多项式核函数可以处理一些简单的非线性问题，而高斯核函数则适用于复杂的非线性问题。

选择合适的核函数可以提高支持向量机的分类性能。

三、支持向量机的应用支持向量机在实际应用中有着广泛的应用。

在图像识别领域，支持向量机可以用于人脸识别、物体检测等任务。

在生物信息学领域，支持向量机可以用于蛋白质分类、基因识别等任务。

在金融领域，支持向量机可以用于股票市场预测、信用评估等任务。

此外，支持向量机还可以用于文本分类、情感分析、异常检测等领域。

由于其强大的分类性能和泛化能力，支持向量机成为了机器学习领域中的重要算法之一。

支持向量机的基本原理

支持向量机的基本原理
支持向量机（Support Vector Machine, SVM）是一种二分类模型，其基本原理是找到一个最优的超平面来进行数据的划分。

其基本思想是将样本空间映射到高维特征空间，找到一个超平面使得正负样本之间的间隔最大化，从而实现分类。

具体来说，SVM的基本原理包括以下几个步骤：
1. 寻找最优超平面：将样本空间映射到高维特征空间，使得样本在特征空间中线性可分。

然后寻找一个超平面来最大化两个不同类别样本的间隔（也称为“分类间隔”）。

2. 构建优化问题：SVM通过解决一个凸二次规划问题来求解最优超平面。

该优化问题的目标是最大化分类间隔，同时限制样本的分类正确性。

3. 核函数技巧：在实际应用中，数据通常是非线性可分的。

通过引入核函数的技巧，可以将非线性问题转化为高维或无限维的线性问题。

常用的核函数有线性核、多项式核、高斯核等。

4. 寻找支持向量：在求解优化问题时，只有一部分样本点对于最优超平面的确定起到决定性作用，这些样本点被称为“支持向量”。

支持向量决定了超平面的位置。

5. 分类决策函数：在得到最优超平面后，可以通过计算样本点到超平面的距离来进行分类。

对于新的样本点，根据其距离超平面的远近来判断其所属类别。

支持向量机的基本原理可以简单概括为在高维特征空间中找到一个最优超平面，使得样本的分类间隔最大化。

通过引入核函数的技巧，SVM也可以处理非线性可分的问题。

支持向量机具有理论基础牢固、分类效果好等优点，在实际应用中得到了广泛的应用。

SVM支持向量机原理

SVM⽀持向量机原理（⼀）SVM的简介⽀持向量机(Support Vector Machine)是Cortes和Vapnik于1995年⾸先提出的，它在解决⼩样本、⾮线性及⾼维模式识别中表现出许多特有的优势，并能够推⼴应⽤到函数拟合等其他机器学习问题中[10]。

⽀持向量机⽅法是建⽴在统计学习理论的VC 维理论和结构风险最⼩原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能⼒（即⽆错误地识别任意样本的能⼒）之间寻求最佳折衷，以期获得最好的推⼴能⼒[14]（或称泛化能⼒）。

以上是经常被有关SVM 的学术⽂献引⽤的介绍，我来逐⼀分解并解释⼀下。

Vapnik是统计机器学习的⼤⽜，这想必都不⽤说，他出版的《Statistical Learning Theory》是⼀本完整阐述统计机器学习思想的名著。

在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够解答需要的样本数等等⼀系列问题。

与统计机器学习的精密思维相⽐，传统的机器学习基本上属于摸着⽯头过河，⽤传统的机器学习⽅法构造分类系统完全成了⼀种技巧，⼀个⼈做的结果可能很好，另⼀个⼈差不多的⽅法做出来却很差，缺乏指导和原则。

所谓VC维是对函数类的⼀种度量，可以简单的理解为问题的复杂程度，VC维越⾼，⼀个问题就越复杂。

正是因为SVM关注的是VC维，后⾯我们可以看到，SVM解决问题的时候，和样本的维数是⽆关的（甚⾄样本是上万维的都可以，这使得SVM很适合⽤来解决⽂本分类的问题，当然，有这样的能⼒也因为引⼊了核函数）。

结构风险最⼩听上去⽂绉绉，其实说的也⽆⾮是下⾯这回事。

机器学习本质上就是⼀种对问题真实模型的逼近（我们选择⼀个我们认为⽐较好的近似模型，这个近似模型就叫做⼀个假设），但毫⽆疑问，真实模型⼀定是不知道的（如果知道了，我们⼲吗还要机器学习？直接⽤真实模型解决问题不就可以了？对吧，哈哈）既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多⼤差距，我们就没法得知。

svm基本结构

支持向量机（SVM）是一种广泛使用的监督学习算法，主要用于分类任务。

SVM的基本结构可以分为以下几个核心部分：1. 数据集：SVM算法输入的是一个包含多个样本的数据集，每个样本由一组特征和一个标签组成。

2. 特征空间：SVM的第一步是将原始数据映射到一个更高维度的特征空间。

这样做通常是为了找到一个合适的分离超平面，该超平面能够最好地分隔不同的类别。

3. 支持向量：在特征空间中，最靠近分离超平面的训练样本点被称为支持向量。

这些点是决定超平面位置的关键因素。

4. 分离超平面：SVM的目标是找到一个超平面，它能够最大化两个类别之间的间隔（即支持向量之间的距离）。

5. 软间隔：在实际应用中，可能存在一些难以精确分类的样本。

为了提高模型的泛化能力，SVM允许存在一些违反分类规则的样本，即引入软间隔的概念，允许一定的误分类。

6. 最优边界：除了寻找一个合适的分离超平面之外，SVM也致力于使离群点（即那些距离超平面最近的点）尽可能远离决策边界。

7. 核函数：当数据不是线性可分的时候，SVM通过使用核技巧将数据映射到更高维的空间，使之变得线性可分。

常用的核函数包括线性核、多项式核、径向基函数（RBF）核和sigmoid 核。

8. 正则化：为了避免过拟合，SVM可以通过引入正则化项来控制模型的复杂度。

常见的正则化技术包括L1正则化和L2正则化。

9. 优化问题：SVM的目标函数可以通过拉格朗日乘子法转换成一个凸优化问题，该问题可以通过各种优化算法求解，例如序列最小优化（SMO）算法。

SVM的结构和原理使得它非常适合处理中小规模的数据集，并且在许多实际应用中取得了很好的性能。

然而，当面对非常大的数据集时，SVM可能会遇到计算效率和存储效率的问题。

svm的公式

svm的公式支持向量机(Support Vector Machine, SVM)是一种机器学习算法，广泛应用于分类和回归问题。

它基于统计学习理论和结构风险最小化原则，通过寻找一个最优超平面，将不同类别的样本分隔开来。

SVM的公式可以表示为:$$f(x) = \text{sign}(\omega \cdot x + b)$$其中，$x$表示输入样本的特征向量，$\omega$表示超平面的法向量，$b$表示超平面的截距，$f(x)$表示样本的预测值。

函数$\text{sign}(\cdot)$表示符号函数，将输入值映射为+1或-1，用于分类问题。

在SVM中，最优超平面的选择是通过最大化间隔来实现的。

间隔是指超平面与最靠近它的样本点之间的距离，最大化间隔可以提高模型的泛化能力。

对于线性可分的情况，SVM的目标是找到一个完全分隔不同类别样本的超平面。

这可以通过以下优化问题来实现:$$\begin{align*}\text{minimize} \quad & \frac{1}{2} \|\omega\|^2 \\\text{subject to} \quad & y_i(\omega \cdot x_i + b) \geq 1, \quad i = 1, 2, ..., N\end{align*}$$其中，$y_i$表示第$i$个样本的类别标签，$x_i$表示对应的特征向量，$N$表示样本的数量。

约束条件确保每个样本都被正确分类，并且位于超平面的边界上。

目标函数则通过最小化$\|\omega\|^2$来保证间隔的最大化。

对于线性不可分的情况，可以通过引入松弛变量(slack variable)来允许一些样本点出现在超平面的错误一侧。

这时的优化问题可以表示为:$$\begin{align*}\text{minimize} \quad & \frac{1}{2} \|\omega\|^2 + C \sum_{i=1}^{N} \xi_i \\\text{subject to} \quad & y_i(\omega \cdot x_i + b) \geq 1 - \xi_i, \quad i = 1, 2, ..., N \\& \xi_i \geq 0, \quad i = 1, 2, ..., N\end{align*}$$其中，$\xi_i$表示松弛变量，$C$表示惩罚系数，用于平衡间隔的最大化和错误分类的惩罚。

rbf核函数g取值范围问题

rbf核函数g取值范围问题【主题】rbf核函数g取值范围问题【导言】在机器学习领域，支持向量机（Support Vector Machine，简称SVM）是一种常用且强大的学习算法。

SVM通过核函数将非线性问题映射到高维特征空间，并通过找到最优分割超平面来解决分类问题。

在SVM中，径向基函数核函数（Radial Basis Function Kernel，简称RBF核函数）是一种常用的核函数。

然而，在使用RBF核函数时，我们需要关注它的参数g（gamma）的取值范围，以保证模型能够正确地学习和泛化。

本文将深入探讨RBF核函数g的取值范围问题，帮助读者更好地理解和应用SVM模型。

【正文】1. RBF核函数简介RBF核函数是SVM中最常用的核函数之一。

它的定义是一个关于特征空间中的两个向量之间距离的非线性函数。

在SVM中，RBF核函数的表达式为：K(x, y) = exp(-g * ||x - y||^2)其中，x和y是输入向量，在特征空间中表示样本数据的特征，||x - y||^2表示输入向量x与y之间的欧氏距离的平方，g是RBF核函数的一个参数，也称为gamma。

2. 参数g的作用与影响参数g在RBF核函数中起着重要的作用，它决定了样本点对分类器的影响程度。

参数g越大，每个样本点对分类器的影响越小，决策边界将会更加平滑；参数g越小，每个样本点对分类器的影响越大，决策边界将会更加复杂。

选取合适的参数g对于SVM模型的性能和泛化能力至关重要。

3. 参数g的取值范围在实际应用中，选取合适的参数g并不是一件容易的事情。

通常，我们可以尝试不同的取值范围，并通过交叉验证的方法来选择最优的参数。

在具体操作时，可以考虑以下几种策略：3.1 根据数据的分布情况选取g的初始范围我们可以通过观察数据的分布情况来初步确定参数g的取值范围。

如果数据具有明显的簇状结构，可以选择较小的g值，以保证决策边界可以更好地适应数据的密度变化。

支持向量机算法的优缺点有哪些

支持向量机算法的优缺点有哪些在当今数据驱动的时代，机器学习算法成为了从海量数据中挖掘有价值信息的重要工具。

支持向量机（Support Vector Machine，简称SVM）算法作为一种经典的机器学习算法，在诸多领域都有着广泛的应用。

然而，就像任何事物都有两面性一样，SVM 算法也有其独特的优点和不可忽视的缺点。

一、支持向量机算法的优点1、在高维空间中表现出色SVM 算法的一个显著优点是在处理高维数据时具有良好的性能。

在现实生活中，很多数据的特征维度非常高，例如图像识别、文本分类等领域。

SVM 算法通过使用核函数，将数据映射到高维空间中，从而能够有效地处理复杂的非线性分类问题。

这种在高维空间中进行分类的能力，使得 SVM 在处理具有大量特征的数据集时，能够找到最优的分类超平面。

2、泛化能力强SVM 算法追求的是结构风险最小化，而不仅仅是经验风险最小化。

这意味着它不仅关注在训练数据上的表现，更注重在新的、未见过的数据上的预测能力。

通过寻找具有最大间隔的分类超平面，SVM 能够有效地避免过拟合问题，从而具有较强的泛化能力，能够在不同的数据集上取得较为稳定的性能。

3、对小样本数据有效在实际应用中，很多情况下我们可能只有相对较少的样本数据。

SVM 算法在小样本情况下仍然能够有效地进行学习和分类。

这是因为它的决策边界主要由支持向量决定，而不是依赖于所有的数据点。

因此，即使样本数量较少，只要这些样本具有代表性，SVM 仍然能够构建出较为准确的分类模型。

4、理论基础扎实SVM 算法具有坚实的数学理论基础，其背后的优化理论和统计学原理为算法的性能和可靠性提供了有力的保障。

这种理论上的严谨性使得 SVM 算法在实际应用中更容易被理解和解释，也为算法的改进和优化提供了明确的方向。

5、可以处理非线性问题通过引入核函数，SVM 可以将输入空间中的非线性问题转化为高维特征空间中的线性问题，从而实现非线性分类。

常见的核函数如多项式核函数、高斯核函数等，为处理不同类型的非线性数据提供了灵活的选择。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

svm为什么需要核函数
本来自己想写这个内容，但是看到了一篇网上的文章，觉得写得很好，这样我就不自己写了，直接转载人家的。

我在两处加粗红了，我觉得这两处理解了，就理解了svm中kernel的作用。

1.原来在二维空间中一个线性不可分的问题，映射到四维空间后，变成了线性可分的！因此这也形成了我们最初想解决线性不可分问题的基本思路——向高维空间转化，使其变得线性可分。

2.转化最关键的部分就在于找到x到y的映射方法。

遗憾的是，如何找到这个映射，没有系统性的方法（也就是说，纯靠猜和凑）。

3.我们其实只关心那个高维空间里内积的值，那个值算出来了，分类结果就算出来了。

4.核函数的基本作用就是接受两个低维空间里的向量，能够计算出经过某个变换后在高维空间里的向量内积值。

列一下常用核函数:
线性核函数：
多项式核函数：
高斯核函数：
核函数：
下面便是转载的部分: 转载地址:/zhenandaci/archive/2009/03/06/258288.html 生存？还是毁灭？——哈姆雷特
可分？还是不可分？——支持向量机
之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。

如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。

这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？
有！其思想说来也简单，来用一个二维平面中的分类问题作例子，你一看就会明白。

事先声明，下面这个例子是网络早就有的，我一时找不到原作者的正确信息，在此借用，并加进了我自己的解说而已。

例子是下面这张图：
我们把横轴上端点a和b之间红色部分里的所有点定为正类，两边的黑色部分里的点定为负类。

试问能找到一个线性函数把两类正确分开么？不能，因为二维空间里的线性函数就是指直线，显然找不到符合条件的直线。

但我们可以找到一条曲线，例如下面这一条：
显然通过点在这条曲线的上方还是下方就可以判断点所属的类别（你在横轴上随便找一点，算算这一点的函数值，会发现负类的点函数值一定比0大，而正类的一定比0小）。

这条曲线就是我们熟知的二次曲线，它的函数表达式可以写为：
问题只是它不是一个线性函数，但是，下面要注意看了，新建一个向量y和a：
这样g(x)就可以转化为f(y)=<a,y>，你可以把y和a分别回带一下，看看等不等于原来的g(x)。

用内积的形式写你可能看不太清楚，实际上f(y)的形式就是：
g(x)=f(y)=ay
在任意维度的空间中，这种形式的函数都是一个线性函数（只不过其中的a和y都是多维向量罢了），因为自变量y的次数不大于1。

看出妙在哪了么？原来在二维空间中一个线性不可分的问题，映射到四维空间后，变成了线性可分的！因此这也形成了我们最初想解决线性不可分问题的基本思路——向高维空间转化，使其变得线性可分。

而转化最关键的部分就在于找到x到y的映射方法。

遗憾的是，如何找到这个映射，没有系统性的方法（也就是说，纯靠猜和凑）。

具体到我们的文本分类问题，文本被表示为上千维的向量，即使维数已经如此之高，也常常是线性不可分的，还要向更高的空间转化。

其中的难度可想而知。

小Tips:为什么说f(y)=ay是四维空间里的函数?
大家可能一时没看明白。

回想一下我们二维空间里的函数定义
g(x)=ax+b
变量x是一维的，为什么说它是二维空间里的函数呢？因为还有一个变量我们没写出来，它的完整形式其实是
y=g(x)=ax+b
即
y=ax+b
看看，有几个变量？两个。

那是几维空间的函数？（作者五岁的弟弟答：五维的。

作者：……）
再看看
f(y)=ay
里面的y是三维的变量，那f(y)是几维空间里的函数？（作者五岁的弟弟答：还是五维的。

作者：……）
用一个具体文本分类的例子来看看这种向高维空间映射从而分类的方法如何运作，想象一下，我们文本分类问题的原始空间是1000维的（即每个要被分类的文档被表示为一个1000维的向量），在这个维度上问题是线性不可分的。

现在我们有一个2000维空间里的线性函数
f(x’)=<w’,x’>+b
注意向量的右上角有个’哦。

它能够将原问题变得可分。

式中的w’和x’都是2000维的向量，只不过w’是定值，而x’是变量（好吧,严格说来这个函数是2001维的,哈哈），现在我们的输入呢，是一个1000维的向量x，分类的过程是先把x变换为2000维的向量x’，然后求这个变换后的向量x’与向量w’的内积，再把这个内积的值和b相加，就得到了结果，看结果大于阈值还是小于阈值就得到了分类结果。

你发现了什么？我们其实只关心那个高维空间里内积的值，那个值算出来了，分类结果就算出来了。

而从理论上说， x’是经由x变换来的，因此广义上可以把它叫做x的函数（有一个x，就确定了一个x’，对吧，确定不出第二个），而w’是常量，它是一个低维空间里的常量w经过变换得到的，所以给了一个w 和x的值，就有一个确定的f(x’)值与其对应。

这让我们幻想，是否能有这样一种函数K(w,x),他接受低维空间的输入值，却能算出高维空间的内积值<w’,x’>？
如果有这样的函数，那么当给了一个低维空间的输入x以后，
g(x)=K(w,x)+b
f(x’)=<w’,x’>+b
这两个函数的计算结果就完全一样，我们也就用不着费力找那个映射关系，直接拿低维的输入往g(x)里面代就可以了（再次提醒，这回的g(x)就不是线性函数啦，因为你不能保证K(w,x)这个表达式里的x次数不高于1哦）。

万幸的是，这样的K(w,x)确实存在（发现凡是我们人类能解决的问题，大都是巧得不能再巧，特殊得不能再特殊的问题，总是恰好有些能投机取巧的地方才能解决，由此感到人类的渺小），它被称作核函数（核，kernel），而且还不止一个，事实上，只要是满足了Mercer条件的函数，都可以作为核函数。

核函数的基本作用就是接受两个低维空间里的向量，能够计算出经过某个变换后在高维空间里的向量内积值。

几个比较常用的核函数，哦，教课书里都列过，我就不敲了（懒！）。

回想我们上节说的求一个线性分类器，它的形式应该是：
现在这个就是高维空间里的线性函数（为了区别低维和高维空间里的函数和向量，我改了函数的名字，并且给w和x
都加上了’），我们就可以用一个低维空间里的函数（再一次的，这个低维空间里的函数就不再是线性的啦）来代替，
又发现什么了？f(x’) 和g(x)里的α，y，b全都是一样一样的！这就是说，尽管给的问题是线性不可分的，但是我们就硬当它是线性问题来求解，只不过求解过程中，凡是要求内积的时候就用你选定的核函数来算。

这样求出来的α再和你选定的核函数一组合，就得到分类器啦！
明白了以上这些，会自然的问接下来两个问题：
1．既然有很多的核函数，针对具体问题该怎么选择？
2．如果使用核函数向高维空间映射后，问题仍然是线性不可分的，那怎么办？
第一个问题现在就可以回答你：对核函数的选择，现在还缺乏指导原则！各种实验的观察结果（不光是文本分类）的确表明，某些问题用某些核函数效果很好，用另一些就很差，但是一般来讲，径向基核函数是不会出太大偏差的一种，首选。

（我做文本分类系统的时候，使用径向基核函数，没有参数调优的情况下，绝大部分类别的准确和召回都在85%以上，可见。

虽然libSV M的作者林智仁认为文本分类用线性核函数效果更佳，待考证）
对第二个问题的解决则引出了我们下一节的主题：松弛变量。