支持向量机(SVM)的详细推导

合集下载

SVM支持向量机算法的详细推导(详细到每个步骤,值得推荐)

建立非线性可分数据的最优超平面可以采用与线性可分情况类似的方法，即对于给定的训练样本 {(X1，d1)， (X2，d2)，…，(Xp，dp)，…(XP，dP)} ,寻找权值W和阈值B的最优值，使其在式(8.19)的约束下，最小化关于权值W和松弛变量 ξp 的代价函数
C是选定的正参数。与前述方法相似，采用Laglange系数方法解决约束最优问题。需要注意的是，在引入Lagrange函数时，使 e函数变为
WT XP+b<0
dp =-1
超平面与最近的样本点之间的间隔称为分离边缘，用ρ表示。支持向量机的目标是找到一个分离边缘最大的超平面，即最优超平面。也就是要确定使ρ最大时的W和b。图8.1给出二维平面中最优超平面的示意图。可以看出，最优超平面能提供两类之间最大可能的分离，因此确定最优超平面的权值W0和偏置b0应是唯一的。在式(8.1)定义的一簇超平面中，最优超平面的方程应为: WT X0+b0=0（应该是W0 X + b0 = 0吧？）直接求W0和b0基本上不太可能，除了训练集无别的信息可用，如何办？一种方法：使求得的预测函数 y = f(x) = sgn(W· + b)对原有 X 样本的分类错误率最小。如何使分类错误率最小？下面慢慢分析。
αp>0 以上为不等式约束的二次函数极值问题(Quadratic Programming，QP)。由Kuhn Tucker定理知，式 (8.14)的最优解必须满足以下最优化条件(KKT条件)
上式等号成立的两种情况：一是αp为零；另一种是 (WT XP+b) dp=1 。第二种情况仅对应于样本为支持向量。设Q(α)的最优解为{α01, α02,......, α0p} ，可通过式(8.12) 计算最优权值向量，其中多数样本的Lagrange系数为零，因此

svm算法公式

svm算法公式摘要：1.简介2.SVM 算法基本思想3.SVM 算法公式推导4.SVM 算法应用场景与优缺点5.总结正文：1.简介支持向量机（Support Vector Machine，SVM）是一种经典的二分类机器学习算法。

它通过划分超平面，使得不同类别的数据点到超平面的距离最大，从而实现分类。

SVM 算法具有良好的泛化能力，广泛应用于文本分类、图像分类、生物信息学等领域。

2.SVM 算法基本思想SVM 算法的基本思想是找到一个最佳超平面，使得两个类别之间的距离（即几何间隔）最大化。

为了找到这个最佳超平面，SVM 算法需要解决一个优化问题，即求解一个凸二次规划问题。

3.SVM 算法公式推导设训练样本集为X = {x1, x2, ..., xn}，标签为Y = {y1, y2, ..., yn}，其中yi∈{-1, 1}。

SVM 算法的优化目标是最小化误分类点到超平面的几何间隔之和，即：min ∑(yi - ∑αi * yi * kernel(xi, xj))^2其中，αi 表示第i 个支持向量对应的拉格朗日乘子，kernel(xi, xj) 表示核函数，用于计算两个向量之间的相似度。

对于线性核函数，kernel(xi, xj) = xi·xj；对于多项式核函数，kernel(xi, xj) = (xi·xj + 1)^d。

4.SVM 算法应用场景与优缺点SVM 算法在以下场景中表现良好：- 数据集具有较高维度，但线性可分；- 数据集中存在噪声或异常值；- 需要对类别进行细分的场景。

SVM 算法的优点包括：- 具有较好的泛化能力，能有效处理过拟合问题；- 对于线性可分数据集，能够实现最优分类效果；- 支持多种核函数，可处理非线性问题。

SVM 算法的缺点包括：- 对于非线性数据集，需要选择合适的核函数，否则可能无法获得好的分类效果；- 计算复杂度较高，尤其是当数据量较大时。

5.总结支持向量机（SVM）是一种经典的二分类机器学习算法，通过寻找最佳超平面来实现分类。

支持向量机的基本原理

支持向量机的基本原理
支持向量机（Support Vector Machine, SVM）是一种二分类模型，其基本原理是找到一个最优的超平面来进行数据的划分。

其基本思想是将样本空间映射到高维特征空间，找到一个超平面使得正负样本之间的间隔最大化，从而实现分类。

具体来说，SVM的基本原理包括以下几个步骤：
1. 寻找最优超平面：将样本空间映射到高维特征空间，使得样本在特征空间中线性可分。

然后寻找一个超平面来最大化两个不同类别样本的间隔（也称为“分类间隔”）。

2. 构建优化问题：SVM通过解决一个凸二次规划问题来求解最优超平面。

该优化问题的目标是最大化分类间隔，同时限制样本的分类正确性。

3. 核函数技巧：在实际应用中，数据通常是非线性可分的。

通过引入核函数的技巧，可以将非线性问题转化为高维或无限维的线性问题。

常用的核函数有线性核、多项式核、高斯核等。

4. 寻找支持向量：在求解优化问题时，只有一部分样本点对于最优超平面的确定起到决定性作用，这些样本点被称为“支持向量”。

支持向量决定了超平面的位置。

5. 分类决策函数：在得到最优超平面后，可以通过计算样本点到超平面的距离来进行分类。

对于新的样本点，根据其距离超平面的远近来判断其所属类别。

支持向量机的基本原理可以简单概括为在高维特征空间中找到一个最优超平面，使得样本的分类间隔最大化。

通过引入核函数的技巧，SVM也可以处理非线性可分的问题。

支持向量机具有理论基础牢固、分类效果好等优点，在实际应用中得到了广泛的应用。

SVM的原理和代码实现

SVM的原理和代码实现SVM（Support Vector Machine，支持向量机）是一种常用的机器学习算法，用于二分类和回归问题。

SVM的核心思想是找到一个最优的超平面，将不同类别的数据样本分开。

这个超平面由支持向量（样本）确定，使得支持向量到超平面的距离最大化。

本文将介绍SVM的原理及其代码实现。

一、SVM原理：1.线性可分情况：对于线性可分的数据集，SVM的目标是找到一个超平面，使得所有正例样本都位于超平面的一侧，负例样本都位于另一侧。

超平面的方程可以表示为：w^T*x+b=0，其中w是一个向量，表示法向量，b是偏置。

2.间隔最大化：SVM的关键是最大化两个不同类别样本之间的几何间隔。

间隔是沿着超平面的宽度，因此离分类超平面最近的实例点，即两个最靠近超平面的支持向量(x1和x2)，满足w^T*x1+b=1和w^T*x2+b=-1、它们满足w^T*(x1-x2)=2/(，w，)。

因此，SVM的优化问题转化为求解最大化2/(，w，)的最小化问题。

也就是求解以下优化问题：minimize ，w，^2/2，其中y_i*(w^T*x_i + b) >= 13.引入松弛变量：当数据不是完全线性可分时，引入松弛变量xi，使得一些样本可以处于错误的一侧。

此时优化问题转化为：minimize ，w，^2/2 + C*Σξ_i，其中y_i*(w^T*x_i + b) >= 1 - ξ_i，ξ_i >= 0。

C是一个超参数，用于控制错误样本的惩罚程度。

当C越大，对错误样本的惩罚越重；C越小，则对错误样本的惩罚越轻。

4.对偶问题：为了方便求解SVM的优化问题，引入拉格朗日乘子，将SVM的原始问题转化为对偶问题。

通过求解对偶问题，可以得到最优解。

对偶问题如下：maximize Σα_i - 1/2*ΣΣ α_i*α_j*y_i*y_j*x_i*x_j，其中Σα_i*y_i = 0，0 <= α_i <= C。

机器学习--支持向量机（SVM）算法的原理及优缺点

机器学习--⽀持向量机（SVM）算法的原理及优缺点⼀、⽀持向量机（SVM）算法的原理⽀持向量机（Support Vector Machine，常简称为SVM）是⼀种监督式学习的⽅法，可⼴泛地应⽤于统计分类以及回归分析。

它是将向量映射到⼀个更⾼维的空间⾥，在这个空间⾥建⽴有⼀个最⼤间隔超平⾯。

在分开数据的超平⾯的两边建有两个互相平⾏的超平⾯，分隔超平⾯使两个平⾏超平⾯的距离最⼤化。

假定平⾏超平⾯间的距离或差距越⼤，分类器的总误差越⼩。

1.⽀持向量机的基本思想对于线性可分的任务，找到⼀个具有最⼤间隔超平⾯，如图所⽰，（1）⽀持向量机的基本型为：（2）软间隔的优化⽬标：其中，0-1函数为错分样本的个数。

（3）核⽅法：其中为特征映射函数。

2、实验⼀般步骤：（1）导⼊数据；（2）数据归⼀化；（3）执⾏svm寻找最优的超平⾯；（4）绘制分类超平⾯核⽀持向量；（5）利⽤多项式特征在⾼维空间中执⾏线性svm （6）选择合适的核函数，执⾏⾮线性svm； 3、算法优缺点：算法优点：（1）使⽤核函数可以向⾼维空间进⾏映射（2）使⽤核函数可以解决⾮线性的分类（3）分类思想很简单，就是将样本与决策⾯的间隔最⼤化（4）分类效果较好算法缺点：（1）SVM算法对⼤规模训练样本难以实施（2）⽤SVM解决多分类问题存在困难（3）对缺失数据敏感，对参数和核函数的选择敏感⼆、数学推导过程对于线性可分的⽀持向量机求解问题实际上可转化为⼀个带约束条件的最优化求解问题：推理过程：结果：对于线性不可分的⽀持向量机求解问题实际上可转化为⼀个带约束条件的soft-margin最优化求解问题：三、代码实现1、线性svmimport numpy as npfrom sklearn.datasets import load_irisimport matplotlib.pyplot as pltfrom sklearn.preprocessing import StandardScalerfrom sklearn.svm import LinearSVCfrom matplotlib.colors import ListedColormapimport warningsdef plot_decision_boundary(model,axis):x0,x1=np.meshgrid(np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1))x_new=np.c_[x0.ravel(),x1.ravel()]y_predict=model.predict(x_new)zz=y_predict.reshape(x0.shape)custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_cmap)w = model.coef_[0]b = model.intercept_[0]plot_x = np.linspace(axis[0],axis[1],200)up_y = -w[0]/w[1]*plot_x - b/w[1] + 1/w[1]down_y = -w[0]/w[1]*plot_x - b/w[1] - 1/w[1]up_index = (up_y>=axis[2]) & (up_y<=axis[3])down_index = (down_y>=axis[2]) & (down_y<=axis[3])plt.plot(plot_x[up_index],up_y[up_index],c='black')plt.plot(plot_x[down_index],down_y[down_index],c='black')warnings.filterwarnings("ignore")data = load_iris()x = data.datay = data.targetx = x[y<2,:2]y = y[y<2]scaler = StandardScaler()scaler.fit(x)x = scaler.transform(x)svc = LinearSVC(C=1e9)svc.fit(x,y)plot_decision_boundary(svc,axis=[-3,3,-3,3])plt.scatter(x[y==0,0],x[y==0,1],c='r')plt.scatter(x[y==1,0],x[y==1,1],c='b')plt.show()输出结果：2、⾮线性-多项式特征import numpy as npfrom sklearn import datasetsimport matplotlib.pyplot as pltfrom sklearn.preprocessing import PolynomialFeatures,StandardScaler from sklearn.svm import LinearSVCfrom sklearn.pipeline import Pipelinefrom matplotlib.colors import ListedColormapimport warningsdef plot_decision_boundary(model,axis):x0,x1=np.meshgrid(np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1), np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1) )x_new=np.c_[x0.ravel(),x1.ravel()]y_predict=model.predict(x_new)zz=y_predict.reshape(x0.shape)custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9']) plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_cmap)def PolynomialSVC(degree,C=1.0):return Pipeline([('poly',PolynomialFeatures(degree=degree)),('std_scaler',StandardScaler()),('linearSVC',LinearSVC(C=1e9))])warnings.filterwarnings("ignore")poly_svc = PolynomialSVC(degree=3)X,y = datasets.make_moons(noise=0.15,random_state=666)poly_svc.fit(X,y)plot_decision_boundary(poly_svc,axis=[-1.5,2.5,-1.0,1.5])plt.scatter(X[y==0,0],X[y==0,1],c='red')plt.scatter(X[y==1,0],X[y==1,1],c='blue')plt.show()输出结果：3、⾮线性-核⽅法from sklearn.preprocessing import StandardScalerfrom sklearn.svm import SVCfrom sklearn.pipeline import Pipelinefrom sklearn import datasetsfrom matplotlib.colors import ListedColormapimport numpy as npimport matplotlib.pyplot as pltimport warningsdef plot_decision_boundary(model,axis):x0,x1=np.meshgrid(np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1), np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1) )x_new=np.c_[x0.ravel(),x1.ravel()]y_predict=model.predict(x_new)zz=y_predict.reshape(x0.shape)custom_cmap=ListedColormap(['#EF9A9A','#FFF59D','#90CAF9']) plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_cmap)def RBFKernelSVC(gamma=1.0):return Pipeline([('std_scaler',StandardScaler()),('svc',SVC(kernel='rbf',gamma=gamma))])warnings.filterwarnings("ignore")X,y = datasets.make_moons(noise=0.15,random_state=666)svc = RBFKernelSVC(gamma=100)svc.fit(X,y)plot_decision_boundary(svc,axis=[-1.5,2.5,-1.0,1.5])plt.scatter(X[y==0,0],X[y==0,1],c='red')plt.scatter(X[y==1,0],X[y==1,1],c='blue')plt.show()输出结果：。

支持向量机原理

支持向量机原理支持向量机（Support Vector Machine，SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。

支持向量机的学习策略是间隔最大化，可形式化为一个求解凸二次规划问题。

SVM是一种分类算法，它的基本原理是找到一个超平面，将不同类别的数据分隔开来，使得两个类别的数据点到超平面的距离最大化。

支持向量机的原理主要包括间隔、支持向量、对偶问题和核函数等几个方面。

首先，我们来看支持向量机的间隔。

在支持向量机中，间隔是指两个异类样本最近的距离，而支持向量机的目标就是要找到一个超平面，使得所有样本点到这个超平面的距离最大化。

这个距离就是间隔，而支持向量机的学习策略就是要最大化这个间隔。

其次，支持向量机的支持向量。

支持向量是指离超平面最近的那些点，它们对超平面的位置有影响。

支持向量决定了最终的超平面的位置，而其他的点对超平面的位置没有影响。

因此，支持向量是支持向量机模型的关键。

然后，我们来看支持向量机的对偶问题。

支持向量机的原始问题是一个凸二次规划问题，可以通过求解对偶问题来得到最终的分类超平面。

通过对偶问题，我们可以得到支持向量的系数，从而得到最终的分类超平面。

最后，我们来看支持向量机的核函数。

在实际应用中，很多时候样本不是线性可分的，这时就需要用到核函数。

核函数可以将原始特征空间映射到一个更高维的特征空间，使得样本在这个高维特征空间中线性可分。

常用的核函数有线性核、多项式核和高斯核等。

综上所述，支持向量机是一种非常强大的分类算法，它通过最大化间隔来得到最优的分类超平面，支持向量决定了最终的超平面的位置，对偶问题可以通过求解对偶问题来得到最终的分类超平面，而核函数可以处理非线性可分的情况。

支持向量机在实际应用中有着广泛的应用，是一种非常重要的机器学习算法。

希望本文对支持向量机的原理有所帮助，让读者对支持向量机有更深入的理解。

支持向量机作为一种经典的机器学习算法，有着重要的理论意义和实际应用价值。

支持向量机算法的原理

支持向量机算法的原理支持向量机（Support Vector Machine，SVM）是一种广泛应用于分类和回归问题的机器学习算法。

它的原理基于统计学习理论中的结构风险最小化原则，通过寻找一个最优的超平面来实现数据的分类。

在SVM中，数据被看作是高维空间中的点，每个点都有一个与之对应的特征向量。

这些特征向量的维度取决于特征的数量。

SVM的目标是找到一个超平面，使得其能够尽可能地将不同类别的数据点分隔开。

超平面是一个d维空间中的d-1维子空间，其中d为特征向量的维度。

在二维空间中，超平面即为一条直线，可以完全将两类数据点分开。

在更高维的空间中，超平面可以是一个曲面或者是一个超平面的组合。

为了找到最优的超平面，SVM引入了支持向量的概念。

支持向量是离超平面最近的数据点，它们决定了超平面的位置和方向。

通过最大化支持向量到超平面的距离，SVM能够找到一个最优的超平面，使得分类误差最小化。

SVM的核心思想是将低维空间中的数据映射到高维空间中，使得原本线性不可分的数据变得线性可分。

这一映射是通过核函数实现的。

核函数能够计算两个数据点在高维空间中的内积，从而避免了显式地进行高维空间的计算。

常用的核函数有线性核、多项式核和高斯核等。

SVM的训练过程可以简化为一个凸优化问题。

通过最小化结构风险函数，SVM能够找到一个最优的超平面，使得分类误差最小化。

结构风险函数由经验风险项和正则化项组成。

经验风险项衡量了分类器在训练集上的错误率，正则化项则防止过拟合。

SVM的优点是具有较好的泛化性能和较强的鲁棒性。

由于最大化支持向量到超平面的距离，SVM对异常值不敏感，能够有效地处理噪声数据。

此外，SVM还可以通过引入松弛变量来处理非线性可分的问题。

然而，SVM也存在一些限制。

首先，SVM对于大规模数据集的训练时间较长，且对内存消耗较大。

其次，选择合适的核函数和参数是一个挑战性的问题，不同的核函数和参数可能会导致不同的分类结果。

支持向量机分类原理

支持向量机分类原理支持向量机（Support Vector Machine, SVM）是一种常用的监督学习方法，用于进行分类和回归分析。

其原理基于统计学习理论和结构风险最小化原则，具有较强的泛化能力和较高的准确性。

在分类问题中，支持向量机的目标是找到一个最优的超平面，将不同类别的样本点有效地分开，并且使得到超平面的距离最近的样本点到超平面的距离最大。

支持向量机分类原理的核心思想是找到一个最优的超平面，将不同类别的样本点分隔开来。

在二维空间中，这个超平面就是一条直线，而在多维空间中，则是一个超平面。

支持向量机的目标是找到这样一个超平面，使得两个类别的样本点能够被最大化地分开。

支持向量机的训练过程可以简单描述为以下几个步骤：首先，通过训练数据集找到最优的超平面；然后，根据找到的超平面对新的样本进行分类；最后，评估分类器的性能并进行调优。

支持向量机在实际应用中具有许多优点。

首先，支持向量机能够处理高维数据，即使样本空间的维度非常高，支持向量机也能够有效地进行分类。

其次，支持向量机在处理非线性问题时，可以通过核函数将数据映射到高维空间，在高维空间中找到一个线性可分的超平面，从而实现非线性分类。

此外，支持向量机还具有较好的鲁棒性，对于一定程度上的噪声和异常点具有一定的容忍度。

在支持向量机分类原理中，支持向量起着至关重要的作用。

支持向量是离超平面最近的样本点，它们决定了最终的分类结果。

支持向量机的训练过程实际上就是找到这些支持向量，以及找到最优的超平面，使得这些支持向量到超平面的距离最大化。

总的来说，支持向量机分类原理是一种强大的分类方法，具有较强的泛化能力和较高的准确性。

通过找到最优的超平面，将样本点分隔开来，支持向量机能够有效地处理高维数据和非线性问题，具有较好的鲁棒性和稳定性。

支持向量机在模式识别、数据挖掘等领域有着广泛的应用，是一种非常值得深入学习和研究的机器学习方法。

支持向量机算法原理

支持向量机算法原理支持向量机（SupportVectorMachine，SVM）是一种经典的机器学习算法，是指对二类分类问题，它可以确定一个最佳的线性决策边界，以最大限度地提高分类的准确率。

它将分类任务转换为一个凸二次规划问题，然后使用核函数扩展到非线性情况。

它被广泛应用于许多类型的学习任务，包括分类和回归。

1.持向量机的概念所谓支持向量机，是指一种经典的机器学习算法，用于解决二分类问题。

该算法总是朝着最大限度地改善结果的方向迭代，并将给定的数据集呈现为一个映射，以实现最佳的分类结果。

支持向量机算法的主要思想是，在样本空间中，将数据用线性分割法分为两个独立的子空间，从而获得较高的分类准确率。

2.持向量机的数学原理支持向量机的数学基础乃在于凸优化，它是在线性可分的情况下，使分类器的准确率最大化。

支持向量机算法可以将分类问题转换为一个凸二次规划问题，以求得最优解。

在这个规划问题中，我们要求最小化一个函数，使得能够将样本以最佳方式分开，以确定决策边界。

它需要求解最优化问题中的最大间隔，故而也被称之为最大间隔分类器，把这个问题的最优解称为支持向量（Support Vector）。

3.持向量机的分类a.性可分支持向量机：是用于解决线性可分的二分类问题的支持向量机，其中只有两个分类器，我们可以使用给定的数据集来找到一个线性分类器，这样就可以将样本点映射到不同的类。

b.性不可分支持向量机：是针对线性不可分的二分类问题的支持向量机，我们可以使用核函数将线性不可分的问题扩展到高维来获得线性可分的形式，这种类型的支持向量机也是使用类似的求解方法来构建的，但是通过将线性不可分的问题扩展到高维，它可以更好地描述数据。

c.分类支持向量机：是一种多类支持向量机，它可以用于解决多个分类问题，它可以用于分类要素的多分类以及多个分类分量的情况，这是一种非常有用的技术，在主机器学习任务中得到了广泛应用。

4.持向量机的优势a.持向量机算法不仅可以实现高准确率，而且运行时间短。

svm 原理

svm 原理
SVM(支持向量机)是一种用于分类和回归分析的机器学习方法，其基本原理是寻找一个最优的超平面（在二维情况下是一条直线，多维情况下是一个高维平面），将不同类别的样本点有效地分开。

其思想是将样本点映射到高维空间中，使得样本点在高维空间中可以线性可分。

SVM的目标是找到一个最优的超平面，使得最靠近超平面的
样本点到该超平面的距离最大。

这些最靠近超平面的样本点被称为支持向量，因为它们对于决策超平面的位置起到了关键作用。

SVM通过最大化支持向量到决策边界的间隔，使得分类
边界更加稳健。

在学习阶段，SVM通过构建一个约束最优化问题来寻找最优
的超平面。

这个问题的目标是最小化模型误差和最大化间隔。

其中，模型误差基于不同类别样本点到超平面的距离计算，间隔则是支持向量到超平面的距离。

通过求解这个优化问题，可以得到一个优秀的分类超平面。

SVM的优点是可以处理高维度的数据和非线性的决策边界。

它在解决小样本、非线性和高维度的分类问题上表现出色。

然而，SVM也有一些缺点，例如对于大规模数据集的训练需要
较长的时间，并且对于噪声和异常值比较敏感。

总结来说，SVM基于找到一个最优的超平面，通过最大化支
持向量到决策边界的间隔来实现分类。

它是一种非常强大的机器学习方法，在不同领域的分类和回归问题中都有广泛的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

得：
再把（9）代入（6）式有：考虑到（8）式，我们的对偶问题就变为：
（9）（10）
（11）上式这个规划问题可以直接从数值方法计算求解。
需要指出的一点是，（2）式的条件极值问题能够转化为（5）式的凸规划问题，其中隐含着一个约束，即：
（12）这个约束是这样得来的，如果（2）和（5）等效，必有：
把（3）式代入上式中，得到：
化简得到：
（13）又因为约束（1）式和（4）式，有：
所以要使（13）式成立，只有令
由此得到（12）式的约束。该约束的意义是：如果一个样本是支持向量，则其对应的拉格朗日系数非零；如果一个样本不是支持向量，则其对应的拉格朗日系数一定为 0。由此可知大多数拉格朗日系数都是 0。
支持向量机（SVM）的详细推导过程及注解（一）
谢宏 seamusmore@
支持向量机的原理很简单，就是 VC 维理论和最小化结构风险。在阅读相关论文的时候，发现很多文章都语焉不详，就连《A Tutorial on Support Vector Machines for Pattern Recognition》这篇文章对拉格朗日条件极值问题的对偶变换都只是一笔带过，让很多人觉得很困惑。下面我将对线性可分的情况作详尽的推导。
其中：
（4）那么我们要处理的规划问题就变为：
（3）
（5）上式才是严格的不等式约束的拉格朗日条件极值的表达式。对于这一步的变换，很多文章都没有多做表述，或者理解有偏差，从而影响了读者后续的推演。在此我将详细地一步步推导，以解困惑。
（5）式是一个凸规划问题，其意义是先对α 求偏导，令其等于 0 消掉α ，然后再对 w 和 b 求 L 的最小值。要直接求解（5）式是有难度的，通过消去拉格朗日系数来化简方程，对我们的问题无济于事。所幸这个问题可以通过拉格朗日对偶问题来解决，为此我们把（5）式做一个等价变换：
写成统一的式子就是：
（1）而超平面 H1 和 H2 的距离可知为：
SVM 的任务就是寻找这样一个超平面 H 把样本无误地分割成两部分，并且使 H1 和 H2 的距离
最大。要找到这样的超平面，只需最大化间隔 Margin，也就是最小化如下的条件极值问题：
。于是可以构造
（2）对于不等式约束的条件极值问题，可以用拉格朗日方法求解。而拉格朗日方程的构造规则是：用约束方程乘以非负的拉格朗日系数，然后再从目标函数中减去。于是得到拉格朗日方程如下：
一旦我们从（11）式求解出所有拉格朗日系数，就可以通过（8）式的
计算得到最优分割面 H 的法向量 w。而分割阈值 b 也可以通过（12）式的约束用支持向量计算出来。
如上图所示，有一堆训练数据的正负样本，标记为：
假设有一个超平面 H：可以把这些样本正确无误地分割开来，同时存在两个平行于 H 的超平面 H1 和 H2：
使离 H 最近的正负样本刚好分别落在 H1 和 H2 上，这样的样本就是支持向量。那么其他所有的训练样本都将位于 H1 和 H2 之外，也就是满足如下约束：
上式即为对偶变换，这样就把这个凸规划问题转换成了对偶问题：
（6）其意义是：原凸规划问题可以转化为先对 w 和 b 求偏导，令其等于 0 消掉 w 和 b，然后再对 α 求 L 的最大值。下面我们就来求解（6）式，为此我们先计算 w 和 b 的偏导数。由（3）式有：
（7）为了让 L 在 w 和 b 上取到最小值，令（7）式的两个偏导数分别为 0，于是得到：