黄庆明模式识别与机器学习第三章作业

合集下载

模式识别作业题(2)

得证。 3、使用最小最大损失判决规则的错分概率是最小吗？为什么？
答：不是最小的。首先要明确当我们谈到最小最大损失判决规则时，先验概率是未知的，而先验概率的变化会导致错分概率变化，故错分概率也是一个变量。使用最小最大损失判决规则的目的就是保证在先验概率任意变化导致错分概率变化时，错分概率的最坏（即最大）情况在所有判决规则中是最好的（即最小）。 4、若 λ11 = λ22 =0， λ12 = λ21 ，证明此时最小最大决策面是来自两类的错误率相等。证明：最小最大决策面满足（ λ11 - λ22 ）+（ λ21 - λ11 ）容易得到
λ11 P(ω1 | x) + λ12 P(ω2 | x) < λ21 P(ω1 | x) + λ22 P(ω2 | x) ( λ21 - λ11 ) P (ω1 | x) >( λ12 - λ22 ) P (ω2 | x) ( λ21 - λ11 ) P (ω1 ) P ( x | ω1 ) >( λ12 - λ22 ) P (ω2 ) P ( x | ω2 ) p( x | ω1 ) (λ 12 − λ 22) P(ω2 ) > 即 p( x | ω2 ) ( λ 21 − λ 11) P (ω1 )
6、设总体分布密度为 N( μ ，1)，-∞< μ <+∞,并设 X={ x1 ， x2 ，… xN }，分别用最大似然估计和贝叶斯估计计算 μ 。已知 μ 的先验分布 p（ μ ）～N（0,1）。解：似然函数为：
∧Байду номын сангаас
L（ μ ）=lnp(X|u)=
∑ ln p( xi | u) = −
i =1
N
模式识别第三章作业及其解答

《机器学习》第一次作业——第一至三章学习记录和心得

《机器学习》第⼀次作业——第⼀⾄三章学习记录和⼼得第⼀章、模式识别基本概念1.什么是模式识别模式识别划分为“分类”和“回归”两种形式分类(Classification)输出量是离散的类别表达，即输出待识别模式所属的类别⼆类/多类分类回归(Regression)输出量是连续的信号表达（回归值），输出量维度：单个/多个维度回归是分类的基础：离散的类别值是由回归值做判别决策得到的。

模式识别根据已有知识的表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值。

模式识别本质上是⼀种推理（inference）过程。

2.模式识别的数学表达数学解释模式识别可以看做⼀种函数映射f(x)，将待识别模式x从输⼊空间映射到输出空间。

函数f(x)是关于已有知识的表达。

注：f(x)可能是可解析表达的，也可能是不可解析表达的，其输出值可能是确定值也可能是概率值输⼊空间原始输⼊数据x所在的空间。

空间维度:输⼊数据的维度。

输出空间输出的类别/回归值y所在的空间。

空间维度:1维、类别的个数(>2)、回归值的维度。

模型关于已有知识的⼀种表达⽅式，即函数f(x)。

模型通过机器学习得到。

3.特征向量的相关性点积能够度量特征向量两两之间的相关性即识别模式之间是否相似。

可以表征两个特征向量的共线性，即⽅向上的相似程度。

点积为0，说明两个向量是正交的(orthogonal)。

投影向量x到y的投影(projection)︰将向量x垂直投射到向量y⽅向上的长度（标量)。

投影的含义:向量x分解到向量y⽅向上的程度。

能够分解的越多，说明两个向量⽅向上越相似。

残差向量特征向量的欧⽒距离两个特征向量之间的欧式距离：表征两个向量之间的相似程度（综合考虑⽅向和模长）。

4.机器学习基本概念训练样本每个训练样本，都是通过采样得到的⼀个模式，即输⼊特征空间中的⼀个向量；通常是⾼维度（即很⼤），例如⼀幅图像。

训练样本可以认为是尚未加⼯的原始知识，模型则是经过学习（即加⼯整理归纳等）后的真正知识表达。

模式识别与机器学习作业中科院国科大来源网络 (3)

{ double sum=0.0; for(int j=0;j<T;j++) sum+=a[j]*C[j][i]; res[i]=sum; } } int main() { int T; int w1_num,w2_num; double w1[10][5],w2[10][5],m1[5]={0},m2[5]={0},C1[5][5]={0},C2[5][5]={0}; cin>>T>>w1_num>>w2_num; for(int i=0;i<w1_num;i++) { for(int j=0;j<T;j++) { cin>>w1[i][j]; m1[j]+=w1[i][j]; } } for(int i=0;i<w2_num;i++) { for(int j=0;j<T;j++) { cin>>w2[i][j]; m2[j]+=w2[i][j]; } } for(int i=0;i<w1_num;i++) m1[i]=m1[i]/w1_num; for(int i=0;i<w2_num;i++) m2[i]=m2[i]/w2_num; for(int i=0;i<w1_num;i++) { double res[5][5],a[5]; for(int j=0;j<T;j++) a[j]=w1[i][j]-m1[j]; get_matrix(T,res,a); for(int j=0;j<T;j++) { for(int k=0;k<T;k++) C1[j][k]+=res[j][k]; }

模式识别第三章

3 回归的线性模型至此，本书都聚焦在无监督学习，包括的议题有密度估计和数据聚类。

我们现在转向监督学习，并从回归开始。

回归的目的是：对给定的输入变量的D 维向量x 值，预测一个或更多连续目标变量t 值。

我们在第一章考虑多项式曲线拟合时，已经遇到过一个回归问题的例子。

多项式是线性回归模型的一大类函数中一个具体的例子，它也有含可调参数的线性函数的性质，并将组成本章的焦点。

最简单的线性回归模型也是输入变量的线性函数。

但是，通过取输入变量的一组给定的非线性函数的线性组合，我们可以获得更有用的函数类，称为基函数。

这样的模型是参数的线性函数，它们有简单的解析性，并且关于输入变量仍是非线性的。

给定一个训练数据集合，它有N 个观察值{}n x ，其中n=1,…,N ，以及对应的目标值{}n t ，目的是给定一个新的x 预测t 的值。

最简单方法是直接构造一个适当的函数()y x ，对一个新输入x ，它的值组成对应的t 的预测值。

更一般地，从概率角度考虑，我们想建立一个预测分布()p t x ，因为它表示了对x 的每一个值，t 值的不确定性。

由这个条件分布，我们可以为任意的新x 值预测t ，这相当于最小化一个适当选择的损失函数的期望。

如在第1.5.5所讨论的，通常选择损失函数的平方作为实值变量的损失函数，因为它的最优解由t 的条件期望给出。

对模式识别来说，虽然线性模型作为实用的技术有显著的限制，特别是涉及到高维输入空间的问题，但是它们具有好的解析性质，并且是以后章节要讨论的更复杂模型的基础。

3.1 线性基函数模型最简单的线性回归模型是输入变量的线性组合：011(,)D D y w w x w x =+++x w L （3.1）其中1(,,)T D x x =x L ，这就是通常简称的线性回归。

此模型的关键特征是：它是参数0,,D w w L 的一个线性函数。

但同时它也是输入变量i x 的一个线性函数，这对模型产生了很大的限制。

模式识别Chapter 3归纳.ppt

最新.课件
11
Discriminant functions
yk (x)
1 2
(x
k
)
t
k
1
(
x
k )
d 2
ln
2
1 2
ln
| k
| ln
p(ck )
Case 1 k 2I
yk
(x)
1
2
k t
x
kt k
ln
p(ck
)
yk (x) wkt x wk0
wk
1
2
k , wk 0
ktk
最新.课件
21
Introduction
we could design an optional classifier if we knew the priori probabilities and the class-conditional densities
Unfortunately, we rarely, if ever, have this kind of completely knowledge about the probabilistic structure
Feature space, feature point in space
Classification
-- Bayesian decision theory
-- Discriminant function
-- Decision region, Decision boundary
最新.课件
15
Example
Drawbacks -- the number of parameters grows with the size of the data -- slow

模式识别(3-2)

0
x为其它
解：此为多峰情况的估计
-2.5 -2 0
2x
设窗函数为正态
(u) 1 exp[ 1 u2], hN h1
2
2
N
❖
用
Parzen
窗法估计两个均匀分布的实验
h1 0.25 10.0
1.0 0.1 0.01 0.001 10.0 1.0 0.1 0.01 0.001 10.0 1.0 0.1 0.01 0.001 10.0 1.0 0.1 0.01 0.001
Parse窗口估计
例2：设待估计的P(x)是个均值为0，方差为1的正态密度
函数。若随机地抽取X样本中的1个、 16个、 256个作为
学习样本xi,试用窗口法估计PN(x)。解：设窗口函数为正态的， σ＝1，μ＝0
(| x xi |)
1
exp[
1
(
|
x
xi
|
2
)]
设hN h1
hN
2
2 hN
N
0.01
0.001 10.0
1.0
0.1
0.01
0.001 10.0
1.0
0.1
0.01
0.001 10.0
1.0
0.1
0.01
0.001 2 0 2
h1 1 2 0 2
h1 4 2 0 2
Parse窗口估计
讨论：由图看出, PN(x)随N, h1的变化情况 ①正当态N＝形1时状，的P小N(丘x)，是与一窗个函以数第差一不个多样。本为中心的
概率密度估计
数学期望: E(k)=k=NP
∴对概率P的估计: P k。
N

模式识别_作业3

作业一：设以下模式类别具有正态概率密度函数： ω1：{(0 0)T , (2 0)T , (2 2)T , (0 2)T }ω2：{(4 4)T , (6 4)T , (6 6)T , (4 6)T }（1）设P(ω1)= P(ω2)=1/2，求这两类模式之间的贝叶斯判别界面的方程式。

（2）绘出判别界面。

答案：（1）模式的均值向量m i 和协方差矩阵C i 可用下式估计：2,111==∑=i x N m i N j ij i i2,1))((11=--=∑=i m x m x N C i N j Ti ij i ij i i 其中N i 为类别ωi 中模式的数目，x ij 代表在第i 个类别中的第j 个模式。

由上式可求出：T m )11(1= T m )55(2= ⎪⎪⎭⎫ ⎝⎛===1 00 121C C C ，⎪⎪⎭⎫⎝⎛=-1 00 11C 设P(ω1)=P(ω2)=1/2，因C 1=C 2，则判别界面为：24442121)()()(2121211112121=+--=+--=----x x m C m m C m x C m m x d x d T T T（2）作业二：编写两类正态分布模式的贝叶斯分类程序。

程序代码：#include<iostream>usingnamespace std;void inverse_matrix(int T,double b[5][5]){double a[5][5];for(int i=0;i<T;i++)for(int j=0;j<(2*T);j++){ if (j<T)a[i][j]=b[i][j];elseif (j==T+i)a[i][j]=1.0;elsea[i][j]=0.0;}for(int i=0;i<T;i++){for(int k=0;k<T;k++){if(k!=i){double t=a[k][i]/a[i][i];for(int j=0;j<(2*T);j++){double x=a[i][j]*t;a[k][j]=a[k][j]-x;}}}}for(int i=0;i<T;i++){double t=a[i][i];for(int j=0;j<(2*T);j++)a[i][j]=a[i][j]/t;}for(int i=0;i<T;i++)for(int j=0;j<T;j++)b[i][j]=a[i][j+T];}void get_matrix(int T,double result[5][5],double a[5]) {for(int i=0;i<T;i++){for(int j=0;j<T;j++){result[i][j]=a[i]*a[j];}}}void matrix_min(int T,double a[5][5],int bb){for(int i=0;i<T;i++){for(int j=0;j<T;j++)a[i][j]=a[i][j]/bb;}}void getX(int T,double res[5],double a[5],double C[5][5]) {for(int i=0;i<T;i++)double sum=0.0;for(int j=0;j<T;j++)sum+=a[j]*C[j][i];res[i]=sum;}}int main(){int T;int w1_num,w2_num;double w1[10][5],w2[10][5],m1[5]={0},m2[5]={0},C1[5][5]={0},C2[5][5]={0};cin>>T>>w1_num>>w2_num;for(int i=0;i<w1_num;i++){for(int j=0;j<T;j++){cin>>w1[i][j];m1[j]+=w1[i][j];}}for(int i=0;i<w2_num;i++){for(int j=0;j<T;j++){cin>>w2[i][j];m2[j]+=w2[i][j];}}for(int i=0;i<w1_num;i++)m1[i]=m1[i]/w1_num;for(int i=0;i<w2_num;i++)m2[i]=m2[i]/w2_num;for(int i=0;i<w1_num;i++){double res[5][5],a[5];for(int j=0;j<T;j++)a[j]=w1[i][j]-m1[j];get_matrix(T,res,a);for(int j=0;j<T;j++){for(int k=0;k<T;k++)C1[j][k]+=res[j][k];}matrix_min(T,C1,w1_num);for(int i=0;i<w2_num;i++){double res[5][5],a[5];for(int j=0;j<T;j++)a[j]=w2[i][j]-m2[j];get_matrix(T,res,a);for(int j=0;j<T;j++){for(int k=0;k<T;k++)C2[j][k]+=res[j][k];}}matrix_min(T,C2,w2_num);inverse_matrix(T,C1);inverse_matrix(T,C2);double XX[5]={0},C_C1[5]={0},C_C2[5]={0};double m1_m2[5];for(int i=0;i<T;i++){m1_m2[i]=m1[i]-m2[i];}getX(T,XX,m1_m2,C1);getX(T,C_C1,m1,C1);getX(T,C_C2,m2,C1);double resultC=0.0;for(int i=0;i<T;i++)resultC-=C_C1[i]*C_C1[i];for(int i=0;i<T;i++)resultC+=C_C2[i]*C_C2[i];resultC=resultC/2;cout<<"判别函数为："<<endl;cout<<"d1(x)-d2(x)=";for(int i=0;i<T;i++)cout<<XX[i]<<"x"<<i+1;if(resultC>0)cout<<"+"<<resultC<<endl;elseif(resultC<0)cout<<resultC<<endl;return 0;}运行截图：。

中科院国科大黄庆明模式识别与机器学习期末考点复习

◦ SMO: Sequential Minimal

SVR:一般形式及其对偶问题 Multi-class SVM:一对多。 VC dimension:一般而言, VC 维越大, 学习能力就越强,学习也越复杂；可以通过 VC 维计算学习风险的上界

概念 K-means:形式化，思想高斯混合模型及EM算法（思想，步骤）

模式识别系统的基本构成
数据获取预处理
分类器设计
特征提取和选择
分类决策

机器学习的基本构成
环境学习知识库执行与评价

数据聚类统计分类结构模式识别神经网络监督学习无监督学习半监督学习集成学习增强学习深度学习

在贝叶斯分类器中，构造分类器需要知道类概率密度函数。

流形学习
◦ ◦ ◦ ◦ ◦ Multidimensional Scaling(MDS): 点对距离 Kernel PCA Isomap：保持内在几何结构（测地距离） LLE：映射到低维空间时要保持局部线性结构 LPP：保持局部结构
半监督学习假设：平滑假设 Disagreement-based 方法：Co-training Low-density separation方法：transductive SVM Graph-based SSL:加入不同的正则项得到不同的方法

分类方法
◦ 感知器算法：
perceptron criterion 随机梯度下降求解缺点

分类方法
◦ Logistic regression
MLE+SGD求解多类logistic regression: Cross Entropy Loss Function

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

·在一个10类的模式识别问题中，有3类单独满足多类情况1，其余的类别满足多类情况2。

问该模式识别问题所需判别函数的最少数目是多少？应该是2521426*741327=+=+=++C 其中加一是分别3类和 7类·一个三类问题，其判别函数如下： d1(x)=-x1, d2(x)=x1+x2-1, d3(x)=x1-x2-1(1)设这些函数是在多类情况1条件下确定的，绘出其判别界面和每一个模式类别的区域。

(2)设为多类情况2，并使：d12(x)= d1(x), d13(x)= d2(x), d23(x)= d3(x)。

绘出其判别界面和多类情况2的区域。

(3)设d1(x), d2(x)和d3(x)是在多类情况3的条件下确定的，绘出其判别界面和每类的区域。

·两类模式，每类包括5个3维不同的模式，且良好分布。

如果它们是线性可分的，问权向量至少需要几个系数分量？假如要建立二次的多项式判别函数，又至少需要几个系数分量？（设模式的良好分布不因模式变化而改变。

）如果线性可分，则4个建立二次的多项式判别函数，则1025 C 个·(1)用感知器算法求下列模式分类的解向量w: ω1: {(0 0 0)T , (1 0 0)T , (1 0 1)T , (1 1 0)T } ω2: {(0 0 1)T , (0 1 1)T , (0 1 0)T , (1 1 1)T }将属于ω2的训练样本乘以（-1），并写成增广向量的形式。

x ①=(0 0 0 1)T , x ②=(1 0 0 1)T , x ③=(1 0 1 1)T , x ④=(1 1 0 1)Tx ⑤=(0 0 -1 -1)T , x ⑥=(0 -1 -1 -1)T , x ⑦=(0 -1 0 -1)T , x ⑧=(-1 -1 -1 -1)T第一轮迭代：取C=1，w(1)=(0 0 0 0) T因w T (1) x ① =(0 0 0 0)(0 0 0 1) T=0 ≯0，故w(2)=w(1)+ x ① =(0 0 0 1)因w T (2) x ② =(0 0 0 1)(1 0 0 1) T =1>0，故w(3)=w(2)=(0 0 0 1)T因w T (3)x ③=(0 0 0 1)(1 0 1 1)T =1>0，故w(4)=w(3) =(0 0 0 1)T因w T (4)x ④=(0 0 0 1)(1 1 0 1)T =1>0，故w(5)=w(4)=(0 0 0 1)T因w T (5)x ⑤=(0 0 0 1)(0 0 -1 -1)T =-1≯0，故w(6)=w(5)+ x ⑤=(0 0 -1 0)T因w T (6)x ⑥=(0 0 -1 0)(0 -1 -1 -1)T =1>0，故w(7)=w(6)=(0 0 -1 0)T因w T (7)x ⑦=(0 0 -1 0)(0 -1 0 -1)T =0≯0，故w(8)=w(7)+ x ⑦=(0 -1 -1 -1)T因w T (8)x ⑧=(0 -1 -1 -1)(-1 -1 -1 -1)T =3>0，故w(9)=w(8) =(0 -1 -1 -1)T因为只有对全部模式都能正确判别的权向量才是正确的解，因此需进行第二轮迭代。

第二轮迭代：因w T (9)x ①=(0 -1 -1 -1)(0 0 0 1)T =-1≯0，故w(10)=w(9)+ x ① =(0 -1 -1 0)T因w T (10)x ②=(0 -1 -1 0)( 1 0 0 1)T =0≯0，故w(11)=w(10)+ x ② =(1 -1 -1 1)T因w T (11)x ③=(1 -1 -1 1)( 1 0 1 1)T =1>0，故w(12)=w(11) =(1 -1 -1 1)T因w T (12)x ④=(1 -1 -1 1)( 1 1 0 1)T =1>0，故w(13)=w(12) =(1 -1 -1 1)T因w T (13)x ⑤=(1 -1 -1 1)(0 0 -1 -1)T =0≯0，故w(14)=w(13)+ x ⑤ =(1 -1 -2 0)T因w T (14)x ⑥=(1 -1 -2 0)( 0 -1 -1 -1)T =3>0，故w(15)=w(14) =(1 -1 -2 0)T因w T (15)x ⑧=(1 -1 -2 0)( 0 -1 0 -1)T =1>0，故w(16)=w(15) =(1 -1 -2 0)T因w T (16)x ⑦=(1 -1 -2 0)( -1 -1 -1 -1)T =2>0，故w(17)=w(16) =(1 -1 -2 0)T因为只有对全部模式都能正确判别的权向量才是正确的解，因此需进行第三轮迭代。

第三轮迭代：w(25)=(2 -2 -2 0);因为只有对全部模式都能正确判别的权向量才是正确的解，因此需进行第四轮迭代。

第四轮迭代：w(33)=(2 -2 -2 1)因为只有对全部模式都能正确判别的权向量才是正确的解，因此需进行第五轮迭代。

第五轮迭代：w(41)=(2 -2 -2 1)因为该轮迭代的权向量对全部模式都能正确判别。

所以权向量即为(2 -2 -2 1),相应的判别函数为123()2221d x x x x =--+(2)编写求解上述问题的感知器算法程序。

见附件·用多类感知器算法求下列模式的判别函数： ω1: (-1 -1)T ω2: (0 0)T ω3: (1 1)T 将模式样本写成增广形式：x ①=(-1 -1 1)T , x ②=(0 0 1)T , x ③=(1 1 1)T取初始值w 1(1)=w 2(1)=w 3(1)=(0 0 0)T，C=1。

第一轮迭代（k=1）：以x ①=(-1 -1 1)T作为训练样本。

d 1(1)=)1(1Tw x ①=(0 0 0)(-1 -1 1)T=0d 2(1)=)1(2Tw x ①=(0 0 0)(-1 -1 1)T=0d 3(1)=)1(3T w x ①=(0 0 0)(-1 -1 1)T=0因d 1(1)≯d 2(1)，d 1(1)≯d 3(1)，故w 1(2)=w 1(1)+x ①=(-1 -1 1)Tw 2(2)=w 2(1)-x ①=(1 1 -1)Tw 3(2)=w 3(1)-x ①=(1 1 -1)T第二轮迭代（k=2）：以x ②=(0 0 1)T作为训练样本d 1(2)=)2(1Tw x ②=(-1 -1 1)(0 0 1)T=12d 3(2)=)2(3Tw x ②=(1 1 -1)(0 0 1)T=-1因d 2(2)≯d 1(2)，d 2(2)≯d 3(2)，故w 1(3)=w 1(2)-x ②=(-1 -1 0)Tw 2(3)=w 2(2)+x ②=(1 1 0)Tw 3(3)=w 3(2)-x ②=(1 1 -2)T第三轮迭代（k=3）：以x ③=(1 1 1)T作为训练样本d 1(3)=)3(1Tw x ③=(-1 -1 0)(1 1 1)T=-2d 2(3)=)3(2Tw x ③=(1 1 0)(1 1 1)T=2d 3(3)=)3(3Tw x ③=(1 1 -2)(1 1 1)T =0因d 3(3)≯d 2(3)，故w 1(4)=w 1(3) =(-1 -1 0)Tw 2(4)=w 2(3)-x ③=(0 0 -1)Tw 3(4)=w 3(3)+x ③=(2 2 -1)T第四轮迭代（k=4）：以x ①=(-1 -1 1)T作为训练样本d 1(4)=)4(1Tw x ①=(-1 -1 0)(-1 -1 1)T=2d 2(4)=)4(2Tw x ①=(0 0 -1)(-1 -1 1)T=-1d 3(4)=)4(3T w x ①=(2 2 -1)(-1 -1 1)T=-5因d 1(4)>d 2(4)，d 1(4)>d 3(4)，故w 1(5)=w 1(4) =(-1 -1 0)Tw 2(5)=w 2(4) =(0 0 -1)Tw 3(5)=w 3(4) =(2 2 -1)T第五轮迭代（k=5）：以x ②=(0 0 1)T作为训练样本d 1(5)=)5(1Tw x ②=(-1 -1 0)(0 0 1)T=0d 2(5)=)5(2Tw x ②=(0 0 -1)(0 0 1)T=-1d 3(5)=)5(3T w x ②=(2 2 -1)(0 0 1)T=-1因d 2(5) ≯d 1(5)，d 2(5) ≯d 3(5)，故w 1(6)=w 1(5)-x ② =(-1 -1 -1)w 2(6)=w 2(5)+x ②=(0 0 0) w 3(6)=w 3(5)-x ②=(2 2 -2)第六轮迭代（k=6）：以x ③=(1 1 1)T作为训练样本d 1(6)=)6(1Tw x ③=(-1 -1 -1)(1 1 1)T=-32d 3(6)=)6(3Tw x ③=(2 2 -2)(1 1 1)T=2因d 3(6)>d 1(6)，d 3(6)>d 2(6)，故w 1(7)=w 1(6)w 2(7)=w 2(6) w 3(7)=w 3(6)第七轮迭代（k=7）：以x ①=(-1 -1 1)T作为训练样本d 1(7)=)7(1Tw x ①=(-1 -1 -1)(-1 -1 1)T=1d 2(7)=)7(2Tw x ①=(0 0 0)(-1 -1 1)T=0d 3(7)=)7(3Tw x ①=(2 2 -2)(-1 -1 1)T =-6因d 1(7)>d 2(7)，d 1(7)>d 3(7)，分类结果正确，故权向量不变。

由于第五、六、七次迭代中x ①、x ②、x ③均已正确分类，所以权向量的解为：w 1=(-1 -1 -1)Tw 2=(0 0 0)Tw 3=(2 2 -2)T三个判别函数：d 1(x)=- x 1 -x 2-1 d 2(x)=0d 3(x)=2x 1+2x 2-2·采用梯度法和准则函数22])[(81),,(b x w b x w xb x w J T T ---=式中实数b>0，试导出两类模式的分类算法。

[][])sign(*x -x *||)(|||412b x w b x w b x w x w J TT T ----=∂∂｜其中，⎩⎨⎧≤-->+=-010-1)(b x w if b x w if b x w sign TT T当0>-b x w T 时，则w(k+1) = w(k)，此时不对权向量进行修正；当0≤-b x w T 时，则)(|||)()1(2b x w x Cx k w k w k Tk k k -+=+｜，需对权向量进行校正，初始权向量w(1)的值可任选。