线性判别函数解读

合集下载

线性判别分析（LinearDiscriminantAnalysis，LDA）

线性判别分析（LinearDiscriminantAnalysis，LDA）⼀、LDA的基本思想线性判别式分析(Linear Discriminant Analysis, LDA)，也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是模式识别的经典算法，它是在1996年由Belhumeur引⼊模式识别和⼈⼯智能领域的。

线性鉴别分析的基本思想是将⾼维的模式样本投影到最佳鉴别⽮量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的⼦空间有最⼤的类间距离和最⼩的类内距离，即模式在该空间中有最佳的可分离性。

如下图所⽰，根据肤⾊和⿐⼦⾼低将⼈分为⽩⼈和⿊⼈，样本中⽩⼈的⿐⼦⾼低和⽪肤颜⾊主要集中A组区域，⿊⼈的⿐⼦⾼低和⽪肤颜⾊主要集中在B组区域，很显然A组合B组在空间上明显分离的，将A组和B组上的点都投影到直线L上，分别落在直线L的不同区域，这样就线性的将⿊⼈和⽩⼈分开了。

⼀旦有未知样本需要区分，只需将⽪肤颜⾊和⿐⼦⾼低代⼊直线L的⽅程，即可判断出未知样本的所属的分类。

因此，LDA的关键步骤是选择合适的投影⽅向，即建⽴合适的线性判别函数（⾮线性不是本⽂的重点）。

⼆、LDA的计算过程1、代数表⽰的计算过程设已知两个总体A和B，在A、B两总体分别提出m个特征，然后从A、B两总体中分别抽取出、个样本，得到A、B两总体的样本数据如下：和假设存在这样的线性函数（投影平⾯），可以将A、B两类样本投影到该平⾯上，使得A、B两样本在该直线上的投影满⾜以下两点：（1）两类样本的中⼼距离最远；（2）同⼀样本内的所有投影距离最近。

我们将该线性函数表达如下：将A总体的第个样本点投影到平⾯上得到投影点，即A总体的样本在平⾯投影的重⼼为其中同理可以得到B在平⾯上的投影点以及B总体样本在平⾯投影的重⼼为其中按照Fisher的思想，不同总体A、B的投影点应尽量分开，⽤数学表达式表⽰为，⽽同⼀总体的投影点的距离应尽可能的⼩，⽤数学表达式表⽰为，，合并得到求从⽽使得得到最⼤值，分别对进⾏求导即可，详细步骤不表。

R语言中的线性判别分析_r语言

R语⾔中的线性判别分析_r语⾔线性判别分析在中，线性判别分析（Liner Discriminant Analysis，简称LDA），依靠软件包MASS中有线性判别函数lqa()来实现。

该函数有三种调⽤格式：1）当对象为数据框data.frame时lda(x,grouping,prior = propotions,tol = 1.0e-4,method,CV = FALSE,nu,…)2) 当对象为公式Formula时lda(formula,data,…,subnet,na.action)3) 当对象为矩阵Matrix时lda(x,group,…,subnet,na.action)对于第⼀种情况，grouping表⽰每个观测样本的所属类别；prior表⽰各类别的先验概率，默认取训练集中各样本的⽐例；tol表⽰筛选变量，默认取0.0001对于第⼆种情况，formula表⽰判别公式，⽐如，y~x1 x2 x3,或者y~x1*x1data表⽰数据集subnet表⽰样本na.action表⽰处理缺失值的⽅法，默认为“如果样本中有缺失值，则lda()函数⽆法运⾏”；如果设置为na.omit，则表⽰“⾃动删除样本中的缺失值，然后，进⾏计算”对于第三种情况，x表⽰矩阵data表⽰数据集subnet表⽰样本na.action表⽰处理缺失值的⽅法，默认为“如果样本中有缺失值，则lda()函数⽆法运⾏”；如果设置为na.omit，则表⽰“⾃动删除样本中的缺失值，然后，进⾏计算”下⾯，举⼀个例⼦，来说明线性判别分析。

我们选⽤kknn软件包中的miete数据集进⾏算法演⽰。

miete数据集记录了1994年慕尼⿊的住房佣⾦标准中⼀些有趣变量，⽐如房⼦的⾯积、是否有浴室、是否有中央供暖、是否供应热⽔等等，这些因素都影响着佣⾦的⾼低。

1.数据概况⾸先，简单了解⼀下，miete数据集。

> library(kknn) > data(miete) > head(miete)nm wfl bj bad0 zh ww0 badkach fenster kueche mvdauer bjkat wflkat1 693.29 50 1971.5 0 1 0 0 0 02 4 12 736.60 70 1971.5 0 1 0 0 0 0 26 4 23 732.23 50 1971.5 0 1 0 0 0 0 14 14 1295.14 55 1893.0 0 1 0 0 0 0 0 1 25 394.97 46 1957.0 0 0 1 0 0 0 27 3 16 1285.64 94 1971.5 0 1 0 1 0 0 2 4 3nmqm rooms nmkat adr wohn1 13.865800 1 32 22 10.5228573 3 2 23 14.644600 1 3 2 24 23.548000 35 2 25 8.586304 3 1 2 26 13.677021 4 5 2 2> dim(miete)[1] 1082 17我们看到，该数据集⼀共有1082条样本，和17个变量。

模式识别第4章线性判别函数

w1。
44
4.3 判别函数值的鉴别意义、权空间及解空间 4.3.2 权空间、解矢量与解空间
(3) 解空间
w1
先看一个简
单的情况。设一
维数据1，2属于
w0
1, -1，-2属
于2 求将1和
2区分开的w0 ，
w1。
45
4.3 判别函数值的鉴别意义、权空间及解空间 4.3.2 权空间、解矢量与解空间
(3) 解空间
53
第四章线性判别方法
4.1 用判别域界面方程分类的概念
有 4.2 线性判别函数监 4.3 判别函数值的鉴别意义、权空间及解空间督 4.4 Fisher线性判别分 4.5 一次准则函数及梯度下降法类 4.6 二次准则函数及其解法
4.7 广义线性判别函数
54
4.4 Fisher线性判别
这一工作是由R.A.Fisher在1936年的论文中所提出的，因此称为Fisher线性判别方法。
0123456789
x1
d23(x)为正
d32(x)为正 d12(x)为正 d21(x)为正
i j两分法例题图示
24
25
3、第三种情况（续）
d1(xr) d2(xr)
1
2
d1(xr ) d3(xr )
3
d2 (xr ) d3(xr )
多类问题图例（第三种情况）
26
27
上述三种方法小结:
8
4.2 线性判别函数
9
10
11
d3(xr) 0
不确定区域
r
xr xrxr xr xr
x2
?
d1(x) 0
1
2
3
x1 d2(xr ) 0

广义线性判别函数

4.6 广义线性判别函数前几节研究了线性判决函数的理论和分类方法，它们的优点是简单易行。

但是实际应用中却常常遇到非线性判决函数，如果能将非线性函数转化为线性判决函数，那么线性判决函数的理论和分类方法的应用将会更加广泛。

实际上，非线性判别函数是可以转变成线性函数的，也就是转成广义线性判决函数。

1.广义线性判别函数的概念如：有一个判决函数)(x g ，为非线性的，如下图所示：图中，a 、b 为两类的分界点。

可以用式子：))(()(b x a x x g --=描述。

并且，判决规则为：若：a x <或b x >, 0)(>x g ，则1w x ∈。

b x a <<，0)(<x g ，则2w x ∈。

下面对)(x g 进行非线性变换：令21x y =，x y =2，则)(x g 作为判决函数可写成：()g x =()()x a x b --()2x x a b ab =-++32211)(w y w y w y g ++=其中：ab w b a w w =+-==321),(,1因此，通过非线性变换，非线性判决函数)(x g 转变成了线性判决函数)(y g 。

同时，特征空间也由一维的x 空间，映射成二维的y 空间。

也就是，在执行非线性变换的过程中，特征空间维数的增长往往不可避免。

在y 的特征空间里，区分直线为：0)(21=++-ab y b a y ，如下图：区分直线把y 空间线性地划分为两个类型区域1w 和2w ，判决规则为：若0)(>y g ，则1w y ∈，也就是1w x ∈0)(<y g ，则2w y ∈，也就是2w x ∈对样本x 的测量值：① 先进行非线性变换，x y x y ==221, ② 计算)(x g 之值，ab y b a y x g ++-=21)()( ③ 判决类别下面讨论非线性判决函数的一般形式：把非线性判决函数写成一般形式，就是：12211)(....)()()(+++++=d d d w x f w x f w x f w x g其中，)(x f i （d i ,...,2,1=）是x 的单值实函数，且存在非线性关系，x 是k 维的。

线性判别函数

一、线性判别函数
g(X)＝0 就是相应的决策面方程，在线性判别函数条件下它对应d维空间的一个超平面：
1x1 2 x2 … d xd 0 0
一、线性判别函数
3、多类问题判别
情况一
例：有一三类问题，分别建立了三个判决函数，判别规则如下：
若样本x=（6，2）T，试判断该样本的类别。
1
M 2 N2 X2 X
Sw S1 S2 (X M1)(X M1)T (X M2 )(X M2 )T
X 1
X 2
2
阈值点其中：
二、Fisher 线性判别函数
例题：
二、Fisher 线性判别函数
二、Fisher 线性判别函数
二、Fisher 线性判别函数
若d（ij X）>0,j i, i, j 1, 2,..., M ,则决策X i
情况2
例，设一个三类问题，建立了如下判决函数
情况2 特例
例，设一个三类问题，按最大值判决规则建立了三个判决函数：
二、广义线性判别函数欲设计这样一个一维样本的分类器，使其性能为：
令
➢ 通过非线性变换，非线性判决函数变成了线性判决函数；
线性判别函数
3.1 线性判别函数的基本概念
贝叶斯决策理论设计分类器的步骤图
❖ 判别函数包含两类：
➢线性判别函数： ➢非线性判别函数，即广义线性判决函数
线性判别函数是统计模式识别方法中的一个重要的基
本方法。它是由训练样本集提供的信息直接确定决策域的
划分。
在训练过程中使用的样本集，该样本集中的每个样本的类别已知。
个d维样本。Fisher准则就是找到一条直线，使得模式样本
在这条直线上的投影最有利于分类。设 W 为这条直线正

模式识别课件第四章线性判别函数

线性判别函数在语音识别中用于将语音信号转换为文本或命令。
详细描述
语音识别系统使用线性判别函数来分析语音信号的特征，并将其映射到相应的文本或命令。通过训练，线性判别函数能够学习将语音特征与对应的文本或命令关联起来，从而实现语音识别。
自然语言处理
总结词
线性判别函数在自然语言处理中用于文本分类和情感分析。
偏置项。
线性判别函数具有线性性质，即输出与输入特征向量之间是线性关系，可以通过权
重矩阵和偏置项来调整。
线性判别函数对于解决分类问题具有高效性和简洁性，尤其在特征之间线性可分的情况下。
线性判别函数与分类问题
线性判别函数广泛应用于分类问题，如二分类、多分类等。
在分类问题中，线性判别函数将输入特征向量映射到类别标签上，通过设置阈值或使用优化算法来确定分类边界。
THANKS
感谢观看
深度学习在模式识别中的应用
卷积神经网络
01
卷积神经网络特别适合处理图像数据，通过卷积层和池化层自
动提取图像中的特征。循环神网络02循环神经网络适合处理序列数据，如文本和语音，通过捕捉序
列中的时间依赖性关系来提高分类性能。
自编码器
03
自编码器是一种无监督的神经网络，通过学习数据的有效编码
来提高分类性能。
详细描述
自然语言处理任务中，线性判别函数被用于训练分类器，以将文本分类到不同的主题或情感类别中。通过训练，线性判别函数能够学习将文本特征映射到相应的类别上，从而实现对文本的分类和情感分析。
生物特征识别
总结词
线性判别函数在生物特征识别中用于身份验证和安全应用。
详细描述
生物特征识别技术利用个体的生物特征进行身份验证。线性判别函数在生物特征识别中用于分析和比较个体的生物特征数据，以确定个体的身份。这种技术广泛应用于安全和隐私保护领域，如指纹识别、虹膜识别和人脸识别等。

判别函数线性判别函数线性判别函数的

1
这种情况下判别函数:
X ( x1 , x2 )T , n 2
g( x ) w1x1 w2 x2 w3
w为参数， x1 , x2为坐标向量
1. 二维情况
在两类别情况，判别函数 g (x) 具有以下性质：
0, X 1 g i ( x) 0, X 2

模式识别问题就是根据模式X的n个特征来判别模式属于ω1 ,ω2 , … , ωm 类中的那一类。
§2.1 判别函数（续）例如下图：三类的分类问题，它们的边界线就是一
个判别函数
x2
2
1
x1
边界
3
§2.1 判别函数（续）判别函数包含两类：
一类是线性判别函数：
线性判别函数

x2

1

g1 ( x) 0
2
g3 ( x) 0
3

x1 g ( x) 0
2
1。第一种情况（续）
例：已知三类ω1,ω2,ω3的判别函数分别为： g1 ( x ) x1 x2 g 2 ( x ) x1 x2 5 g ( x) x 1 2 3 因此三个判别边界为： g1 ( x ) x1 x2 0 g 2 ( x ) x1 x2 5 0 g ( x) x 1 0 2 3
3
g ( x) 0
x1
IR 3
g1 ( x ) 0 g 2 ( x) 0 g ( x) 0 3
5

g2 ( x) 0
1。第一种情况（续）

对于任一模式X如果它的 g1(x) >0 ， g2(x) <0 ， g3(x) <0 则该模式属于ω1类。相应ω1类的区域由直线-x2+1=0 的正边、直线-x1+x2-5=0 和直线-x1+x2=0的负边来确定。

第5章：线性判别函数

第5章：线性判别函数第一部分：计算与证明1．有四个来自于两个类别的二维空间中的样本，其中第一类的两个样本为(1,4)T 和(2,3)T ，第二类的两个样本为(4,1)T 和(3,2)T 。

这里，上标T 表示向量转置。

假设初始的权向量a=(0,1)T ，且梯度更新步长ηk 固定为1。

试利用批处理感知器算法求解线性判别函数g(y)=a T y 的权向量。

解：首先对样本进行规范化处理。

将第二类样本更改为(4,1)T 和(3,2)T . 然后计算错分样本集：g(y 1) = (0,1)(1,4)T = 4 > 0 (正确) g(y 2) = (0,1)(2,3)T = 3 > 0 (正确) g(y 3) = (0,1)(-4,-1)T = -1 < 0 (错分) g(y 4) = (0,1)(-3,-2)T = -2 < 0 (错分) 所以错分样本集为Y={(-4,-1)T , (-3,-2)T }.接着，对错分样本集求和：(-4,-1)T +(-3,-2)T = (-7,-3)T第一次修正权向量a ，以完成一次梯度下降更新：a=(0,1)T + (-7,-3)T =(-7,-2)T 再次计算错分样本集：g(y 1) = (-7,-2)(1,4)T = -15 < 0 (错分) g(y 2) = (-7,-2)(2,3)T = -20 < 0 (错分) g(y 3) = (-7,-2)(-4,-1)T = 30 > 0 (正确) g(y 4) = (-7,-2)(-3,-2)T = 25 > 0 (正确) 所以错分样本集为Y={(1,4)T , (2,3)T }.接着，对错分样本集求和：(1,4)T +(2,3)T = (3,7)T第二次修正权向量a ，以完成二次梯度下降更新：a=(-7,-2)T + (3,7)T =(-4,5)T 再次计算错分样本集：g(y 1) = (-4,5)(1,4)T = 16 > 0 (正确) g(y 2) = (-4,5)(2,3)T = 7 > 0 (正确) g(y 3) = (-4,5)(-4,-1)T = 11 > 0 (正确) g(y 4) = (-4,5)(-3,-2)T = 2 > 0 (正确)此时，全部样本均被正确分类，算法结束，所得权向量a=(-4,5)T 。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Kesler构造法（扩展的感知器算法）
1. 2.
初始化c个权向量ai(1)，k1；输入增广特征矢量yk，计算c个判别函数的输出：
di yk aT i k yk
3.
4.
修改权矢量：若yk属于ω i类，而存在di(yk)<dj(yk)，则： ai(k+1) = ai(k) + yk； aj(k+1) = aj(k) - yk al(k+1) = al(k)，l≠j, i 重复上述过程，直到全部样本被正确分类为止。
满足第2个条件的yi称为支持矢量。
SVM解的讨论

根据找到的支持矢量yi以及相应的Lagrange 乘子α i，计算权矢量w：
w zi i y i
i 1 n

偏置w0可以用支持矢量满足的条件求得：
zi w t y i w0 1
5.6 多类别线性判别函数的学习

方法一：根据5.1节介绍的前两种情况，分别转换为c个两类问题，或c(c-1)/2个两类问题分别处理；方法二：对于情况三，可以采用Kesler构造法训练；方法三：设计感知器网络进行识别。

这是一个典型的不等式约束条件下的二次优化问题，其解法的基础是Kuhn-Tucker定理；首先求解的是n个Lagrange乘子，n为训练样本数。但根据Kuhn-Tucker定理，有：

zi w t y i w0 1,
i 0
zi w y i w0 1,
t
i 0
gi x ait x wi1x1 wi 2 x2 wid xd wi 0

判别准则：
1 j M
gi x max g j x , x i
5.2 线性判别函数的学习

问题的提出：假设有一个包含n个样本的集合 y1, y2, …, yn, 一些标记为ω 1,另一些标记为 ω2，用这些样本来确定一个判别函数 g(x)=atx的权矢量a。在线性可分的情况下，希望得到的判别函数能够将所有的训练样本正确分类；线性不可分的情况下，判别函数产生错误的概率最小。

能够将样本线性分开的分类界面满足：
zi w t y i w0 1
亦即可以通过调整权值w和w0将样本集合的最小函数间隔调整为1。
SVM的准则函数

样本集到分类界面的几何间隔：
1 w

最大，亦即||w||最小，所以SVM可以变为如下的优
化问题：在满足
zi w y i w0 1
两类问题的感知器网络
x0=1 a0 a1 x2
. . .
x1
a2
y
ad
xd
多类问题的感知器网络
x0=1 y1
x1 y2 x2
. . . . . .
yc
xd
两层感知器网络的训练样本

给定样本集合(y1,t1), (y2,t2), …, (yn,tn)，其中yi 为增广特征矢量，ti称为期望输出； c个输出层神经元时，可设定期望输出为：
gi x a x
t i
多类问题（情况一）分类界面
多类问题（情况一）判别规则

若存在i，使得gi(x)>0， gj(x)<0，j≠i，则判别x属于ω i类；其它情况，拒识。

多类问题（情况二）

每两个类别之间可以用一个超平面分开； c个类别的问题需要c(c-1)/2个线性分类界面；第i类与第j类之间的判别函数为：
4.
5.
6.
until k y yY return a end
k
感知器算法(单样本调整版本)
1. 2. 3.
4.
5.
6.
begin initialize a 0 , k0 do k(k+1)mod n if yk is misclassified by a then a k 1 a k y k until all patterns properly classified return a end
a k 1 a k k bi at y i y i
i 1 n
6.
7.
until return a end
k bi at y i y i
i 1
n
LMSE算法的特点

算法的收敛依靠η(k)的衰减，一般取 η(k)=η(1)/k；算法对于线性不可分的训练样本也能够收敛于一个均方误差最小解；取b=1时，当样本数趋于无穷多时，算法的解以最小均方误差逼近贝叶斯判别函数；当训练样本线性可分的情况下，算法未必收敛于一个分类超平面。

可以采用最小均方误差算法，权值调整公式为：
t 1
Y Y Y Yt
t 1
称为伪逆矩阵
例5.2

有两类模式的训练样本： ω1：{ (0,0), (0,1) } ω2：{ (1,0), (1,1) } 用LMSE算法求取判别函数，将两类样本分开。
权值矢量的求解(迭代求解法)
1. 2. 3. 4. 5.
begin initialize a(0), b, θ, η(•), k0； do kk+1；
第五章线性判别函数
5.1 线性判别函数和判别界面
线性不可分情况
线性判别函数
g x w x w0
t

x=(x1, x2,…, xd)t: 特征矢量； w=(w1, w2, …, wd)t: 权矢量； w0：偏置(bias)。
线性判别函数的增广形式
g x a x
J P a at y
yY
J P
yY
y
感知器算法(批量调整版本)
1. 2. 3.
begin initialize a 0 , ,θ, k0 do kk+1 a k 1 a k k y
yY k
5.5 支持矢量机(SVM, Support Vector Machine)

函数间隔：样本xi到分类界面g(x)=0的函数间隔 bi 定义为：
bi g xi w xi w0
t
xi γi

几何间隔：
bi i w
g(x)=wTx+w0=0
最优分类界面

样本集与分类界面之间的间隔定义为样本与分类界面之间几何间隔的最小值。最优分类界面：给定线性可分样本集，能够将样本分开的最大间隔超平面。

支持矢量

距离最优分类界面最近的这些训练样本称为支持矢量；最优分类界面完全由支持矢量决定，然而支持矢量的寻找比较困难。

SVM的准则函数

给定两类问题的线性可分样本集合{(y1,z1), …, (yn,zn)}，其中z为样本的类别标号：
1, y i 1 zi 1, y i 2
第1类样本：( 1,-1,-1,-1) 第2类样本：(-1, 1,-1,-1) 第3类样本：(-1,-1, 1,-1) 第4类样本：(-1,-1,-1, 1)

编码输出时：
第1类样本：(-1,-1) 第3类样本：( 1,-1) 第2类样本：(-1, 1) 第4类样本：( 1, 1)
两层感知器网络的训练方法
Ya = b,
b0
最小平方误差的准则函数

定义误差矢量e，用e长度的平方作为准则函数：
e Ya b
J S a Ya b
2
权值矢量的求解(伪逆求解法)
J S a 2Yt Ya b 0
Yt Ya Yt b
a Y Y Y t b Y b
t

x=(1, x1, x2,…, xd)t: 增广的特征矢量； a=(w0, w1, w2, …, wd)t: 增广的权矢量；
两类问题线性判别准则
0, x 1 t g x w x w0 0, x 2 0, 拒识
线性分类器的分类界面
分类界面的几何解释
5.4 最小平方误差算法(LMSE)

LMSE方法的基本思想是将求解线性不等式组的问题转化为求解线性方程组： y10 y11 y1d a0 b1 y y20 y2 d a1 b2 20 y a b y y n2 nd d n0 n
a k 1 a k k J a k
其中η (k)称为学习率，或称步长。
5.3 感知器算法(Perceptron)

最直观的准则函数定义是最少错分样本数准则： JN(a) = 样本集合中被错误分类的样本数；
感知器准则

以错分样本到判别界面距离之和作为准则：
解区域的几何解释(权空间中）

权空间中，atyi=0是一个通过原点的超平面， yi是法向量，而a是空间中一个点。
一般求解方法—梯度下降法

求解不等式组采用的最优化的方法：
1. 2.
定义一个准则函数J(a)，当a是解向量时，J(a)为最小；采用最优化方法求解标量函数J(a)的极小值。

最优化方法采用最多的是梯度下降法，设定初始权值矢量a(1)，然后沿梯度的负方向迭代计算：

训练样本的规范化

非规范化：
at y i 0, y i 1 t a y i 0, y i 2

规范化：