模式识别 第三章 Statistic Discriminant

合集下载

模式识别(3-1)

模式识别(3-1)

§3.2 最大似然估计
最大似然估计量: -使似然函数达到最大值的参数向量。 -最符合已有的观测样本集的那一个参数向量。 ∵学习样本从总体样本集中独立抽取的
N ) p( X | ) p( X k | i ) k 1 N个学习样本出现概率的乘积
i
i

p( X | i . i
i
§3.2 Bayes学习
假定: ①待估参数θ是随机的未知量 ②按类别把样本分成M类X1,X2,X3,… XM 其中第i类的样本共N个 Xi = {X1,X2,… XN} 并且是从总体中独立抽取的 ③ 类条件概率密度具有某种确定的函数形式,但其 参数向量未知。 ④ Xi 中的样本不包含待估计参数θj(i≠j)的信息,不 同类别的参数在函数上是独立的,所以可以对每一 类样本独立进行处理。


有时上式是多解的, 上图有5个解,只有一个解最大即 (对所有的可能解进行检查或计算二阶导数)
§3.2 最大似然估计
例:假设随机变量x服从均匀分布,但参数1, 2未知, 1 1 x 2 p ( x | ) 2 1 , 0 其他 求1, 2的最大似然估计量。 解:设从总体中独立抽取N个样本x1 , x2 , , xN , 则其似然函数为: 1 p ( x1 , x2 , , xN | 1, 2 ) ( 2 1 ) N l ( ) p ( X | ) 0




§3.2 Bayes学习
p ~ N 0 , 0

2

其中 0和 0 是已知的
2
已知的信息还包括一组抽取出来的样本X i x1 , x2 ,, xN ,从而 可以得到关于 的后验概率密度:

模式识别第2,3章 聚类分析

模式识别第2,3章 聚类分析

第二章 聚类分析2.1 聚类分析的相关概念定义 对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类,这种分类称为聚类分析,也称为无监督分类。

模式相似/分类的依据把整个模式样本集的特征向量看成是分布在特征空间中的一些点,点与点之间的距离即可作为模式相似性的测量依据。

聚类分析是按不同对象之间的差异,根据距离函数的规律(大小)进行模式分类的。

聚类分析的有效性聚类分析方法是否有效,与模式特征向量的分布形式有很大关系。

若向量点的分布是一群一群的,同一群样本密集(距离很近),不同群样本距离很远,则很容易聚类;若样本集的向量分布聚成一团,不同群的样本混在一起,则很难分类;对具体对象做聚类分析的关键是选取合适的特征。

特征选取得好,向量分布容易区分,选取得不好,向量分布很难分开。

两类模式分类的实例:一摊黑白围棋子 选颜色作为特征进行分类,用“1”代表白,“0”代表黑,则很容易分类;选大小作为特征进行分类,则白子和黑子的特征相同,不能分类(把白子和黑子分开)。

特征选择的维数在特征选择中往往会选择一些多余的特征,它增加了维数,从而增加了聚类分析的复杂度,但对模式分类却没有提供多少有用的信息。

在这种情况下,需要去掉相关程度过高的特征(进行降维处理)。

降维方法设有N 个样本,它们的特征维数是n ,则有n*n 维的相关矩阵R = [ r ij ]nxn 其中,r ij 是第i 维与第j 维特征之间的相关系数:jjii ij ij r σσλ= 这里:σii 和σjj 分别是第i 个和第j 个分量的标准差,λij 是第i 个和第j 个分量的协方差。

分析:(1)根据相关系数的性质:1r 0ij ≤≤(利用柯西不等式证明)(2)r ij =0:表示两个分量完全不相关(3)r ij =1:表示两个分量完全相关结论:若rij->1,则表明第i 维特征与第j 维特征所反映的特征规律接近,因此可以略去其中的一个特征,或将它们合并为一个特征,从而使维数降低一维。

模式识别--第三讲贝叶斯分类器(PDF)

模式识别--第三讲贝叶斯分类器(PDF)

第三讲贝叶斯分类器线性分类器可以实现线性可分的类别之间的分类决策,其形式简单,分类决策快速。

但在许多模式识别的实际问题中,两个类的样本之间并没有明确的分类决策边界,线性分类器(包括广义线性分类器)无法完成分类任务,此时需要采用其它有效的分类方法。

贝叶斯分类器就是另一种非常常见和实用的统计模式识别方法。

一、 贝叶斯分类1、逆概率推理Inverse Probabilistic Reasoning推理是从已知的条件(Conditions),得出某个结论(Conclusions)的过程。

推理可分为确定性(Certainty)推理和概率推理。

所谓确定性推理是指类似如下的推理过程:如条件B存在,就一定会有结果A。

现在已知条件B存在,可以得出结论是结果A一定也存在。

“如果考试作弊,该科成绩就一定是0分。

”这就是一条确定性推理。

而概率推理(Probabilistic Reasoning)是不确定性推理,它的推理形式可以表示为:如条件B存在,则结果A发生的概率为P(A|B)。

P(A|B)也称为结果A 发生的条件概率(Conditional Probability)。

“如果考前未复习,该科成绩有50%的可能性不及格。

”这就是一条概率推理。

需要说明的是:真正的确定性推理在真实世界中并不存在。

即使条件概率P(A|B)为1,条件B存在,也不意味着结果A就确定一定会发生。

通常情况下,条件概率从大量实践中得来,它是一种经验数据的总结,但对于我们判别事物和预测未来没有太大的直接作用。

我们更关注的是如果我们发现了某个结果(或者某种现象),那么造成这种结果的原因有多大可能存在?这就是逆概率推理的含义。

即:如条件B存在,则结果A存在的概率为P(A|B)。

现在发现结果A出现了,求结果B存在的概率P(B|A)是多少?例如:如果已知地震前出现“地震云”的概率,现在发现了地震云,那么会发生地震的概率是多少?再如:如果已知脑瘤病人出现头痛的概率,有一位患者头痛,他得脑瘤的概率是多少?解决这种逆概率推理问题的理论就是以贝叶斯公式为基础的贝叶斯理论。

模式识别第三章

模式识别第三章

3 回归的线性模型至此,本书都聚焦在无监督学习,包括的议题有密度估计和数据聚类。

我们现在转向监督学习,并从回归开始。

回归的目的是:对给定的输入变量的D 维向量x 值,预测一个或更多连续目标变量t 值。

我们在第一章考虑多项式曲线拟合时,已经遇到过一个回归问题的例子。

多项式是线性回归模型的一大类函数中一个具体的例子,它也有含可调参数的线性函数的性质,并将组成本章的焦点。

最简单的线性回归模型也是输入变量的线性函数。

但是,通过取输入变量的一组给定的非线性函数的线性组合,我们可以获得更有用的函数类,称为基函数。

这样的模型是参数的线性函数,它们有简单的解析性,并且关于输入变量仍是非线性的。

给定一个训练数据集合,它有N 个观察值{}n x ,其中n=1,…,N ,以及对应的目标值{}n t ,目的是给定一个新的x 预测t 的值。

最简单方法是直接构造一个适当的函数()y x ,对一个新输入x ,它的值组成对应的t 的预测值。

更一般地,从概率角度考虑,我们想建立一个预测分布()p t x ,因为它表示了对x 的每一个值,t 值的不确定性。

由这个条件分布,我们可以为任意的新x 值预测t ,这相当于最小化一个适当选择的损失函数的期望。

如在第1.5.5所讨论的,通常选择损失函数的平方作为实值变量的损失函数,因为它的最优解由t 的条件期望给出。

对模式识别来说,虽然线性模型作为实用的技术有显著的限制,特别是涉及到高维输入空间的问题,但是它们具有好的解析性质,并且是以后章节要讨论的更复杂模型的基础。

3.1 线性基函数模型最简单的线性回归模型是输入变量的线性组合:011(,)D D y w w x w x =+++x w L (3.1) 其中1(,,)T D x x =x L ,这就是通常简称的线性回归。

此模型的关键特征是:它是参数0,,D w w L 的一个线性函数。

但同时它也是输入变量i x 的一个线性函数,这对模型产生了很大的限制。

模式识别讲义_(80pp)

模式识别讲义_(80pp)

第一章 绪论1.1模式和模式识别模式识别是一门很受人们重视的学科。

早在30年代就有人试图以当时的技术解决一些识别问题,在近代,随着计算机科学技术的发展和应用,模式识别才真正发展起来。

从60年代至今,在模式识别领域中已取得了不少成果。

它的迅速发展和广泛应用前景引起各方面的关注。

模式识别属于人工智能范畴,人工智能就是用机器去完成过去只有人类才能做的智能活动。

在这里,“智能”指的是人类在认识和改造自然的过程中表现出来的智力活动的能力。

例如:通过视觉、听觉、触觉等感官接受图象、文字、声音等各种自然信息去认识外界环境的能力;将感性知识加工成理性知识的能力,即经过分析、推理、判断等思维过程而形成概念、建立方法和作出决策的能力;经过教育、训练、学习不断提高认识与改造客观环境的能力‘对外界环境的变化和干扰作出适应性反应的能力等。

模式识别就是要用机器去完成人类智能中通过视觉、听觉、触觉等感官去识别外界环境的自然信息的那些工作。

虽然模式识别与人工智能关系很密切,但是发展到现在,它已经形成了独立的学科,有其自身的理论和方法。

在许多领域中,模式识别已有不少比较成功的实际应用。

模式的概念:模式这个概念的内涵是很丰富的。

“我们把凡是人类能用其感官直接或间接接受的外界信息都称为模式”。

比如:文字、图片、景物;声音、语言;心电图、脑电图、地震波等;社会经济现象、某个系统的状态等,都是模式。

模式识别:模式识别是一门研究对象描述和分类方法的科学。

如,我们要听某一门课,必须做以下识别:1)看课表—文字识别;2)找教室和座位—景物识别;3)听课—声音识别。

再比如,医生给病人看病:1)首先要了解病情;问2)再做一些必要的检验;查3)根据找到的能够诊断病情的主要特征,如体温、血压、血相等,做出分类决策,即诊断。

对于比较简单的问题,可以认为识别就是分类。

如,对于识别从“0”到“9”这十个阿拉伯数字的问题。

对于比较复杂的识别问题,就往往不能用简单的分类来解决,还需要对待识别模式的描述。

模式识别Chapter 3归纳.ppt

模式识别Chapter 3归纳.ppt

最新.课件
11
Discriminant functions
yk (x)
1 2
(x
k
)
t
k
1
(
x
k )
d 2
ln
2
1 2
ln
| k
| ln
p(ck )
Case 1 k 2I
yk
(x)
1
2
k t
x
kt k
ln
p(ck
)
yk (x) wkt x wk0
wk
1
2
k , wk 0
ktk
最新.课件
21
Introduction
we could design an optional classifier if we knew the priori probabilities and the class-conditional densities
Unfortunately, we rarely, if ever, have this kind of completely knowledge about the probabilistic structure
Feature space, feature point in space
Classification
-- Bayesian decision theory
-- Discriminant function
-- Decision region, Decision boundary
最新.课件
15
Example
Drawbacks -- the number of parameters grows with the size of the data -- slow

模式识别第三章

模式识别第三章

第三章概率密度函数的估计1.概率密度函数的估计方法及分类概率密度函数估计方法分为两大类:参数估计和非参数估计。

参数估计中,一直概率密度函数的形式,但其中部分或全部参数未知,概率密度函数的估计就是用样本来估计这些参数。

主要方法又有两类:最大似然估计和贝叶斯估计。

非参数估计,就是概率密度函数的形式也未知,或者概率密度函数不符合目前研究的任何分布模型,因此不能仅仅估计几个参数,而是用样本把概率密度函数数值化地估计出来。

主要方法有:直方图法、K N 近邻估计法、Parzen 窗口。

2.最大似然估计假定一个随机试验有若干个可能的结果。

如果在一次试验后出现了结果,那么,一般认为试验条件对“结果出现”有利,即这个试验中“出现”的概率(站在试验前的立场上考察)最大。

3.贝叶斯估计与最大似然估计区别在这两种估计中,都是假设样本概率密度函数形式已知,需要估计的是是概率密度函数中的参数。

虽然使用贝叶斯方法和最大似然估计的结果很相似,但这两个方法在本质上有很大的不同。

在最大似然估计方法中,我们把需要估计的参数向量看作是一个确定而未知的参数。

而在贝叶斯学习方法中,我们把参数向量看成是一个随机变量,已有的训练样本使我们把对于参数的初始密度估计转化为厚颜概率密度。

4.直方图方法a. 把样本x 的每个分量在其取值范围内分成k 个等间隔的小窗。

如果x 是d 维向量,则会得到k d 个小体积或者称作小舱,每个小舱的体积记作V ;b. 统计落入小舱内的样本数目q ic. 把每个小舱内的概率密度看作是常数,并用q i /(NV)作为其估计值,其中N 为样本总数。

在上述直方图估计中,采用的是把特征空间在样本范围内等分的做法。

小舱的体积选择应该与样本总数相适应。

避免小舱过宽或过窄,随样本数的增加,小舱体积应尽可能小,同时又必须保证小舱内有足够充分逗得样本,但每个小舱内的样本数有必须是总样本数中很小的一部分。

5.K N 近邻估计方法K N 近邻估计就是一种采用可变大小的小舱的密度估计方法,基本做法是:根据总样本确定一个参数K N ,即在总样本数为N 时要求每个小舱内拥有的样本个数。

统计模式识别

统计模式识别
分类器有多种设计方法,如贝叶斯分类器、树分类器、线性判别函数、近邻法分类、最小距离分类、聚类分 析等。
分类器
01
Fisher分 类器
02
线性鉴别函 数LDA
03
SVM
04
K-means
06
Adboosti ng
05
Boosting
Fisher分类器
Fisher线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合)将高维问题降低到一维 问题来解决,并且要求变换后的一维数据具有如下性质:同类样本尽可能聚集在一起,不同类的样本尽可能地远。
指纹识别是最成熟的一项生物信息识别技术。目前,各种类型的指纹识别系统已在公安、海关、公司门禁、 PC机设锁等多种场合得到应用,成为展现图像识别技术实用价值的标志。指纹识别系统既有应用于公司、家庭或 个人计算机的嵌入式系统一指纹锁,也有用于刑侦、护照通关、络身份认证等领域的大型系统。嵌入式系统存储 的指纹(特征)数较少(一般在100枚以内),可用简单的算法实现高精度识别,所要解决的主要问题是如何用简单、 小巧、廉价的设备实现指纹的正确采集和识别。大型系统往往需要储存上百万的指纹,因此如何提高指纹的比对 速度便成为关键。为了能够进行快速处理,需要对指纹进行很好的组织和采用高速算法。
K-means
K-means分类器K-Means算法是以距离作为相似度的评价指标,用样本点到类别中心的误差平方和作为聚类 好坏的评价指标,通过迭代的方法使总体分类的误差平方和函数达到最小的聚类方法。
(1)从 n个数据对象任意选择 k个对象作为初始聚类中心; (2)循环(3)到(4)直到每个聚类不再发生变化为止 (3)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新 对相应对象进行划分; (4)重新计算每个(有变化)聚类的均值(中心对象)
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
该式称为贝叶斯判别。关于这个判别表达式的直观意 义解释是:总是划分到它出现概率最多的某个类中,从而 使分类错误概率最小。
总结最小错误贝叶斯判别规则
(1) 如 果 P ( i | x ) max P ( j | x ), 则 x i
j 1, 2
( 2 ) 如 果 p ( x | i ) P ( i ) max p ( x | j ) P ( j ), 则 x i
R R x x p x d x , ( 平 均 风 险 )
条件风险只反映对某x取值的决策行动αi所带来的风险。期 望风险则反映在整个特征空间不同的x取值的决策行动所带来 的平均风险。
最小风险Bayes决策规则:
若 R k x min R i x , 则 x k
值x,先从类条件概率密度分布曲线上查到:
p(x/ ω 1)=0.2, p(x/ ω 2)=0.4
解:该细胞属于正常细胞还是异常细胞,先计算后验概率:
P (1 x )
p ( x 1 ) P (1 )
p( x
j 1
2

j
) P ( j )
0 .2 0 .9 0.818 0 .2 0 .9 0 .4 0 .1
P ( 2 x ) 1 P (1 x ) 0.182,因为 P (1 x ) P ( 2 x ), x 1属正常细胞。 因为 P (1 ) P ( 2 ), 所以先验概率起很大作 用.
二类问题:若P (1 x) P ( 2 x), 则x 1 , 这时错误率为P ( 2 x). P ( 2 x), 当x 1 P (e x ) 这时错误率最小。 P (1 x), 当x 2 平均错误率:P (e) P (e, x)dx P (e x) p ( x)dx
j 1, 2
p ( x | 1 ) P ( 2 ) 1 (3) 如果 l12 ( x ) p( x | ) P ( ) ,则 x 2 2 1 ( 4 ) 如果 h12 ( x ) ln l12 ( x ) ln p ( x | 1 ) ln p ( x | 2 )

随机特征向量的概念 在获取模式的观测值时,有些事物具有确定的 因果关系,即在一定的条件下,它必然会发生 或必然不发生。
– 例如识别一块模板是不是直角三角形,只要凭“三
条直线边闭合连线和一个直角”这个特征,测量它 是否有三条直线边的闭合连线并有一个直角,就完 全可以确定它是不是直角三角形。 – 这种现象是确定性的现象,前一章的模式判别就是 基于这种现象进行的。
整理前述公式有:
p ( x | 1 ) P ( 2 ) l12 ( x ) , 则 x 1 p ( x | 2 ) P (1 ) p ( x | 1 ) P ( 2 ) l12 ( x ) , 则x 2 p ( x | 2 ) P (1 )
2 1 1 2 1, 2 2 1 1 0
p ( x | 1 ) P ( 2 ) ( 12 22 ) p ( x | 2 ) P ( 1 ) ( 21 11 )

p ( x | 1 ) P ( 2 ) p ( x | 2 ) P (1 )

第一类判错:P 1 (e) P ( x R2 1 ) p ( x 1 )dx
R2
第二类判错:P2 (e) P ( x R1 2 ) p ( x 2 )dx
R1
总错误率:P (e) P (1 ) P 1 (e) P ( 2 ) P 2 (e) P (1 ) p ( x 1 )dx P (2 ) p ( x 2 )dx
由上例中计算出的后验概率:P (1 x ) 0.818, P ( 2 x ) 0.182 条件风险:R (1 x ) 1 j P ( j x ) 12 P ( 2 x ) 1.092
j 1 2
R ( 2 x ) 21P (1 x ) 0.818 因为R (1 x ) R ( 2 x ) x 异常细胞,因决策1类风险大。 因12=6较大,决策损失起决定 作用。 R ( 1 x ) 11 P ( 1 x ) 12 P ( 2 x ) 二类问题:把x归于ω1时风险: R ( 2 x ) 21 P ( 1 x ) 22 P ( 2 x ) 把x归于ω2时风险:
第三章 统计判别
3.1.贝叶斯判别原则 3.2.Bayes最小风险判别准则 3.3.聂曼-皮尔逊判别准则 3.4.正态分布模式的贝叶斯分类器 3.5.贝叶斯分类器的错误概率
3.1 作为统计判别问题的模式分类

随机特征向量的概念 模式识别的目的就是要确定某一个给 定的模式样本属于哪一类。可以通过对 被识别对象的多次观察和测量,构成特 征向量,并将其作为某一个判决规则的 输入,按此规则来对样本进行分类。

例子
– 设有一种诊断某种疾病的试验,其结果为“阳性”
和“阴性”两种反应。 – 若用这种试验来对一个病人进行诊断,提供的化验 结果以模式x代表,这里x为一维特征,且只有 x=“阳”和x=“阴”两种结果。

假设根据临床记录,发现这种方法有以下统计 结果


患有该疾病的人试验反应为阳性的概率=0.95,即p(x=阳| ω1)=0.95 患有该疾病的人试验反应为阴性的概率=0.05,即p(x=阴| ω1)=0.05 正常人试验反应为阳性的概率=0.01,即p(x=阳| ω2)=0.01 正常人试验反应为阴性的概率=0.99,即p(x=阴| ω2)=0.99
i 1 , 2 ,..., M
例:已知正常细胞先验概率为P (1 ) 0.9, 异常为P ( 2 ) 0.1, 从类条件概率密度分布曲线上查的P ( x 1 ) 0.2, P ( x 2 ) 0.4,
11 0, 12 6, 21 1, 22 0
3.1.0 贝叶斯判别原则

两类模式集的分类
– 目的:
要确定x(随机特征向量)是属于ω1类还是ω2类,要 看x是来自于ω1类的概率大还是来自ω2类的概率大。 剖析: x是来自于ω1类的概率大 把x划分到ω1类,正确的可能性大,错误的可能性小。

基本概念 (1)样本概率P(x) 模式空间的样本x是通过多次观察得到的, 样本点的出现具有随机性,那么也就有重 复性。P(x)表示样本X=x出现的概率。也就 是在全体样本中出现的概率

当考虑到对于某一类的错误判决要比对另一类的判 决更为关键时,就需要把最小错误概率的贝叶斯判 别做一些修正
假定要判断某人是正常(ω1)还是肺病患者(ω2),于是在判 断中可能出现以下情况:
第一类,判对(正常→正常) λ11 ;第二类,判错(正常→肺

病) λ21 ; 第三类,判对(肺病→肺病) λ22;第四类,判错(肺病→正 常) λ12 。

在判断时,除了能做出“是” ωi类或“不是” ωi类的动 作以外,还可以做出“拒识”的动作。为了更好地研究 最小风险分类器,我们先说明几个概念:
决策αi:表示把模式x判决为α i的一次动作。 损耗函数λii=λ(αi,ωi)表示模式X本来属于ωi类而错判为α i所受 损失。因为这是正确判决,故损失最小。 损耗函数λij=λ(αi,ωj)表示模式X本来属于ωj类错判为α i所受损 失。因为这是错误判决,故损失大。 条件风险(也叫条件期望损失):
R i x E i j i j P j x ,
M j 1


i 1,2,..., a.( a 可能不等于 M )
在整个特征空间中定义期望风险, 期望风险:风险R(期望损失):对未知x采取一个决策为α(x) 所付出的代价(损耗)
P (1 ) 1 ln ,则 x P ( 2 ) 2
1,2 很容易衍生多类形式
例子
– 对一大批人进行某种疾病普查,患癌者以ω1
类代表,正常人以ω2类代表。 – 设被试验的人中患有某种疾病的概率为0.005, 即P(ω1)=0.005,则P(ω2)=1-0.005=0.995 – 现任意抽取一人,要判断他是否患有某种疾 病。显然,因为P(ω2)> P(ω1),只能说是正常 的可能性大。如要进行判断,只能通过某一 种化验来实现。
i 1
我们通常称为似然函数,它可以通过已知的样本来求得。 带入3.1-1式子,则有
如果 p ( x | 1 ) P (1 ) p ( x | 2 ) P ( 2 ), 则 x 1 如果 p ( x | 1 ) P (1 ) p ( x | 2 ) P ( 2 ), 则 x 2



通常取 ij ii
p ( x | 1 ) P ( 2 ) ( 12 22 ) p ( x | 2 ) P ( 1 ) ( 21 11 )
则x划分到ω1
p ( x | 1 ) 似然比 l12 ( x ) p( x | 2 )
阈值
P ( 2 ) ( 12 22 ) 21 ( x ) P ( 1 ) ( 21 11 )
基本概念
(2) 先验概率、条件概率、后验概率
3.1.1最小错误贝叶斯判别准则
如果 P ( 1 | x ) P ( 2 | x ), 则 x 1 (3.1-1) 如果 P ( 1 | x ) P ( 2 | x ), 则 x 2 其中后验概率 P ( | x ) p ( x | i ) P ( i ) p ( x | i ) P ( i ) i 2 p( x) p ( x | i ) P ( i )
R2 R1
相关文档
最新文档