南邮模式识别复习提纲(整理)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

绪论

列举三个模式识别的应用：人脸识别，语音识别，基因识别

列举模式识别比较强的研究单位：拥有国家重点学科的五所大学：清华、上交、南理工、西交、北航。

中科院。模式识别国家重点实验室---中科院北京自动化研究所---汉王识别系统。机器人学国家重点实验室---中科院沈阳自动化所---机器人视觉（A TR导弹自动目标识别）。

南邮---江苏省图像处理与图像通信重点实验室。

何为模式识别：Pattern recognition is the study of how machines can observe the environment, learn to distinguish patterns of interest from their background, and make sound and reasonable decisions about the categories of the patterns. 模式识别是机器如何可以观察到环境的研究，了解其背景，以区别于利益格局，使有关的模式类别的健全和合理的决定。

模式识别系统的基本组成：

模板匹配法：1首先对每个类别建立一个或多个模版2输入样本和数据库中每个类别的模版进行比较，求相关或距离3根据相关性或距离大小进行决策

句法模式识别（给图画树）：在学习过程中，确定基元与基元的关系，推断出生成景物的方法。判决过程中，首先提取基元，识别基元之间的连接关系，使用推断的文法规则做句法分析。若分析成立，则判断输入的景物属于相应的类型。

监督学习与非监督学习的主要区别：训练样本的类别是否已知。

语音识别的基本单位：音素

模式识别过程：

1三个空间：模式空间特征空间类型空间

2 三个操作：模式采集、特征提取/选择、以及分类决策

第二章贝叶斯决策理论

贝叶斯公式：

最小错误率贝叶斯决策

模式采集模式空

间特征提取特征空间分类决策类型空

间

三种空间不同阶段的三种操作物理上可以察觉到世界∑===n 1j j j i i i i )(P )B |A (P )(P )|A (P P(A))A (P )A |(P B B B B

最小风险贝叶斯决策

细胞化验ω1 正常，ω2异常；

P(ω1)=0.85 P(ω2)=0.15；

p(x|ω1)=0.15 和p(x|ω2)=0.45;

判决两种α1, α2 。风险矩阵：

试用最小风险判决规则，判断

x 属于那一种类型。

Np 判决规则的基本思想：在一种错误率不变的条件下，使另一种错误率最小。由于存在先验概率未知，增加一种已知条件，由此给出判决规则

限定一类错误率，使另一类错误率最小举例：经济过热，细胞化验

NP 适用条件：先验概率未知（不可变），仅知道类概率密度。

判别函数和决策面方程的区别——判别函数：每个类有一个判别函数。决策面方程：相邻两个类别判别函数相等构成的方程。

最大值判决：gi （x ）>gj(x) j=1,2……则x 属于wi

最小距离判决：条件：先验概率相等

根据最小风险判决规则，x ∈ω2，即试验

人属于癌症病人，与例1 的结论相反。

类型空间与决策空间

统一

协方差矩阵……在描述特征中的两点性质1对角线上的元素代表单个元素的离散性。2非对角线上的元素代表不同特征相关性，若都为0则各特征都独立。

协方差矩阵：

类等概率曲线形状：同心圆why：不同轴相互垂直且相等——对角阵。

决策线与两类的均值点（圆心）连线的位置关系：垂直

先验概率对交点的影响？

交点向先验概率较小的那个类型的均值点偏移。

第三章概率密度函数的估计

什么是参数估计，非参数估计？

参数估计：先假定研究的问题（类概率密度）具有某种数学模型，如正态分布，二项分布，再用已知类别的训练样本估计里面的参数

非参数估计：不假定数学模型，直接用已知类别的训练样本的先验知识直接估计数学模型（类概率密度）。

区别：类概率密度是否已知。

分类器设计与判决过程

似然函数：训练样本集和未知参数的函数。

最大似然估计：将未知参数看做一确定值，所选取的估计参数能使得训练样本集能发生的概率最大，这一估计值成为最大似然估计。

贝叶斯函数估计的基本思想：把待估的参数作为具有某种先验分布的随机变量;通过对第i 类学习样本X i的观察借助ρ(X i|θ)使得ρ(θ)转化为后验概率ρ(θ|X i) ;最后求贝叶斯估计。

步骤：①已知θ的先验分布p(θ), 待估参数为随机变量。②用第i类训练样本的似然函数p (X i|θ)，它是θ的函数。由样本独立p (X i|θ)=∏p(x i|θ)③利用贝叶斯公式,求θ的后验概率密度④求贝叶斯估计

相比参数估计，非参数估计的优缺：优——无须已知类概率密度函数形式缺：需要大量的训练样本。

直方图法的三个步骤：1把样本x的每个分量在其取值范围内分成k个等间隔的小窗。如果x是d维向量，则这种分割就会得到kd方个小体积或者称作小舱，每个小舱的体积记作V。2统计落入每个小舱内的样本数目qi。3把每个小舱内的概率密度看作是常数，并用qi/(NV)作为其估计值，其中N为样本总数。

小舱体积的选择的影响：如果小舱选择过大，则假设p(x)在小舱内为常数的做法就显得粗糙，导致最终估计出的密度函数也非常粗糙。如果小舱过小，则有些小舱内可能就会没有样本或很少样本，导致估计出的概率密度很不连续。小舱的选择应与样本总数相适应。

小舱体积固定的缺点：可能导致密度的估计在样本密度不同的地方表现不一致。

1随着样本数的增加，小舱体积应该尽可能小2必须保证小舱内有充分多的样本3每个小舱内的样本数又必须是总样本数中很小的一部分

kN近邻估计法（可变大小的小舱）基本做法：根据样本总数确定一个参数kN，即在总样本数为N时我们要求每个小舱内拥有的样本个数。在求x处的密度估计p(x)时，我们调整包含x的小舱的体积，直到小舱内恰好落入kN个样本

kN近邻估计法中的窗口选择与样本密度的关系：样本密度越大，小舱体积越小。