模式识别文献综述

模式识别文献综述
模式识别文献综述

模式识别文献综述

摘要

自20世纪60年代以来,模式识别的理论与方法研究及在工程中的实际应用取得了很大的进展。本文先简要回顾模式识别领域的发展历史和主要方法的演变,然后围绕模式分类这个模式识别的核心问题,就概率密度估计、特征选择和变换、分类器设计几个方面介绍近年来理论和方法研究的主要进展,最后简要分析将来的发展趋势。

1. 前言

模式识别(Pattern Recognition)是对感知信号(图像、视频、声音等)进行分析,对其中的物体对象或行为进行判别和解释的过程。模式识别能力普遍存在于人和动物的认知系统,是人和动物获取外部环境知识,并与环境进行交互的重要基础。我们现在所说的模式识别一般是指用机器实现模式识别过程,是人工智能领域的一个重要分支。早期的模式识别研究是与人工智能和机器学习密不可分的,如 Rosenblatt 的感知机[1]和 Nilsson的学习机[2]就与这三个领域密切相关。后来,由于人工智能更关心符号信息和知识的推理,而模式识别更关心感知信息的处理,二者逐渐分离形成了不同的研究领域。介于模式识别和人工智能之间的机器学习在 20 世纪 80 年代以前也偏重于符号学习,后来人工神经网络重新受到重视,统计学习逐渐成为主流,与模式识别中的学习问题渐趋重合,重新拉近了模式识别与人工智能的距离。模式识别与机器学习的方法也被广泛用于感知信号以外的数据分析问题(如文本分析、商业数据分析、基因表达数据分析等),形成了数据挖掘领域。模式分类是模式识别的主要任务和核心研究内容。分类器设计是在训练样本集合上进行优化(如使每一类样本的表达误差最小或使不同类别样本的分类误差最小)的过程,也就是一个机器学习过程。由于模式识别的对象是存在于感知信号中的物体和现象,它研究的内容还包括信号/图像/视频的处理、分割、形状和运动分析等,以及面向应用(如文字识别、语音识别、生物认证、医学图像分析、遥感图像分析等)的方法和系统研究。

本文简要回顾模式识别领域的发展历史和主要方法的演变,介绍模式识别理论方法研究的最新进展并分析未来的发展趋势。由于 Jain 等人的综述[3]已经全面介绍了 2000 年以前模式分类方面的进展,本文侧重于 2000 年以后的研究进展。

2. 历史回顾

现代模式识别是在 20 世纪 40 年代电子计算机发明以后逐渐发展起来的。在更早的时候,已有用光学和机械手段实现模式识别的例子,如在 1929 年 Gustav Tauschek 就在德国获得了光学字符识别的专利。作为统计模式识别基础的多元统计分析和鉴别分析[4]也在电子计算机出现之前提出来了。1957 年IBM 的 C.K. Chow 将统计决策方法用于字符识别[5]。然而,“模式识别”这个词被广泛使用并形成一个领域则是在 20 世纪 60 年代以后。1966 年由 IBM 组织在波多黎各召开了第一次以“模式识别”为题的学术会议[6]。Nagy 的综述[7]和 Kanal 的综述[8]分别介绍了 1968 年以前和1968-1974的研究进展。70年代几本很有影响的模式识别教材(如Fukunaga [9], Duda & Hart [10])的相继出版和 1972 年第一届国际模式识别大会(ICPR)的召开标志着模式识别领域的形成。同时,国际模式识别协会(IAPR)在 1974 年的第二届国际模式识别大会上开始筹建,在 1978年的第四届大会上正式成立。

统计模式识别的主要方法,包括 Bayes 决策、概率密度估计(参数方法和非参数方法)、特征提取(变换)和选择、聚类分析等,在 20 世纪 60 年代以前就已经成型。由于统计方

法不能表示和分析模式的结构,70年代以后结构和句法模式识别方法受到重视。尤其是付京荪(K.S. Fu)提出的句法结构模式识别理论在 70-80 年代受到广泛的关注。但是,句法模式识别中的基元提取和文法推断(学习)问题直到现在还没有很好地解决,因而没有太多的实际应用。

20 世纪 80 年代 Back-propagation (BP) 算法的重新发现和成功应用推动了人工神经网络研究和应用的热潮。神经网络方法与统计方法相比具有不依赖概率模型、参数自学习、泛化性能良好等优点,至今仍在模式识别中广泛应用。然而,神经网络的设计和实现依赖于经验,泛化性能不能确保最优。90 年代支持向量机(SVM)的提出吸引了模式识别界对统计学习理论和核方法(Kernel methods)的极大兴趣。与神经网络相比,支持向量机的优点是通过优化一个泛化误差界限自动确定一个最优的分类器结构,从而具有更好的泛化性能。而核函数的引入使很多传统的统计方法从线性空间推广到高维非线性空间,提高了表示和判别能力。

结合多个分类器的方法从 90 年代前期开始在模式识别界盛行,后来受到模式识别界和机器学习界的共同重视。多分类器结合可以克服单个分类器的性能不足,有效提高分类的泛化性能。这个方向的主要研究问题有两个:给定一组分类器的最佳融合和具有互补性的分类器组的设计。其中一种方法,Boosting,现已得到广泛应用,被认为是性能最好的分类方法。

进入 21 世纪,模式识别研究的趋势可以概括为以下四个特点。一是 Bayes 学习理论越来越多地用来解决具体的模式识别和模型选择问题,产生了优异的分类性能[11]。二是传统的问题,如概率密度估计、特征选择、聚类等不断受到新的关注,新的方法或改进/混合的方法不断提出。三是模式识别领域和机器学习领域的相互渗透越来越明显,如特征提取和选择、分类、聚类、半监督学习等问题成为二者共同关注的热点。四是由于理论、方法和性能的进步,模式识别系统开始大规模地用于现实生活,如车牌识别、手写字符识别、生物特征识别等。

模式识别方法的细节可以参考一些优秀的教材,比如 Bishop (2006) [11], Fukunaga (1990)[12], Duda, Hart & Stork (2001)[13]等。

3. 模式识别研究现状

3.1 模式识别系统和方法概述

模式识别过程包括以下几个步骤:信号预处理、模式分割、特征提取、模式分类、上下文后处理。预处理通过消除信号/图像/视频中的噪声来改善模式和背景间的可分离性;模式分割是将对象模式从背景分离或将多个模式分开的过程;特征提取是从模式中提取表示该模式结构或性质的特征并用一个数据结构(通常为一个多维特征矢量)来表示;在特征表示基础上,分类器将模式判别为属于某个类别或赋予其属于某些类别的概率;后处理则是利用对象模式与周围模式的相关性验证模式类别的过程。模式识别系统中预处理、特征提取(这里指特征度量的计算,即特征生成)和后处理的方法依赖于应用领域的知识。广义的特征提取包括特征生成、特征选择和特征变换(维数削减)。后两个过程和分类器设计一样,需要在一个样本集上进行学习(训练):在训练样本上确定选用哪些特征、特征变换的权值、分类器的结构和参数。由于句法和结构模式识别方法是建立在完全不同于特征矢量的模式表示基础上且还没有得到广泛应用,本文与 Jain等人[3]一样,主要关注统计模式识别(广义地,包括神经网络、支持向量机、多分类器系统等)的进展。 Bayes决策是统计模式识别的基础。将模式表示为一个特征矢量x(多维线性空间中的一个点),给定 M 个类别的条件概率密度 p(|x ω ),i=1,…,M, 则模式属于各个类别的后验概率可根据 Bayesi

公式计算:

P(w i |x)=)()

|()(x p w x p w i i =∑=M j j

j i i w x p w P w x p w P 1)|()()

|()(

其中P(ω )是第 i 类的先验概率。根据 Bayes 决策规则,模式 x 被判别为后验概率最大的类别(最小错误率决策)或期望风险最小的类别(最小代价决策)。后验概率或鉴别函数把特征空间划分为对应各个类别的决策区域。

模式分类可以在概率密度估计的基础上计算后验概率密度,也可以不需要概率密度而直接近似估计后验概率或鉴别函数(直接划分特征空间)。基于概率密度估计的分类器被称为生成模型(Generative model),如高斯密度分类器、Bayes 网络等;基于特征空间划分的分类器又被称为判别模型(Discriminative model ),如神经网络、支持向量机等。生成模型每一类的参数在一类的训练样本上分别估计,当参数模型符合样本的实际分布或训练样本数比较少时,生成模型的分类性能优良。判别模型在训练中直接调整分类边界,以使不同类别的样本尽可能分开,在训练样本数较多时能产生很好的泛化性能。但是,判别模型在训练时每一类参数的估计要同时考虑所有类别的样

本,因而训练的计算量较大。

3.2 概率密度估计

概率密度估计和聚类一样,是一个非监督学习过程。研究概率密度估计主要有三个意义:分类、聚类(分割)、异常点监测(Novelty detection)。在估计每个类别概率密度函数的基础上,可以用 Bayes 决策规则来分类。概率密度模型经常采用高斯混合密度模型(Gaussian mixture model, GMM),其中每个密度成分可以看作是一个聚类。异常点监测又称为一类分类(One-class classification),由于只有一类模式的训练样本,在建立这类模式的概率密度模型的基础上,根据相对于该模型的似然度来判断异常模式。

高斯混合密度估计常用的 Expectation-Maximization (EM)算法[14]被普遍认为存在三个问题:估计过程易陷于局部极值点,估计结果依赖于初始化值,不能自动确定密度成分的个数。对于成分个数的确定,提出了一系列的模型选择准则,如 Bayes 准则[15]、最小描述长度(MDL)、Bayesian Information Criterion (BIC)、Akaike Information Criterion (AIC)、最小消息长度(MML)等[16]。Figueiredo 和 Jain 在一个扩展的 EM 算法中引入密度成分破坏(Annihilation)机制[16],可以达到自动确定成分个数的目的。Ueda 和 Ghahramani 提出一种基于变分 Bayes 的准则,并用分裂-合并算法进行估计自动确定成分个数[17]。分裂-合并算法还可以同时克服局部极值影响。

高斯混合密度用于高维数据时会造成密度函数的参数太多,用于分类时还会降低泛化性能。这个问题可以通过限制协方差矩阵(为对角矩阵或单位矩阵的倍数)、参数共享或特征降维来克服。在多类分类时,不同类别的概率密度要建立在相同的特征空间。如果对不同类别或不同密度成分提取不同的子空间,则要将子空间的密度函数反投影到原来的特征空间

[18]。Moghaddam 和Pentland 的概率密度模型是主成分分析(PCA)子空间内的混合高斯密度和补子空间中的高斯密度的结合[19]。

最近,Bouguila 等人提出一种新的混合密度形式:Dirichlet 混合密度[20][21]。Dirichlet 分布表示离散概率(介于 0 到1 之间且和等于 1)的联合分布,可以用于直方图、和归一化特征矢量等的概率密度估计。Dirichlet 密度可以是非对称的,比高斯密度函数更为灵活,但计算也更复杂。Dirichlet 混合密度可以用类似于 EM 的随机优化算法进行估计,在模式分类和图像聚类等应用中取得了优异的性能[21]。

概率密度估计的另一种新方法是稀疏核函数描述(支持向量描述)[22][23]。Scholkopf 等人采用类似支持向量机的方法,用一个核特征空间的超平面将样本分为两类,使超平面外

的样本数不超过一个事先给定的比例[22]。该超平面的函数是一个样本子集(支持向量)的核函数的加权平均,可以像支持向量机那样用二次规划算法求得。Tax 和 Duin 的方法是用核空间的一个球面来区分区域内和区域外样本[23],同样地可以用二次规划进行优化。

3.3 特征选择

特征选择和特征变换都是为了达到维数削减的目的,在降低分类器复杂度的同时可以提高分类的泛化性能。二者也经常结合起来使用,如先选择一个特征子集,然后对该子集进行变换。近年来由于适应越来越复杂(特征维数成千上万,概率密度偏离高斯分布)的分类问题的要求,不断提出新的特征选择方法,形成了新的研究热点[24]。

特征选择的方法按照特征选择过程与分类器之间的交互程度可以分为过滤式(Filter)、 Wrapper[25]、嵌入式、混合式几种类型。过滤式特征选择是完全独立于分类器的,这也是最常见的一种特征选择方式,选择过程计算量小,但是选择的特征不一定很适合分类。在 Wrapper 方法中,特征子集的性能使用一个分类器在验证样本上的正确率来衡量,这样选择的特征比较适合该分类器,但不一定适合其他的分类器。由于在特征选择过程中要评价很多特征子集(子集的数量呈指数级增长),即使采用顺序前向搜索,Wrapper 的计算量都是很大的,只适合特征维数不太高的情况。Wrapper 的另一个问题是当训练样本较少时会造成过拟合,泛化性能变差。

嵌入式方法是在分类器的训练过程中包含了特征选择功能,因此跟 Wrapper 一样也是依赖于分类器的。一个经典的方法是 LASSO[26]。近来有代表性的两种嵌入式方法是稀疏支持向量机[27]和Boosting 特征选择[28]。混合式特征选择结合不同的方法以实现更好的计算复杂性-分类性能的折衷,在初始特征数量非常大时经常使用,如[29]的方法在三个阶段先后用三种方法削减特征个数:过滤、聚类、组合式选择。过滤方法和 Wrapper 也经常结合使用。

特征选择领域大部分的研究工作都集中在过滤式方法。模式识别领域早期的工作多把关注点放在搜索策略上[30][31],特征子集评价准则多采用基于高斯密度假设的距离准则,如 Fisher 准则、Mahalanobis距离等。其实,特征子集的评价准则更为重要,当准则较好地衡量特征子集的可分性且比较稳定时,简单的搜索策略就能产生良好的分类性能。下面分析两类比较有代表性的特征评价方法:基于间隔(Margin)的方法和基于互信息的方法。

RELIEF[32]是一种被广泛引用的过滤式特征选择方法,基本思想是根据特征空间中每个样本在正确类别和不同类别中的最近邻距离之差迭代调整特征的权值。这两个距离之差即我们今天所说的间隔。不过 RELIEF 并没有对一个全局的目标函数进行优化。最近提出来的一种迭代 RELIEF(I-RELIEF)方法设计一种基于间隔的全局目标函数,用类似 EM 的算法对特征的权值进行优化[33]。另一种方法则对特征子集的空间中最近邻分类的间隔进行优化[34]。特征选择的基本原则是选择类别相关(Relevant)的特征而排除冗余的特征。这种类别相关性和冗余性通常用互信息(Mutual information, MI)来度量。特征与类别之间的互信息很好地度量了特征的相关性,而特征与特征之间的互信细则度量他们之间的相似性(冗余性)。因此,基于互信息的特征选择方法一般遵循这样一种模式:在顺序前向搜索中寻找与类别互信息最大而与前面已选特征互信息最小的特征[35]。[36]中提出的条件互信息用来度量在一个已选特征的条件下另一个新的候选特征对分类的相关性。[37]通过分析一种相关度,Symmetrical Uncertainty (SU)与特征的Markov blanket 之间的关系,设计一种快速的两步特征选择方法:先根据单个特征与类别之间的相关度选出相关特征,第二步对相关特征根据特征-类别相关度和特征-特征相关度进行筛选。

3.4 特征变换

特征变换也常被称为特征提取,指从原始信号经过变换得到特征量的过程。传统的线性变换方法主要有主成分分析(PCA)和线性鉴别分析(LDA),后者又叫 Fisher 鉴别分析(FDA)。

LDA 的子空间学习是有监督的,目的是使子空间中类间离散度(Sb)和类内离散度(Sw)的行列式之比达到最大。LDA假设各类样本服从高斯分布且不同类的协方差矩阵相同,而且所有样本在总体上服从高斯分布。另外,LDA 提取的特征个数受到类别数的限制,而当训练样本数相对特征维数较小时,Sw 为奇异,会带来很多计算上的问题。

由于非高斯分布、小样本等问题的存在,特征变换也是近年来研究的一个热点,这方面的工作可以分为以下几个方向:(1)针对小样本的线性特征提取方法;(2)类内协方差矩阵不同时的异方差(Heteroscedastic)鉴别分析;(3)非高斯分布下的特征提取方法;(4)局部空间特性保持的特征提取方法;(5)非线性特征提取方法;(6)二维模式特征提取方法。

小样本学习的一个典型例子是图像分类,如果直接用图像中所有象素点的值作为特征量,矢量的维数非常高,而每一类的样本数又很少。克服 Sw 奇异性的一个直接方法是正则化(Regularized)鉴别分析[38],通过矩阵平滑使 Sw 变得非奇异。Fisherface 方法则用PCA把特征维数从 D 降到N-M(N 是样本数,M 是类别数)使 Sw 变得非奇异[39]。但是,Sw 的维数由 D 降到 N-M 会损失一些鉴别信息,而降到 N-1 维则不会有损失[40]。而这时Sw 仍然是奇异的,就需要从 Sw的零空间(对应本征值为0)提取一些特征[41]。与一般的LDA方法先对Sw对角化然后对Sb对角化相反,一种Direct LDA 方法先对 Sb 对角化后从变换后的 Sw 提取对应较小本征值的鉴别矢量[42]。

对于类别协方差矩阵不同的情况异方差鉴别分析方法(如[43])可以得到比 LDA 更好的分类性能。对于非高斯分布或任意分布的情况,非参数鉴别分析是提取鉴别特征的一个基本思路。由此发展起来的方法还包括基于决策边界的鉴别分析。在不假设参数概率密度的情况下,也可以用分类性能准则直接对鉴别投影矢量进行优化,这样的准则如最小分类错误(MCE)和特征与类别之间的互信息。对于每类样本为多模态分布的情况可以采用基于混合高斯密度的鉴别分析。

局部性保持特征提取方法借鉴了流形学习(如 LLE 和 Isomap)的思想,目的是在子空间中保持样本点之间的相邻关系。流形学习的问题是只对训练样本进行投影,要推广到测试样本就需要用一个参数模型或回归网络来表示投影的过程。He 等人提出的局部性保持投影(LPP)方法通过优化一个局部性保持准则来估计投影矢量,可转换为矩阵本征值分解问题。Yan 等人提出一种基于样本邻近关系分析的特征提取的统一框架,称为嵌入图(Embedded graph),并在此基础上提出一种新的鉴别分析方法。LPP 是一种非监督学习方法,被推广到监督学习和核空间。另外,Isomap流形学习方法也被推广到监督学习用于非线性特征提取。

几乎所有的线性特征投影方法都可以推广到核空间。Scholkopf等人最先将核函数引入PCA,提出 Kernel PCA (KPCA)方法。类似地,将核函数引入 Fisher 鉴别分析,提出了 Kernel FDA (KFDA)。对核空间中结合PCA降维和FDA特征提取进行了深入的分析并提出了有效的算法。核空间的特征提取方法还有 Kernel Direct LDA , Kernel LPP 等。

二维模式主成分分析(2D-PCA)或鉴别分析(2D-LDA)是近年提出的一种针对图像模式的特征提取方法。这类方法直接在图像矩阵上计算协方差(离散度)矩阵。该矩阵的维数等于图像的行数或列数,计算起来简便多了。另外,矩阵投影到每个本征矢量得到一个矢量,而不是一个值,这样得到的特征值个数也远远多于 LDA。在高维图像人脸识别实验中,2D-PCA 和 2D-LDA 的分类性能分别优于 PCA和 LDA。二维变换方法实际上是基于图像行或列的变换方法,即对每一行或每一列分别投影得到特征,可以推广到基于图像块的投影。

4.发展趋势

除了上面介绍的最新研究进展,模式识别领域的前沿研究方向还有:Bayes 学习、半监督学习、弱监督学习等。Bayes 学习得到的分类器参数并不是一些固定值,而是参数的概率分布。参数的先验概率分布函数形式的选择、超参数(先验概率分布的参数)的确定在计算

上是比较复杂的。在识别时,需要对分类器的参数进行随机采样,然后把很多个参数值得到的分类结果组合起来,因而识别的计算量也是很大的。近年来,基于 Bayes 学习的分类器设计取得了明显进展[11]等,得到了优异的分类性能。但是,这些方法的计算还是很复杂的,对于大类别数、大样本集的学习问题还难以实现。

在大部分应用情况下,模式分类器经过训练后就固定不变,或者使用相当长一段时间才重新训练一次。在训练分类器时,样本的数量和代表性总是不够的,这就希望分类器能不断地适应新的样本而不损失对原来训练过的样本的分类性能。这样的增量学习问题很早就受到关注,提出了很多具体的方法,但还没有一个统一的理论框架。新增加的样本可能是没有类别标记的,因为无标记样本很容易得到,而标记过程费时费力。同时对标记样本和无标记样本进行学习的过程称为半监督学习,这是近年来机器学习领域的一个研究热点。在标记样本比较少的情况下采用无标记样本能有效提高完全监督学习的分类性能。

大多数模式识别问题假设模式是与背景信号和其他模式分离的且表示成一个特征矢量。实际上,模式的分割不是一件简单的事情,一个固定长度的特征矢量也不一定能最好地表示模式的特性。在实际应用问题中经常要将模式分类与分割问题统一考虑,有些模式被表示成结构性数据结构(如属性图、概率图)。这些方面出现了大量的研究工作,这里不打算细述。目前有一类广受关注的模式识别问题,识别对象是没有分割的图像,训练图像的标记是其中有没有某一类目标,而不知道目标的具体位置、大小和方位。对这种标记不足的样本进行训练和识别的方法可以统称为弱监督学习,可用于目标识别、图像检索、景物分类等。

5. 总结

本文围绕模式分类这个模式识别的核心问题概述了近年来在概率密度估计、特征选择和变换、分类器设计等方面的重要研究进展,并分析了最近的发展趋势。由于本人对模式识别认识有限,对模式识别的其他问题,包括分割、上下文处理、计算机视觉、以及重要的应用领域(语音识别、文字识别、生物特征识别等)没有展开阐述。

参考文献

[1] F. Rosenblatt, The perceptron: a probabilistic model for information storage and organization in the brain, Psychological Review, 65: 386-408, 1958.

[2] N.J. Nilsson, Learning Machines, McGraw-Hill, New York, 1965.

[3] A.K. Jain, R.P.W. Duin, J. Mao, Statistical pattern recognition: a review, IEEE Trans. PAMI, 22(1): 4-37, 2000.

[4] R.A. Fisher, The use of multiple measurements in taxonomic problems, Annals of Eugenics, 7: 179-188, 1936.

[5] C.K. Chow, An optimum character recognition system using decision functions, IRE Trans. Electronic Computers, 6: 247-254, 1957.

[6] G. Nagy, Pattern Recognition 1966 IEEE Workshop, IEEE Spectrum, 92-94, Feb. 1967.

[7] G. Nagy, State of the art in pattern recognition, Proc. IEEE, 56(5): 836-862, 1968.

[8] L.N. Kanal, Patterns in pattern recognition: 1968-1974, IEEE Trans. Information Theory, 20(6): 697-722, 1974.

[9] K. Fukunaga, Introduction to Statistical Pattern Recognition, Academic Press, 1972.

[10] R.O. Duda, P.E. Hart, Pattern Classification and Scene Analysis, John

Wiley & Sons, New York, 1973.

[11] C.M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.

[12] K. Fukunaga, Introduction to Statistical Pattern Recognition, second edition, Academic Press, 1990.

[13] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, second edition, John Wiley & Sons, New York, 2001.

[14] A.P. Dempster, N.M. Laird, D.B. Rubin, Maximum-likelihood from incomplete data via the EM algorithm, J. Royal Statistics Society B, 39: 1-38, 1977.

[15] S.J. Roberts, D. Husmeier, L. Rezek, W. Penny, Bayesian approaches to Gaussian mixture modeling, IEEE Trans. PAMI, 20(11): 1133-1142, 1998.

[16] M.A.T. Figueiredo, A.K. Jain, Unsupervised learning of finite mixture models, IEEE Trans. PAMI, 24(3): 381-396, 2002.

[17] N. Ueda, Z. Ghahramani, Bayesian model search for mixture models based on optimizing variational bounds, Neural Networks, 15(10): 1223-1241, 2003.

[18] P.M. Baggenstoss, The PDF projection theorem and the class-specific method, IEEE Trans. Signal Processing, 51(3): 672-685, 2003.

[19] B. Moghaddam, A. Pentland, Probabilistic visual learning for object representation, IEEE Trans. PAMI, 19(7): 696-710, 1997.

[20] N. Bouguila, D. Ziou, J. Vaillancourt, Unsupervised learning of a finite mixture model based on the Dirichlet distribution and its application, IEEE Trans. Image Processing, 13(11): 1533-1543, 2004.

[21] N. Bouguila, D. Ziou, A hybrid SEM algorithm for high-dimensional unsupervised learning using a finite generalized Dirichlet mixture, IEEE Trans. Image Processing, 15(9): 2657-2668, 2006.

[22] B. Scholkopf, J. Platt, J. Shawe-Taylor, A.J. Smola, R.C. Williamson, Estimating the support of a high-dimensional distribution, Neural Computation, 13(7): 1443-1471, 2001.

[23] D.M.J. Tax, R.P.W. Duin, Support vector data description, Machine Learning, 54(1): 45-66, 2004.

[24] I. Guyon, A. Elisseeff, An introduction to variable and feature selection, J. Machine Learning Research, 3: 1157-1182, 2003.

[25] R. Kohavi, G. Tohu, Wrappers for feature selection, Artificial Intelligence, 97(1-2): 273-324, 1997.

[26] R. Tibshirani, Regression selection and shrinkage via the lasso, J. Royal Statistical Society Series B, 58(1): 267-288, 1996.

[27] J. Bi, K. Bennett, M. Embrecht, C. Breneman, M. Song, Dimensionality reduction via sparse support vector machines, J. Machine Learning Research, 3:1229-1243, 2003.

[28] P. Viola, M.J. Jones, Rapid object detection using a boosted cascade of simple features, Proc. CVPR 2001, Hawaii, 2001, Vol.1, pp.511-518.

[29] J. Bins, B.A. Draper, Feature selection from huge feature sets, Proc. 8th ICCV, 2001, Vol.2, pp.159-165, 2001.

[30] A. Jain, D. Zongker, Feature selection: evaluation, application and small sample performance, IEEE Trans. PAMI, 29(2): 153-158, 1997.

[31] M. Kudo, J. Sklansky, Comparison of algorithms that select features for pattern classifiers, Pattern Recognition, 33(1): 25-41, 2000.

[32] I. Kononenko, Estimating attributes: analysis and extensions of RELIEF, Proc. ECML, Catana, Italy, Springer-Verlag, 1994, pp.171-182.

[33] Y. Sun, Iterative RELIEF for feature weighting: algorithms, theories, and applications, IEEE Trans. PAMI, 29(6): 1035-1051, 2007.

[34] R. Gilad-Bachrach, A. Navot, N. Tishby, Margin based feature selection—theory and algorithms, Proc. 21th ICML, Alberta, Canada, 2004.

[35] R. Battiti, Using mutual information for selecting features in supervised neural net learning, IEEE Trans. Neural Networks, 5(4): 537-550, 1994.

[36] F. Fleuret, Fast binary feature selection with conditional mutual information, J. Machine Learning Research, 5: 1531-1555, 2004.

[37] L. Yu, H. Liu, Efficient feature selection via analysis of relevance and redundancy, J. Machine Learning Research, 5: 1205-1224, 2004.

[38] D.-Q. Dai, P.C. Yuen, Regularized discriminant analysis and its application to face recognition, Pattern Recognition, 36(3): 845-847, 2003.

[39] P.N. Belhumeur, J.P. Hespanha, D.J. Kriegman, Eigenfaces vs. fisherfaces: recognition using class-specific linear projection space, IEEE Trans. PAMI, 19(7): 711-720, 1997.

[40] J. Yang, J.-y. Yang, Why can LDA be performed in PCA transformed space? Pattern Recognition, 36(2): 563-566, 2003.

[41] L.-F. Chen, H.-Y. M. Liao, M.-T. Ko, J.-C. Lin, G.-J. Yu, A new LDA-based face recognition system which can solve the small sample size, Pattern Recognition, 33(10): 1713-1726, 2000.

[42] H. Yu, J. Yang, A direct LDA algorithm for high-dimensional data---with application to face recognition, Pattern Recognition, 34(10): 2067-2070, 2001.

[43] M. Loog, R.P.W. Duin, Linear dimensionality reduction via a heteroscedastic extension of LDA: the Chernoff criterion, IEEE Trans. PAMI, 26(6): 732-739, 2004.

北邮模式识别课堂作业答案(参考)

第一次课堂作业 1.人在识别事物时是否可以避免错识 2.如果错识不可避免,那么你是否怀疑你所看到的、听到的、嗅 到的到底是真是的,还是虚假的 3.如果不是,那么你依靠的是什么呢用学术语言该如何表示。 4.我们是以统计学为基础分析模式识别问题,采用的是错误概率 评价分类器性能。如果不采用统计学,你是否能想到还有什么合理地分类 器性能评价指标来替代错误率 1.知觉的特性为选择性、整体性、理解性、恒常性。错觉是错误的知觉,是在特定条件下产生的对客观事物歪曲的知觉。认知是一个过程,需要大脑的参与.人的认知并不神秘,也符合一定的规律,也会产生错误 2.不是 3.辨别事物的最基本方法是计算 . 从不同事物所具有的不同属性为出发点认识事物. 一种是对事物的属性进行度量,属于定量的表示方法(向量表示法 )。另一种则是对事务所包含的成分进行分析,称为定性的描述(结构性描述方法)。 4.风险 第二次课堂作业 作为学生,你需要判断今天的课是否点名。结合该问题(或者其它你熟悉的识别问题,如”天气预报”),说明: 先验概率、后验概率和类条件概率 按照最小错误率如何决策 按照最小风险如何决策 ωi为老师点名的事件,x为判断老师点名的概率 1.先验概率: 指根据以往经验和分析得到的该老师点名的概率,即为先验概率 P(ωi ) 后验概率: 在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。 在上过课之后,了解到的老师点名的概率为后验概率P(ωi|x) 类条件概率:在老师点名这个事件发生的条件下,学生判断老师点名的概率p(x| ωi ) 2. 如果P(ω1|X)>P(ω2|X),则X归为ω1类别 如果P(ω1|X)≤P(ω2|X),则X归为ω2类别 3.1)计算出后验概率 已知P(ωi)和P(X|ωi),i=1,…,c,获得观测到的特征向量X 根据贝叶斯公式计算 j=1,…,x

聚类分析K-means算法综述

聚类分析K-means算法综述 摘要:介绍K-means聚类算法的概念,初步了解算法的基本步骤,通过对算法缺点的分析,对算法已有的优化方法进行简单分析,以及对算法的应用领域、算法未来的研究方向及应用发展趋势作恰当的介绍。 关键词:K-means聚类算法基本步骤优化方法应用领域研究方向应用发展趋势 算法概述 K-means聚类算法是一种基于质心的划分方法,输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。 评定标准:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算。 解释:基于质心的划分方法就是将簇中的所有对象的平均值看做簇的质心,然后根据一个数据对象与簇质心的距离,再将该对象赋予最近的簇。 k-means 算法基本步骤 (1)从n个数据对象任意选择k 个对象作为初始聚类中心 (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分 (3)重新计算每个(有变化)聚类的均值(中心对象) (4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2) 形式化描述 输入:数据集D,划分簇的个数k 输出:k个簇的集合 (1)从数据集D中任意选择k个对象作为初始簇的中心; (2)Repeat (3)For数据集D中每个对象P do (4)计算对象P到k个簇中心的距离 (5)将对象P指派到与其最近(距离最短)的簇;

(6)End For (7)计算每个簇中对象的均值,作为新的簇的中心; (8)Until k个簇的簇中心不再发生变化 对算法已有优化方法的分析 (1)K-means算法中聚类个数K需要预先给定 这个K值的选定是非常难以估计的,很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适,这也是K一means算法的一个不足"有的算法是通过类的自动合并和分裂得到较为合理的类型数目k,例如Is0DAIA算法"关于K一means算法中聚类数目K 值的确定,在文献中,根据了方差分析理论,应用混合F统计量来确定最佳分类数,并应用了模糊划分嫡来验证最佳分类数的正确性。在文献中,使用了一种结合全协方差矩阵RPCL算法,并逐步删除那些只包含少量训练数据的类。文献中针对“聚类的有效性问题”提出武汉理工大学硕士学位论文了一种新的有效性指标:V(k km) = Intra(k) + Inter(k) / Inter(k max),其中k max是可聚类的最大数目,目的是选择最佳聚类个数使得有效性指标达到最小。文献中使用的是一种称为次胜者受罚的竞争学习规则来自动决定类的适当数目"它的思想是:对每个输入而言不仅竞争获胜单元的权值被修正以适应输入值,而且对次胜单元采用惩罚的方法使之远离输入值。 (2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解 不同的初始值,结果往往不同。K-means算法首先随机地选取k个点作为初始聚类种子,再利用迭代的重定位技术直到算法收敛。因此,初值的不同可能导致算法聚类效果的不稳定,并且,K-means算法常采用误差平方和准则函数作为聚类准则函数(目标函数)。目标函数往往存在很多个局部极小值,只有一个属于全局最小,由于算法每次开始选取的初始聚类中心落入非凸函数曲面的“位置”往往偏离全局最优解的搜索范围,因此通过迭代运算,目标函数常常达到局部最小,得不到全局最小。对于这个问题的解决,许多算法采用遗传算法(GA),例如文献中采用遗传算法GA进行初始化,以内部聚类准则作为评价指标。 (3)从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大 所以需要对算法的时间复杂度进行分析,改进提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑,通过一定的相似性准则来去掉聚类中心的候选集,而在文献中,使用的K-meanS算法是对样本数据进行聚类。无论是初始点的选择还是一次迭代完成时对数据的调整,都是建立在随机选取的样本数据的基础之上,这样可以提高算法的收敛速度。

模式识别研究进展-刘成林and谭铁牛

模式识别研究进展 刘成林,谭铁牛 中国科学院自动化研究所 模式识别国家重点实验室 北京中关村东路95号 摘要 自20世纪60年代以来,模式识别的理论与方法研究及在工程中的实际应用取得了很大的进展。本文先简要回顾模式识别领域的发展历史和主要方法的演变,然后围绕模式分类这个模式识别的核心问题,就概率密度估计、特征选择和变换、分类器设计几个方面介绍近年来理论和方法研究的主要进展,最后简要分析将来的发展趋势。 1. 前言 模式识别(Pattern Recognition)是对感知信号(图像、视频、声音等)进行分析,对其中的物体对象或行为进行判别和解释的过程。模式识别能力普遍存在于人和动物的认知系统,是人和动物获取外部环境知识,并与环境进行交互的重要基础。我们现在所说的模式识别一般是指用机器实现模式识别过程,是人工智能领域的一个重要分支。早期的模式识别研究是与人工智能和机器学习密不可分的,如Rosenblatt的感知机[1]和Nilsson的学习机[2]就与这三个领域密切相关。后来,由于人工智能更关心符号信息和知识的推理,而模式识别更关心感知信息的处理,二者逐渐分离形成了不同的研究领域。介于模式识别和人工智能之间的机器学习在20世纪80年代以前也偏重于符号学习,后来人工神经网络重新受到重视,统计学习逐渐成为主流,与模式识别中的学习问题渐趋重合,重新拉近了模式识别与人工智能的距离。模式识别与机器学习的方法也被广泛用于感知信号以外的数据分析问题(如文本分析、商业数据分析、基因表达数据分析等),形成了数据挖掘领域。 模式分类是模式识别的主要任务和核心研究内容。分类器设计是在训练样本集合上进行优化(如使每一类样本的表达误差最小或使不同类别样本的分类误差最小)的过程,也就是一个机器学习过程。由于模式识别的对象是存在于感知信号中的物体和现象,它研究的内容还包括信号/图像/视频的处理、分割、形状和运动分析等,以及面向应用(如文字识别、语音识别、生物认证、医学图像分析、遥感图像分析等)的方法和系统研究。 本文简要回顾模式识别领域的发展历史和主要方法的演变,介绍模式识别理论方法研究的最新进展并分析未来的发展趋势。由于Jain等人的综述[3]已经全面介绍了2000年以前模式分类方面的进展,本文侧重于2000年以后的研究进展。

蚁群聚类算法综述

计算机工程与应用2006.16 引言 聚类分析是数据挖掘领域中的一个重要分支[1],是人们认 和探索事物之间内在联系的有效手段,它既可以用作独立的 据挖掘工具,来发现数据库中数据分布的一些深入信息,也 以作为其他数据挖掘算法的预处理步骤。所谓聚类(clus- ring)就是将数据对象分组成为多个类或簇(cluster),在同一 簇中的对象之间具有较高的相似度,而不同簇中的对象差别大。传统的聚类算法主要分为四类[2,3]:划分方法,层次方法, 于密度方法和基于网格方法。 受生物进化机理的启发,科学家提出许多用以解决复杂优 问题的新方法,如遗传算法、进化策略等。1991年意大利学A.Dorigo等提出蚁群算法,它是一种新型的优化方法[4]。该算不依赖于具体问题的数学描述,具有全局优化能力。随后他 其他学者[5~7]提出一系列有关蚁群的算法并应用于复杂的组优化问题的求解中,如旅行商问题(TSP)、调度问题等,取得 著的成效。后来其他科学家根据自然界真实蚂蚁群堆积尸体分工行为,提出基于蚂蚁的聚类算法[8,9],利用简单的智能体 仿蚂蚁在给定的环境中随意移动。这些算法的基本原理简单懂[10],已经应用到电路设计、文本挖掘等领域。本文详细地讨现有蚁群聚类算法的基本原理与性能,在归纳总结的基础上 出需要完善的地方,以推动蚁群聚类算法在更广阔的领域内 到应用。 2聚类概念及蚁群聚类算法 一个簇是一组数据对象的集合,在同一个簇中的对象彼此 类似,而不同簇中的对象彼此相异。将一组物理或抽象对象分组为类似对象组成的多个簇的过程被称为聚类。它根据数据的内在特性将数据对象划分到不同组(或簇)中。聚类的质量是基于对象相异度来评估的,相异度是根据描述对象的属性值来计算的,距离是经常采用的度量方式。聚类可用数学形式化描述为:设给定数据集X={x 1 ,x 2 ,…,x n },!i∈{1,2,…,n},x i ={x i1 ,x i2 , …,x

模式识别论文

模式识别综述与应用 院系:计算机与通信工程学院 班级:电子信息10-01班 姓名: 学号:

模式识别综述与应用 摘要 模式识别就是研究用计算机实现人类的模式识别能力的一门学科,目的是利用计算机将对象进行分类。模式识别技术近年来得到了迅速的发展。 关键词 模式识别应用发展状况 前言 模式识别(Pattern Recognition)是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。模式识别是一个多领域的交叉学科,它涉及人工智能、统计学、计算机科学、工程学、医学等众多的研究问题。随着2 0世纪4 0年代计算机的出现以及5 0年代人工智能的兴起,模式识别在2 0世纪6 0年代初迅速发展并成为一门新学科。 一、模式与模式识别的概念 广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。 模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。 模式识别的研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。 二、模式识别方法——统计模式识别方法和结构(句法)模式识别方法 把图像或图像系列分割为线条、边缘,结点,区域等并提供相应的特征,诸如灰度值、颜色、形状、纹理,深度等[5]。目的是要利用这些信息对模式进行分类或者对模式进行分析(描述)。分类是实现一个模式与

北邮模式识别课堂作业答案(参考)

第一次课堂作业 ? 1.人在识别事物时是否可以避免错识? ? 2.如果错识不可避免,那么你是否怀疑你所看到的、听到的、嗅到的到底 是真是的,还是虚假的? ? 3.如果不是,那么你依靠的是什么呢?用学术语言该如何表示。 ? 4.我们是以统计学为基础分析模式识别问题,采用的是错误概率评价分类 器性能。如果不采用统计学,你是否能想到还有什么合理地分类器性能评价指标来替代错误率? 1.知觉的特性为选择性、整体性、理解性、恒常性。错觉是错误的知觉,是在特定条件下产生的对客观事物歪曲的知觉。认知是一个过程,需要大脑的参与.人的认知并不神秘,也符合一定的规律,也会产生错误 2.不是 3.辨别事物的最基本方法是计算.从不同事物所具有的不同属性为出发点认识事物.一种是对事物的属性进行度量,属于定量的表示方法(向量表示法)。另一种则是对事务所包含的成分进行分析,称为定性的描述(结构性描述方法)。 4.风险 第二次课堂作业 ?作为学生,你需要判断今天的课是否点名。结合该问题(或者其它你熟悉的识别问题, 如”天气预报”),说明: ?先验概率、后验概率和类条件概率? ?按照最小错误率如何决策? ?按照最小风险如何决策? ωi为老师点名的事件,x为判断老师点名的概率 1.先验概率:指根据以往经验和分析得到的该老师点名的概率,即为先验概率P(ωi ) 后验概率:在收到某个消息之后,接收端所了解到的该消息发送的概率称为后验概率。 在上过课之后,了解到的老师点名的概率为后验概率P(ωi|x) 类条件概率:在老师点名这个事件发生的条件下,学生判断老师点名的概率p(x| ωi ) 2. 如果P(ω1|X)>P(ω2|X),则X归为ω1类别 如果P(ω1|X)≤P(ω2|X),则X归为ω2类别 3.1)计算出后验概率 已知P(ωi)和P(X|ωi),i=1,…,c,获得观测到的特征向量X 根据贝叶斯公式计算 j=1,…,x 2)计算条件风险

模式识别文献综述报告

指导老师:马丽 学号:700 班级: 075111 姓名:刘建 成绩: 目录 ............................................................ 一、报告内容要点............................................................ 二、《应用主成分分解(PCA)法的图像融合技术》............................................................ 三、《基于类内加权平均值的模块 PCA 算法》............................................................

四、《PCA-LDA 算法在性别鉴别中的应用》 ............................................................ 五、《一种面向数据学习的快速PCA算法》 ............................................................ 六、《Theory of fractional covariance matrix and its applications in PCA and 2D-PCA》 ............................................................ 七、课程心得体会 ............................................................ 八、参考文献 ............................................................ 一、报告内容要点 ①每篇论文主要使用什么算法实现什么 ②论文有没有对算法做出改进(为什么改进,原算法存在什么问题,改进方法是什么) ③论文中做了什么对比试验,实验结论是什么?可以加入自己的分析和想法,例如这篇论文还存在什么问题或者缺点,这篇论文所作出的改进策略是否好,你自己对算法有没有什么改进的想法? 二、《应用主成分分解(PCA)法的图像融合技术》 第一篇《应用主成分分解(PCA)法的图像融合技术》,作者主要是实现用PCA可以提取图像数据中主要成分这一特点,从元图像获得协方差矩阵的特征值和特征向量,据此确定图像融合算法中的加权系数和最终融合图像。 作者在图像融合的算法上进行改进,用PCA获得待融合的每幅图像的加权系数Wi。是这样实现的:计算待融合的i幅图像数据矩阵的协方差矩阵,从中获

K-means-聚类算法研究综述

K-means聚类算法研究综述 摘要:总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数,算法流程,并列举了一个实例,指出了数据子集的数目K,初始聚类中心选取,相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means 聚类的进一步研究方向。 关键词:K-means聚类算法;NP难优化问题;数据子集的数目K;初始聚类中心选取;相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal,main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K,cluster initialization,and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus1955年、Lloyed1957年、Ball & Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后,在不同的学科领域被广泛研究和应用,并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了,但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。 文中总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程,并列举了一个实例,指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 1.1K-means聚类算法的目标函数 对于给定的一个包含n个d维数据点的数据集 12 {x,x,,x,,x} i n X=??????,其中d i x R ∈,以及要生成的数据子集的数目K,K-means聚类算法将数据对象组织为 K个划分{c,i1,2,} k C K ==???。每个划分代表一个类c k,每个类c k有一个类别中心iμ。选取欧氏距离作为相似性和 距离判断准则,计算该类内各点到聚类中心 i μ的距离平方和 2 (c) i i k i k x C J xμ ∈ =- ∑(1) 聚类目标是使各类总的距离平方和 1 (C)(c) K k k J J = =∑最小。 22 1111 (C)(c) i i K K K n k i k ki i k k k x C k i J J x d x μμ ==∈== ==-=- ∑∑∑∑∑ (2)其中, 1 i i ki i i x c d x c ∈ ? =? ? ? 若 若 ,显然,根据最小二乘 法和拉格朗日原理,聚类中心 k μ应该取为类别 k c类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始,然

模式识别作业2

作业一: 在一个10类的模式识别问题中,有3类单独满足多类情况1,其余的类别满足多类情况2。问该模式识别问题所需判别函数的最少数目是多少? 答案:将10类问题可看作4类满足多类情况1的问题,可将3类单独满足多类情况1的类找出来,剩下的7类全部划到4类中剩下的一个子类中。再在此子类中,运用多类情况2的判别法则进行分类,此时需要7*(7-1)/2=21个判别函数。故共需要4+21=25个判别函数。 作业二: 一个三类问题,其判别函数如下: d1(x)=-x1, d2(x)=x1+x2-1, d3(x)=x1-x2-1 1.设这些函数是在多类情况1条件下确定的,绘出其判别界 面和每一个模式类别的区域。 2.设为多类情况2,并使:d12(x)= d1(x), d13(x)= d2(x), d23(x)= d3(x)。绘出其判别界面和多类情况2的区域。 3. 设d1(x), d2(x)和d3(x)是在多类情况3的条件下确定的,绘 出其判别界面和每类的区域。 答案: 1

2

3 作业三: 两类模式,每类包括5个3维不同的模式,且良好分布。如果它们是线性可分的,问权向量至少需要几个系数分量?假如要建立二次的多项式判别函数,又至少需要几个系数分量?(设模式的良好分布不因模式变化而改变。) 答案:如果它们是线性可分的,则至少需要4个系数分量;如果要建立二次的多项式判别函数,则至少需要10 25 C 个系数分量。 作业四: 用感知器算法求下列模式分类的解向量w :

ω1: {(0 0 0)T, (1 0 0)T, (1 0 1)T, (1 1 0)T} ω2: {(0 0 1)T, (0 1 1)T, (0 1 0)T, (1 1 1)T} 答案:将属于ω2的训练样本乘以(-1),并写成增广向量的形式。 x①=(0 0 0 1)T,x②=(1 0 0 1)T,x③=(1 0 1 1)T,x④=(1 1 0 1)T x⑤=(0 0 -1 -1)T,x⑥=(0 -1 -1 -1)T,x⑦=(0 -1 0 -1)T,x⑧=(-1 -1 -1 -1)T 第一轮迭代:取C=1,w(1)=(0 0 0 0)T 因w T(1)x①=(0 0 0 0)(0 0 0 1)T=0≯0,故w(2)=w(1)+x①=(0 0 0 1) 因w T(2)x②=(0 0 0 1)(1 0 0 1)T =1>0,故w(3)=w(2)=(0 0 0 1)T 因w T(3)x③=(0 0 0 1)(1 0 1 1)T=1>0,故w(4)=w(3)=(0 0 0 1)T 因w T(4)x④=(0 0 0 1)(1 1 0 1)T=1>0,故w(5)=w(4)=(0 0 0 1)T 因w T(5)x⑤=(0 0 0 1)(0 0 -1 -1)T=-1≯0,故w(6)=w(5)+x⑤=(0 0 -1 0)T 因w T(6)x⑥=(0 0 -1 0)(0 -1 -1 -1)T=1>0,故w(7)=w(6)=(0 0 -1 0)T 因w T(7)x⑦=(0 0 -1 0)(0 -1 0 -1)T=0≯0,故w(8)=w(7)+x⑦=(0 -1 -1 -1)T 因w T(8)x⑧=(0 -1 -1 -1)(-1 -1 -1 -1)T=3>0,故w(9)=w(8)=(0 -1 -1 -1)T 因为只有对全部模式都能正确判别的权向量才是正确的解,因此需进行第二轮迭代。 第二轮迭代:

关于模式识别应用发展的研究和分析

课程名称:中外文学术论文写作 姓名:周杉 学号:212012083500005 专业:软件工程 学院:数学与计算机学院 导师:黄襄念 成绩: 2013.5.23

关于模式识别应用发展的研究和分析 周杉 (西华大学数学与计算机学院图像处理与模式识别实验室成都610039) 摘要:自20世纪50年代以来,模式识别(Pattern Recognition)在人工智能兴起后不久就迅速发展成一门学科。它所研究的理论和方法在很多科学和技术领域得到广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。本文主要讨论模式识别的一些基本概念和问题,以利于对模式识别的现状与未来的发展方向有更全面的了解。 关键词:模式识别人工智能信息科学 中图分类号:TP399 The Research and Analysis about the Development of Pattern Recognition Applications ZHOU Shan (Mathematics and Computer College of Xihua University, Image Processing and Pattern Recognition Laboratory,Chengdu,610039) Abstract:Since the1950s,pattern recognition shortly quickly developed after the rise of artificial intelligence into a discipline.It studies the theory and methods in many areas of science and technology which has received considerable attention,and it also promote the development of artificial intelligence systems,expanding the possibilities of computer applications.This article focuses on pattern recognition of some basic concepts and issues in order to getting more comprehensive understanding about facilitate pattern recognition status and future direction of development. Keywords:Pattern Recognition Artificial Intelligence Information Science 0引言 狗的嗅觉的灵敏度非常高,大约是人的50至100倍。狗通过这项特异的功能来识别各种各样的东西,帮助人类完成一些鉴别工作。不仅如此,识别也是人类的一项基本技能,人们无时无处的在进行“模式识别”,古人有一成语“察言观色”表达的正是这个意思。随着第一台计算机ENIAC的出现以及人工智能的兴起,人们自然而然的把目光投向如何将人类的识别能力成为计算机的一部分功能,从而减轻人类自身的脑力劳动。计算机模式识别在20世纪60年代初迅速发展并成为一门新学科[1]。 1模式识别与统计模式识别 1.1模式与模式识别的概念 广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)[2]。 模式识别则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。计算机模式识别就是是指利用计算机等装置对物体、图像、图形、语音、字形等信息进行自动识

模式识别大作业02125128(修改版)

模式识别大作业 班级 021252 姓名 谭红光 学号 02125128 1.线性投影与Fisher 准则函数 各类在d 维特征空间里的样本均值向量: ∑∈= i k X x k i i x n M 1 ,2,1=i (1) 通过变换w 映射到一维特征空间后,各类的平均值为: ∑∈= i k Y y k i i y n m 1,2,1=i (2) 映射后,各类样本“类内离散度”定义为: 22 ()k i i k i y Y S y m ∈= -∑,2,1=i (3) 显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离 散度越小越好。因此,定义Fisher 准则函数: 2 1222 12||()F m m J w s s -= + (4) 使F J 最大的解* w 就是最佳解向量,也就是Fisher 的线性判别式. 从 )(w J F 的表达式可知,它并非w 的显函数,必须进一步变换。 已知: ∑∈= i k Y y k i i y n m 1,2,1=i , 依次代入上两式,有: i T X x k i T k X x T i i M w x n w x w n m i k i k === ∑∑∈∈)1 (1 ,2,1=i (5) 所以:2 21221221||)(||||||||M M w M w M w m m T T T -=-=- w S w w M M M M w b T T T =--=))((2121 (6)

其中:T b M M M M S ))((2121--= (7) b S 是原d 维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大 小,因此,b S 越大越容易区分。 将(4.5-6) i T i M w m =和(4.5-2) ∑∈= i k X x k i i x n M 1代入(4.5-4)2i S 式中: ∑∈-= i k X x i T k T i M w x w S 22)( ∑∈?--? =i k X x T i k i k T w M x M x w ))(( w S w i T = (8) 其中:T i X x k i k i M x M x S i k ))((--= ∑=,2,1=i (9) 因此:w S w w S S w S S w T T =+=+)(212221 (10) 显然: 21S S S w += (11) w S 称为原d 维特征空间里,样本“类内离散度”矩阵。 w S 是样本“类内总离散度”矩阵。 为了便于分类,显然 i S 越小越好,也就是 w S 越小越好。

模式识别发展及现状综述

模式识别发展及现状综述 xxx (xxxxxxxxxxxxxxxxxxx) 摘要 [摘要]:通过对模式识别的发展及现状进行调查研究,了解到模式识别的理论和方法在很多科学和技术领域中得到了广泛的应用,极大的推动了人工智能系统的发展,同时扩大了计算机应用的可能性。模式识别 的研究主要集中在研究生物体(包括人)是如何感知对象的,以及在给定的任务下,如何用计算机实现模式 识别的理论和方法。本文详细的阐述了模式识别系统的组成结构以及模式识别的现状并展望了未来的模式 识别的发展趋势。 [关键词]:模式识别;模式识别的应用 Abstract [Abstract]:through the investigation and Study on the present situation and development of pattern recognition, knowing that the theory and method of pattern recognition has been widely used in many fields of science and technology and greatly promoting the development of artificial intelligence systems as well as expanding the fields of computer applied to.The research of pattern recognition mainly concentrated on the research of the theory and method of pattern recognition which how the organisms(including humans)to perceive objects as well as,in a given task,how to realize the pattern recognition with computer.This paper expounds the present situation and system structure of the pattern recognition as well as prospects the development trend in the future of pattern recognition. [keyword]:pattern recognition;pattern recognition applications 1前言 模式识别诞生于20世纪20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在60年代初迅速发展成一门学科。什么是模式和模式识别呢?广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)[1]。而“模式识别”则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。 经过多年的研究和发展,模式识别技术已广泛被应用于人工智能、计算机工程、机器人学、神经生物学、医学、侦探学以及高能物理、考古学、地质勘探、宇航科学和武器技术等许多重要领域,如语音识别、语音翻译、人脸识别、指纹识别、生物认证技术等。模式识别的技术对国民经济建设和国防科技发展的重要性已得到了人们的认可和广泛重视。本文将就模式识别所涉及的基本问题、研究的领域及其当前进展现状进行详细的介绍,并对模式识别的发展趋势进行展望。 2模式识别 2.1模式识别系统 一个计算机模式识别系统基本上是由三个相互关联而又有明显区别的过程组成的,即数据生成、模式分析和模式分类。有两种基本的模式识别方法,即统计模式识别方法和结构

基于聚类的图像分割方法综述

信息疼术2018年第6期文章编号=1009 -2552 (2018)06 -0092 -03 DOI:10.13274/https://www.360docs.net/doc/df9142701.html,ki.hdzj.2018. 06.019 基于聚类的图像分割方法综述 赵祥宇\陈沫涵2 (1.上海理工大学光电信息与计算机学院,上海200093; 2.上海西南位育中学,上海200093) 摘要:图像分割是图像识别和机器视觉领域中关键的预处理操作。分割理论算法众多,文中 具体介绍基于聚类的分割算法的思想和原理,并将包含的典型算法的优缺点进行介绍和分析。经过比较后,归纳了在具体应用中如何对图像分割算法的抉择问题。近年来传统分割算法不断 被科研工作者优化和组合,相信会有更多的分割新算法井喷而出。 关键词:聚类算法;图像分割;分类 中图分类号:TP391.41 文献标识码:A A survey of image segmentation based on clustering ZHAO Xiang-yu1,CHEN Mo-han2 (1.School of Optical Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai200093,China;2.Shanghai Southwest Weiyu Middle School,Shanghai200093,China) Abstract:Image segmentation is a key preprocessing operation in image recognition and machine vision. There are many existing theoretical methods,and this paper introduces the working principle ol image segmentation algorithm based on clustering.Firstly,the advantages and disadvantages ol several typical algorithms are introduced and analyzed.Alter comparison,the paper summarizes the problem ol the selection ol image segmentation algorithm in practical work.In recent years,the traditional segmentation algorithms were improved and combined by the researchers,it believes that more new algorithms are blown out. Key words:clustering algorithm;image segmentation;classilication 0引百 近年来科学技术的不断发展,计算机视觉和图像 识别发挥着至关重要的作用。在实际应用和科学研 究中图像处理必不可少,进行图像处理必然用到图像 分割方法,根据检测图像中像素不重叠子区域,将感 兴趣目标区域分离出来。传统的图像分割方法:阈值 法[1]、区域法[2]、边缘法[3]等。近年来传统分割算法 不断被研究人员改进和结合,出现了基于超像素的分 割方法[4],本文主要介绍超像素方法中基于聚类的经 典方法,如Mean Shift算法、K-m eans 算法、Fuzzy C-mean算法、Medoidshilt算法、Turbopixels算法和 SLIC 算法。简要分析各算法的基本思想和分割效果。 1聚类算法 1.1 Mean Shil't算法 1975年,Fukunaga[5]提出一种快速统计迭代算法,即Mean Shilt算法(均值漂移算法)。直到1995 年,Cheng[6]对其进行改进,定义了核函数和权值系 数,在全局优化和聚类等方面的应用,扩大了 Mean shil't算法适用范围。1997至2003年间,Co-maniciu[7-9]提出了基于核密度梯度估计的迭代式 搜索算法,并将该方法应用在图像平滑、分割和视频 跟踪等领域。均值漂移算法的基本思想是通过反复 迭代计算当前点的偏移均值,并挪动被计算点,经过 反复迭代计算和多次挪动,循环判断是否满足条件, 达到后则终止迭代过程[10]。Mean shil't的基本形 式为: 收稿日期:2017-06 -13 基金项目:国家自然科学基金资助项目(81101116) 作者简介:赵祥宇(1992-),男,硕士研究生,研究方向为数字图像处理。 —92 —

模式识别上机作业[1]培训课件

模式识别上机作业 队别:研究生二队 姓名:孙祥威 学号:112082

作业一: 1{(0,0),(0,1)} ω=, 2{(1,0),(1,1)} ω=。用感知器固定增量法求判别函数,设 1(1,1,1) w=,1 k ρ=。写程序上机运行,写出判别函数,打出图表。 解答: 1、程序代码如下: clc,clear w=[0 0 1; 0 1 1; -1 0 -1; -1 -1 -1]; W=[1 1 1]; rowk=1; flag=1; flagS=zeros(1,size(w,1)); k=0; while flag for i=1:size(w,1) if isempty(find(flagS==0)) flag=0; break; end k=k+1; pb=w(i,:)*W'; if pb<=0 flagS(i)=0; W=W+rowk*w(i,:); else flagS(i)=1; end end end W,k wp1=[0 0; 0 1;]; wp2=[1 0; 1 1]; plot(wp1(:,1),wp1(:,2),'o')

hold on plot(wp2(:,1),wp2(:,2),'*') hold on y=-0.2:1/100:1.2; plot(1/3*ones(1,size(y)),y,'r-') axis([-0.25 1.25 -0.25 1.25]) 2、判别函数。计算得到增广权矢量为*(3,0,1)T w =-,故判别函数表达式为: 1310x -+= 3、分类示意图: 图 1 感知器算法分类结果图 作业二: 在下列条件下,求待定样本(2,0)T x =的类别,画出分界线,编程上机。 1、二类协方差相等;2、二类协方差不等。 训练样本号k 1 2 3 1 2 3 特征1x 1 1 2 -1 -1 -2

模式识别及其在图像处理中的应用

武汉理工大学 模式识别及其在图像处理中的应用 学院(系):自动化学院 课程名称:模式识别原理 专业班级:控制科学与工程1603班 任课教师:张素文 学生姓名:王红刚 2017年1月3日

模式识别及其在图像处理中的应用 摘要:随着计算机和人工智能技术的发展,模式识别在图像处理中的应用日益广泛。综述了模式识别在图像处理中特征提取、主要的识别方法(统计决策法、句法识别、模糊识别、神经网络)及其存在的问题, 并且对近年来模式识别的新进展———支持向量机与仿生模式识别做了分析和总结, 最后讨论了模式识别亟待解决的问题并对其发展进行了展望。 关键词:模式识别;图像处理;特征提取;识别方法 Pattern Recognition and Its Application in Image Processing Abstract:With the development of computer and artificial intelli-gence , pattern recognition is w idely used in the image processing in-creasingly .T he feature extraction and the main methods of pattern recognition in the image processing , w hich include statistical deci-sion, structural method , fuzzy method , artificial neural netw ork aresummarized.T he support vector and bionic pattern recognition w hich are the new developments of the pattern recognition are also analyzed .At last, the problems to be solved and development trends are discussed. Key words:pattern recognition ;image processing ;feature extrac-tion;recognition methods

相关文档
最新文档