基于matlab的数字识别系统设计

合集下载

matlab 模式识别案例

matlab 模式识别案例

matlab 模式识别案例一、介绍模式识别是一种通过学习样本数据集合中的规律,从而对未知数据进行分类或预测的技术。

在实际应用中,模式识别广泛应用于图像识别、语音识别、生物信息学等领域。

而MATLAB作为一种强大的数学计算软件,提供了丰富的工具包和函数用于模式识别的实现。

本文将介绍十个基于MATLAB的模式识别案例。

二、案例一:手写数字识别手写数字识别是模式识别中的经典问题之一。

利用MATLAB的图像处理工具箱,可以实现对手写数字图像的分割、特征提取和分类。

通过对训练集的学习,建立一个分类器,然后用测试集进行验证,即可实现对手写数字的识别。

三、案例二:人脸识别人脸识别是模式识别中的重要应用之一。

利用MATLAB的人脸识别工具箱,可以实现对人脸图像的特征提取和分类。

通过对训练集的学习,建立一个人脸模型,然后用测试集进行验证,即可实现对人脸的识别。

四、案例三:语音识别语音识别是模式识别中的重要应用之一。

利用MATLAB的语音处理工具箱,可以实现对语音信号的特征提取和分类。

通过对训练集的学习,建立一个语音模型,然后用测试集进行验证,即可实现对语音的识别。

五、案例四:信号识别信号识别是模式识别中的重要应用之一。

利用MATLAB的信号处理工具箱,可以实现对信号的特征提取和分类。

通过对训练集的学习,建立一个信号模型,然后用测试集进行验证,即可实现对信号的识别。

六、案例五:文本分类文本分类是模式识别中的重要应用之一。

利用MATLAB的自然语言处理工具箱,可以实现对文本的特征提取和分类。

通过对训练集的学习,建立一个文本模型,然后用测试集进行验证,即可实现对文本的分类。

七、案例六:图像分割图像分割是模式识别中的重要问题之一。

利用MATLAB的图像处理工具箱,可以实现对图像的分割。

通过对图像的像素进行聚类,将图像划分为不同的区域,从而实现图像分割。

八、案例七:异常检测异常检测是模式识别中的重要问题之一。

利用MATLAB的统计工具箱,可以实现对数据的异常检测。

基于Matlab的语音识别系统的设计本科毕业设计

基于Matlab的语音识别系统的设计本科毕业设计

摘要语音识别主要是让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息执行人的各种意图。

语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。

本文基于语音信号产生的数学模型,从时域、频域出发对语音信号进行分析,论述了语音识别的基本理论。

在此基础上讨论了语音识别的五种算法:动态时间伸缩算法(Dynamic Time Warping,DTW)、基于规则的人工智能方法、人工神经网络(Artificial Neural Network,ANN)方法、隐马尔可夫(Hidden Markov Model,HMM)方法、HMM和ANN的混合模型。

重点是从理论上研究隐马尔可夫(HMM)模型算法,对经典的HMM模型算法进行改进。

语音识别算法有多种实现方案,本文采取的方法是利用Matlab强大的数学运算能力,实现孤立语音信号的识别。

Matlab 是一款功能强大的数学软件,它附带大量的信号处理工具箱为信号分析研究,特别是文中主要探讨的声波分析研究带来极大便利。

本文应用隐马尔科夫模型(HMM) 为识别算法,采用MFCC(MEL频率倒谱系数)为主要语音特征参数,建立了一个汉语数字语音识别系统,其中包括语音信号的预处理、特征参数的提取、识别模板的训练、识别匹配算法;同时,提出利用Matlab图形用户界面开发环境设计语音识别系统界面,设计简单,使用方便,系统界面友好。

经过统计,识别效果明显达到了预期目标。

关键词:语音识别算法;HMM模型;Matlab;GUIABSTRACTSpeech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of people.Speech recognition technology is not only an important internationally competed technology,but also an indispensable foundational technology for the national economic development.Based on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recognition technology.Five algorithm are discussed:Dynamic Time Warping(DTW)、Rule-based Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM combined with ANN.The focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm is improved.Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes dealing with signal processing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MELfrequency cepstral coefficients) as the main voice characteristic parameters, the establishment of a Chinese digital speech recognition system, including the preprocessing of the speech signal,the extraction of characteristic parameters the training of the recognition template,identifying matching algorithm;the same time,the use of Matlab graphical user interface development environment designed speech recognition system interface,is designed to be simple,easy to use,friendly interface. Besides,to have a simple exploration of the voice recognition is another target.After statistics,recognition result obviously is made out as the expected goal.Key words:Speech recognition algorithm;HMM model;Matlab;GUI目录一、前言 (1)1.1语音识别的发展历史 (1)1.2语音识别研究现状 (1)1.3语音识别系统的分类 (2)1.4语音识别系统的基本构成 (3)1.5语音识别技术难点 (3)1.6语音识别发展前景 (4)二、语音信号分析 (4)2.1语音学知识 (4)2.1.1音素和音节 (5)2.1.2汉语的声调 (5)2.1.3语音信号产生模型 (6)2.2语音信号数字化和预处理 (7)2.2.1数字化 (7)2.2.2预加重处理 (7)2.2.3防混叠滤波 (8)2.2.4加窗处理 (8)2.3语音信号的时域分析 (9)2.3.1短时能量分析 (9)2.3.2短时平均过零率 (11)2.3.3短时自相关函数和短时平均幅度差函数 (12)2.3.4语音端点检测 (13)2.4语音信号的频域分析 (14)2.4.1滤波器组法 (14)2.4.2傅立叶频谱分析 (14)2.5特征参数提取 (15)2.5.1 LPCC倒谱系数 (15)2.5.2 Mel频率倒谱系数 (16)三、语音识别主要算法 (17)3.1动态时间伸缩算法 (17)3.2基于规则的人工智能方法 (18)3.3人工神经网络方法 (19)3.4隐马尔可夫方法 (20)3.5 HMM和ANN的混合模型 (21)四、隐含马尔可夫模型算法 (23)4.1 HMM的基本理论和数学描述 (23)4.2 HMM的三个基本问题及解决算法 (24)4.3 HMM算法的改进 (31)4.4 HMM的结构和类型 (33)4.5 HMM算法实现的问题 (34)五、基于Matlab环境下的语音识别算法实现 (35)5.1识别系统平台介绍 (35)5.2在Matlab中HMM算法的实现 (36)5.2.1端点检测 (36)5.2.2特征参数提取 (36)5.2.3训练和识别 (37)5.3实验结论分析 (38)六、结束语 (39)6.1回顾 (39)6.2展望 (39)七、致谢 (40)参考文献 (40)一、前言1.1语音识别的发展历史作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。

基于matlab的手写体数字识别系统研究

基于matlab的手写体数字识别系统研究
1 . 1题 目 分析 样 本 的 特 征并 以此 对 神 经 网络 进 行 训练 , 这一 阶段 过 后, 会 图像 所 对应 的真 实 值 , 即标 签 。 这 一 点是 至 关 重 要 的, 也 是 得到一个训练成型的神经 网路模型。 然后利用总样本除去训 进行新图像识别 ( 分类) 的基础。 在后面的处理中, 无论如何
第l 8 期 2 0 l 7 年9 月
无 线 互 联 科 技 W i r e 1 e s s
N 0 . 1 8
S e pt e mb e l ? ,2 0 1 7
基于ma t l a b 的手写体数字识别系统研究
丁禹鑫’ , 丁 会2 , 张红娟2 , 杨彤彤’
( 1 . 山东大学 ( 威海) , 山东 威海 2 6 4 2 0 0 ; 2 . 国家电网成 阳供电公 司, 陕西 成阳 7 1 2 0 0 0 )
神经网络构建 以及训练模块 、 神经 网络测试模块和正确 机器 学习是一 门多领域交叉学科, 专 门研究计算机 怎样 块 、 模拟或实现人类的学习行为, 以获取新 的知识或技能 , 重新 率计算模块 几个主要模 块来实现手写体 数字识别这一基本 接下来分模块对其原理进行叙述_ 4 _ 。 组织 已有 的知识结构, 使之不断改善自身的性能。 实现机器 功能 , 学习的方法多种多样, 常见到的主要有神经网络算法、 C NN 2 . 1图像读取 模块 卷积神经网络算法、 R NN 循环神经网络算法、 E M算法、 贝叶 图像读取模 块的功 能是对搜 集到的素材进行数字化的 斯算法、 聚类算法、 回归算法、 S VM等。 本文将利用B P 神经 处理, 读取到计算机 中的模块。 其中我们采取 { i mr e a d 函数 网络算法来完成手写体数字 的识别l l 】 。 将5 0 0 0 张手写体数字图片输入计算机 。 由于计算机 的图像

基于Matlab的神经网络数字识别系统实现

基于Matlab的神经网络数字识别系统实现

写体 数 字 字符 有 所 限制 , 即 需要 有 一 定 的 工 整 度 。 通 过 对 真 实 图 片 的 处 理 , 本 系统 可对 印 刷 体 数 字 达 到 近 百 分之 百 的 识
别率 ,对较工 整的手 写体 数字 能到达近 百分之八 十 的识别 率。 关键 词:M t b al 编程 ;数字识别 ; 图像预处理 ;特征提取 a


要:通过 M t b al 编程 能形 成一种 可 以识 别扫描 到 计算机 里的 图片上 的数字 的神经 网络 数字识 别 系统 ,此 系统 能达 到 a 定的识别精度 ,其 有别于一般 的数字识 别 系统 将印刷体和 手写体 字符分开 考虑 ,而是 将 两者 结合 在一起 考虑 ,并对手
D : 1 .9 9 Ji n1 71 5 62 1 .9 0 OI 3 6 / .s.6 —6 9 .0 1 . 1 0 s 0 1
l 系统实现思想 字符识别系 统一般分为预处理 、特征提取和 分类 器三
部 分 。 其 中 , 预 处 理 包 括 将 图 片 从 模 拟 图像 到 进 行 二 值 化 、 字 符 分 割 、 归一 化 等 过 程 ; 特 征 提 取 和 分 类 器 的 设 计 是 整 个 系 统 的核 心 部 分 。 通 过 对 各 个 部 分 分 别 进 行 编 程 处 理 来 实 现 ,将 每 部 分 编 为 可 调 用 的 函数 ,最 后 统 一 对 函 数 进 行 调 用 , 清 晰 方 便 。下 面 分 别 对 每 部 分 模 块 实现 进 行 介

9 c t* O ) : :n 2 l) )
l t ( c t 1 * + n 2 = u ( t m ) e t (n - ) 5 c t ) s m A e p ;

基于MATLAB手写体数字识别程序设计

基于MATLAB手写体数字识别程序设计

• 139•基于MATLAB手写体数字识别程序设计广东工业大学自动化学院 刘思慧 江 维手写体识别由于其实用性,一直处于研究进步的阶段,本文主要针对的是对0-9十个手写数字体脱机识别,在Matlab中对样本部分为进行16特征的提取,分别采用最小距离法,最近邻法,KNN法以及BP神经网络算法进行0-9十个数字进行识别,得到每类的分类结果以及各种方法的识别准确率,比较各种方法的优缺点,最后分析比较结果,得出分类结论。

1.引言本文先是以统计学的方法进行数字识别。

识别的数字是从0到9并利用图象处理软件把这些数字处理成相同大小32*32的二值图。

将图像转换为文本格式存储,文档中只包含0和1,共计1934个样本,每类样本数目大致200个,测试样本共计946个。

读取txt文档后,从生成的矩阵中提取16个特征,然后先用统计学的理论,用最小距离法,最近邻法和KNN法,在Matlab中编写相关程序,得出相关的分类结果和错误率。

然后再使用BP神经网络,确定输入,输出节点数和隐藏层节点数,对0-9的样本特征进行训练,得到训练后的网络进行样本测试。

将基于BP神经网络的识别结果和错误率和基于统计学的方法的结果进行比较,最终得出分类的结论。

2.数字识别本文是对手写数字识别,即对0-9十个数字进行识别,我们将存储0-9十个数字的图片利用图像处理软件处理成大小相同的(32*32)的二值图,然后将图像转化成文本格式。

总共有1934个训练样本,946个测试样本。

对每个样本提取特征,这儿我们选用提取了16个特征,然后应用最小距离法,KNN在K=1,K=3,K=5时,以及神经网络,在Matlab环境下,编程分别对训练样本进行训练,测试样本进行测试识别,得到分类结果和错误率,然后对每种结果进行对比,分析错误率和分类结果,比较几种方法的优点和缺点,最终得出结论。

2.1 字符特征选择与提取特征提取是为了去除信息中对分类没有帮助的部分,将信息集中到有代表性的几个特征上来的过程。

基于MATLAB的汉语数字语音识别系统

基于MATLAB的汉语数字语音识别系统
张 培 玲 , 凌 飞 成
( 河南理工大学 电气学院 , 河南 焦作 440) 5 0 0

要: 应用动 态时间规整 (T 为识别 算法, 用M C ( E 频率倒谱 系数) D W) 采 F CM L 为主要语音特 征参数 , 建立 了一 个汉
语数字语音识别 系统 , 中包括语音信号 的预 处理 、 其 特征 参数的提 取 、 别模板 的训练、 别匹配算 法; 识 识 同时 , 出利 提 用 MA L B图形用户界 面开发环境设计语音识 别 系统界 面 , TA 设计 简单 , 用方便 , 使 系统界 面友好 。
为 了体 现语 音 的动态 特性 及能 量对 语音 区分 的作 用 , 在 上述 语 音 特征 矢 量 中加 人 了一 阶差 分 MF C 还 C 及 其 一 阶能 量 和一 阶差分 能 量 , 中能量 参 数 用语 音 其
平 均能 量进 行 了归一 化 。
3 训 练 与识 别
路 径不 是 随 意选 择 的 , 因为任 何 一种 语 音 的发 音快 慢 都有 可 能变化 , 但是 其各 部分 的先后 次 序不 可能 改变 , 因此 所选 的路 径必 定是从 左 下角 出发 , 在右上 角结 束 ,

xk z ) / . (一 n (一 (e K. i ∑ )
尸 ) xkl (=l( 。 ).

( 1 )
( 2 )
其中 , 为 52 l 点。然后再求信号能量谱 , : 即 5 根据 ( ) ) 4 式进行频率弯折 , 在弯折后 的频率轴 上取等间隔滤波器组在频域对功率谱进行滤波.
4 对加窗后的语音信号进行 5 2 ) 1 点离散傅立叶变
换( F , : D T) 即
用过零率找到语音端点的相对精确位置 , 分解 出每一 个 语 音段 。 个实例见 图 2 其 中 5 , 表示无 声段 ,表示 有声 , 段 , 示 有 声 段 结束 后 的无 声 部 分 。从 图 中可 知 有 H表

基于MATLAB的数字识别

基于MATLAB的数字识别

计算机与信息工程学院本科生毕业论文基于BP神经网络的手写数字识别算法的设计与实现班级: 13汉班学号: ************名:***指导教师:***2017 年 3 月 31 日毕业论文目录1 绪论 (1)1.1 图像识别的提出 (1)1.2 图像识别的现状与发展趋势 (1)2 BP神经网络的概述 (2)3 手写体数字识别的实现过程 (4)3.1 整体线路图 (4)3.2 算法流程 (5)3.3 图像预处理 (10)3.4 结果分析 (10)4 结论 (11)参考文献 (12)全文共13 页4834 字基于BP神经网络的手写数字识别算法的设计与实现计算机与信息工程学院 2013级汉班江晓雪 20131102507指导教师李艳玲副教授摘要本文实现了基于MATLAB关于神经网络的手写数字识别算法的设计过程,采用神经网络中反向传播神经网络(即BP神经网络)对手写数字的识别,由MATLAB对图片进行读入、灰度化以及二值化等处理,通过神经网络进行训练和测试。

实验证明:该神经网络对手写数字的识别可以达到95.65%。

关键词手写数字识别;BP神经网络;MATLAB语言1 绪论1.1 图像识别的提出图像识别在信息技术发达的今天已经占据了很重要的地位,在我们实际生活中也有很多应用。

所谓的图像识别,就是指通过计算机对图像进行相应的处理、分析,来达到识别不同模型的目标和任务的一种技术。

对于它的提出,简单的来说,它的发展经历了三个阶段:第一个是文字识别、第二个是数字图像处理与识别、第三个是物体识别。

第一种相对来说比较简单,它的研究是从1950年开始的,一般情况是识别字母、符号和数字,无论是印刷体识别还是手写体识别,它的应用都非常广泛,但是也伴随着,这个识别的过程会更加的耗时、费力,无论是人力还是物力,都会有很大的损失;第二种就是我们所说的数字图像处理与识别,在图片的识别过程中,图片识别会有一定的误差,也会带来小小的麻烦;第三就是物体识别,而物体的识别主要指的是:在三维世界中,对于个体、环境的感知和认识进行识别,这不同于二维世界的认知,相对来说是更高级的计算机图像识别,它是以二维世界中对数字图像和模拟图像处理的办法为依据,进行更高一级的,并且结合了现代人工智能技术等学科的研究目标,研究成果已经被广泛的应用在各种工业探测机器人上,为人们的安全提供了很大的帮助。

基于某MATLAB地车牌识别系统设计

基于某MATLAB地车牌识别系统设计

基于MATLAB的车牌识别系统设计学院测控与通信工程学院专业信号与信息处理学生姓名二妮子学号 1101101101指导教师么么哒基于MATLAB的车牌识别系统设计摘要:本文主要介绍了基于MATLAB的有关数字图像处理的车牌数字识别系统。

系统是利用单张包含车牌的静态图片进行识别的,整个识别过程主要分为车牌定位和字符分割和字符识别三个大的模块。

而其中的字符识别是系统的核心部分。

字符识别目前运用的最多的就是神经网络和模板匹配的方法,本文所介绍的就是基于神经网络的方法来实现车牌数字的识别。

过程中也相应结合了特征提取、直方图统计等一系列方法。

从实验得知,这种神经网络的方法实现简单,且容易理解,在确保识别准确率的前提下,可以提高识别的效率,使得系统在比较准确地定位了车牌及分割出字符后,能更准确地实现字符的识别。

关键词:车牌识别;matlab;神经网络1 引言随着我国交通运输的不断发展,智能交通系统(Intelligent Traffic System,简称ITS)的推广变的越来越重要,而作为ITS的一个重要组成部分,车牌识别系统(LPRS)是智能交通系统的重要组成部分。

随着机动车辆数量的大幅度增加以及计算机技术的发展,人们对交通控制系统的要求显著提高。

因而智能交通系统被广泛地应用于交通控制系统当中,比如高速公路收费、停车场车辆管理、违章车辆监控、交通诱导控制等场合。

这使得车牌识别系统也得到了更广泛的关注。

与传统的车辆管理方法比较,车牌识别系统可以大大提高交通管理的效率和水平,帮助实现车辆管理的规范化。

由于牌照是机动车辆管理的唯一标识符号,因此,车辆牌照识别系统的研究在机动车管理方面具有十分重要的实际意义。

2 车辆牌照识别系统工作原理车辆牌照识别系统的基本工作原理为:将摄像头拍摄到的包含车辆牌照的图像通过视频卡输入到计算机中进行预处理,再由检索模块对牌照进行搜索、检测、定位,并分割出包含牌照字符的矩形区域,然后对牌照字符进行二值化并将其分割为单个字符,然后输入JPEG 或BMP格式的数字,输出则为车牌号码的数字。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数字识别系统1.绪论1.1研究背景1.1.1索书号的简介索书号是图书馆赋予每一种馆藏图书的号码,这种号码具有一定结构并带有特定的意义。

在馆藏系中,每种书的索书号是唯一的,可准确地确定馆藏图书在书架上的排列位置,它是读者查找图书必要的代码信息。

索书号通常是根据中国图书资料分类法编排的【1】——简称《中图法》。

《中图法》采拉丁字母和阿拉伯数字相结合的混合标记符号。

根据图书的学科主题,以拉丁字母标记并顺序展列出22个基本大类,其中没有L、M和Y开头的——参考附录1中图法简表。

由于“T工业技术”的大类范围广泛、内容繁多,故又在该类基础上采用双位拉丁字母标记出16个二级类目,如TK、TL、TM和TN等。

字母之后再用阿拉伯数字对大类进行细分。

如B表示哲学、宗教一大类;B020则表示宗教理论。

有的图书馆如清华大学还在图书分类号码后添加按照图书作者姓名所编排的著者号码,或者是按照图书进馆时间的先后所取用的顺序号码。

不同索书号确定排列先后顺序的步骤是,先比较分类号码:如分类号码相同再比较著者号码或顺序号码。

最后按照字母表和数字大小的顺序排列。

1.1.2书库中图书查找存在的问题随着电子计算机和网络技术的发展,现代图书馆都已经广泛建立电子数据库图书管理系统,方便用户查找、阅览书籍。

读者借图书的流程如图2所示,一般利用书目查询系统,根据图书的书名,出版社,作者以及书的内容等在电子数据库中检索自己需要的图书,记录图书相关信息。

最后,根据图书的索书号,快速方便地在书库中找到相应的图书。

但是,经常会遇到下列问题:电子数据库系统显示图书状态为“归还”,利用检索到号,却无法在书库找到此书。

出现这种情况主要有两个原因:(1)图书错位放置,即图书在书库中摆放的位置与索书号不一致。

(2)图书已经丢失,即虽然电子数据库中显示图书状态为“归还”,但实质图书已经丢失,并不在书库中。

随着图书馆藏书数目的不断增加,每天借阅的人数增多,而且有的图书馆发展成拥有几个分馆,上述问题越来越严重。

这一方面严重降低了图书馆的资源的利用率;另一方面,浪费了读者的时间,造成了很大麻烦。

目前,图书馆主要通过定期的人工检查发现书库中错位和丢失的图书。

但是,由丁馆藏图书多达上万,甚至几十万,而且每天又都有大量图书的借出和还入,人工检查工作量很大,单调、重复的工作容易使工作员疲劳,检查速度比较慢,无法满足实际的需要。

因此,迫切希望开发索书号自动识别系统,实现对书库中图书放置位置的自动检查,并通过索书号识别结果与电子数据库中图书信息的比较,找出已经丢失的图书。

确保电子数据库中的图书状态与书库中的一致,以及书库中的图书准确排放,从而有效解决上述“用索书号找不到图书”的问题。

1.2.索书号自动识别系统近年来,随着电子计算机技术、图像处理技术和摄像技术的迅速发展,图像中的文字信息提取系统已经成功地应用于各个领域。

因此,借助其经验,本文研究采用图像处理和识别技术实现索书号的自动识别。

1.2.1索书号自动识别系统概述系统的硬件由彩色CCD摄像头,8位图像采集卡和计算机组成,拍摄的图像为8位RGB彩色数字图像。

如图1-1所示1.2.2 索书号识别存在的问题及关键技术索书号识别所涉及的摄像技术,无线通讯技术,电子数据库图书管理技术,AGV自动导引技术和图像处理技术都已经在其他领域有成功应用的实例。

图像处理技术是索书号识别的核心技术,而与相类似的应用相比,索书号图像处理与识别又有其自身显著的特点和难点。

图书馆收集了近几十年的藏书,不同时代的索书号编写风格大不相同。

本论文选取图书馆的主要类别图书——印刷体索书号,从图书馆的书架上随即抽取样本进行研究。

如图7所示,CCD摄像头拍摄的索书号图像,由于光照不均匀、退色、污迹、噪声以及其他非索书号文字的存在,大大增加了索书号识别的困难。

为了能够解决上述问题,索书号图像识别主要由以下4个模块组成:索书号定位,索书号提取,索书号字符切分和索书号单字识别。

第一阶段:索书号定位是在图像中找到包含索书号的图像区域,要求该区域尽可能包含完整的索书号,同时尽量排除非索书号的图像区域。

由于该阶段是解决索书号的区域查找问题,而没有涉及单字切分,因此图像区域的估计允许有一定误差。

为了包含完整的索书号以及避免索书号漏检,往往是定位得到的图像区域略大于索书号的真实区域。

索书号定位主要存在两个问题:(1)受不均匀光照和褪色的影响,索书号的纹理特征、颜色特征以及形状特征等有较大的变化,可靠性相对较差;(2)有的索书号由1个字符串组成,有的索陆号由2个字符串组成,而在索书号的周围附近还会存在其他文字,如出版社名称和作者姓名。

因此,将索书号与其他文字相区别比较困难。

第二阶段:索书号提取是在定位得到的索书号区域中,将索书号字符与周围目标和背景相互分离。

通过二值化处理,能将字符与背最相互分离。

但由于定位得到的图像区域略大于真实索书号区域,二值化后在索书号字符附近可能会存在一些非字符目标,影响后续的单字切分和识别。

所以,二值化后采用连通域滤波进一步消除索书号周围的非字符目标。

索书号提取主要存在的问题:(1)不均匀光照增大了索书号图像的灰度值变化范围。

(2)褪色程度的不同则降低了字符与背景的对比度。

(3)污迹的影响。

上述因素的存在不仅使得确定二值化过程中合理的阈值非常困难,而且会改变索书号字符的形状特征,最终影响连通域滤波的性能。

第三阶段:索书号字符切分是将索书号字符串切分成一个个字符,以提供给识别算法进行识别。

单字切分的结果如何将直接影响识别结果,而且切分好坏除字符能否正确识别之外,没有较好的判别依据。

因此,单字切分往往与字符识别紧密结合在一起。

索书号的单字切分可以分为两种情况:非粘连单字切分和粘连字符的单字切分。

非粘连单字切分比价容易解决。

但质量较差索书号图像二值化处理后,相邻字符可能会发生粘连。

而粘连索书号切分存在的主要问题是(1)粘连字符的切分比较困难:(2)索书号字符发生粘连有一部分是字符的笔画发生变形所致,如笔划宽度变粗等。

即使正确的切分也不一定能够完全修正笔画的变形,即无法通过粘连切分恢复字符的原形。

第四阶段:索书号单字识别。

印刷体单字识别的研究已经相当成熟,只是与其他应用领域的文字识别相比,索书号文字的质量较差,存在字符不均匀褪色,笔划残缺以及大面积污迹等问题,2索书号文字图像分割复杂背景图像中的文字定位和分割是从图像中获取文字信息的关键步骤,直接影响到后续文字识别的准确性,它在机器人视觉.汽车牌照自动识别,计算机文本自动输入,邮件地址自动识别,集装箱编号自动识别以及视频图像内容的检索等系统中都有广泛的应用。

CCD拍摄的图书索书号图像如图2-1所示.图像中除了索书号还包含尤其他文字,红色条形框还包含有其他文字,红色条形框以及装饰景物等,为了能够正确识别该书的索书号,首先必须从图像中正确分割出索书号图像。

图2-1 图书索书号图像但是,从图像尤其场景图像中自动定位和分割文字是比较困难的,其主要原因有以下几个方面:第一,文字嵌入在图像中,并与其它图形共存,如边框,商标,装饰物以及污点等;第二,由于文字颜色退化,文字颜色不均匀,热切背景颜色有食欲吻脖子颜色差异很小;第三,文字尺寸大小变化;第四,关照条件无法控制,广州不均匀;第五,索书号文字与其他文字。

本课题利用基于边缘点数量统计的文字图像分割方法。

根据图书馆索书号的制定规则,索书号文字图像具有如下特征:第一,索书号文字采用黑色应刷;第二,索书号文字的数量至少为3个;第三,索书号字符水平排列;第四,索书号贴在书脊的下半部分。

它的算法流程如图2-2所示,实验结果证明,该方法具有定位精度高,准确率高,抗噪能力强,并在“索书号自动识别系统”中取得理想效果。

图2-2索书号图像分割算法流程2.1 HSI 彩色空间转换摄像头拍摄的彩色图片的像素点通常是采用24位RGB 表示。

但R ,G 和B3分量之间有很高的相关性,直接利用这些分量常常不嫩得到所需的分割效果。

比较接近人堆颜色视觉感知的是色度,饱和度和亮度空间。

其中I 表示颜色的敏感程度,H 表示不同的颜色,S 表示颜色的深浅,I 分量与彩色信息无关,H 和S 与人感受彩色的方式紧密相连。

本算法中,只对边缘点进行财社分割,切自用S 分量。

英雌,问了减少算法的耗时,首先子转换I 分量,如图2-3所示,待边缘检测出来后,再堆边缘点进行S 分量计算。

转换关系如下: I=(R+G+B)/3 (2-1)S=1-3/(R+G+B)*[min(R,G,B)] (2-2)图2-2 HSI 彩色空间的I 分量图2.2 Canny 算子检测Canny 算子边缘检测先计算X 和Y 方向的梯度平方和,局部最大的梯度幅值局部变化最大的点的过程叫非极大值抑制。

Canny 算子边缘检测有如下3个指标:第一,对每个边缘点有唯一的响应,得到的边缘为单像素狂;第二,错误率最低,即要少将真正的边缘点丢失也要少将非边缘点判为边缘点;第三,高位置精度,检测的边缘应在正真的边界上。

为此,Canny 像影帝定义了3给准函数衣表达上述指标的约束:a ,信噪比函数准则;b ,定位精度准这函数;c ,单边缘响应准这函数。

这三个准则相结合可以检测的最佳的边缘。

Canny 算子中有3个参数,σ是高斯函数闻不得参数,他控制平滑程度:高阈值(TG )和低阈值(TL)。

实验中σ设置为1,TL=0.4*TG 。

这样在Canny 算子中只保留了一个参数高阈值(TG)。

实际应用中,TG 取值只需要满足两个条件:第一,确保尽可能地检测出索书号文字的边缘点,这粗限定了TG 取值的最高上限;第二,确保加边缘尽可能少,这限定了TG 取值的下限。

由于文字和背景具有较强的对比度,TG 取值有一个较大的范围,实验中TG=0.2。

如图2-4所示,即实验中的Canny 算子边缘检测结果。

图2-3 Canny 算子检测的边缘2.3索书号边缘点彩色分割 文字图像有一些独特的特征,文字图像的解构比较复杂,边缘像素点比较多,切分布比较集中。

受光照条件和文字颜色退化程度不同的影响,文字部分特征如对比度,亮度等容易搜到干扰,但是文字的边缘分布规律且有较强的干扰性能。

Canny 算子检测等到的边缘点在HSI 彩色空间S 分量上精心索书号文字边缘点的分割。

由于索书号文字采用黑色应刷,但发生不同程度的退色,继黑岩色的饱和度S 有一定的变化,故BW_Word(i,j)=⎩⎨⎧01 S1≤S ≤s2 and BW(i,j)=1 (2-3) 式中, BW(i,j)是Canny 算子检测的边缘,BW_Word(i,j)是文字的边缘点,S1和S2表示索书号文字S 分量对应的范围。

实验中,去S1=0,S2=0.05。

经边缘点S 分量分割后的图像如图2-5所示,图中的边缘点为主要的文字边缘点。

相关文档
最新文档