光学字符识别

光学字符识别
光学字符识别

光学字符识别

OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍。比如用手机给名片拍照,名片中的姓名、电话号码等信息就会自动识别进入到手机中,从此查询、拨打轻而易举。目前支持该功能的手机主要有摩托罗拉A1200、索爱P990和LG G832等。所以,OCR是一种非常快捷、省力的文字输入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。

由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。

在此对OCR作一基本介绍,包括其技术简介以及其应用介绍。

OCR的发展

要谈OCR的发展,早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。 OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫瞄品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方法,亦是决定产品好坏的重要因素。

一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。其处理流程如下图:

从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。

在此逐一介绍:

影象输入:欲经过OCR处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影象前处理:影像前处理是OCR系统中,须解决问题最多的一个模块,从得到一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像的过程,都属于影像前处理。包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理。在影像处理方面,在学理及技术方面都已达成熟阶段,因此在市面上或网站上有不少可用的链接库;在文件前处理方面,则凭各家本领了;影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的题纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。

文字特征抽取:单以识别率而言,特征抽取可说是OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。

对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。

对比识别:这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。

字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。

字词数据库:为字词后处理所建立的词库。

人工校正:OCR最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率,因此,文字影像与识别文字的对照,及

其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的错,就完全看使用单位的需求了。

结果输出:其实输出是件简单的事,但却须看使用者用OCR到底为了什么?有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样,所以有原文重现的功能、有人注重表格内的文字,所以要和Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。

提高OCR识别率

购买了扫描仪,你一定会发现,附赠的软件中有中英文OCR识别软件,当然一般都是基础版。很多人认为此类OCR的识别率不是很高,甚至怀疑只有那些正版的数千元的OCR软件其识别率才很高。其实,你只要注意使用技巧,此类OCR的识别率完全可达实用化水平。

1、处理原稿扫描图像,使之清晰可“辨”。在其它因素都满足的前提下,对一般的印刷稿、打印稿(包括清晰的针打稿)等质量较好的文稿进行识别,其识别率一般可达到98%以上。而对报纸、复印件等不太清晰的文稿进行识别,无论哪种OCR都难以达到较高的识别率。对那些原稿不太清晰的,要注意识别前对图像加以处理,除去其上的污迹。并注意将偏斜的版面“改斜归正”,通常OCR软件均有此功能,且一般都设有自动纠偏和手动纠偏。

2、分辨率应选择适宜。一般选择300dpi较合适,分辨率选小了会使识别率降低,选得太大了并不能有效提高识别率,还会大幅度加长文件长度,浪费处理时间。有的扫描软件设备上有一项“OCR扫描”,干脆将分辨率锁定为300dpi,这是很有道理的。

3、调整好亮度值和对比度值。这条非常关键,对识别率的影响很大。亮度值的调整是在识别前,先看看扫描得到的图像中文字质量如何,如果文字线条凹凸不平,甚至有断线,说明亮度值太大了,应减小亮度值;当文字线条很黑很粗,甚至挤成了黑疙瘩,分不清笔划时,则说明亮度值太小了,应增加亮度值;对比度的调节要视原稿确定,笔者常根据预扫时图像清晰度确定。

4、利用OCR的自学习功能。有时OCR对某些字总是难以识别,比如OCR 开始对“的”和“二”等字总是搞错,这时可以利用OCR软件的自学习功能,“引导”它正确识别一次(有些不同的字体各需一次),它以后就对这些字“熟识”了。具体操作极易,上机看一下菜单即可明白。另外,若原稿全是英文或其中中文很少,最好用附赠的英文OCR软件。还有,现在已有一些很好的文字校对软件,其中一般都设置了OCR校对,利用这些软件先行处理一下所得文本文件,则可大大减轻人工校对负担。

一种字符识别算法在自动识别系统中的应用_刘春雨

25卷 第3期2008年3月 微电子学与计算机 MICROELECTRONICS &COMPUTER Vol.25 No.3March 2008 收稿日期:2007-05-08 一种字符识别算法在自动识别系统中的应用 刘春雨,李 俊 (中国科学院计算机网络信息中心,北京100080) 摘 要:基于车牌识别系统的开发,提出一种基于二值图像的字符识别算法.在该算法中,提取字符的点阵特征、特征线和网格特征,分类器采用神经网络.为充分利用各组特征向量的互补作用,采取层次结构来获得系统的最佳性能.实验表明此算法非常有效. 关键词:字符识别;网格特征;神经网络 中图分类号:TP393 文献标识码:A 文章编号:1000-7180(2008)03-0071-03 A Character Recognition Algorithm in the Application of Vehicle License Plate Recognition System LIU Chun 2yu,LI Jun (Computer Network Information Center,Chinese Academy of Sciences,Beijing 100080,China) Abstr act:We extract the features including the Lattice Structure,Key Line and Gr id F eatures.T he network is used as t he classificat ion.To make full of use of all kinds of featur e vectors,the hierarchical algorithm is adapted for optimal per 2formance.We test our algorithms in car number plate database.As the experimental results show,our algor ithm is very efficient. Key words:OCR;grid featur es;nerve network 1 引言 车牌识别系统就是利用光学字符识别技术解决汽车牌照识别的典型系统,它的开发与应用有利于交通的控制与管理,是智能交通系统(IT S)中一个重要组成部分.车牌识别系统的软件部分主要由四部分组成,包括预处理、车牌定位、字符定位与字符识别.这四部分是顺序执行,而每个处理模块都为下一步处理作铺垫,其中字符识别模块是最后一步,也是衡量系统整体性能的一步. 字符识别涉及两个方面,即特征提取和识别方法,二者是继承互补的关系.关于字符的特征提取,目前已有许多经典的算法被提出来.根据字符的图像类型不同,特征提取可以分为彩色特征提取、灰度特征提取和二值特征提取;根据字符特征提取的基础可以分为点阵式统计特征提取,骨架或者细化特 征提取;根据字符特征提取的内容可以分为统计特征的提取,逻辑特征或者笔画特征提取等. 利用二值图像进行字符识别已提出多种算法[126],但识别效率和计算复杂度尚不能令人满意.为此提出新的字符识别算法. 2 算法 经过以上的字符预处理,将二值字符图像送入识别模块,完成字符识别任务.对于二值图像作如下几个步骤:归一化、细化和识别. 2.1 归一化和细化 把分割的二值图像进行线性缩放归一化,这样有利于特征提取和字符识别.归一化就是对实际提取的字符进行缩放操作,最后得到预定大小的字符图像.根据车牌号图片库中提取的4万多个字符样本,统计出样本的平均宽高为:20@16像素,因此利

基于神经网络方法的字符识别方法

论文写作与规范 题目:基于神经网络方法的字符识别方法 学号: 210802102 专业:计算机系统结构 姓名:靳飞飞 2009 年 1 月 9日

基于神经网络方法的字符识别方法 靳飞飞 (中国海洋大学信息科学与工程学院, 山东青岛266071) 摘要:字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,而是模式识别领域中大多数课题都会遇到的基本问题,并且在不同的课题中,由于具体的条件不同,解决的方法也不尽相同,因而字符识别的研究仍具有理论和实践意义。这里讨论的是用神经网络方法实现基于照相的数字图像的字符识别的问题。并且通过模板匹配的方法作为参照,以体现神经网络在处理模式识别问题上的优势。由于人工神经网络的非线性以及并行性和鲁棒性等特点,在上述领域,其取得了以往传统算法无法获得的成功。 关键词:神经网络;字符识别;图像处理 Character recognition based on neural network Jin Feifei (College of Information Science and Engineering,Ocean University of China,Qingdao 266071,China) Abstract:Character recognition is a traditional problem in the field of pattern recognition, for it is rather an isolated task than a fundamental problem in most work of pattern recognition area, with which we have various methods to deal in terms of specific conditions. That means the pursuit of character recognition is of great significance both in theory and in practice .The goal of this paper is using neural network to recognize characters on digital image based on camera. It also can be seen, in the paper, the advantage of neural network compared with the template matching method. Because its nonlinearity, parallel and strong, in these fields mentioned above, artificial neural network has achieved the success which other traditional algorithms can not reach. Key word: neural network, character recognition, image processing 1引言 字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,

基于MATLAB的字符识别研究

基于MATLAB的字符识别研究 汽车牌照识别程序的设计 摘要:本次课程设计的目的是通过对基于MATLAB的字符识别的研究,以汽车牌照识别的设计为实例,详细介绍字符识别的相关原理。整个汽车牌照识别的过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用MATLAB软件编程来实现每一个部分,最后识别出汽车牌照。在研究的同时对其中出现的问题进行了具体分析,处理。寻找出对于具体的汽车牌照识别过程的最好的方法。 关键词:MATLAB 字符识别车牌识别神经网络图像处理 引言 在MATLAB的字符识别研究中,汽车牌照的识别是最经典的样例,因为车辆牌照识别系统(License Plate Recognition System,简称LPRS)是建设智能交通系统不可或缺的部分。基于 MATLAB 图像处理的汽车牌照识别系统是通过引入数字摄像技术和计算机信息管理技术,采用先进的图像处理模式识别和人工智能技术,通过对图像的采集和处理,获得更多的信息,从而达到更高的智能化管理程度。车牌识别系统整个处理过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用 MATLAB软件编程来实现每一个部分处理工程,最后识别出汽车牌照。 一、MATLAB及其图像处理工具概述 MATLAB 是 MATrix LABoratory (矩阵实验室)的缩写,是 Math Works 公司开发的一种功能强效率高简单易学的数学软件。MATLAB 的图像处理工具箱,功能十分强大,支持的图像文件格式丰富,如 *.BMP、*.JPG、 *.JPEG、 *.GIF、 *.TIF 、*.TIFF、 *.PNG 、*.PCX、*.XWD、 *.HDF、*.ICO 、*.CUR 等。MATLAB 7.X 提供了20 多类的图像处理函数,几乎涵盖了图像处理的所有技术方法,是学习和研究图像处理的人员难得的宝贵资料和加工工具箱。这些函数按其功能可分为:图像显示、图像文件 I/O、图像算术运算、几何变换、图像登记、像素值与统计图像分析、图像增强、线性滤波、线性二元滤波设计、图像去模糊、图像变换、邻域与块处理、灰度与二值图像的形态学运算、基于边缘的处理、色彩映射表操作色彩空间变换图像类型与类型转换。MATLAB 还着重在图形用户界面(GUI)的制作上作了很大的改善,对这方面有特殊要求的用户也可以得到满足。本文将给出 MATLAB 的图像处理工具箱中的图像处理函数实现图像处理与分析的应用技术实例。 二、基于 MATLAB图像处理的汽车牌照识别系统 1.系统组成 基于 MATLAB图像处理的汽车牌照识别系统主要包括车牌定位字符车牌分割和车牌字符识别三个关键环节其识别流程图如图 1所示。 图1 识别流程图

一种基于多模板匹配的字符识别方法

一种基于多模板匹配的字符识别方法 李 婧,龚晓峰,王瑞辉 (四川大学 电气信息学院 成都 610065) 摘要:本文在对字符进行各种预处理,包括倾斜校正,归一化,分割的基础上,依据字符的高度,宽度范围,提出了一种基于多模板匹配的字符识别方法,并将该算法运用于仿宋_GB2312字体,识别率达到98%以上,有效的提高了识别正确率,简单易实现。 关键词:倾斜校正;字符分割;多模板匹配 中图分类号:TP391.41 文献标识码:A A recognition method of characters based on Multi-Template Matching LI Jing, GONG Xiao-feng, Wang Rui-hui (College of Electrical Information, Sichuan University, Chengdu 610065, China) Abstract: This paper first do pretreatment such as skew correction, normalization, segmentation of characters, etc. Then it presented a new muti-template matching method according to the range of the character’s width and height. At last, the experiment used in the FangSong_GB2312 font show that this method can improve recognition accuracy and is easy to put into practice. Keywords: skew correction; character segmentation; multi-template matching 0 引言 字符识别是图像处理和模式识别领域中的研究课题之一,它涉及模式识别、图像处理、人工智能、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、人工智能、车牌识别、交通管理等高技术领域都有着重要的实用价值和理论意义[1]。目前字符识别主要有以下几种方法:1)利用字符的统计特征进行特征提取,2)基于字符结构分析的识别方法,3)利用字符的结构特征和变换进行特征提取,4)基于模板匹配的方法进行字符识别,5)近年来又出现了基于神经网络的算法和基于矩和小波变换的识别算法。但由于同一字体的字符有各种字号的差异,单一的运用上述某一种方法的效果都不理想[2]。为了提高识别率,本文从识别率较高的模板匹配法入手,对单模板匹配和特征模板进行改进,提出了一种根据字符高度,宽度值为每个字聚类多个模板,最后采用海明距离实现多模板的匹配。通过将该算法运用于仿宋_GB2312字体,发现这一方法能有效解决相似度高的字符的正确识别问题,有一定的实用价值。 1 识别系统总体方案 字符识别系统一般包括字符预处理,字符分割,字符识别三个环节,系统框图如图1所示。

光学字符识别

光学字符识别 OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍。比如用手机给名片拍照,名片中的姓名、电话号码等信息就会自动识别进入到手机中,从此查询、拨打轻而易举。目前支持该功能的手机主要有摩托罗拉A1200、索爱P990和LG G832等。所以,OCR是一种非常快捷、省力的文字输入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。 由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。 在此对OCR作一基本介绍,包括其技术简介以及其应用介绍。 OCR的发展 要谈OCR的发展,早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。 OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫瞄品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方法,亦是决定产品好坏的重要因素。 一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。其处理流程如下图:

字符识别方法归纳

字符识别 一、理论 1.结构模式识别:根据字符结构特征进行识别,可用来识别汉字,但抗干扰能力差。可用来识别少量和简单的字符,如数字。 2.统计模式识别:其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。 常见的统计模式识别方法有: (1) 模板匹配。模板匹配并不需要特征提取过程。字符的图象直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。 (2)利用变换特征的方法。对字符图象进行二进制变换(如Walsh, Hardama变换)或更复杂的变换(如Karhunen-Loeve, Fourier,Cosine,Slant变换等),变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。K-L变换虽然从最小均方误差角度来说是最佳的,但是运算量太大,难以实用。总之,变换特征的运算复杂度较高。 (3)投影直方图法。利用字符图象在水平及垂直方向的投影作为特征。该方法对倾斜旋转非常敏感,细分能力差。 (4)几何矩(Geometric Moment)特征。M. K. Hu提出利用矩不变量

作为特征的想法,引起了研究矩的热潮。研究人员又确定了数十个移不变、比例不变的矩。我们都希望找到稳定可靠的、对各种干扰适应能力很强的特征,在几何矩方面的研究正反映了这一愿望。以上所涉及到的几何矩均在线性变换下保持不变。但在实际环境中,很难保证线性变换这一前提条件。 (5)Spline曲线近似与傅立叶描绘子(Fourier Descriptor)。两种方法都是针对字符图象轮廓的。Spline曲线近似是在轮廓上找到曲率大的折点,利用Spline曲线来近似相邻折点之间的轮廓线。而傅立叶描绘子则是利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的。前者对于旋转很敏感。后者对于轮廓线不封闭的字符图象不适用,因此很难用于笔划断裂的字符的识别。 (6)笔划密度特征。笔划密度的描述有许多种,这里采用如下定义:字符图象某一特定范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透次数。这种特征描述了汉字的各部分笔划的疏密程度,提供了比较完整的信息。在图象质量可以保证的情况下,这种特征相当稳定。在脱机手写体的识别中也经常用到这种特征。但是在字符内部笔划粘连时误差较大。 (7)外围特征。汉字的轮廓包含了丰富的特征,即使在字符内部笔划粘连的情况下,轮廓部分的信息也还是比较完整的。这种特征非常适合于作为粗分类的特征。 (8)基于微结构特征的方法。这种方法的出发点在于,汉字是由笔划组成的,而笔划是由一定方向,一定位置关系与长宽比的矩形段组

Microsoft Office直接执行光学字符识别(OCR)

提取图片中的文字Office也能行 微软在Microsoft Office 2003中的工具组件中有一个“Microsoft Office Document Imaging”的组件包,它可以直接执行光学字符识别(OCR),下面笔者就为大家介绍利用Office 2003新增的OCR功能从图片中提取文字的方法。 第一步我们需要安装“Microsoft Office Document Imaging”的组件,点“开始→程序”,在“Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行(如图1所示)。 图1 安装组件 第二步打开带有文字的图片或电子书籍等,找到你希望提取的页面,按下键盘上的打印屏幕键(PrintScreen)进行屏幕取图。 第三步打开Microsoft Office Word 2003 ,将刚才的屏幕截图粘贴进去;点击“文件”菜单中的“打印”,在安装Microsoft Office Document Imaging组件后,系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。如图2所示,在“打印机”下拉列表框中选择“Microsoft Office Document Imaging Writer”打印机,其他选项无须额外设置,点击“确定”按钮后,设定好文件输出的路径及文件名(缺省使用源文件名),然后很快就可以自动生成一个MDI格式的文档了。 图2 选择打印机

打开刚才保存的MDI类型文件(如图3所示),根据你的需要用鼠标选择文字内容(被选中的内容在红色的框内),然后单击鼠标右键,在弹出的快捷菜单中选择“将文本发送到Word”,即可将图片内容自动转换为一个新的Word文档,然后你就可以在Word文档中随心所欲地进行编辑了。 图3 将文本发送到Word 提示:如果你不想将转换的内容输入到一个新的Word 文档中,而是希望粘贴到一个已经打开的Word 文档,只需在上面的操作中点击右键菜单的“复制”,然后再到指定文档中执行粘贴即可。()

基于MATLAB的字符识别研究

function Bayes2 %算法视线见《模式识别》P33-P44(各类样本的协方差不相等) %为了提高实验样本测试的精度,故采用多次模拟求平均值的方法 N=input('实验模拟次数 N(N最好为奇数)= '); Result(1:3,1:3)=0; %判别矩阵的初始化 for k=1:N %控制程序模拟次数N %生成二维正态分布的样本2 X N 维的矩阵 X1=mvnrnd([1 2],[4 0;0 6],300)'; %2 X N X2=mvnrnd([5 3],[5 0;0 1],200)'; X3=mvnrnd([4 7],[2 0;0 9],500)'; %样本程序 %---------------------------------------------------% %测试样本 X10=mvnrnd([1 2],[4 0;0 6],100)'; %2 X N X20=mvnrnd([5 3],[5 0;0 1],100)'; X30=mvnrnd([4 7],[2 0;0 9],100)'; %先验概率 P(1)=length(X1)/(length(X1)+length(X2)+length(X3)); P(2)=length(X2)/(length(X1)+length(X2)+length(X3)); P(3)=length(X3)/(length(X1)+length(X2)+length(X3)); %计算相关量 cov(X):协方差矩阵 Ave:均值 %--------------------------------------------------------% W1=-1/2*inv(cov(X1')); W2=-1/2*inv(cov(X2')); W3=-1/2*inv(cov(X3'));% Ave1=(sum(X1')/length(X1))';Ave2=(sum(X2')/length(X2))'; Ave3=(sum(X3')/length(X3))';%计算平均值(2维列向量) w1=inv(cov(X1'))*Ave1;w2=inv(cov(X2'))*Ave2;w3=inv(cov(X3'))*Ave3;%2 w10=-1/2*Ave1'*inv(cov(X1'))*Ave1-1/2*log(det(cov(X1')))+log(P(1)); w20=-1/2*Ave2'*inv(cov(X2'))*Ave2-1/2*log(det(cov(X2')))+log(P(2)); w30=-1/2*Ave3'*inv(cov(X3'))*Ave3-1/2*log(det(cov(X3')))+log(P(3)); %-----------------------------------------------------------% for i=1:3 for j=1:100 if i==1 g1=X10(:,j)'*W1*X10(:,j)+w1'*X10(:,j)+w10; g2=X10(:,j)'*W2*X10(:,j)+w2'*X10(:,j)+w20; g3=X10(:,j)'*W3*X10(:,j)+w3'*X10(:,j)+w30; if g1>=g2&g1>=g3

光学字符识别解析

光学字符识别系统 摘要:本文设计了一系列的算法,完成了文字特征提取、文字定位等工作,并基于卷积神经网络(CNN)建立了字符识别模型,最后结合统计语言模型来提升效果,构建一个完整的OCR(光学字符识别)系统.在特征提取方面,抛弃了传统的“边缘检测+腐蚀膨胀”的方法,基于一些基本假设,通过灰度聚类、图层分解、去噪等步骤,得到了良好的文字特征,文字特征用于文字定位和模型中进行识别。在文字定位方面,通过邻近搜索的方法先整合特征碎片,得到了单行的文字特征,然后通过前后统计的方法将单行的文字切割为单个字符。在光学识别方面,基于CNN的深度学习模型建立单字识别模型,自行生成了140万的样本进行训练,最终得到了一个良好的单字识别模型,训练正确率为99.7%,测试正确率为92.1%,即便增大图片噪音到15%,也能有90%左右的正确率.最后,为了提升效果,结合了语言模型,通过微信的数十万文本计算常见汉字的转移概率矩阵,由Viterbi算法动态规划,得到最优的识别组合。经过测试,系统对印刷文字的识别有着不错的效果,可以作为电商、微信等平台的图片文字识别工具. 关键字:CNN,特征提取,文字定位,单字识别

1 研究背景和假设 关于光学字符识别(Optical Character Recognition, OCR),是指将图像上的文字转化为计算机可编辑的文字内容,众多的研究人员对相关的技术研究已久,也有不少成熟的OCR技术和产品产生,比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是,ABBYY FineReader 不仅正确率高(包括对中文的识别),而且还能保留大部分的排版效果,是一个非常强大的OCR商业软件. 然而,在诸多的OCR成品中,除了Tesseract OCR外,其他的都是闭源的、甚至是商业的软件,我们既无法将它们嵌入到我们自己的程序中,也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR,但它的识别效果不算很好,而且中文识别正确率偏低,有待进一步改进. 综上所述,不管是为了学术研究还是实际应用,都有必要对OCR技术进行探究和改进. 将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面,逐步进行解决,最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别,以判断上面信息的真伪.

本科毕业论文---基于bp神经网络的字符识别算法的实现正文

一、原始依据(包括设计或论文的工作基础、研究条件、应用环境、工作目 的等。) 工作基础:了解C++的基本概念和语法,熟练使用Visual C++6.0软件。 研究条件:BP神经网络的基本原理以及图像处理的基本常识。 应用环境:基于BP神经网络的图片图像文件中的字符识别。 工作目的:掌握基于Visual C++6.0应用程序的开发。 了解人工智能的基本概念并掌握神经网络算法的基本原理。 掌握Visual C++6.0中的图片处理的基本过程。 二、参考文献 [1]人工智能原理及其应用,王万森,电子工业出版社,2007. [2]VC++深入详解,孙鑫,电子工业出版社,2006. [3]人工神经网络原理, 马锐,机械工业出版社,2010. [4]Visual C++数字图像处理典型案例详解,沈晶,机械工业出版社,2012. [5]Application of Image Processing to the Characterization of Nanostructures Manuel F. M. Costa,Reviews on Advanced Materials Science,2004. 三、设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。) 1、掌握C++的基本概念和语法。 2、掌握二维神经网络的基本原理。了解BP神经网络的基本概念。 3、完成Visual C++中对于图像的灰度、二值化等预处理。 4、完成基于样本的神经网络的训练以及图像中数字的识别,并对其性能进 行统计和总结,分析其中的不足。 指导教师(签字) 年月日 审题小组组长(签字) 年月日

基于HALCON的喷码光学字符识别

研究生 《机器视觉》 课程论文 2015 年 6 月 30 日 题目 (中文): 基于HALCON 的喷码光学字符识别 (英文): Based on HALCON equipments of optical character recognition 姓 名 学 号 院 (系) 专业、年级 任 课 老 师

基于HALCON的喷码光学字符识别 湖南理工学院信息与通信工程学院 摘要:大规模自动化流水线生产的化妆品,其批次信息对仓储管理系统至关重要。因此有必要研究一种运行速度快、识别率高和鲁棒性好的瓶底喷码字符识别系统。现有基于机器视觉的智能检测技术是实现其生产质量快速、自动检测与控制的新型重要手段。在此基础上,本文介绍了基于HALCON机器视觉软件的检测系统和针对化妆品瓶底批号的图像处理关键技术,包括灰度值调整、形态学运算、字符分割及识别数字对象。 关键词:机器视觉;HALCON;批号检测;OCR图像处理 1.引言 随着计算机软件、硬件的发展,数字图像处理的理论和方法不断完善,利用机器视觉实现产品质量无接触自动检测的技术已逐渐变得切实可行,因此我们尝试将机器视觉技术应用于包装批号检测中,以实现生产的快速、自动检测与控制。机器视觉又称计算机视觉,是用计算机来实现人的视觉功能,也就是用机器代替人眼来做测量和判断[1-2]。机器视觉技术包含光源照明技术、光成像技术、传感器技术、数字图像处理技术、机械工程技术、检测控制技术、模拟与数字视频技术、计算机技术、人机接口技术等相关技术[3-5],是实现计算机集成系统的基础技术。 机器视觉目前应用极其广泛,例如利用人脸、虹膜、指纹等识别技术来实现安保功能;利用视觉监控系统识别环境中发生的异常事件,如陌生人的侵入、异常行动;利用视频监控技术的智能交通管理系统、视频检索;用于军事目的的自动目标检测等[6],都应用机器视觉技术来解决问题。正如视觉是人类在自然环境与社会环境生存不可缺少的最重要感知器官,机器视觉也是信息技术中一门至关重要的技术。 1.1.HALCON软件简介 德国MVtec公司的图像处理软件HALCON,是世界公认具有最佳效能的机

开题报告(基于神经网络的车牌字符识别方法研究及仿真实现)(可编辑修改word版)

西安科技大学 毕业设计(论文) 开题报告 题目基于神经网络的车牌字符识别方法研究及仿真实现院、系(部) 通信与电子信息工程学院 专业及班级电子信息工程专业 姓名 学号 指导教师 日期

西安科技大学毕业设计(论文)开题报告

[7]陈振学,汪国有,刘成云. 一种新的车牌图像字符分割与识别算法[J]. 微电子学与计算机, 2007,(02) . [8]朱正礼. 基于三层BP 神经网络的字符识别系统的实现[J]. 现代计算机, 2006,(10) . [9]刘静,周静华,苏俊连,付佳. 基于模板匹配的车牌字符识别算法实现[J]. 科技信息(科学教研), 2007,(24) . [10]苏厚胜. 车牌识别系统的设计与实现[J]. 可编程控制器与工厂自动化, 2006,(03) . [11]胡振稳, 尹朝庆. 基于BP 神经网络的车牌字符识别的研究[J]. 电脑知识与技术(学术交流), 2007,(02) [12]蒋良孝, 李超群. 基于 BP 神经网络的函数逼近方法及其 MATLAB 实现[J]. 微型机与应用, 2004,(01) [13]崔屹. 数字图象处理技术与应用. 电子工业出版社. [14]董长虹. MATLAB 图象处理. 国防工业出版社. [15]董长虹. MATLAB 神经网络与应用国防工业出版社. [16]MATLAB6.5 辅助图象处理.飞思科技产品研发科技中心. [17]H. S. Kim et al, "Recognition of a car number plate by a neural network", Proc. of Korea Information Science Society(KISS) fill conference,Vol. 18, NO. 2, pp. 259-262,1991. [18]Jang-Hee You,Byung-Tae Chun and Dong-Pil Shin,“A Neural for Recognizing Characters Extracted form Moving Vehicles”,World Congress On Neural Network, pp162-166,1994. [19]M. Momozawa,M.N omua,T.Namai and K. Morisaki,"Accident Vehicle Automatic Detection System by Image Processing Technique”,pp.566-570, 2004..

OCR光学字符识别技术

1 OCR简介 OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍。比如用手机给名片拍照,名片中的姓名、电话号码等信息就会自动识别进入到手机中,从此查询、拨打轻而易举。目前支持该功能的手机主要有摩托罗拉A1200、索爱P990和LG G832等。所以,OCR是一种非常快捷、省力的文字输入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。

2 OCR的发展概况 20世纪70年代初,日本的学者开始研究汉字识别,并做了大量的工作。我国研究汉字识别的起步比较晚,20世纪70年代末才开始进行OCR的研究工作。早期的OCR软件,由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用OCR软件。1 986年以后我国的OCR研究有了很大进展,在汉字建模和识别方法上都有所创新,在系统研制和开发应用中都取得了丰硕的成果,不少单位相继推出了中文OCR产品。 进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广大用户的要求。 目前,比较流行的OCR软件很多,英文OCR主要有OmniPage,中文OCR主要有清华紫光OCR、清华文通OCR、汉王OCR、中晶尚书OCR、丹青OCR、蒙恬OCR等。尽管汉字字量大、字形复杂,但OCR技术已经走向成熟。许多OCR软件不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,识别速度很快,识别正确率达到了99%以上;可识别宋体、黑体、楷体等多种字体的简、繁体;可对多种字体、不同字号的混排进行识别;有些OCR软件

相关文档
最新文档