全球顶级光学字符识别
全球顶级光学字符识别(OCR)软件简评
光学字符识别(Optical Character Recognition,OCR)是指用技术手段对文本或图像进行分析处理,从中获取文字及版面信息的过程。OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了相同的想法。IBM公司的Casey和Nagy最先获得研究成果,于1966年发表了第一篇关于汉字识别的文章,他们采用模板匹配法识别了1000个印刷体汉字。
随着个人电脑以及扫描仪的发展和广泛使用,更多的人开始研发适用于PC的OCR软件。虽然国内的OCR起步较晚,但尚书等软件还
是获得了令人欢欣的成绩,目前OCR软件像雨后春笋般地冒出了许多。我认识并接触OCR是在80年代中期,因工作需要,始终没有停止过
对OCR的跟踪。
从易得性、易用性、可靠性看,个人觉得ABBYY FineReader、Readiris Pro和文通慧视可以算得上是全球顶级的中英文OCR软件了。当然,它们还具有其他文种的识别功能,因未进行过测试,不敢妄加评论。
本文不想长篇大论地逐一评价每一个软件的优缺点,只想展示各OCR软件对2幅屏幕扫描图像文件文字的识别效果,让大家自做评委。
1.3个全球顶级OCR软件的外貌
图1. ABBYY FineReader 11 Corporate Edition
图2. Readiris Pro 12 Build 5644
图3. 文通慧视3.1.1.10
从百度搜索网友和一篇PDF专业论文中随便用屏幕截图的方法获取得如下2幅图,保存为bmp文件用于测试。
图4. 测试图像A
图5. 测试图像B
图6. ABBYY FineReader的识别效果
图7. Readiris Pro 的识别效果
图8. 文通慧视的识别效果
图9. ABBYY FineReader的识别效果
图10. Readiris Pro 的识别效果
图11. 文通慧视的识别效果
5.简评
这是一场残酷的非正规化大比拼,因为几乎所有的OCR软件都要求图像的质量在300dpi左右,才能可能取得较好的识别率。本次所选用的2张图像均直接从屏幕扫描而得,图像质量当然无法达到它们的基本条件。我想,可能正是通过这样苛刻地检验,才能为大家选拔出正真顶级的OCR软件。
仅仅是个人的观点,文通慧视用来直接抓取屏幕内容并转换成文字应当是不二的选择,非常方便,也较为可靠;ABBYY FineReader
用于将PDF文件转换为可编辑的Word文档,特别是全英文扫描版PDF,具有无与伦比的优势;要从高分辨彩色图片中提取文字,Readiris Pro可能具有一定的优势。
萝卜白菜各有所爱,本仅仅是为了抛砖引玉,供大家参考。
本文由索真者原创,专供百度文库收录,免费下载。请转载者务必保留此特别说明,有诚信才会有财富!
一种字符识别算法在自动识别系统中的应用_刘春雨
25卷 第3期2008年3月 微电子学与计算机 MICROELECTRONICS &COMPUTER Vol.25 No.3March 2008 收稿日期:2007-05-08 一种字符识别算法在自动识别系统中的应用 刘春雨,李 俊 (中国科学院计算机网络信息中心,北京100080) 摘 要:基于车牌识别系统的开发,提出一种基于二值图像的字符识别算法.在该算法中,提取字符的点阵特征、特征线和网格特征,分类器采用神经网络.为充分利用各组特征向量的互补作用,采取层次结构来获得系统的最佳性能.实验表明此算法非常有效. 关键词:字符识别;网格特征;神经网络 中图分类号:TP393 文献标识码:A 文章编号:1000-7180(2008)03-0071-03 A Character Recognition Algorithm in the Application of Vehicle License Plate Recognition System LIU Chun 2yu,LI Jun (Computer Network Information Center,Chinese Academy of Sciences,Beijing 100080,China) Abstr act:We extract the features including the Lattice Structure,Key Line and Gr id F eatures.T he network is used as t he classificat ion.To make full of use of all kinds of featur e vectors,the hierarchical algorithm is adapted for optimal per 2formance.We test our algorithms in car number plate database.As the experimental results show,our algor ithm is very efficient. Key words:OCR;grid featur es;nerve network 1 引言 车牌识别系统就是利用光学字符识别技术解决汽车牌照识别的典型系统,它的开发与应用有利于交通的控制与管理,是智能交通系统(IT S)中一个重要组成部分.车牌识别系统的软件部分主要由四部分组成,包括预处理、车牌定位、字符定位与字符识别.这四部分是顺序执行,而每个处理模块都为下一步处理作铺垫,其中字符识别模块是最后一步,也是衡量系统整体性能的一步. 字符识别涉及两个方面,即特征提取和识别方法,二者是继承互补的关系.关于字符的特征提取,目前已有许多经典的算法被提出来.根据字符的图像类型不同,特征提取可以分为彩色特征提取、灰度特征提取和二值特征提取;根据字符特征提取的基础可以分为点阵式统计特征提取,骨架或者细化特 征提取;根据字符特征提取的内容可以分为统计特征的提取,逻辑特征或者笔画特征提取等. 利用二值图像进行字符识别已提出多种算法[126],但识别效率和计算复杂度尚不能令人满意.为此提出新的字符识别算法. 2 算法 经过以上的字符预处理,将二值字符图像送入识别模块,完成字符识别任务.对于二值图像作如下几个步骤:归一化、细化和识别. 2.1 归一化和细化 把分割的二值图像进行线性缩放归一化,这样有利于特征提取和字符识别.归一化就是对实际提取的字符进行缩放操作,最后得到预定大小的字符图像.根据车牌号图片库中提取的4万多个字符样本,统计出样本的平均宽高为:20@16像素,因此利
SCI收录期刊影响因子排名表
SCI收录期刊影响因子排名表 Mechanical & Manufacturing Engineering 058 Engineering, Industrial Ranking Journal Title Impact Factor # 1 JOURNAL OF PRODUCT INNOV A TION MANAGEMENT 1.038 # 2 ERGONOMICS 0.749 # 3 IEEE TRANSACTIONS ON ENGINEERING MANAGEMENT 0.635 # 4 JOURNAL OF QUALITY TECHNOLOGY 0.608 # 5 IIE TRANSACTIONS 0.445 # 6 INTERNA TIONAL JOURNAL OF INDUSTRIAL ERGONOMICS 0.387 7 ISSUES IN SCIENCE AND TECHNOLOGY 0.368 # 8 RELIABILITY ENGINEERING & SYSTEM SAFETY 0.302 9 R&D MAGAZINE 0.017 059 Engineering, Manufacturing Ranking Journal Title Impact Factor 1 COMPOSITES PART A-APPLIED SCIENCE AND MANUFACTURING 0.689 2 PROCEEDINGS OF THE INSTITUTION OF MECHANICAL ENGINEERS PART B-JOURNAL OF EN 0.262 3 IEEE TRANSACTIONS ON COMPONENTS PACKAGING AND MANUFACTURING TECHNOLOGY PA RT 0.241 4 IEEE TRANSACTIONS ON COMPONENTS PACKAGING AND MANUFACTURING TECHNOLOGY PA RT 0.241 061 Engineering, Mechanical Ranking Journal Title Impact Factor # 1 JOURNAL OF AEROSOL SCIENCE 1.378 # 2 AEROSOL SCIENCE AND TECHNOLOGY 1.342 # 3 JOURNAL OF MICROELECTROMECHANICAL SYSTEMS 0.984 # 4 INTERNA TIONAL JOURNAL OF PLASTICITY 0.901 # 5 PROGRESS IN ENERGY AND COMBUSTION SCIENCE 0.786 6 COMPUTER METHODS IN APPLIED MECHANICS AND ENGINEERING 0.727 # 7 INTERNA TIONAL JOURNAL OF HEA T AND MASS TRANSFER 0.690 # 8 WEAR 0.686 9 J OURNAL OF ENGINEERING MECHANICS-ASCE 0.666 # 10 EXPERIMENTS IN FLUIDS 0.636 11 JOURNAL OF HEA T TRANSFER-TRANSACTIONS OF THE ASME 0.537 # 12 TRIBOLOGY TRANSACTIONS 0.522 # 13 INTERNA TIONAL JOURNAL OF MECHANICAL SCIENCES 0.509 # 14 TRIBOLOGY INTERNA TIONAL 0.450
SCI收录影响因子及排名
SCI收录材料期刊影响因子及排名(一) 自然 Nature Science 科学 Nature Material 自然(材料)Nature Nanotechnology 自然(纳米技术)Progress in Materials Science 材料科学进展Nature Physics 自然(物理)Progress in Polymer Science 聚合物科学进展Surface Science Reports 表面科学报告Materials Science & Engineering 材料科学与工程报告R-reports Angewandte Chemie-International 应用化学国际版Edition Nano Letters 纳米快报Advanced Materials 先进材料 Journal of the American Chemical 美国化学会志Society Annual Review of Materials Research 材料研究年度评论Physical Review Letters 物理评论快报Advanced Functional Materials 先进功能材料Advances in Polymer Science 聚合物科学发展
Biomaterials 生物材料 Small 微观 Progress in Surface Science 表面科学进展 Chemical Communications 化学通信 MRS Bulletin 材料研究学会(美国) 公告 Chemistry of Materials 材料化学 Advances in Catalysis 先进催化 Journal of Materials Chemistry 材料化学杂志 Carbon 碳 Crystal Growth & Design 晶体生长与设计 Electrochemistry Communications 电化学通讯 The Journal of Physical Chemistry B 物理化学杂志,B 辑: 材料、表面、界面与生物物理 Inorganic Chemistry 有机化学 Langmuir 朗缪尔 Physical Chemistry Chemical Physics 物理化学 International Journal of Plasticity 塑性国际杂志 Acta Materialia 材料学报 Applied Physics Letters 应用物理快报 Journal of power sources 电源技术
基于神经网络方法的字符识别方法
论文写作与规范 题目:基于神经网络方法的字符识别方法 学号: 210802102 专业:计算机系统结构 姓名:靳飞飞 2009 年 1 月 9日
基于神经网络方法的字符识别方法 靳飞飞 (中国海洋大学信息科学与工程学院, 山东青岛266071) 摘要:字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,而是模式识别领域中大多数课题都会遇到的基本问题,并且在不同的课题中,由于具体的条件不同,解决的方法也不尽相同,因而字符识别的研究仍具有理论和实践意义。这里讨论的是用神经网络方法实现基于照相的数字图像的字符识别的问题。并且通过模板匹配的方法作为参照,以体现神经网络在处理模式识别问题上的优势。由于人工神经网络的非线性以及并行性和鲁棒性等特点,在上述领域,其取得了以往传统算法无法获得的成功。 关键词:神经网络;字符识别;图像处理 Character recognition based on neural network Jin Feifei (College of Information Science and Engineering,Ocean University of China,Qingdao 266071,China) Abstract:Character recognition is a traditional problem in the field of pattern recognition, for it is rather an isolated task than a fundamental problem in most work of pattern recognition area, with which we have various methods to deal in terms of specific conditions. That means the pursuit of character recognition is of great significance both in theory and in practice .The goal of this paper is using neural network to recognize characters on digital image based on camera. It also can be seen, in the paper, the advantage of neural network compared with the template matching method. Because its nonlinearity, parallel and strong, in these fields mentioned above, artificial neural network has achieved the success which other traditional algorithms can not reach. Key word: neural network, character recognition, image processing 1引言 字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,
SCI收录材料期刊影响因子及排名
2010年SCI收录材料期刊影响因子及排名 首次分享者:梦中浮萍已被分享4次评论(0)复制链接分享转载举报 Nature 自然31.434 Science 科学28.103 Nature Material 自然(材料)23.132 Nature Nanotechnology 自然(纳米技术)20.571 Progress in Materials Science 材料科学进展18.132 Nature Physics 自然(物理)16.821 Progress in Polymer Science 聚合物科学进展16.819 Surface Science Reports 表面科学报告12.808 Materials Science & Engineering R-reports 材料科学与工程报告12.619 Angewandte Chemie-International Edition 应用化学国际版10.879 Nano Letters 纳米快报10.371 Advanced Materials 先进材料8.191 Journal of the American Chemical Society 美国化学会志8.091 Annual Review of Materials Research 材料研究年度评论7.947 Physical Review Letters 物理评论快报7.180 Advanced Functional Materials 先进功能材料 6.808 Advances in Polymer Science 聚合物科学发展 6.802 Biomaterials 生物材料 6.646 Small 微观? 6.525 Progress in Surface Science 表面科学进展 5.429 Chemical Communications 化学通信 5.34 MRS Bulletin 材料研究学会(美国)公告 5.290 Chemistry of Materials 材料化学 5.046 Advances in Catalysis 先进催化 4.812 Journal of Materials Chemistry 材料化学杂志 4.646 Carbon 碳 4.373 Crystal Growth & Design 晶体生长与设计 4.215 Electrochemistry Communications 电化学通讯 4.194 The Journal of Physical Chemistry B 物理化学杂志,B辑:材料、表面、界面与生物物理4.189 Inorganic Chemistry 有机化学 4.147 Langmuir 朗缪尔 4.097 Physical Chemistry Chemical Physics 物理化学 4.064 International Journal of Plasticity 塑性国际杂志 3.875 Acta Materialia 材料学报 3.729 Applied Physics Letters 应用物理快报 3.726 Journal of power sources 电源技术 3.477 Journal of the Mechanics and Physics of Solids 固体力学与固体物理学杂志 3.467 International Materials Reviews 国际材料评论 3.462 Nanotechnology 纳米技术 3.446 Journal of Applied Crystallography 应用结晶学 3.212
一种基于多模板匹配的字符识别方法
一种基于多模板匹配的字符识别方法 李 婧,龚晓峰,王瑞辉 (四川大学 电气信息学院 成都 610065) 摘要:本文在对字符进行各种预处理,包括倾斜校正,归一化,分割的基础上,依据字符的高度,宽度范围,提出了一种基于多模板匹配的字符识别方法,并将该算法运用于仿宋_GB2312字体,识别率达到98%以上,有效的提高了识别正确率,简单易实现。 关键词:倾斜校正;字符分割;多模板匹配 中图分类号:TP391.41 文献标识码:A A recognition method of characters based on Multi-Template Matching LI Jing, GONG Xiao-feng, Wang Rui-hui (College of Electrical Information, Sichuan University, Chengdu 610065, China) Abstract: This paper first do pretreatment such as skew correction, normalization, segmentation of characters, etc. Then it presented a new muti-template matching method according to the range of the character’s width and height. At last, the experiment used in the FangSong_GB2312 font show that this method can improve recognition accuracy and is easy to put into practice. Keywords: skew correction; character segmentation; multi-template matching 0 引言 字符识别是图像处理和模式识别领域中的研究课题之一,它涉及模式识别、图像处理、人工智能、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、人工智能、车牌识别、交通管理等高技术领域都有着重要的实用价值和理论意义[1]。目前字符识别主要有以下几种方法:1)利用字符的统计特征进行特征提取,2)基于字符结构分析的识别方法,3)利用字符的结构特征和变换进行特征提取,4)基于模板匹配的方法进行字符识别,5)近年来又出现了基于神经网络的算法和基于矩和小波变换的识别算法。但由于同一字体的字符有各种字号的差异,单一的运用上述某一种方法的效果都不理想[2]。为了提高识别率,本文从识别率较高的模板匹配法入手,对单模板匹配和特征模板进行改进,提出了一种根据字符高度,宽度值为每个字聚类多个模板,最后采用海明距离实现多模板的匹配。通过将该算法运用于仿宋_GB2312字体,发现这一方法能有效解决相似度高的字符的正确识别问题,有一定的实用价值。 1 识别系统总体方案 字符识别系统一般包括字符预处理,字符分割,字符识别三个环节,系统框图如图1所示。
基于MATLAB的字符识别研究
基于MATLAB的字符识别研究 汽车牌照识别程序的设计 摘要:本次课程设计的目的是通过对基于MATLAB的字符识别的研究,以汽车牌照识别的设计为实例,详细介绍字符识别的相关原理。整个汽车牌照识别的过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用MATLAB软件编程来实现每一个部分,最后识别出汽车牌照。在研究的同时对其中出现的问题进行了具体分析,处理。寻找出对于具体的汽车牌照识别过程的最好的方法。 关键词:MATLAB 字符识别车牌识别神经网络图像处理 引言 在MATLAB的字符识别研究中,汽车牌照的识别是最经典的样例,因为车辆牌照识别系统(License Plate Recognition System,简称LPRS)是建设智能交通系统不可或缺的部分。基于 MATLAB 图像处理的汽车牌照识别系统是通过引入数字摄像技术和计算机信息管理技术,采用先进的图像处理模式识别和人工智能技术,通过对图像的采集和处理,获得更多的信息,从而达到更高的智能化管理程度。车牌识别系统整个处理过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用 MATLAB软件编程来实现每一个部分处理工程,最后识别出汽车牌照。 一、 MATLAB及其图像处理工具概述 MATLAB 是 MATrix LABoratory (矩阵实验室)的缩写,是 Math Works 公司开发的一种功能强效率高简单易学的数学软件。MATLAB 的图像处理工具箱,功能十分强大,支持的图像文件格式丰富,如*.BMP、*.JPG、 *.JPEG、 *.GIF、 *.TIF 、*.TIFF、 *.PNG 、*.PCX、 *.XWD、 *.HDF、*.ICO 、*.CUR 等。MATLAB 7.X 提供了20 多类的图像处理函数,几乎涵盖了图像处理的所有技术方法,是学习和研究图像处理的人员难得的宝贵资料和加工工具箱。这些函数按其功能可分为:图像显示、图像文件 I/O、图像算术运算、几何变换、图像登记、像素值与统计图像分析、图像增强、线性滤波、线性二元滤波设计、图像去模糊、图像变换、邻域与块处理、灰度与二值图像的形态学运算、基于边缘的处理、色彩映射表操作色彩空间变换图像类型与类型转换。MATLAB 还着重在图形用户界面(GUI)的制作上作了很大的改善,对这方面有特殊要求的用户也可以得到满足。本文将给出 MATLAB 的图像处理工具箱中的图像处理函数实现图像处理与分析的应用技术实例。 二、基于 MATLAB图像处理的汽车牌照识别系统 1.系统组成 基于MATLAB图像处理的汽车牌照识别系统主要包括车牌定位字符车牌分割和车牌字符识别三个关键环节其识别流程图如图 1所示。 图1 识别流程图 其中, (1)原始图像:由数码相机或其它扫描装置拍摄到的图像; (2)图像预处理:对动态采集到的图像进行滤波、边界增强等处理以克服图像干扰; (3)车牌定位:计算边缘图像的投影面积,寻找峰谷点,大致确定车牌位置,再计算此连通域内的宽 高比,剔除不在域值范围内的连通域,最后得到的便为车牌区域; (4)字符分割:利用投影检测的字符定位分割方法得到单个的字符; (5)字符数据库:为第6步的字符识别建立字符模板数据库; (6)字符识别:通过基于模板匹配的OCR算法或基于人工神经网络的OCR算法,通过特征对比或训练 识别出相关的字符,得到最后的汽车牌照,包括英文字母和数字。
光学字符识别
光学字符识别 OCR是英文Optical Character Recognition的缩写,意思是光学字符识别,也可简单地称为文字识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,从根本上改变了人们对计算机汉字人工编码录入的概念。使人们从繁重的键盘录入汉字的劳动中解脱出来。只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍。比如用手机给名片拍照,名片中的姓名、电话号码等信息就会自动识别进入到手机中,从此查询、拨打轻而易举。目前支持该功能的手机主要有摩托罗拉A1200、索爱P990和LG G832等。所以,OCR是一种非常快捷、省力的文字输入方式,也是在文字量比较大的今天,很受人们欢迎的一种输入方式。 由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。 在此对OCR作一基本介绍,包括其技术简介以及其应用介绍。 OCR的发展 要谈OCR的发展,早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。 OCR可以说是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫瞄品质、识别的方法、学习及测试的样本……等等,多少都会影响其正确率,也因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方法,亦是决定产品好坏的重要因素。 一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。其处理流程如下图:
SCI收录的儿科杂志及影响因子排名前40名
Mark Rank Abbreviated Journal Title (linked to full journal information) ISSN 2003 Total Cites Impact Factor Immediacy Index 2003 Articles Cited Half- life 1 PEDIATRICS 0031- 4005 25691 3.781 0.633 657 6.9 2 J AM ACAD CHILD PSY 0890- 8567 10771 3.779 0.532 171 7.1 3 MENT RETARD DEV D R 1080- 4013 676 3.479 0.788 33 3.4 4 PEDIATR RES 0031- 3998 8946 3.064 0.555 256 7.2 5 J PEDIATR 0022- 3476 19133 2.913 0.631 268 >10.0 6 J CHILD ADOL PSYCHOP 1044- 5463 701 2.487 0.233 43 4.2 7 PEDIATR INFECT DIS J 0891- 3668 6924 2.262 0.511 276 6.0 8 ARCH PEDIAT ADOL MED 1072- 4710 3905 2.190 0.719 153 4.9 9 PEDIATR CLIN N AM 0031- 3955 1850 1.926 0.091 77 7.5 10 PEDIATR PULM 8755- 6863 3124 1.917 0.261 161 5.6 11 DEV MED CHILD NEUROL 0012- 1622 4433 1.898 0.257 136 8.9 12 PEDIATR TRANSPLANT 1397- 3142 633 1.767 0.221 95 3.4 13 MED PEDIATR ONCOL 0098- 1532 2763 1.737 0.170 171 5.8 14 ARCH DIS CHILD 0003- 9888 10688 1.722 0.347 418 8.8 15 BIRTH-ISS PERINAT C 0730- 7659 615 1.709 0.357 28 6.4 16 J DEV BEHAV PEDIATR 0196- 206X 1285 1.699 0.289 45 8.8 17 J ADOLESCENT HEALTH 1054- 139X 2669 1.674 0.477 109 6.2
字符识别方法归纳
字符识别 一、理论 1.结构模式识别:根据字符结构特征进行识别,可用来识别汉字,但抗干扰能力差。可用来识别少量和简单的字符,如数字。 2.统计模式识别:其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。 常见的统计模式识别方法有: (1) 模板匹配。模板匹配并不需要特征提取过程。字符的图象直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。 (2)利用变换特征的方法。对字符图象进行二进制变换(如Walsh, Hardama变换)或更复杂的变换(如Karhunen-Loeve, Fourier,Cosine,Slant变换等),变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。K-L变换虽然从最小均方误差角度来说是最佳的,但是运算量太大,难以实用。总之,变换特征的运算复杂度较高。 (3)投影直方图法。利用字符图象在水平及垂直方向的投影作为特征。该方法对倾斜旋转非常敏感,细分能力差。 (4)几何矩(Geometric Moment)特征。M. K. Hu提出利用矩不变量
作为特征的想法,引起了研究矩的热潮。研究人员又确定了数十个移不变、比例不变的矩。我们都希望找到稳定可靠的、对各种干扰适应能力很强的特征,在几何矩方面的研究正反映了这一愿望。以上所涉及到的几何矩均在线性变换下保持不变。但在实际环境中,很难保证线性变换这一前提条件。 (5)Spline曲线近似与傅立叶描绘子(Fourier Descriptor)。两种方法都是针对字符图象轮廓的。Spline曲线近似是在轮廓上找到曲率大的折点,利用Spline曲线来近似相邻折点之间的轮廓线。而傅立叶描绘子则是利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的。前者对于旋转很敏感。后者对于轮廓线不封闭的字符图象不适用,因此很难用于笔划断裂的字符的识别。 (6)笔划密度特征。笔划密度的描述有许多种,这里采用如下定义:字符图象某一特定范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透次数。这种特征描述了汉字的各部分笔划的疏密程度,提供了比较完整的信息。在图象质量可以保证的情况下,这种特征相当稳定。在脱机手写体的识别中也经常用到这种特征。但是在字符内部笔划粘连时误差较大。 (7)外围特征。汉字的轮廓包含了丰富的特征,即使在字符内部笔划粘连的情况下,轮廓部分的信息也还是比较完整的。这种特征非常适合于作为粗分类的特征。 (8)基于微结构特征的方法。这种方法的出发点在于,汉字是由笔划组成的,而笔划是由一定方向,一定位置关系与长宽比的矩形段组
Microsoft Office直接执行光学字符识别(OCR)
提取图片中的文字Office也能行 微软在Microsoft Office 2003中的工具组件中有一个“Microsoft Office Document Imaging”的组件包,它可以直接执行光学字符识别(OCR),下面笔者就为大家介绍利用Office 2003新增的OCR功能从图片中提取文字的方法。 第一步我们需要安装“Microsoft Office Document Imaging”的组件,点“开始→程序”,在“Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行(如图1所示)。 图1 安装组件 第二步打开带有文字的图片或电子书籍等,找到你希望提取的页面,按下键盘上的打印屏幕键(PrintScreen)进行屏幕取图。 第三步打开Microsoft Office Word 2003 ,将刚才的屏幕截图粘贴进去;点击“文件”菜单中的“打印”,在安装Microsoft Office Document Imaging组件后,系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。如图2所示,在“打印机”下拉列表框中选择“Microsoft Office Document Imaging Writer”打印机,其他选项无须额外设置,点击“确定”按钮后,设定好文件输出的路径及文件名(缺省使用源文件名),然后很快就可以自动生成一个MDI格式的文档了。 图2 选择打印机
打开刚才保存的MDI类型文件(如图3所示),根据你的需要用鼠标选择文字内容(被选中的内容在红色的框内),然后单击鼠标右键,在弹出的快捷菜单中选择“将文本发送到Word”,即可将图片内容自动转换为一个新的Word文档,然后你就可以在Word文档中随心所欲地进行编辑了。 图3 将文本发送到Word 提示:如果你不想将转换的内容输入到一个新的Word 文档中,而是希望粘贴到一个已经打开的Word 文档,只需在上面的操作中点击右键菜单的“复制”,然后再到指定文档中执行粘贴即可。()
全球材料类SCI收录期刊影响因子排名 投稿必备
全球材料类SCI收录期刊影响因子排名 期刊英文名中文名影响因子 Nature自然 Science科学 Nature Material自然(材料) Nature Nanotechnology自然(纳米技术) Progress in Materials Science材料科学进展 Nature Physics自然(物理) Progress in Polymer Science聚合物科学进展 Surface Science Reports表面科学报告 Materials Science & Engineering R-reports材料科学与工程报告 Angewandte Chemie-International Edition应用化学国际版 Nano Letters纳米快报 Advanced Materials先进材料 Journal of the American Chemical Society美国化学会志 Annual Review of Materials Research材料研究年度评论 Physical Review Letters物理评论快报 Advanced Functional Materials先进功能材料 Advances in Polymer Science聚合物科学发展 Biomaterials生物材料 Small微观? Progress in Surface Science表面科学进展 Chemical Communications化学通信 MRS Bulletin材料研究学会(美国)公告 Chemistry of Materials材料化学 Advances in Catalysis先进催化 Journal of Materials Chemistry材料化学杂志 Carbon碳 Crystal Growth & Design晶体生长与设计 Electrochemistry Communications电化学通讯 The Journal of Physical Chemistry B物理化学杂志,B辑:材料、表面、界面与生物物理Inorganic Chemistry有机化学 Langmuir朗缪尔 Physical Chemistry Chemical Physics物理化学 International Journal of Plasticity塑性国际杂志 Acta Materialia材料学报 Applied Physics Letters应用物理快报 Journal of power sources电源技术 Journal of the Mechanics and Physics of Solids固体力学与固体物理学杂志 International Materials Reviews国际材料评论 Nanotechnology纳米技术
光学字符识别解析
光学字符识别系统 摘要:本文设计了一系列的算法,完成了文字特征提取、文字定位等工作,并基于卷积神经网络(CNN)建立了字符识别模型,最后结合统计语言模型来提升效果,构建一个完整的OCR(光学字符识别)系统.在特征提取方面,抛弃了传统的“边缘检测+腐蚀膨胀”的方法,基于一些基本假设,通过灰度聚类、图层分解、去噪等步骤,得到了良好的文字特征,文字特征用于文字定位和模型中进行识别。在文字定位方面,通过邻近搜索的方法先整合特征碎片,得到了单行的文字特征,然后通过前后统计的方法将单行的文字切割为单个字符。在光学识别方面,基于CNN的深度学习模型建立单字识别模型,自行生成了140万的样本进行训练,最终得到了一个良好的单字识别模型,训练正确率为99.7%,测试正确率为92.1%,即便增大图片噪音到15%,也能有90%左右的正确率.最后,为了提升效果,结合了语言模型,通过微信的数十万文本计算常见汉字的转移概率矩阵,由Viterbi算法动态规划,得到最优的识别组合。经过测试,系统对印刷文字的识别有着不错的效果,可以作为电商、微信等平台的图片文字识别工具. 关键字:CNN,特征提取,文字定位,单字识别
1 研究背景和假设 关于光学字符识别(Optical Character Recognition, OCR),是指将图像上的文字转化为计算机可编辑的文字内容,众多的研究人员对相关的技术研究已久,也有不少成熟的OCR技术和产品产生,比如汉王OCR、ABBYY FineReader、Tesseract OCR等. 值得一提的是,ABBYY FineReader 不仅正确率高(包括对中文的识别),而且还能保留大部分的排版效果,是一个非常强大的OCR商业软件. 然而,在诸多的OCR成品中,除了Tesseract OCR外,其他的都是闭源的、甚至是商业的软件,我们既无法将它们嵌入到我们自己的程序中,也无法对其进行改进. 开源的唯一选择是Google的Tesseract OCR,但它的识别效果不算很好,而且中文识别正确率偏低,有待进一步改进. 综上所述,不管是为了学术研究还是实际应用,都有必要对OCR技术进行探究和改进. 将完整的OCR系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面,逐步进行解决,最终完成了一个可用的、完整的、用于印刷文字的OCR系统. 该系统可以初步用于电商、微信等平台的图片文字识别,以判断上面信息的真伪.
SCI收录影响因子及排名
SCI收录材料期刊影响因子及排名(一) Nature 自然 31.434 Science 科学28.103 Nature Material 自然(材料)23.132 Nature Nanotechnology 自然(纳米技术)20.571 Progress in Materials Science 材料科学进展18.132 Nature Physics 自然(物理)16.821 Progress in Polymer Science 聚合物科学进展16.819 Surface Science Reports 表面科学报告12.808 Materials Science & Engineering R-reports 材料科学与工程报告12.619 Angewandte Chemie-International Edition 应用化学国际版10.879 Nano Letters 纳米快报10.371 Advanced Materials 先进材料8.191 Journal of the American Chemical Society 美国化学会志8.091 Annual Review of Materials Research 材料研究年度评论7.947 Physical Review Letters 物理评论快报7.180 Advanced Functional Materials 先进功能材料 6.808 Advances in Polymer Science 聚合物科学发展 6.802 Biomaterials 生物材料 6.646 Small 微观? 6.525 Progress in Surface Science 表面科学进展 5.429 Chemical Communications 化学通信 5.34 MRS Bulletin 材料研究学会(美国)公 告 5.290 Chemistry of Materials 材料化学 5.046 Advances in Catalysis 先进催化 4.812 Journal of Materials Chemistry 材料化学杂志 4.646 Carbon 碳 4.373 Crystal Growth & Design 晶体生长与设计 4.215 Electrochemistry Communications 电化学通讯 4.194 The Journal of Physical Chemistry B 物理化学杂志,B辑:材 料、表面、界面与生物物 理 4.189 Inorganic Chemistry 有机化学 4.147 Langmuir 朗缪尔 4.097 Physical Chemistry Chemical Physics 物理化学 4.064 International Journal of Plasticity 塑性国际杂志 3.875 Acta Materialia 材料学报 3.729 Applied Physics Letters 应用物理快报 3.726 Journal of power sources 电源技术 3.477
SCI收录期刊影响因子排名表(环境相关学科)
SCI收录期刊影响因子排名表 Environmental Sciences & Engineering 044 Ecology Ranking Journal Title Impact Factor 1TRENDS IN ECOLOGY & EVOLUTION 6.678 2ECOLOGICAL MONOGRAPHS 5.300 3ANNUAL REVIEW OF ECOLOGY AND SYSTEMATICS 3.900 4ECOLOGY 3.139 5MOLECULAR ECOLOGY 3.086 6AMERICAN NATURALIST 2.903 7JOURNAL OF ECOLOGY 2.837 8JOURNAL OF ANIMAL ECOLOGY 2.801 9EVOLUTION 2.715 10BEHAVIORAL ECOLOGY AND SOCIOBIOLOGY 2.327 11ECOLOGICAL APPLICATIONS 2.180 12WILDLIFE MONOGRAPHS 2.000 13MARINE ECOLOGY-PROGRESS SERIES 1.923 14JOURNAL OF EVOLUTIONARY BIOLOGY 1.904 15OIKOS 1.860 16OECOLOGIA 1.854 17CONSERVATION BIOLOGY 1.832 18FUNCTIONAL ECOLOGY 1.818 19THEORETICAL POPULATION BIOLOGY 1.703 20TREE PHYSIOLOGY 1.640 21MICROBIAL ECOLOGY 1.606 22AQUATIC MICROBIAL ECOLOGY 1.474 23JOURNAL OF VEGETATION SCIENCE 1.414 24POLAR BIOLOGY 1.363