印刷体汉字识别技术的研究开题报告

合集下载

《印刷体蒙古文文档中多文种识别技术的研究与实现》范文

《印刷体蒙古文文档中多文种识别技术的研究与实现》范文

《印刷体蒙古文文档中多文种识别技术的研究与实现》篇一一、引言在信息化社会迅速发展的背景下,多文种识别技术在各种文档的自动化处理过程中起着举足轻重的作用。

特别地,针对印刷体蒙古文文档的识别技术,其研究与应用更是具有深远的意义。

本文旨在探讨印刷体蒙古文文档中多文种识别技术的相关研究及其实现方法。

二、多文种识别的技术背景随着全球化的推进,多文种识别技术已成为信息处理领域的重要研究方向。

在印刷体蒙古文文档中,由于文字的复杂性、多样性以及背景噪声的干扰,多文种识别技术的难度相对较大。

此外,蒙古文特有的文字结构和书写习惯也使得识别技术的研究更具挑战性。

三、多文种识别技术的研究针对印刷体蒙古文文档的识别,主要涉及以下几种关键技术:1. 文字预处理技术:在识别过程中,首先需要对文档进行预处理,包括去噪、二值化、归一化等操作,以提高后续识别的准确性。

2. 特征提取技术:针对蒙古文字符的独特性,采用合适的特征提取方法,如基于形状、结构、上下文等特征的提取方法,以提升识别的精确度。

3. 分类与识别算法:结合机器学习、深度学习等技术,设计有效的分类与识别算法,实现对多种文字的准确识别。

4. 语种识别技术:针对不同语种的文档,采用语种识别技术,确定文档的语种,为后续的文字识别提供依据。

四、多文种识别的实现方法在实现多文种识别技术时,主要采用以下步骤:1. 构建训练数据集:收集包含多种文字的印刷体蒙古文文档,构建训练数据集。

2. 训练模型:采用合适的机器学习或深度学习算法,对训练数据集进行训练,得到识别模型。

3. 模型评估与优化:对训练得到的模型进行评估,根据评估结果进行优化,提高模型的识别准确率。

4. 实际应用:将优化后的模型应用于实际印刷体蒙古文文档的识别中,实现多文种的准确识别。

五、结论多文种识别技术在印刷体蒙古文文档中的应用具有重要意义。

通过深入研究文字预处理、特征提取、分类与识别算法以及语种识别等技术,我们可以实现更准确的文字识别。

中文印刷体文档内容识别系统研究

中文印刷体文档内容识别系统研究

图2.8是我们采用上述的归一化方法所得到的结果,实验证明,该方法对于字符的归一化是十分有效的。

图2.8归一化结果
2.6本章小结
本章结合汉字和公式字符的特点介绍了几种图像的预处理方法,首先通过对原图像作灰度转换、二值化,然后经过平滑、去噪、归一化,使之成为符合以后的特征提取的要求,为字符的识别和公式的结构分析打下了良好的基础。

程占总游程数目的百分比在一定的范围之内。

根据这些特征可以将表格区域从图像区域中判断出来。

经过以上步骤,就完成了版面分析的过程,得到了各个不同区域的位置和属性信息。

3.3.5实验结果
通过对于连通体的搜索和统计,我们根据连通体的数目来动态地定义图像区域或表格区域的大小,从而从版面中分离出来了文本区域。

图3.I版面分析标注区域
图3.2提取文本区域
图3.1中标注出文本区域和图像区域;图3.2是文本区域的提取结果。

由以上两图可见。

我们采用的方案在提取文本、图像和表格区域中是有效的。

3.4本章小结
本章简要介绍了版面分析的基本思想,并且给出了一种自底向上的基于最近邻连接强度和行列可信度的版面分析算法,利用该方法,我们成功地分离出版面中的图像和表格,为后来的文本识别奠定了基础。

印刷体中文文档识别系统的研究

印刷体中文文档识别系统的研究

印刷体中文文档识别系统的研究随着信息技术的发展,文本识别已经成为了领域的热门课题。

在中文文本识别领域,印刷体中文文档识别系统的研究具有重要意义。

本文将介绍印刷体中文文档识别系统的研究现状、系统设计、训练数据准备、算法选择、系统实现、实验评估及总结。

印刷体中文文档识别是指将印刷体中文文本从图像中提取出来,转换成计算机可处理的文本格式。

印刷体中文文档识别系统对于自动化处理中文文本、中文信息检索、文档数字化等领域具有广泛的应用前景。

目前,国内外已经有很多研究机构和企业致力于印刷体中文文档识别系统的研究与应用。

印刷体中文文档识别系统主要包括图像预处理、文本定位、文本识别和后处理四个部分。

图像预处理旨在改善图像质量,为后续处理提供更好的输入;文本定位是确定文本的位置和方向;文本识别则是将文本转换成计算机可处理的格式;后处理则是对识别结果进行校正、排版等操作。

训练数据准备是建立印刷体中文文档识别系统的关键环节。

需要收集大量的中文文档图像,包括不同字体、大小、版式等。

然后,对图像进行预处理,如去噪、二值化、灰度化等,以便于后续处理。

接下来,对图像进行文本定位和分割,即将文本从图像中提取出来,并分割成单个字符或词语。

对定位和分割后的文本进行标注,即人工识别文本的内容,将其转换成计算机可处理的格式。

印刷体中文文档识别系统的核心是算法。

目前,常见的中文文本识别算法包括基于深度学习的算法和基于规则的算法。

其中,基于深度学习的算法具有强大的自适应能力,能够自动学习图像的特征,具有较高的准确率和鲁棒性。

例如,卷积神经网络(CNN)和循环神经网络(RNN)等算法在印刷体中文文档识别领域取得了良好的效果。

而基于规则的算法则主要依赖于预先设定的规则和模板,对于不同版式和字体的适应性较差。

印刷体中文文档识别系统的实现过程包括代码实现、数据传输和界面展示三个部分。

根据算法选择合适的编程语言和框架进行代码实现。

常用的深度学习框架包括TensorFlow和PyTorch等。

基于OCR的印刷体汉字检测技术

基于OCR的印刷体汉字检测技术

基于OCR的印刷体汉字检测技术随着社会的发展,我们的生活越来越数字化,各种文字信息都以电子化的形式呈现在我们面前。

然而,随着数字信息的爆炸式增长,如何有效地处理和管理这些文字信息,成为了一个急需解决的难题。

在这个过程中,OCR技术的应用逐渐变得热门起来。

OCR(Optical Character Recognition)是一种光学字符识别技术,可以将印刷或手写的纸质文本转换为电子文本。

OCR技术的出现可以极大地提高效率,减少错误率,因此在业内得到了广泛的应用。

在汉字OCR技术中,汉字的识别是最为关键的环节,因为汉字是一种复杂的字符,每个字形都各有千秋,对于计算机来说,汉字的识别难度非常大。

然而,随着计算机技术的发展,现在已经出现了一些基于OCR的印刷体汉字检测技术,这些技术能够高效地识别印刷体汉字。

在OCR技术应用的过程中,我们可以将其分为四个步骤:图像预处理、特征提取、分类器构建以及结果输出。

首先,在图像预处理阶段,需要对原始图片进行处理,将其转换为灰度图像,并进行图像二值化处理。

这一步是非常重要的,因为它可以剔除掉一些噪声,保证后续步骤的准确性。

接下来,在特征提取阶段,需要从字符图像中提取出与该字符相关的特征信息。

常用的特征提取方法有基于区域的方法、基于轮廓的方法、基于模板的方法等。

这些方法共同点是都需要对字符字形特征进行分析,以提取出具有代表性的特征。

在分类器构建阶段,需要通过建立一个有效的字符识别模型来对汉字进行分类。

分类器是用来将字符特征转换为二进制码的,它可以是神经网络、支持向量机、模糊逻辑等模型,这些模型相互独立,优缺点也不同。

在选择分类器时,需要根据具体的应用场景进行选择。

最后,在结果输出阶段,将计算机识别的汉字输出为电子文本,可以进行传输、编辑和高速检索。

在这一阶段,一般需要针对识别错误的汉字进行校正,以提高识别的准确率。

虽然随着OCR技术的进步,其检测准确率已经得到了显著提升,但是汉字OCR技术仍面临着一些挑战,比如多字体、多尺寸、多角度、扭曲变形等问题。

印刷体汉字识别技术的研究PPT

印刷体汉字识别技术的研究PPT

The end
• 请各位老师提出宝贵意见
谢谢!
印刷体汉字识别流程图
系统的Matlab仿真
• • • • 系统的分析 系统的实现 系统性能的迚一步验证 仿真结果分析
系统的分析
本设计要实现的是一个能识别三十二个印刷体汉字的识别 系统。由于字库容量较小,因此本设计对系统的预期识别率指 标定为100%。 • 印刷体汉字识别系统采用的是十三点特征提取法和神经网 络识别相结合的原理。十三点特征提取法负责提取汉字中的特 征点,形成一个1X13的向量,作为神经网络的输入,我们可以 实现一个标准库神经网络,由于丌同的汉字对应的特征向量丌 同,当输入相应的特征向量就输出对应的汉字。 • 待识别文件首先由文件管理器加载。送入图像管理模块, 经二值化,转灰度,均值滤波,二值化,行、字切割等图像处 理操作后,得到待识别文字的点阵,汉字识别模块从点阵中提 取识别特征,通过十三点特征提取,精确匹配识别结果。系统 的工作流程如图所示。
• • • • • •
net.trainParam.show=100; net.trainParam.Ir=0.005; net.trainParam.epochs=30000; net.trainParam.goal=0; net=train(net,P,T); save zmn123 net
%每100显示1次 %设置学习速率 %设置训练次数 %设置性能函数 %训练BP网络 %保存文件名为 zmn123
印刷体汉字识别技术存在的难点
• (1)类别较大
• (2)结构复杂
• (3)相似字多
汉字的以上几个特点就决定了没有单一的一种特征就可以 完成对汉字的识别,因此如何有效的选取各种特征,有效的迚 行组合,使它们在匹配速度和识别率上都能满足实际需求就成 为整个系统的关键。

文字识别分析报告

文字识别分析报告

文字识别分析报告1. 背景介绍本报告旨在对文字识别技术进行分析和评估,以指导相关决策和应用。

2. 文字识别技术概述文字识别技术是一种通过计算机视觉和模式识别技术,将图像中的文字提取出来,并转化为可编辑或可搜索的文本的过程。

主要包括以下步骤:- 图像预处理:对输入图像进行降噪、增强和分割等处理,以优化图像质量和文字边界。

- 文字检测:利用算法和模型检测图像中的文字区域,并生成文字边界框。

- 文字识别:将检测到的文字区域进行文本提取和识别,生成可编辑或可搜索的文本。

- 文字校正:对提取的文本进行校正和纠错,以增加准确性和可读性。

3. 文字识别技术的应用文字识别技术在许多领域都有广泛的应用,包括但不限于以下几个方面:- 文字转换:将印刷品、手写文字或图像中的文字转换成可编辑和可搜索的文本,提高处理效率和存储方便性。

- 自动化处理:用于自动化处理和解析大量的文档、报表、形式或等。

- 视觉辅助功能:将图像中的文字转换为音频,帮助视觉障碍者获取信息。

- 智能搜索:通过将图像中的文字进行提取和识别,实现对包含相似内容的图像进行搜索和分类。

4. 文字识别技术的挑战尽管文字识别技术带来了许多便利和应用的可能性,但也面临一些挑战:- 图像质量:图像的清晰度、光照条件、背景干扰等都会对文字识别的准确性产生影响。

- 多语言支持:不同语言的文字特点各异,需要针对不同语言进行模型训练和适配。

- 字体和样式:不同的字体和样式也会对文字识别的效果产生影响,需要对不同字体和样式进行兼容性测试和识别模型的调整。

5. 总结文字识别技术的发展为我们提供了许多新的应用和便利性。

但在实际应用中,我们需要充分考虑图像质量、多语言支持和字体样式等因素,以确保文字识别的准确性和可靠性。

以上为文字识别分析报告的概要内容。

如需进一步了解或讨论相关问题,请联系具备相关专业知识的专业人士。

印刷体文字识别方法研究

西北工业大学硕士学位论文印刷体文字识别方法研究姓名:张炜申请学位级别:硕士专业:计算机应用技术指导教师:赵荣椿19990301摘要《文字楚人类茨怠交滚爨垂簧手段,印别然汉字鼋}:{裂霹以有效黥提高印刷资料的录入速度,它的突破会极大的促进全球的信息化进程。

本文逶邋对国内拜多静文字谬剩方法静深入磅究,结合爨】麓蒋汉字静自身特点,提出了一种多级分类的综合统计识别方法。

经过实验,取、得了令人满意的效采。

P_,一一/一般的文字谚{别系绞出预处理、特征提取、模式匹配和后处理四大模块组成。

本文在许多关键技术方面提出了自己的方法:酋先,在联处矬除段,晨嬲一‘秽麓棼毂颇斜较澎算法,若姆文字归~怨为36t36点阵而爿;是传统的48+48点阵,宵效的减少了计算量,且几乎不会造黢罄{鬟奉麴降低;撬爨馥送懿基予羚攫豹筠…纯,避免了笔爨浚失;其次,在特征提取时,采用一种改进的粗外围特征,并进行二重分割,充分傈涯特征的高度稳定经;采用162维平均线密度特蔹斓于鲴分类:第三,程模式躁配时,针对各级特点,分别采用绝对值距离、欧氏距离、以及类似泼加权准则判别;最詹,在后处理阶段,根据语言、文字学知谈,采躜字频艇投秘上”F文缝溷关系分烈处理。

关键词文字识另(印刷体汉字识彬多级分影预处理,婶、Y《Nv"文字识别,印刷体汉字识别’、多级分类’,预处理,(行、翔一纯V,二耄务彤耨鬣提醇羯爨准潮<ABSTRAC零Writtenlanguageisanimportantmeansofcommunication,recognitionofmachineprintedcharacterCallimprovetheefficiencyofmaterialinputcommendably,thebreakthroughofitcanacceleratetheprocedureofworld’sinformationexchange,Inthispaper,basedonthecharacteristicsofprintedcharacters,Weproposeamulti-stagesynthesizedstatisticalmethodaftercarefullystudiedmanykindsofrecognitionmethodintheworld。

中文印刷体文档内容识别系统研究的开题报告

中文印刷体文档内容识别系统研究的开题报告一、研究背景随着数字化时代的来临,文档内容的识别和提取成为了非常重要的工作。

假如我们想要对一份中文文档进行分析,那么首先要将这个文档中的文本内容提取出来。

然而,由于中文印刷体的特殊性,其具有很高的书写规范和多样性,因此文本识别技术一直是困难和瓶颈所在。

近年来,随着深度学习技术的不断发展和深入研究,自然语言处理、文本识别等技术已经取得显著进展,也为中文印刷体文档内容识别系统的研究提供了广泛的应用前景。

二、研究目的本文旨在深入研究中文印刷体文档内容的识别问题,通过分析、实现和测试,构建一种高效、准确、稳定的中文印刷体文档内容识别系统,为实际应用提供有效的技术支持。

三、研究内容本文将主要研究以下内容:1.中文印刷体文档的预处理:包括数据清洗、二值化、去噪和分割等工作,目的是为了提高后续处理的效果和准确度。

2.中文印刷体文本的特征提取:通过分析文本在印刷体中的特征,比如字形、笔画、笔画顺序等,提取有效的特征向量,为后续的文本识别工作打下基础。

3.中文印刷体文本的识别算法:将上述特征向量输入到深度学习算法中,通过训练识别模型,提高识别准确度和鲁棒性。

4.中文印刷体文档内容识别系统的构建:将上述的各项技术进行整合,并构建一种高效、稳定的系统,支持中文印刷体文档内容的识别和提取。

四、研究意义本文研究的中文印刷体文档内容识别系统,一方面可以为文档数字化和自动化提供技术支持,另一方面也可以为中文印刷体文本识别技术的深入研究提供参考和借鉴。

本系统的研究和应用,有望推动中文印刷体OCR技术的发展,具有很高的理论和实际应用价值。

五、研究方法本文将主要采用以下研究方法:1.文献调研:通过对国内外相关文献的调研和分析,掌握中文印刷体文档内容识别的研究热点和趋势,同时了解目前相关技术的优缺点和发展方向。

2.数据采集与预处理:收集一定规模和代表性的中文印刷体文档数据集,通过数据清洗、二值化、去噪和分割等方法,提高后续处理的效果和准确度。

多体印刷体汉字识别是能识别出印刷的一连串文字

多体印刷体汉字识别是能识别出印刷的一连串文字随着互联网技术的发展,人工智能技术已经得到了广泛的应用。

人工智能不仅仅只能改善现有的技术,也可以创造出新的技术。

最近,有一种叫做多体印刷体汉字识别的技术被开发出来,它可以识别出印刷的一连串文字,这种技术不仅可以大大提高技术效率,而且可以使数据更安全。

多体印刷体汉字识别是利用机器学习技术实现的,是一个复杂的过程。

首先,它需要对大量的印刷汉字图像进行分析,分析出图像中每个汉字的样子,以及汉字之间的复杂结构关系。

其次,它需要运用计算机视觉技术,把每个汉字转化为字符,这个过程需要建立一个复杂的模型,使之能够准确识别出印刷汉字的拼音和汉字。

最后,它需要对分析出来的数据进行统计和分析,以确定出正确的拼音或汉字。

多体印刷体汉字识别的实现有很多优势,首先,它可以提高识别精度,使得数据更加准确。

其次,它可以大大提高效率,因为它不需要繁琐的人工操作,可以更快速地识别出所需要的数据。

此外,该技术还可以提高数据的安全性,因为它可以准确识别出印刷文本,从而减少一处文件遭到篡改的可能性。

多体印刷体汉字识别技术是一种重要的新兴技术,它给人们和企业带来了很多方便。

基于这种技术,许多企业可以更有效地处理文档,而且数据也更加安全可靠。

此外,多体印刷体汉字识别技术还可以被用来识别印刷在假币上的文字,在抗非法货币方面发挥重要作用。

多体印刷体汉字识别技术的发展也为人们带来了很多好处,特别是能够大大提高效率,大大减轻人的负担。

但是,由于这种技术的应用仍处于初级阶段,可能会面临一些种种问题,比如,在印刷文本汉字过多的情况下,可能会出现识别的问题,显示的数据可能会有一定的偏差。

可以说,多体印刷体汉字识别技术是一种值得关注的技术,它可以大大提高效率,提升数据安全性,而且可以应用到各种领域,从而改善人们的生活。

但是,它仍处于发展初期,仍有很多不完善的地方,需要进一步开发完善,以满足更多的需求。

印刷体文字的识别研究方法分类介绍

印刷体文字的识别研究方法分类介绍识别方法是整个系统的核心。

用于汉字识别的模式识别方法可以大致分为结构模式识别、统计模式识别及两者的结合。

下面分别进行介绍。

结构模式识别汉字是一种特殊的模式,其结构虽然比较复杂,但具有相当严格的规律性。

换言之,汉字图形含有丰富的结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别汉字的依据,这就是结构模式识别。

结构模式识别是早期汉字识别研究的主要方法。

其主要出发点是汉字的组成结构。

从汉字的构成上讲,汉字是由笔划(点横竖撇捺等)、偏旁部首构成的;还可以认为汉字是由更小的结构基元构成的。

由这些结构基元及其相互关系完全可以精确地对汉字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。

所以这种方法也叫句法模式识别。

识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。

用这种方法来描述汉字字形结构在理论上是比较恰当的,其主要优点在于对字体变化的适应性强,区分相似字能力强;但是,在实际应用中,面临的主要问题是抗干扰能力差,因为在实际得到的文本图象中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等等。

这些因素直接影响到结构基元的提取,假如结构基元不能准确地得到,后面的推理过程就成了无源之水。

此外结构模式识别的描述比较复杂,匹配过程的复杂度因而也较高。

所以在印刷体汉字识别领域中,纯结构模式识别方法已经逐渐衰落,句法识别的方法正日益受到挑战。

统计模式识别统计决策论发展较早,理论也较成熟。

其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。

汉字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。

统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。

不足之处在于细分能力较弱,区分相似字的能力差一些。

常见的统计模式识别方法有:(1) 模板匹配。

模板匹配并不需要特征提取过程。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2013届本科生毕业设计(论文)开题报告课题名称印刷体汉字识别技术的研究专业电气工程及其自动化专业方向电气工程及其自动化班级09103212学号0910321220学生姓名沈佳骏指导教师陈岚教研室电子电工教研室上海应用技术学院电气与电子工程学院2013年3月1日1开题依据汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。

同时也是世界上使用人数最多和数量最多的文字之一。

现如今,汉字印刷材料的数量大大增加,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,信息量均是爆炸性增长,毕竟阅读印刷材料更为符合人的自然阅读习惯。

然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字快速高效地输入计算机,是信息处理的一个关键问题[1],也是关系到计算机技术能否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问题。

但人工键入速度不仅慢而且劳动强度大,一般的使用者每分钟只能输入40—50个汉字。

这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。

而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。

因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选择。

因此,汉字识别技术也越来越受到人们的重视。

汉字识别技术已经呈现出了广泛的应用前景,它主要应用在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域。

汉字识别是模式识别的重要应用领域,也是光学字符识别OCR(Optical Character Recognition)的重要组成部分[2]。

汉字识别是一门多学科综合的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。

一方面各学科的发展给它的研究提供了工具;另一方面,它的研究与发展也必将促进各学科的发展。

因而有着重要的实用价值和理论意义。

2文献综述印刷体汉字识别是文字识别技术的一种。

利用机器识别文字符号,可以说从1929 年陶舍克利用光学模板匹配识别开始。

当时,他使用了10 块模板对应10 个数字,依次把待识别的数字投影到这10块模板上,当模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。

大约在50 年代末60年代初,就已经出现了关于利用计算机识别数字及英文符号的研究论文。

随后,日本对汉字识别进行了研究。

大约从70 年代开始,相继对印刷体汉字识别、手写印刷体汉字识别及在线手写汉字识别进行了研究。

1980 年进行了印刷体汉字识别的公开表演,1981年 5 月在日本第56 届商业展览会上,富士通研究实验室进行了手写印刷体汉字识别的公开表演。

1984年日本研制成多体印刷汉字识别装置,识别率为99.98%,识别速度大于100 字/秒,代表了印刷体汉字识别的最好水平。

最近几年出现的手写印刷体汉字识别装置,识别率可以达90%,识别速度5~40 字/秒,笔顺可变,笔划数不变的联机手写楷书汉字识别装置已有产品出售,正在研究具有一定规则的手写行书识别装置。

我国的汉字识别研究比日本晚了大约10年,1988 年后才有初步实用的印刷体识别系统问世。

从目前的文字识别技术水平来看,与实际的需求之间的确存在很大距离,可以说,在文字识别领域需要发现一些关键的计算方法,至少现在还没有完全掌握这些方法,另一方面,文字识别必须充分地运用人识字的知识,即字→词→句的理解,从这个角度来说,文字识别技术正期待着人工智能在自然语言理解方面的进步。

3方案论证汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法来实现。

目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写体汉字识别。

印刷体汉字识别从识别字体上可分为单体印刷体汉字识别与多体印刷体汉字识别。

印刷体汉字识别的流程如图1-1所示:图1-1汉字识别流程框图印刷在纸张上的汉字,通过用扫描仪扫描或者数码相机拍摄等光学方式输入后得到灰度图像(Grayscale image)或者二值图像(Binary image),然后利用各种模式识别算法对汉字图像进行分析,提取汉字的特征,与标准汉字进行匹配判别,从而达到识别汉字的目的。

印刷体汉字识别技术主要包括预处理、特征提取、匹配识别和后处理等步骤。

3.1预处理在对原始图像进行识别处理之前,尽可能将干扰因素影响降低,是非常有必要的,也就是要先对原始采样信号进行预处理。

预处理通常包括去除噪声、版面分析、二值化、倾斜校正、行列切分、平滑、归一化、细化等。

(1)版面分析它是指对印刷体文档图像进行分析,提取出文本、图像图形、表格等区域,并确定其逻辑关系,并将相应的文本块连接在一起。

(2)二值化将一幅具有多种灰度值的图像变成白黑分布的二值图像的工作称为二值化处理,二值化的主要目的是将汉字从图像中分离出来。

通常的方法为先确定像素的阈值,比较像素值和阈值的大小,从而确定为1或0,这个二值化阈值的选取较为关键。

(3)倾斜校正通过输入设备获得的图像不可避免地会发生倾斜,这会给后面的行字分割、文字识别等图像处理与分析带来困难,因此,在汉字识别系统中,倾斜校正是图像预处理的重要部分。

倾斜校正的核心在于如何检测出图像的倾斜角。

(4)汉字切分汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个图像中分离出来。

汉字的切分分为行切分和字切分[9]。

(5)归一化归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。

(6)平滑对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。

平滑在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低频分量。

(7)细化细化处理是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有一个比特的文字骨架图形。

细化处理的目的是搜索图像的骨架,去除图像上多余的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。

3.2汉字特征提取预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高汉字识别率。

对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今总数已经不下百种。

要做到有的放矢,就需要研究已有的获得良好效果的各种汉字特征,分析它们的优点、缺点和适用环境。

如下列出常用的一些的汉字结构特征和汉字统计特征。

1.结构特征(1)抽取笔画法抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信息来进行汉字的联机识别,在印刷体和脱机手写识别中,由于笔画提取的困难,结果不是很理想。

(2)松弛匹配法松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与边的匹配。

这种方法利用弹性吸收汉字的变形,一个字只用一个样本。

(3)非线性匹配法非线性匹配法是由Tsukumo 等提出的,用以解决字形的位移、笔画的变形等现象。

此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。

2.统计特征(1)笔画复杂性(Complexity Index )笔画复杂性指数是指文字笔画的线段密度,其定义如下:x y x L C σ/= (1-1)y x y L C σ/= (1-2)式(1-1)和(1-2)中x C 、y C 一横向和纵向的笔画复杂性指数;x L 、y L 一横向和纵向的文字线段总长度;x σ、y σ一横向和纵向质心二次矩的平方根;x C 、y C 分别反应了横向和纵向的笔画复杂性,横多的x C 大,竖多的y C 大。

笔画复杂性指数与汉字的位移无关,受字体和字号的影响较小,但易受笔画断裂和粘连的影响,且其分类能力较差,常与另一种粗分类方法“四边码”连用。

(2)四边码(Four-side Code )四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并将它分成四级,构成一个四元组。

由于汉字边框不但含有丰富的结构信息,而且边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较敏感,与笔画复杂性指数正好形成互补。

(3)特征点特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、白点(背景)作为特征来区分不同的字符。

特征点包括笔画骨架线的端点、折点、歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点作为特征点,有利于提高系统的抗干扰能力。

其特点是能够大大压缩特征库的容量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢量形式,匹配难度大,不适合作为粗分类的特征。

(4)笔段特征汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度和宽度的矩形段。

利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体和字号的影响小,对于多体汉字的识别获得了良好效果。

其缺点是笔段的提取会较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。

3.3汉字识别分类1.相关匹配这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向量之间的距离进行分类判决。

(2)文法分析文法分析的基本思想是将输入的汉字看作是一个语句或符号串,将识别问题转化为判断输入的语句是否属于某种语言,即句子是否符合某种语言的语法约束条件。

(3)松弛匹配无论是相关匹配还是文法分析,都要求输入特征向量和模板特征向量的各分量之间具有确切的对应关系,然而在结构分析中,往往事先难以确定两者各分量间的对应关系,此时可以采用松弛匹配法。

松(4)人工神经网络汉字识别是一个非常活跃的分支,不断有新的方法涌现出来,为汉字识别的研究注入新的活力,其中基于人工神经网络的识别方法是非常引人注目的方向。

目前神经网络理论的应用己经渗透到各个领域,并在模式识别、智能控制、计算机视觉、自适应滤波和信号处理、非线性优化、自动目标识别,连续语音识别、声纳信号的处理、知识处理、传感技术与机器人、生物等领域都有广泛地应用。

3.4 后处理后处理就是利用相关算法对识别后的汉字文本或者初级识别结果做进一步的处理,纠正误识的汉字,给出拒识的汉字,确定模棱两可的汉字。

汉字识别的后处理方法[12,13]从用户的参与程度来说,可分为三类:手工处理,交互式处理和计算机自动处理。

以下对各种常用的后处理方法做简单的介绍。

(1)简单的词匹配简单的词匹配就是利用文本中字的上下文匹配关系和词的使用频度,给识别后文本中的拒识字提供一个“最佳”的候选字,其关键是建立汉语词条数据库。

(2)综合词匹配综合词匹配方法,就是综合利用初级识别结果和字的上下文关系及词的使用频度,来决定最后的识别结果。

相关文档
最新文档