中文印刷体文档数学公式识别系统

合集下载

印刷体中文文档中数学公式字符的定位

１引言
目前，我们使用的大多数ＯＣ（Ｒ光学字符识别）软
件，各
２字符定位技术
数学公式的定位，包括独立行公式的定位与内嵌公式的定位。对公式的定位技术一般包含两类：于字符基
中图分类号：３１４ＴＰ９．３文献标识码：Ａ文章编号：０３２１０８１— ０１０１０ —７４（０）１０７ — ４２
ＬｃｔｇｏｔｅｔＯｕａＣｈｒｃｅｓｉｔｅｏａｉｆｎＭａｈｍａｉＦｍ１ｌａａｔｒｃｎｈＰｒｔｄ．ｉｅｅＤｏｕｎｓｉｅ．ｎｓｃｍｅｔｎＣｈ
ＷＡＧＫｅｕ，ＨＮＨｉＬＵＷｅ－ｉｇＬｏｇｈａＮ－ｎＣＥｕ，Ｉｉｎ，Ｉｎ－ｕｊｐＹ
（ｔｍａｏｌｇｆｒｉｎｉｅｒｇＵｎｖｒｉ，ｒｉ５０１ｉａＡｕｏｔｎＣｏｌｅＨａｂｎＥｇｎｅｉｉｅｓｙＨａｂｎ１００ｎ）ｉｅｏｎｔＣｈ
识别结果，没有基于字符识别结果。
行各业的文字识别问题中。然而，比汉字识别而言，相目前对于数学公式字符识别的ＯＣＲ技术还尚不成熟。
我们越来越意识到公式识别对文档的电子化传送以及对一些重要的科技文献的录入工作的重要性。因此，对文档中数学公式的识别技术成为文档识别中的热点和难点问题。
Ｋ．ｎｕＩｏｅ提取整个文档的连通体并对其进行分类，并利用识别结果，进行适当合并得到公式【】Ａ．１。

中文印刷体文档识别技术

中文印刷体文档识别技术第1章绪论1.1 中文印刷体文档识别基本原理1.2 中文印刷体文档识别研究现状1.2.1 印刷体文档的汉字识别1.2.2 印刷体文档的公式识别1.2.3 印刷体文档的表格识别1.3 中文印刷体文档识别中的难点第2章中文印刷体文档图像预处理2.1 中文印刷体文档图像采集2.1.1 文档图像采集2.1.2 文档图像显示2.1.3 文档图像格式2.2 中文印刷体文档图像特点2.3 二值化处理2.3.1 图像灰度化2.3.2 图像二值化2.4 平滑去噪2.4.1 邻域平均法2.4.2 中值平均法2.4.3 噪声直接去除法2.5 倾斜校正2.5.1 图像倾斜检测2.5.2 图像倾斜校正第3章版面分析3.1 版面结构3.2 版面分析方法3.2.1 基于连通域的版面分析方法3.2.2 二分法3.2.3 基于组合特征的版面分析方法3.2.4 基于神经网络的版面分析方法3.2.5 基于最近邻连接强度和行列可信度的版面分析方法3.3 版面理解3.3.1 文字区域3.3.2 图片区域3.3.3 表格区域3.3.4 版面结构表示与存储3.4 版面重构第4章印刷体汉字识别4.1 文本区域预处理4.1.1 文本增强4.1.2 字符分割4.1.3 字符细化4.1.4 字符归一化4.1.5 文本区域处理效果图4.2 印刷体汉字的特征提取4.2.1 印刷体汉字的统计特性4.2.2 印刷体汉字的常用特征4.3 印刷体汉字识别的实现方式第5章公式的定位与提取5.1 印刷体文档公式的特点5.2 基于投影的公式定位和提取5.2.1 独立行公式的定位5.2.2 内嵌公式的定位5.3 基于Parzen窗的独立行公式定位和提取5.3.1 待分类文本行的特征数据提取5.3.2 Parzen窗方法5.3.3 公式定位与提取效果5.4 基于字符宽度中心矩的公式定位和提取5.4.1 文本区域基本数据获取5.4.2 含公式的文本行提取5.4.3 文本行中公式判别5.4.4 独立行公式的定位5.4.5 内嵌公式的定位5.4.6公式定位与提取效果5.5 基于汉字拒识的内嵌公式定位和提取5.5.1 内嵌公式的定位5.5.2 公式定位与提取效果第6章公式字符分割与识别6.1 公式字符的特点6.2 公式字符的分割6.2.1 基于轮廓跟踪的字符分割6.2.2 基于连通域的字符分割6.3 公式字符的识别6.3.1 公式字符图像预处理6.3.2 基于模板匹配的公式字符识别6.3.3 基于特征的公式字符识别6.3.4 印刷体公式字符识别的实现6.3.5 公式字符识别方法第7章公式结构分析与表示7.1 公式结构分析的难点7.1.1 数学运算符的模糊性7.1.2 符号的上下文敏感性7.1.3 表示习惯的差异性7.1.4 公式的复杂性7.1.5 公式的多行结构7.2 公式结构分析前的字符预处理7.3 公式结构分析方法7.4 公式结构表示方法7.4.1 公式的典型表示方法7.4.2 实验结果第8章图表处理8.1 文档中图形图像的表示与处理8.1.1 游程压缩8.1.2 霍夫曼编码压缩8.1.3 算术压缩方法8.1.4 Rice压缩方法8.1.5 LZW压缩方法8.2 文档中表格的分析与识别8.2.1 表格预处理8.2.2 表格直线提取8.2.3 表格结构分析8.2.4 表格字符提取与识别第9章中文印刷体文档识别软件HEUOCR的设计与实现9.1 应用程序框架的构建9.1.1 框架风格9.1.2 数字图像处理类9.2 文档图像预处理9.2.1 图像灰度化9.2.2 图像平滑滤波9.2.3 图像阈值分割9.3 文档图像版面分析9.3.1 基本连通域提取9.3.2 基本连通域分析9.4 文本汉字识别9.4.1 字符分割9.4.2 字符识别9.5 公式识别9.5.1 公式定位9.5.2 公式字符分割9.5.3 公式字符特征提取9.5.4 公式字符识别9.5.5 公式结构分析。

印刷体中文文档识别系统的研究

印刷体中文文档识别系统的研究随着信息技术的发展，文本识别已经成为了领域的热门课题。

在中文文本识别领域，印刷体中文文档识别系统的研究具有重要意义。

本文将介绍印刷体中文文档识别系统的研究现状、系统设计、训练数据准备、算法选择、系统实现、实验评估及总结。

印刷体中文文档识别是指将印刷体中文文本从图像中提取出来，转换成计算机可处理的文本格式。

印刷体中文文档识别系统对于自动化处理中文文本、中文信息检索、文档数字化等领域具有广泛的应用前景。

目前，国内外已经有很多研究机构和企业致力于印刷体中文文档识别系统的研究与应用。

印刷体中文文档识别系统主要包括图像预处理、文本定位、文本识别和后处理四个部分。

图像预处理旨在改善图像质量，为后续处理提供更好的输入；文本定位是确定文本的位置和方向；文本识别则是将文本转换成计算机可处理的格式；后处理则是对识别结果进行校正、排版等操作。

训练数据准备是建立印刷体中文文档识别系统的关键环节。

需要收集大量的中文文档图像，包括不同字体、大小、版式等。

然后，对图像进行预处理，如去噪、二值化、灰度化等，以便于后续处理。

接下来，对图像进行文本定位和分割，即将文本从图像中提取出来，并分割成单个字符或词语。

对定位和分割后的文本进行标注，即人工识别文本的内容，将其转换成计算机可处理的格式。

印刷体中文文档识别系统的核心是算法。

目前，常见的中文文本识别算法包括基于深度学习的算法和基于规则的算法。

其中，基于深度学习的算法具有强大的自适应能力，能够自动学习图像的特征，具有较高的准确率和鲁棒性。

例如，卷积神经网络（CNN）和循环神经网络（RNN）等算法在印刷体中文文档识别领域取得了良好的效果。

而基于规则的算法则主要依赖于预先设定的规则和模板，对于不同版式和字体的适应性较差。

印刷体中文文档识别系统的实现过程包括代码实现、数据传输和界面展示三个部分。

根据算法选择合适的编程语言和框架进行代码实现。

常用的深度学习框架包括TensorFlow和PyTorch等。

印刷计算公式小神器

印刷计算公式小神器在日常工作和学习中，我们经常需要进行一些简单的计算，比如加减乘除、百分比计算、平均数计算等等。

虽然这些计算并不复杂，但是如果能有一个小工具来帮助我们快速准确地完成这些计算，无疑会让我们的工作和学习变得更加高效。

印刷计算公式小神器就是这样一个小工具，它能够帮助我们快速准确地完成各种计算，让我们的工作和学习变得更加轻松。

印刷计算公式小神器是一款基于印刷技术的计算工具，它的外形和一般的印章非常相似，但是它的功能却远远不止于此。

它内置了各种常见的计算公式，比如加减乘除、百分比计算、平均数计算等等，只需要将它按在需要计算的数字上，就能够自动完成相应的计算，并将结果印在纸上。

这样一来，我们就不需要再手动输入数字进行计算，大大提高了计算的速度和准确度。

使用印刷计算公式小神器非常简单，只需要将它按在需要计算的数字上，然后用力按下，就能够完成相应的计算。

它的印刷效果非常清晰，不会因为手的颤抖或者用力不均匀而导致计算结果不准确。

而且它的印刷速度非常快，几乎可以在一瞬间完成计算并印在纸上，省去了手动输入数字和计算的时间，让我们的工作和学习变得更加高效。

除了基本的加减乘除、百分比计算、平均数计算等计算功能之外，印刷计算公式小神器还内置了一些常见的数学公式和物理公式，比如三角函数、对数函数、指数函数、牛顿运动定律、万有引力定律等等，让我们在进行数学和物理计算时更加方便快捷。

而且它还可以自动识别并计算一些常见的单位换算，比如长度单位、面积单位、体积单位、重量单位等等，让我们在进行单位换算时更加方便快捷。

印刷计算公式小神器的使用范围非常广泛，不仅可以在学校、办公室和家庭中使用，还可以在商场、超市和餐厅中使用。

比如在商场和超市中，它可以帮助收银员快速准确地计算商品的价格和找零；在餐厅中，它可以帮助服务员快速准确地计算顾客的消费和找零。

而且它的外形和一般的印章非常相似，不会给人一种工具性的感觉，而是更像是一种文具或者玩具，让人不由自主地想要拿起来玩耍。

基于OCR的印刷体汉字检测技术

基于OCR的印刷体汉字检测技术随着社会的发展，我们的生活越来越数字化，各种文字信息都以电子化的形式呈现在我们面前。

然而，随着数字信息的爆炸式增长，如何有效地处理和管理这些文字信息，成为了一个急需解决的难题。

在这个过程中，OCR技术的应用逐渐变得热门起来。

OCR（Optical Character Recognition）是一种光学字符识别技术，可以将印刷或手写的纸质文本转换为电子文本。

OCR技术的出现可以极大地提高效率，减少错误率，因此在业内得到了广泛的应用。

在汉字OCR技术中，汉字的识别是最为关键的环节，因为汉字是一种复杂的字符，每个字形都各有千秋，对于计算机来说，汉字的识别难度非常大。

然而，随着计算机技术的发展，现在已经出现了一些基于OCR的印刷体汉字检测技术，这些技术能够高效地识别印刷体汉字。

在OCR技术应用的过程中，我们可以将其分为四个步骤：图像预处理、特征提取、分类器构建以及结果输出。

首先，在图像预处理阶段，需要对原始图片进行处理，将其转换为灰度图像，并进行图像二值化处理。

这一步是非常重要的，因为它可以剔除掉一些噪声，保证后续步骤的准确性。

接下来，在特征提取阶段，需要从字符图像中提取出与该字符相关的特征信息。

常用的特征提取方法有基于区域的方法、基于轮廓的方法、基于模板的方法等。

这些方法共同点是都需要对字符字形特征进行分析，以提取出具有代表性的特征。

在分类器构建阶段，需要通过建立一个有效的字符识别模型来对汉字进行分类。

分类器是用来将字符特征转换为二进制码的，它可以是神经网络、支持向量机、模糊逻辑等模型，这些模型相互独立，优缺点也不同。

在选择分类器时，需要根据具体的应用场景进行选择。

最后，在结果输出阶段，将计算机识别的汉字输出为电子文本，可以进行传输、编辑和高速检索。

在这一阶段，一般需要针对识别错误的汉字进行校正，以提高识别的准确率。

虽然随着OCR技术的进步，其检测准确率已经得到了显著提升，但是汉字OCR技术仍面临着一些挑战，比如多字体、多尺寸、多角度、扭曲变形等问题。

几款OCR识别软件介绍

几款OCR识别软件介绍汉王OCR在最近几年中，OCR识别技术随着扫描仪的普及得到了飞速的发展，扫描、识别软件的性能不断强大并向智能化不断升级发展。

OCR 是英文Optical Character Recognition的缩写，意思为光学字符识别，通称为文字识别，它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息，利用各种模式识别算法分析文字形态特征，判断出汉字的标准编码，并按通用格式存储在文本文件中，由此可以看出，OCR实际上是让计算机认字，实现文字自动输入。

它是一种快捷、省力、高效的文字输入方法。

汉王OCR 是针对机关单位、企业及有文字录入需求的个人用户，在日常的工作中，快速的对书刊、报纸、公文、宣传页等印刷稿件中内容进行录入的应用需求而推出的。

本产品集成了汉王科技顶尖的文字识别技术，对印刷文稿录入的识别率高达99.5%，能够识别百余种印刷字体和各种中英繁表图混排格式的文本，。

是理想的文字、表格、图像录入系统。

这样一来，就不用再手工输入大量的资料了，只要扫进去，像那种抓英文的工具一样，让软件自动地转成WORD文档。

即可将图片变成可编辑的文挡格式。

这是目前破解最完美的汉王OCR软件。

丹青中英日文OCR 辩识白金版4.5安装序列号：MXRD450-7DMN-MM7M-CFCB功能简介原文重现尽在瞬间◎提供繁中、简中和日文三种操作介面◎可辨识繁中、简中、英文及日文四种文件◎辨识后的文件可储存成各种常用档案格式再编辑◎超高辨识速率及辨识率再提升，快速原文重现各式文件产品说明影像扫瞄1. 可处理彩色、灰阶或黑白的文件影像。

2. 倾斜校正：自动侦测文件影像倾斜角度，并提供旋转影像之功能。

辨识文件1. 自动辨识：轻按一钮，即可自动分析、辨识、校对影像文件，图文分离，并转换成可编辑的文件档案。

2. 设定辨识字集：不需切换语文环境，即可辨识繁中、简中、纯英文及日文四种文件。

3. 高辨识速率：在Pentium III 667MHz个人电脑环境下，每秒钟能辨识高达150个中文字。

几款OCR识别软件介绍

⼏款OCR识别软件介绍⼏款OCR识别软件介绍汉王OCR在最近⼏年中，OCR识别技术随着扫描仪的普及得到了飞速的发展，扫描、识别软件的性能不断强⼤并向智能化不断升级发展。

OCR 是英⽂Optical Character Recognition的缩写，意思为光学字符识别，通称为⽂字识别，它的⼯作原理为通过扫描仪或数码相机等光学输⼊设备获取纸张上的⽂字图⽚信息，利⽤各种模式识别算法分析⽂字形态特征，判断出汉字的标准编码，并按通⽤格式存储在⽂本⽂件中，由此可以看出，OCR实际上是让计算机认字，实现⽂字⾃动输⼊。

它是⼀种快捷、省⼒、⾼效的⽂字输⼊⽅法。

汉王OCR 是针对机关单位、企业及有⽂字录⼊需求的个⼈⽤户，在⽇常的⼯作中，快速的对书刊、报纸、公⽂、宣传页等印刷稿件中内容进⾏录⼊的应⽤需求⽽推出的。

本产品集成了汉王科技顶尖的⽂字识别技术，对印刷⽂稿录⼊的识别率⾼达99.5%，能够识别百余种印刷字体和各种中英繁表图混排格式的⽂本，。

是理想的⽂字、表格、图像录⼊系统。

这样⼀来，就不⽤再⼿⼯输⼊⼤量的资料了，只要扫进去，像那种抓英⽂的⼯具⼀样，让软件⾃动地转成WORD⽂档。

即可将图⽚变成可编辑的⽂挡格式。

这是⽬前破解最完美的汉王OCR软件。

丹青中英⽇⽂OCR 辩识⽩⾦版4.5安装序列号：MXRD450-7DMN-MM7M-CFCB功能简介原⽂重现尽在瞬间◎提供繁中、简中和⽇⽂三种操作介⾯◎可辨识繁中、简中、英⽂及⽇⽂四种⽂件◎辨识后的⽂件可储存成各种常⽤档案格式再编辑◎超⾼辨识速率及辨识率再提升，快速原⽂重现各式⽂件产品说明影像扫瞄1. 可处理彩⾊、灰阶或⿊⽩的⽂件影像。

2. 倾斜校正：⾃动侦测⽂件影像倾斜⾓度，并提供旋转影像之功能。

辨识⽂件1. ⾃动辨识：轻按⼀钮，即可⾃动分析、辨识、校对影像⽂件，图⽂分离，并转换成可编辑的⽂件档案。

2. 设定辨识字集：不需切换语⽂环境，即可辨识繁中、简中、纯英⽂及⽇⽂四种⽂件。

印刷体数学公式符号的切分与识别的开题报告

印刷体数学公式符号的切分与识别的开题报告一、研究背景及意义在数学领域中，数学公式符号是重要的表达方式。

传统数学教学往往采用手写方式，但随着科技的发展，数字化数学教育成为趋势，电子化的数学教材中，数学公式的表达非常重要。

因此，研究印刷体数学公式符号的切分与识别被视为具有重要现实意义和应用前景的基础性问题。

该问题对于数学教育、科技发展等领域都有着重要的意义。

二、前人工作回顾计算机视觉领域已经有很多研究者投入了印刷体数学公式符号的切分与识别的研究。

传统的方法是使用Sobel、Prewitt等算子来提取图像边缘，再通过区域生长、规则过滤等算法将公式切割成一个个符号。

然后，将每个符号进行特征提取和分类。

其中，特征提取包括傅里叶变换、小波变换、方向梯度直方图等方法，分类利用KNN、SVM、HMM等方法。

三、研究内容及思路本次研究拟采用深度学习的方法对印刷体数学公式符号切分和识别进行研究。

具体包括如下几个研究内容：1.数据准备：我们将采用公开数据集来训练和测试算法，包括Mathematical Expression Recognition dataset（MEX）和CROHME2013公开数据集。

同时，我们将自己采集数据进行补充。

2.符号切分：我们将选用Faster R-CNN/DenseBox等目标检测网络对数学公式进行语义分割。

3.符号识别：我们将设计并训练一个基于卷积神经网络（CNN）的模型来对公式中的符号进行识别。

四、研究计划1. 第一阶段：调研与文献回顾，理解数学公式符号切分与识别问题的背景和现状，制定本次研究的具体目标和思路。

2. 第二阶段：数据准备，包括获取和筛选可用数据集，并进行数据预处理和增强。

3. 第三阶段：符号切分，采用目标检测网络进行符号的语义分割。

4. 第四阶段：符号识别，设计和训练CNN模型，用于分类和识别数学公式中的符号。

5. 第五阶段：实验与分析，测试所训练的模型，并进行分析和比较。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｅｘｐｒｅｓｓｉｏｎｓ
ａｎｄ
ｔｏ
ｒｅｃｏｎｓｔｒｕｃｔｔｈｅ
ａｓ
ｒｅｃｏｇｎｉｚｅｄｆｏｌｌｏｗｓ：
ｅｘｐｒｅｓｓｉｏｎｓ
ｉｎｔｏ
ｐｕｂｌｉｃａｔｉｏｎｆｏｒｍａｔ．１１１ｅｓｙｓｔｅｍｗｏｒｋｓ
Ｆｉｒｓｔｌｙ，ＩｍａｇｅＰｒｅｔｒｅａｔｍｅｎｔ．Ｉｔｗｉｌｌｉｍｐｏｒｔｎｏｉｓｅｉｎｔｈｅｐｒｏｃｅｓｓｏｆｉｍａｇｅ
Ｃｈａｒａｃｔｅｒ
Ｒｅｃｏｇｎｉｔｉｏｎ）。ＯＣＲ实际上是把
含有印刷体字符或手写体字符（数字、字母、汉字等）的文档图像进行识别并转换为计算机可以理解的代码（如ＡＳＣＩＩ码）的过程。０ｃＲ涉及模式识别、图像处理、数字信号处理、人工智能、模糊数学、信息论等学科，是一门综合性的研究课题。人们对ＯＣＲ的研究从２０世纪５０年代就开始了，它是模式识别领域中最早开始被人们研究的领域之一，但早期这方面的研究受到了当时计算机计算及存储能力的限制。从２０世纪８０年代初开始，随着信息技术的迅猛发展，人们也逐渐显示出对ＯＣＲ越来越浓厚的研究兴趣。这不仅是因为该领域充满了无数令人兴奋的挑战，也是因为实用ｏＣＲ系统研究的成果能给社会带来巨大的经济效益。经过多年的研究和发展，字符识别技术有了长足的进步，不断涌现出大量的成果。按照文字的书写方式不同，字符识别技术可分为印刷体字符识别和手写体字符识别两大类，后者又可根据字符数据产生的方式不同分为联机（Ｏｎ—ｌｉｎｅ）和脱机（Ｏｆｆ－ｌｉｎｅ）两种。印刷体字符由于其书写规范、规格统一的特点，其识别技术已经趋于成熟和完善，市场上推出的识别产品也日臻成熟，识别效果已经较好，即使对印刷质量较差的文档图像也能达到较高的识别率。目前主流的ＯＥＲ系统能够高效、准确的识别文档中的文字，已经广泛应用于办公自动化、快速录入等领域，克服了人工输入费时费力的缺点。这方面国内有代表性的研究单位有清华文通、汉王、北京信息工程学院，国家智能计
作者（签字）：
杰盘
日期：
炒７年弓月７日
哈尔滨工稃大学硕士学位论文
第１章绪论
１．１课题研究的目的和意义
随着计算机的普及，人们越来越多的使用计算机处理日常工作和存储信息。信息化时代的到来，使因特网成为传播、交换信息的主要途径。另外，对于业务繁忙的公司，如银行、海关、税务和教育等部门，必须在有限的时间内，查找和处理数量巨大的文件流。所有这些，都迫切要求使用一些廉价而又有效的方法，把现存的印刷在纸上的文献转化为相应的电子形式，使之便于计算机处理及因特网传播。字符识别是模式识别学科的一个传统研究领域，从五十年代开始，许多研究者就在这一领域开展了广泛的探索，推动了模式识别的发展。字符识别最主要的应用就是０ｃＲ（ｏｐｔｉｃａｌ
Ｃｈｉｎｅｓｅｃｈａｒａｃｔｅｒｓ．Ａｎｄｔｈｅｎ，Ｓｙｍｂｏｌｎｅｅｄｔｏｋｎｏｗ
Ｒｅｃｏｇｎｉｔｉｏｎ．Ｆｏｒｍｕｌａｓ
ｗｅｇｅｔｈａｖｅ
ｍａｎｙ
ｃｈａｒａｃｔｅｒｓ，ｗｅ
ｆｏｒｍｕｌａｃｏｎｔａｉｎｓ，ｔｈｅ
ｌｏｃａｔｉｏｎｒｅｌａｔｉｏｎ
ｑｕｉｃｋａｐｐｒｏａｃｈｔｏｓｅｇｍｅｎｔｅａｃｈｃｈａｒａｃｔｅｒｆｒｏｍｔｈｅ
哈尔滨工程大学硕士学位论文
算机研究中心以及重庆大学光机所。现在对于汉字这样的超大字符集，识别率也达到了９５％以上【ｌｌ。对于联机手写字符识别，数据是通过书写者使用一支特殊的笔在一块电子平板上书写获得的，即字符的识别与人的书写必须同时进行。联机字符识别的研究也比较成熟，国内外已经有多家公司从事联机手写字符识别的产品开发，市场上常见的“手写板”就是这样的产品。联机字符识别主要用于信息产品（个人电脑、手机、ＰＤＡ等）的电子笔输入，以及数字签名验证、笔迹鉴定等信息安全领域。对于脱机字符识别，数据则是通过对写好或打印出来的文档扫描成图像获得的。脱机情况下的字符识别比
Ａｂｓｔｒａｃｔ
Ｗｉｔｈ
ｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙｎｏｗａｄａｙｓ，ｍａｔｈｅｍａｔｉｃａｌ
ａｒｅ
ｅｘｐｒｅｓｓｉｏｎｓ
ｔｈｅ
ｃｏｒｅ
ｐａｒｔｏｆｍｏｓｔｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙｄｏｃｕｍｅｎｔｓ．Ｂｕｔｉｔｉｓ
ｌｅｖｅｌｏｆｓｃｉｅｎｃｅａｎｄ
ｓｅａｒｃｈｅｓ，ａｎｄｔｈｅｒｅｆｏｒｅｉｍｐｒｏｖｅｔｈｅ
ｔｅｃｈｎｏｌｏｇｙ
ｉｎ
ｌｉｔｅｒａｔｕｒｅ．
他ｅ
ｓｙｓｃｅｍｐｒｏｐｏｓｅｄｉｎｔｈｉｓａｒｔｉｃｌｅｈａｓｔｈｅａｂｉｌｉｔｙ
ｔＯ
ｒｅｃｏｇｎｉｚｅ
ｍａｔｈｅｍａｔｉｃｓ
ｐａｒｔｉｃｕｌａｒ
具有重要意义。
国外于２０世纪６０年代后期开始数学公式识别的研究，进入９０年代，这
个领域的研究热度逐渐增加，作为文档电子化必须要解决的问题，数学公式识别得到了越来越多的关注。数学公式与普通文本相比有许多不同的特点，根式、分式、上／下标、极限以及矩阵等特殊结构的存在，使得数学公式在结构上具有二维特征，这决定了数学公式识别应该包含符号识别与公式结构分析两部分。而结构分析的准确性会直接影响对公式的理解与重构，因此它决定了公式识别效果的好坏，是公式识别的关键。根据数学公式输入方式的不同，可将数学公式识别系统分成两类：联机数学公式识别和脱机数学公式识别。
特别困难，这也制约了利用计算机和网络开展数学辅助教学的发展。因此对它的研究可以使数学表达式用于检索。提高文献的科技性：实现公式输入的
自动化，以解决手动输入的低效率问题；改变数学表达式图片的存在形式，可以节省空间，提高网络的传输速度等。目前广泛应用的ｏｃＲ系统对手写、印刷体文本都有很高的识别率，己经广泛应用于办公自动化等领域，克服了人工输入费时费力的缺点。但是它只憨识别单个字符，还不能分析公式结构，这样就失去了公式所表达的数学含义。因此，本文提出一种对文档中的数学公式定位提取后利用基于特征字符的印刷体数学公式识别方法的设计思想，并给出了完整算法，将印刷体的数学公式（图像格式）转换成可编辑的电子格式。本文主要分为以下几个部分：
ｅｘｐｒｅｓｓｉｏｎｕｎｔｉｌ
哈尔滨工稃大学硕士学能论文
Ａｔｔｈｅｅｎｄ，ＯｕｔｐｕｔｔｈｅｒｅｓｕＲ．Ｉｎｔｈｉｓｐａｒｔｗｅｉｎｔｒｏｄｕｃｅｈｏｗ
ｔｏｕｓｅ
ＷｏｒｄＥＱ，
ａ
ａｎｄｆｉｎａｌｌｙ，ｗｅ仃ａｎｓｆｅｒｔｈｅｇｒａｍｍａｒｔｒｅｅｐｒｏｄｕｃｅｄｂｙｔｈｅｓｔｒｕｃｔｕｒｅａｎａｌｙｚｅｒｉｎｔｏ
联机的情况要复杂的多，市场上的一些产品识别效果都不太理想，对书写的
规范性要求较高，脱机识别主要应用于银行票据处理、邮政信件自动分拣、商业表格识别等领域。
在科技高速发展的现代，许多科技文献中不仅包含普通文字，图像和图
形，还包含大量的数学公式，已有的ＯＣＲ产品只能识别字符，一般不具备数
学公式的识别与重构功能，仍需要按照图片来处理公式，存储数据量大且无法编辑、修改。因此，研究公式识别与重构，对于拓宽ＯＣＲ系统的应用领域
ｏｎ
ａｎｄ
ｓｙｍｂｏｌｓｂｕｔａｌｓｏｏｆｉｔｓｃｈａｎｇｅａｂｌｅｌａｙｏｕｔ
ｔｈｅｍａｔｈｅｍａｔｉｃａｌｅｘｐｒｅｓｓｉｏｎｓ，ｗｈｉｃｈａｒｅｃｏｍｐｏｓｅｄｏｆ
ｅｘｐｒｅｓｓｉｏｎｓｂｅ
ａｎｄｔｅｃｈｎｏｌｏｇｙ，Ｃａｎｍａｋｅｔｈｅｍａｔｈｅｍａｔｉｃａｌ
ｃｏｎｔａｉｎ
ｍａｔｈｅｍａｔｉｃａｌ
ｍａｔｈｅｍａｔｉｃａｌｆｏｒｍｕｌａｓ
ｉｓｏｌａｔｅｄａｎｄ
ａｒｅ
ｆｏｒｍｕｌａｓ．Ｗｈｅｎｌｉｎｅｓｔｌｌａｔｃｏｎｆｉｒｍｅｄ，ｍａｔｈｅｍａｔｉｃａｌｆｏｒｍｕｌａｓｙｍｂｏｌｓ
ｃｏｎｔａｉｎ
ｃａｎ
ｂｅ
ｌａｂｅｌｅｄ
ａｃｃｏｒｄｉｎｇｔｏｔｈｅｍｏｒｐｈｏｌｏｇｉｃａｌｄｉｆｆｅｒｅｎｃｅｓｂｃｔｗｅｇｎｔｈｅｍａｎｄ
ｃｒｅａｔｉｏｎ，ａｎｄｉｔｉｓｈａｒｄｔｏｄｅａｌｗｉｍｓｕｃｈｐｉｃｔｕｒｅｓｄｉｒｅｃｔｌｙ，ＳＯｗｅｎｅｅｄｄｏｓｏｍｅａｔｆｉｒｓｔｔｏｍａｋｅｔｈｅｐｉｃｔｕｒｅｍｏｒｅａｐｐｒｏｐｒｉａｔｅｔｏｄｉｓｐｏｓｅ．
ｊｏｂ
Ｓｅｃｏｎｄｌｙ，ＭａｔｈｅｍａｔｉｃａｌＦｏｒｍｕｌａＬａｂｅｌｉｎｇ．Ｉｎｔｈｉｓｔｈｅｓｉｓ，ａ
ｉｓｐｒｏｐｏｓｅｄｔｏ
ｓｔａｔｉｓｔｉｃａｌｍｅｔｈｏｄ
ｊｕｄｇｅｗｈｅｔｈｅｒｏｎｅ
ｏｒ
ｔｅｘｔ
ｌｉｎｅｉｎ
ａ
ｔｙｐｅｓｅｔＣｈｉｎｅｓｅｄｏｃｕｍｅｎｔ
ｃｏｎｔａｉｎｓ
ｍａｔｈｅｍａｔｉｃａｌｆｏｒｍｕｌａｓ１ｉｎｅｓａｎｄｌｉｄｉｆｆｅｒｇｒｅａｔｌｙｂｅｔｗｅｅｎｐｕｒｅｔｅｘｔ
ＷｏｒｄＥＱｄｏｃｕｍｅｎｔ．
Ｋｅｙｗｏｒｄｓ：ｍａｔｈｅｍａｔｉｃａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎ；ｓｔｒｕｃｔｕｒｅａｎａｌｙｓｉｓ；ｆｏｒｍｕｌａｅｘｔｒａｃｔｉｏｎ；ｓｙｍｂｏｌｌａｂｅｌｉｎｇ；ｓｙｍｂｏｌｒｅｃｏｇｎｉｔｉｏｎ
哈尔滨工程大学
学位论文原创性声明
ｏｎ
ｅｘｔｒｅｍｅｌｙｄｉｆｆｉｃｕｌｔｔｏｅｘｐｒｅｓｓｔｈｅｍａｔｈｅｍａｔｉｃａｌｆｏｒｍｕｌａ
ｃｏｍｐｕｔｅｒ
ｎｏｔｏｎｌｙ
ｂｅｃａｕｓｅｏｆｉｔｓｖａｒｉｏｕｓｃｈａｒａｃｔｅｒｓ
ｗａｙｓ．Ｓｏｔｈｅｒｅｓｅａｒｃｈｅｓｍａｎｙｒｕｌｅｓｏｆｓｃｉｅｎｃｅｕｓｅｄｉｎ
进行分割，并对不同的特征字符，采用不同的处理算法，找出各个特征予块。