基于文字特征的文档碎纸片半自动拼接

合集下载

基于文字特征的文档碎纸片半自动拼接

基于文字特征的文档碎纸片半自动拼接
C m ue n ier ga d p l ain 计算机工程与应用 o p tr gnei n pi t s E n A c o
基于文 字特征 的文档碎纸 片半 自动拼 接
罗智 中
LUO i h n Zh z o g
华东交通大学 机 电工程学院 , 南昌 3 0 1 303
S h o f e h n c l n e tia n i e rn , s i aJa t n i e st, n h n 3 0 , i a c o l c a i a d Elcrc l g n e i g Ea t oM a E Ch n io o g Un v r i Na c a g 3 0 Ch n y 1 3

Ke r s t c i g o rp e a e ; ma e si h n ; a tr e o n t n y wo d :si h n f c a p dp p r i g t c i g p t n r c g i o t s t e i

要: 分析 了基 于几何特征 的碎 纸 片 自动拼接 方法的缺点 , 究 了碎 纸片 内文字行特征 、 研 表格特征 特点 , 以及碎 纸片 内文字行
l 引言
常规文档碎 纸片计算机 拼接方法一般 利用碎片边缘 的尖 点特征 、 角特征 、 尖 面积特 征等几 何特征 , 索 与之匹配 的相 搜 邻碎纸 片并进 行拼接 n , 这种基 于边 界几何 特征 的拼接方 法 并 不适 用 于边 缘形 状相 似 的碎 纸片 。但 是 人手撕 裂 碎纸 片 时 , 节省 时 间习惯 上总 是先 将碎 纸 片重 叠在 一起 , 为 然后 撕 裂 , 碎纸片重叠 起来 , 续撕裂 , 再将 再继 这样反复下 去 , 直到得 到满意大小 的碎 纸片为止 。这 种撕裂过程会 产生很多形状 非 常相 似的碎纸 片 , 接时如果只利 用碎片的边 界特 征 , 接效 拼 拼

碎纸片拼接复原的数学方法

碎纸片拼接复原的数学方法

碎纸片拼接复原的数学方法拼图游戏,一种看似简单却富含深度的游戏,给人们带来了无穷的乐趣。

然而,大家是否想过,这样的游戏其实与数学有着密切的?让我们一起探索碎纸片拼接复原背后的数学方法。

碎纸片拼接复原,其实就是一个计算几何问题。

在数学领域,欧几里得几何和非欧几里得几何是两个基本而又重要的分支。

欧几里得几何主要研究的是在平面上两点之间的最短距离,这是我们日常生活中常见的几何学。

而非欧几里得几何则研究的是曲面上的几何学,这种几何学并不符合我们日常生活中的直觉。

碎纸片拼接复原的问题就是一种非欧几里得几何问题。

在计算机科学中,图论是研究图形和网络的基本理论。

其中,图形遍历算法可以用来解决碎纸片拼接复原问题。

这种算法的基本思想是:从一点出发,尽可能多地遍历整个图形,并在遍历的过程中对图形进行重建。

对于碎纸片拼接复原问题,我们可以将每一张碎纸片看作是图中的一个节点,当两张碎纸片拼接在一起时,它们就形成了一个边。

通过这种方式,我们可以将所有的碎纸片连接起来,形成一个完整的图形。

在计算机科学中,碎纸片拼接复原问题被广泛应用于图像处理、数据恢复等领域。

例如,在数字图像处理中,如果一张图片被切割成若干块,我们可以通过类似的方法来恢复原始的图片。

在数据恢复领域,当一个文件被删除或格式化时,我们也可以通过类似的方法来恢复文件。

碎纸片拼接复原的问题不仅是一个有趣的拼图游戏,更是一个涉及计算几何、图论等多个领域的数学问题。

通过运用这些数学方法,我们可以有效地解决这个问题,从而更好地理解和应用这些数学理论。

在我们的日常生活中,我们经常会遇到一些破碎的物品,例如碎镜子、破碎的瓷器,或是碎纸片等。

这些物品的复原过程都需要一种科学的方法来帮助他们重新拼接起来。

这种科学方法就是碎纸片拼接复原技术。

碎纸片拼接复原技术是一种基于数学模型的方法,它通过比较碎纸片边缘的形状、纹理、颜色等特征,来找到碎纸片之间的相似性和关联性,从而将它们拼接起来。

切碎文字图片拼接还原的算法设计与实现

切碎文字图片拼接还原的算法设计与实现

切碎文字图片拼接还原的算法设计与实现发布时间:2021-04-12T13:14:33.793Z 来源:《中国建设信息化》2020年24期作者:储成伟1 [导读] 对重要文件的拼接复原,传统上都由人工完成,拼接准确率虽然高但是效率很低。

储成伟11 武汉学院信息工程学院摘要:对重要文件的拼接复原,传统上都由人工完成,拼接准确率虽然高但是效率很低。

本文旨在建立模型,利用计算机编程加少量的人工干预实现碎纸片的拼接复原。

全等矩形破碎文字图片的拼接还原技术是一种特殊的图片拼接复原技术,它处理的图片具有明显几何规律而不能采用边沿几何形状识别拼接还原。

对于规律性较强的图片,先通过数据挖据,得到图片中所有文字占据连续像素行的平均行数,图片中两行文字间的间距(行距)占据的连续像素行的平均行数,以及每张图片所包含的文字和行距之间的交替规律即行信息向量,并对图片边沿进行二值化处理。

关键词:破碎图片;贪心算法;数据挖掘;模式识别依托武汉学院大学生创新训练项目,指导老师李丽容,湖北省教育科学规划课题-重点课题:2019GA066 1 引言破碎文件的拼接还原在复原司法物证、修复历史文献以及获取军事情报等领域都有着重要的应用。

一般地,由人工完成拼接复原,虽然准确率很高,但效率却低。

尤其是当有数量巨大的碎片时,采用人工拼接复原几乎不可能在短时间内完成。

随着计算机技术的发展,人们可以利用计算机实现破碎文件的自动拼接还原,以提高拼接复原效率,这样就可以把人从繁重的工作中解放出来,不再需要人工从大量碎纸堆中一块一块的比对寻找匹配的碎片,减轻了人的工作量和劳动强度,还能够让需求者在极短的时间内得到想要的结果,迅速准确的得到复原结果。

还原技术采用贪心算法,对图片进行拼接还原。

先从图片的行信息向量中筛选出所有可能成为第一行的图片,对这些图片的行信息向量进行聚类分析,得到第一行的所有图片的序号。

用同样的方法得到最左侧所有图片的序号,对这两个集合取交集,就得出了位于第一行第一列(左上角)的图片。

碎纸片的拼接复原

碎纸片的拼接复原

碎纸片的拼接复原作者:沈江琴徐莹来源:《速读·中旬》2014年第09期摘要:关于破碎文件的拼接复原是我们现实生活中的实际问题,主要就是根据碎纸片边缘的字迹、文字之间的行高、间距等特征,确定合理的拼接方案。

本文作者通过建立合理模型,采用灰度值矩阵,进行计算机计算,再通过人工干预,最终得到完整的拼接结果。

关键词:灰度值矩阵;匹配模型;Pearson相关系数;人工干预破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上,拼接复原工作需由人工完成,效率很低。

特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。

随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。

1 模型的假设与符号说明1.1模型的假设(1)假设所有碎纸片原有的文本中字与字、行距、段落间距是相同的;(2)假设所有的碎纸片都能拼接上,没有多余或者缺少;(3)假设所有碎纸片的文字字体大小相等;(4)假设每篇文本的左右页边距、上下页边距相同,且距离适中;(5)假设文本读取方向从左往右、从上往下。

1.2模型的符号说明[ai]:碎纸片左边缘字迹的灰度矩阵;[bj]:碎纸片右边缘字迹的灰度矩阵;[A]:所有碎纸片左边字迹的灰度矩阵;[B]:所有碎纸片右边缘字迹的灰度矩阵;[D]:所有碎纸片左右边缘字迹灰度值的差异度;[dij]:左边缘[i]与右边缘[j]的灰度值差异度;[xij]:0-1变量,当左边缘[i]与右边缘[j]配对时取1,否则取0;[mi]:序号为[mi]的碎纸片;[am,n]:矩阵[ai]中的元素;[bm,n]:矩阵[bj]中的元素2 问题的分析我们对于附件一中来自同一页印刷文字文件的碎纸机破碎的纸片(仅纵切),建立碎纸片拼接复原模型和算法。

通过观察可以发现,文字文档的文字行方向是平行并且单一的,如果某一个碎纸片内的文字行在边缘处断裂,那么与它相邻的碎纸片在边缘处也一定具有相同高度的文字行,我们凭借此特征可以从碎纸片边缘字迹相似的多个碎片中挑出相邻的碎片。

基于汉字识别的碎纸片拼接复原模型研究

基于汉字识别的碎纸片拼接复原模型研究

量 明月,
( 7 2 _ _ i ) , 则只需要对剩余所有图片 自左向右读取第
n -( 7 2 一j ) 列、 第t 到t + n 行像素的灰度值 。若该行
有缺 损文 字 , 则 与第一 张 图 片 同一 行 的后 ( 7 2 一i ) 列 像 素 灰 度值 进行 匹配 , 再 利 用模 式 识别 判 断 能 否成 字 ,这样 就 可 以找 到 与第 一 张 图片 相 匹 配 的 图片 。 如果 没有 缺损 文字 , 则从 上往 下读 取第 t + ( i 一1 ) n + ( i 一1 ) 到t + i n + ( i —1 ) 水 h ( i 为 读 取 字 的行 数 ) 行
( 7 2 一j ) 。
1 1 0 - “
『l l 帕 + 1 r

第三步 , 由于 每个 印 刷体 方 块 字 的字 宽 和字 高

、 f 一
l 入
都是一定的 , 所 以可以推断出剩余 图片中与第一张 图 片缺损 部 分相 匹配 的 缺损 部 分 的宽 度 为 n 一




‘ -・
第二步 , 通 过 Ma t l a b软件 读取 出第 一 张 图片缺

l 窗前
毛旦 籼
N C L
月光 ,
卜霞
[ = 】 1. / I 、 日 。
损字 的左边距 i , 每个方体字 的字宽和字高 n , 字间
距 h 。这样 第一 张 图 片最右 边 的缺损 字 的宽 度 即为
图四 图 片拼 接 展 示 图
进行灰度值处理 、 匹配 , 确保 了模 型建立的合理性 ,
编程 实现 简单 , 通俗 易懂 。且利 用 函数 的连续性 , 证

基于文字特征的双面打印碎纸片拼接复原

基于文字特征的双面打印碎纸片拼接复原

基于文字特征的双面打印碎纸片拼接复原陈稳稳;黄磊【期刊名称】《网友世界·云教育》【年(卷),期】2013(000)024【摘要】图像拼接(Image Mosaic)是一个日益流行的研究领域,他已经成为照相绘图学、计寄机视觉、图像处理和计寄机图形学研究中的热点。

图像拼接解决的问题一般是通过对齐一系列空间重叠的图像,构成一个无缝的、高清晰的图像,它具有比单个图像更高的分辨率和更大的视野。

在司法物证鉴定、历史书籍复原等很多领域要用到文字碎片的拼接复原,目前,对于碎纸片的拼接复原,大都采用人工拼接的方式进行。

这种方法寅然准确度较高,但是效率较低,尤其是面对大量碎片的拼接复原时,效率低下的问题显得尤为明显。

如果能引入计寄机辅助图像拼接技术,必能大大提高工作效率,减少工作时间。

文章针对给出题目提出的数据和附件中给出的数据,进行了严密地分析,建立了数学模型,给出的求解方法,得出了结果。

<br> 问题1:对于碎纸机既纵切又横切的情形,给出的中、英文印刷文字双面打印文件的碎纸机碎片数据,设计相应的碎纸片拼接复原模型或寄法,如果复原过程需要人工干预,写出干预方式及干预的时间节点。

<br> 问题2:编写程序实现计寄机还原,要求复原结果以图片形式及表格形式表达,分析并总结双面打印碎纸机碎片还原和单面的区别,写出实验报告。

【总页数】1页(P13-13)【作者】陈稳稳;黄磊【作者单位】邵阳学院,湖南邵阳 422000;邵阳学院,湖南邵阳 422000【正文语种】中文【相关文献】1.基于数字图像的碎纸复原模型与算法--2013年全国大学生数学建模B题碎纸片的拼接复原问题 [J], 刘铁2.基于数字图像的碎纸复原模型与算法——2013年全国大学生数学建模B题碎纸片的拼接复原问题 [J], 刘铁;3.基于文字信息的碎纸片拼接复原算法 [J], 鲁嘉琪4.基于文字特征和边缘特征的文本碎纸片拼接 [J], 刘赐德;黄志祥;管一弘;赵建军5.基于特征点匹配的双面碎纸片自动拼接复原 [J], 杨伟芳;王锦升;邹德玉因版权原因,仅展示原文概要,查看原文内容请购买。

2021全国大学生数学建模比赛B题 答案

2021全国大学生数学建模比赛B题 答案
图1中左边矩阵第一列与右边矩阵第二列匹配的原那么与上述一样,不再重述。
如图2,当图片出现倒置情况时,正常情况下应是左边矩阵的第二列元素与右边矩阵的第一列元素进展两两匹配,假设倒置后,那么应该是左边矩阵的第二列元素与右边矩阵的第二列元素倒置顺序进展比拟,同样记录一样元素的个数并计算匹配度。
图2中左边矩阵第一列元素与右边矩阵第一列元素的匹配原那么与上述一样,不再重述。
日期:2021年9月13日
赛区评阅编号〔由赛区组委会评阅前进展编号〕:
2021高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号〔由赛区组委会评阅前进展编号〕:
赛区评阅记录〔可供赛区评阅时使用〕:







全国统一编号〔由赛区组委会送交全国前编号〕:
全国评阅编号〔由全国组委会评阅前进展编号〕:
针对问题三考虑到双面问题以及问题二中英文碎纸片的情况,我们把碎纸片两面匹配度之和作为判断碎纸片是否连接的评价标准,在问题一方法的根底上,在计算机每一步的匹配结果加以人工选择与判断,这样再次处理得到的结果,可以得到同问题二中一样的横行碎纸片,在根据新的横行碎纸片的两面边缘匹配度之和进展同样的操作处理可以将原纸张拼接复原。
两张图片匹配的原那么可以根据下面的图1、图2来表示。
如图1,当图片未出现倒置情况时,即题目中的图片均是正常摆放,将左边矩阵的第二列元素与右边矩阵的第一列元素进展两两匹配。记录元素一样的个数,个数除以1980为左边矩阵第二列对右边矩阵第一列的边缘匹配度,记为:
将所有碎纸片的二值化矩阵做如上匹配可依次选取与其匹配的碎纸片。
观察下面的图3可以发现,通过查阅资料分析[2]基于文字特征的文档碎纸片半自动拼接,每一行的绝大多数中文文字均可认为拥有同一上界、同一下界〔图3最右端出现了“一〞字,但是同行还存在其他文字,可以认为同一行文字有同一上界与同一下的碎纸片归类为一组。方法为:搜索每一张碎纸片转化后二值化矩阵 的每一行,假设矩阵该行中存在数值1,那么将该行全部赋值为1,假设这一行元素全为0,那么将该行全部赋值为0,其中1表示本行存在灰度小于255的像素,0表示不存在灰度小于255的像素,这样将209张碎纸片做出[4]新的二值化矩阵 ,之后同4.1的分析取边缘做边缘匹配得修改后的[6]边缘匹配度矩阵 ,匹配度高那么说明碎纸片的文字信息处于同一程度位置,见下列图图4,之后再人工干预,得到较优的结果。

2013全国大学生数学建模竞赛B题

2013全国大学生数学建模竞赛B题

将008代表的矩阵C8的第二列元素与其它矩 阵的第一列元素进行两两匹配。记录元素相 同的个数,个数除以1980为C8矩阵第二列对 其它矩阵第一列的边缘匹配度,记为:
比较这18个数据,最大的即为与008匹配的 碎纸片。然后以所找到的碎纸片的第二列开 始,求出它与其它矩阵第一列的边缘匹配度, 找出最大的,以此类推把19张碎纸片拼接完 成。
三.问题2的分析
英文碎纸片的分析 通过观察可以发现英文字母的主要的 部分拥有同一上界和同一下界,例如:
将图片中每一行中黑色像素数少于13的及 字母的次要部分转变为二值化矩阵中的0, 将每一行中黑色像素大于等于13的及字母 的主要部分转化为二值化矩阵中的1,这样 得到的新的二值化矩阵 。例如图像转变为 如下图的方式:
二.问题1的分析
步骤一:使用matlab中的imread函数 可以做出图片的灰度矩阵 ,读取每 张图片文件的数据,其目的是将附件 中给的 bmp 格式的碎纸片图以灰度 值矩阵的形式存储。再将灰度值矩阵 转化为 0-1 矩阵,来得到模型的数 据基础;
由于该像素图片转换后为
的矩阵,ቤተ መጻሕፍቲ ባይዱ
论文中无法放置,所以仅简单举例说明:
以纸片000与001为例,匹配方式可能为:
将①②的边缘匹配度相加得到边缘匹配度 之和,将③④的边缘匹配度相加得边缘匹 配度之和,两者的和做出比较。若仅有一 个大于等于1.9,则计算机输出该匹配度, 人工判断是否碎纸片是否匹配;若两者均 大于等于1.9,计算机把两个匹配度之和输 出,人工选择判断碎纸片应是否匹配与如 何匹配;若两者均小于1.9,则计算输出最 大者,人工判断碎纸片是否匹配。这样可 以得到一些在同一横行的碎纸片的拼接。
总体思路
三步走:分行,行内排序,行间排序
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

stitching;pa仕锄rcco辨ition
摘要:分析了基于几何特征的碎纸片自动拼接方法的缺点,研究了碎纸片内文字行特征,表格特征特点,以及碎纸片内文字行
特征、表格线特征的获取方法,提出了基于碎片文字行特征或表格特征的碎片半自动拼接算法。根据算法研制了C语言计算机
程序,用该程序对一实际例子进行了拼接试验,试验结果表明该方法效果良好。
(2)将每个选定方向设置为新坐标系的x坐标方向.求原 来像素点在新坐标系统下的整数坐标,坐标变换后新坐标如 果不是整数,则接4舍5入法取值.点在新坐标系下只改变坐
2.2文字图像个数和文字行行高和的计算
如前所述,碎片内文字图像个数和文字行行高和的计算
万方数据
罗智中:基于文字特征的文档碎纸片半自动拼接 标值,其颜色属性仍旧不变。 (3)求新坐标系下碎纸片边缘的最高点和最低点,从最低 点开始给每行从l开始编号,判断每行是否有连续5点为红 点,如果有,则从此点开始统计连续白点不超过3的像素点的 个数,将它看作为每行表格线的宽度,如果不存在连续5点为 红点,则将该行的表格线宽度设置为O。 (4)从第1行开始.每m行内选取最长的表格线宽度作为 实际表格线长度,最大宽度对应行的位置为实际表格线位置, 此步骤目的是防止对同一表格线进行重复计算。因为表格线 有一定像素高度,如果统计每条像素行的表格线宽度.那么表 格线内的像素行都会被统计,这个结果是不希望的,显然m应 该大于表格线像素高度。 (5)求每个方向的所有实际表格线宽度和。 (6)选表格线宽度和最大的那个方向作为表格线方向. 为防止噪声点的影响,求取表格线起点时应先判断该点 是否是红点.并且其后是否有连续4个红点,如果有,则认为该 点为表格线起点,如果该点为红点但后续连续4点不全是红 点,则认为该红点是噪声点或者文字点,这些红点均不应统计 为表格线上点。 应注意表格线内部点因RGB颜色值相差不大,梯度算于 二值化后内部点一般变为白点.见图3(a)。二值化后表格线 边界点理论上应为红点.但因梯度阈值选取不恰当.某些表格 边界点会变为白点。因此不但表格线内红点不连续,其边界 上的红点一般也不连续,不过边界上连续3点不是红点的可能 性较小。可用此性质来判断某点是否是表格线结束点,也即 如果某白点前面为表格线点.其后连续2点也为白点,则认为 表格线到该点结束。 图3(b)中绿色线为该算法获取的表格线,从图3可见.算 法所得到的表格线与实际表格线非常吻合。
像素点在新坐标系统下的整数坐标,坐标变换后新坐标如果
不是整数.则按4舍5入法取值,点在新坐标系下只改变坐标 值.其颜色属性仍旧不变。 (3)求新坐标系下碎纸片边缘的最高点和最低点坐标,从 最低点开始给每行(具有相同y坐标)从l开始编号.计算每行 的白点个数、红点个数、宽度(像素个数)。 (4)根据每行的红点个数、白点个数及碎片宽度计算该方
阁l文字罔像的预处理
(”戽咖.表示从碎片最低点开始从下往上扫描。
(2)t一抖l,判断扫Ⅳ否,如果大于,结束.否则转(3)。
(1)以碎片内某点作为坐标原点.水平方向作为Ⅳ坐标轴 方向,垂直方向作为y坐标轴方向.在【一90。,901范围内等角 取60个方向。 (2)将每个选定方向作为新坐标系的为J轴方向.求原来
Abstract:This
cornp咖pr0罂撇s
exp嘶m∞t
of scmpped
p印cr
arc
dcVeloped according t0 this algorithrn.They a心applied in

stitching
fol。pieces of scmppcd pap%
The result shows廿1at tllis senli-au幻stitchiIlg method is eff酏tiVe. Key words:stitchil唱of scmpped papcr;image
小的目标方向。
3表格线特征的获取
一般碎片内表格线的方向与行文字行方向平行,且也只 沿一个方向分布,可采用类似于文字行方向扫描方法获取袭 格线方向,算法过程如下: (1)以碎片内某点为原点,水平方向为x坐标轴方向.垂直 (c)方向有倾斜的文字行行高 (d)实际文字行行高
囤2文字行方向识别
方向为y坐标轴方向.在【一90。,90。】范围内等角取60个方向。
据人脑进一步分析结果舍弃或拼接待选碎片。这种半自动拼 接方法综合利用了计算机高速计算能力以及人的文字图像识
别和理解能力,拼接效率比纯人工高,拼接准确性也好于纯计 算机拼接法。本文将详细研究这种基于文字特征、表格特征
的碎片半自动拼接方法。
2文字行特征的获取
2.1文字行方向的确定
拼接碎片前需对碎片内图像进行二值化处理,一般利用 sobel梯度算子或其他梯度算子对碎片图像进行处理,以获取 文字边界,进而获取碎片内文字行方向、高度、间距等文字行
on
330013,Cina
LUo Zhizhong.Semi—aut0 s6tching of scrapped paper based
character characterisUc.Computer
En西neeriⅡg
and
AppHca-
dons,2012,铝(5):207・2lO. paper锄alyzes d锄耐ts of classicalstitching method b勰cd on edge geome时charac硎stic of scml)pcd p印盯,studies ch扰lct耐stic of charactcr row柚d table酣d in scrapped pap%invest追ates nleir acquisiti∞metllod,锄d proposes a s啪i amo stitch. for s锄i-auto stitching ing method f.or scmpped paper b船ed on chamcter’row and table grid.IIl tlle∞d'C lang岫ge
英文单词图像分割成宽度与高度近似的类汉字图像,同样如
果汉字图像之间靠得非常紧密,以至于行内汉字之间红点互
相邻接,也需删除汉字图像之问过多红点,见图l(b)。 碎片内文字图像经上述预处理后,再采用下述扫描算法 可获取碎片内的文字行方向:
利用碎片内文字行特征或表格特征拼接形状相似的碎纸片理
论上是可行的。 基金项日:江西省教育厅2010年科学技术研究项目(No.GJJl0447)。
为提高分析的准确性,假设未碎纸张的文字行方向沿水 平方向,文字为汉字,汉字与汉字之间有间隔,汉字宽度与高 度比值l,3 ̄3。这意味着每个文字图像与其他文字图像之间 有空白点,文字图像宽度与高度的比值在1/3—3之间,如果碎
高、文字行的I.日J距等信息,拼接碎片时如利用这些信息进行拼 接,其拼接效率无疑比单纯利用边界几何特征方法要好些。 由于大多数文字文档的文字行方向和表格线方向平行且
国,印“研凸∥珂PP砌g口玎d卸阮口砌肿计算机工程与应用
2012,48(5)
207
基于文字特征的文档碎纸片半自动拼接
罗智中
LUO Zhizhong
华东交通大学机电工程学院,南昌330013
School ofMechanical and ElectricaI
Enginee血g,E觞t Chim Ji∞tong U痂Ve瑙i劬N柚ch锄g
裂,再将碎纸片重叠起来,再继续撕裂,这样反复下去,直到得 到满意大小的碎纸片为止。这种撕裂过程会产生很多形状非 常相似的碎纸片,拼接时如果只利用碎片的边界特征,拼接效 果并不理想。 对这类边缘相似的碎纸片的拼接,理想的计算机拼接过 程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸
拼接碎片,并根据匹配程度按顺序显示待选碎片,操作员再根
片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文
字内容是否匹配,然而由于理论和技术的限制,让计算机具备 类似人那种识别碎片边缘的字迹断线、以及理解碎片内文字 图像含义的智能几乎不太可能。但是利用现有的技术,完全 可以获取碎片文字所在行的几何特征信息,比如文字行的行
特征,梯度大于给定阈值的点取红色,否则取白色,见图l(a)。
存在数组肼晒Ir(七).(扣l,2.….Ⅳ)内.每行的宅白点数保存
在数组6缸n女chr(々),(扣1,2.…,Ⅳ)内,总的文字图像个数变
量设为od内l研.文字行高度和变量为c^a觑劬,,夸它们的
(a)二值化碎片图像 (b)西文单词图像预处理
初值为O.即令矾d恤m卜0.西口触鲫卜0,则文字图像个数
和文字行高和可按下述算法计算:
宽度与高度啦:一七.)的比值应在{~3之问.不在此比值范围的

图像不应统计。
(8)判断卅>0否,大于则c异n^鼬肿卜c帕内lm+m,c^口r如.
瞎由卜西口般动,+岛一而,转(9).如果m等于0.不累加文字总
个数和文字行高度,也转(9),显然t,^,行位置就是文字行的 y坐标位置。 (9)t+.t,,寻找下一个序号为女,的空白行,t、应该小于 .E,,同时第t,+l行不是空白点行.如果存在t,,则七÷_^,一l, 转(2),否则结束。 由于篇幅限制.未给出步骤(5)中的“寻找下一个空白行 号膏:”,步骤(7)中“计算行七,,七:内的文字图像的个数研”,以 及步骤(9)中“寻找下一个序号为t,的空白行”算法具体过程, 这些过程实现相对简单.读者很容易自行设计相应算法。 计算出文字图像个数总数c^n,踟m和文字行高度和
单一,如果碎片内的文字行或表格在碎片边缘断裂,那么与它
相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行 或表格,凭此特征可以很容易地从形状相似的多碎片中挑选 出相邻碎片。因文字行或表格线的高度特征、间距特征的识
别比字迹断线识别和文字图像的理解实现起来要容易得多,
片内有西文单词,应将英文单词图像拆分成类汉字图像,即将
者的行高和比后者的行高和大。
相关文档
最新文档