碎纸片的拼接复原

合集下载

碎纸片自动拼接复原模型的实现

碎纸片自动拼接复原模型的实现

式) a =( a , 1 , …, 口 : ) 与a , =( 日 , 以 1一 , ), 我们定义相似度:
通过对图 中碎片的观察与分析 , 我们发现这些碎片具有共同的
特征。 如图 4 6 ) 中碎片上被标记的部分所示。 l 8 O ∑n 0 n 由图 4 6 ) 可以看出, 这些图片都是有一行 缺少英文字符 , 使得碎片 ( , Z ) 这些特殊的5 ' , -  ̄ l t 图片都是可以人工干预处理的。 ( 2 ) 对应的模式比较异常。 在 此基 础上 考虑 碎 片拼接 过程 , 先 对分 类 的碎 片左 右 拼接 , 匹配 仅 其中 为临界值。若 , x o 则我们认为 与 同属一类, 对于 在所在行匹配合成 。 上下匹配还要考虑行内其他元素的上下匹配。 合成 那些存在特殊情况的碎片 , 我们在分好类的基础上 , 再进行人工干预处 时整行都要合成。 综合考虑以上因素 , 我们对所有可以拼接的数据进行 理。c 同 类碎片拼接。 按照单面纵向拼接方法对每—类中的所有碎片进 拼接整 合 。( 图5 ) 行拼接 ,则可得到 同一类中碎片的拼接方案 ,进而得到横 向的 “ 大碎 在这里,处理特殊碎片需遵循 的原则 :以第二次拼接 的图片为底 片” 。c L 不同类“ 大碎片” 的拼接。“ 大碎片” 为横向的, 但此 问题- 仍 属于单 图, 剩下的 1 8 块依次和底图匹配 , 匹配原则包含经此处理之后便于观 面单向的拼接问题 , 因此可采用计算灰度值耦合度的方法进行拼接。 察整体拼接隋况, 但是拼接后在合成部分已做断开划线处理 , 这样便于 2 . 2 . 2英文单面纵横切碎片拼接。 考虑到英文的特殊 陛, 根据英文的 将剩下 的碎片进行拼接分析。 经过此次拼接过程 , 可以观察已组合部分 书写版式原则 , 可以将整篇文章放在带有英文四线格的底面中。 既然可 是否匹配正确 , 若不匹配 的话 , 可 以暂时先将那块碎片剔除, 放到第 三 以放在 四线格中, 这里我们把一行四线格看成一行, 可以确定每相邻行 部分再进行匹配组合。 碎片四边都要依次匹配 , 匹配度最高的就是缺少 的行间距是一定的。行宽也是一定的, 考虑字母仅占有上中、 中、 中下 、 块部分。按 以上方法对样本文件 4中的碎片进行拼接 ,结果见图 5所 上中下等几种情况 , 可 以确定每一个字母都是在中间有书写笔画的, 四 不 。 线格中上下行都具有英文笔画的是少数。 结束 语 基于这种考虑, 可以对每一行四线格的中间内容进行求和, 当其和 通过 研究 规 则切割 碎 纸片 的拼 接复原 问题 ,我们 针 对单 面 中英 文 的值小于某一值的时候我们忽略四线格上面和下面的内容 ,进而只考 纵向切割碎片以及单面中英文纵横双向切割碎片提 出了不同的拼接复 虑 四线 格 的中 间部 分 。 对 于那些 特殊 的碎 片 , 我们 可采用 人 工干预 的方 原模型以及方法。该方法将一张张碎片文件转换成 了一个个像素点值 式将其挑出, 所以将英文中四线格的上半部分和下半部分的内容忽略 , 矩阵, 对于计算机来说 , 碎片文件 的处理就变成了矩阵集合 的操作 ; 另 可以采取中文碎片模式转换的类似方法, 从而到英文碎片的模式。 外引入欧式距离将图像的拼接转化为耦合度的计算 ;接着考虑到印刷 3 实验 结果 及分析 文本文件的排版特点 , 引入模式识别的概念 , 可 以将大量杂乱碎片进行 实验是在 Mi c r o s o f t Wi n d o w s 7系统上进行 ,内存限定是 2 G B , 算 分类 , 然后逐类拼接 , 最终将双向拼接问题转化为单 向拼接问题 ; 最后 法实现语言为 M A T L A B 7 . 0版本。根据不同的样本文件使用相应的拼 所建立的模型效率好 , 精度高, 从实验结果上可以看 出该模型的可行性 接算 法 , 从 而得到 下面 的模拟 结果 。 和有 效 胜。 3 . 1 中英文单面纵切拼接实验。 样本文件 1 和2 分别为中英文单面 致谢 纵切碎片数据 ,其中每页纸被切为 1 9 条碎片 ,分别用 O 0 0 . b mp 一 0 1 8 . 感谢对此项研究工作提供基金资助的西北民族大学 中央高校基本 b mp 编号命名。利用 MA T L A B工具中的 自 带 函数 i m2 b w和 i m r e a d , 将 科研业务费专项资金 N o . 3 1 9 2 0 1 3 0 0 0 8 ) t ) 2 及西北民族大学科研创新 团 图像转化为仅包含 0和 1 的向量 ,接着根据中英文单面纵切算法可以 队计划 , 同时感谢参与本论文讨论的赵习猛 、 任宗秀和王本涛。 得到碎片的耦合度矩阵 , 由此可得样本文件 1 , 即中文单面纵切碎片的 参考 文献 拼接 复 利l 赙 为:

碎纸片的拼接复原算法及MATLAB实现

碎纸片的拼接复原算法及MATLAB实现

承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):楚雄师范学院参赛队员(打印并签名) :1. 陈志明2. 施明杰3. 阮秀婷指导教师或指导教师组负责人(打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。

以上内容请仔细核对,提交后将不再允许做任何修改。

如填写错误,论文可能被取消评奖资格。

)日期: 3013 年 9 月 16 日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):碎纸片的拼接复原算法及MATLAB实现摘要:对于只有纵切的情形,文章通过比较当前待拼碎片与剩余碎片的信噪比psnr[1,3,4]的值来确定两碎片是否为邻接碎片;拼接算法首先连续调用右拼函数直到拼接到原图右边界,然后连续调用左拼函数直到拼接到原图左边界,从而得到整幅复原图像;对于单面纵横交错切的情形,文章对首先采用纵切拼接算法将碎片拼接成多幅横条图片,然后将各横条图片矩阵转置[2],再次采用纵切拼接算法拼接;两种情形的拼接,都存在人为参与;实验证明,我们的算法对纵切情形是有效的,对纵横切情况是可行的。

碎纸片的拼接复原问题.概要

碎纸片的拼接复原问题.概要

2013高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):碎纸片的拼接复原问题摘要破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

本文针对已给图像先进行了图片灰度二值化处理得到碎纸片的像素矩阵,提取碎纸片的边缘像素矩阵,对边缘矩阵进行相似度分析,相似度的度量采用向量距离平方和最小化,在相似度度量中设置阈值、对相近相似度的候选纸片进行人工干预、对数据量较大的附件,采用文本特征,如页边距、行距进行筛选,降低计算量,提高计算精度。

使用Matlab软件编程实现了上述算法,在对附件的拼接中通过少量的人工干预,可实现纸片的完整拼接,效果较好。

关键词:相似度;文字特征;碎纸片拼接;Matlab;1 问题重述1.1 问题的描述设计一个碎纸片的自动拼接模型,以提高碎纸片的拼接复原效率。

1.2 问题的要求(1)对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预,请写出干预方式及干预的时间节点。

复原结果以图片形式及表格形式表达。

(2)对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预,请写出干预方式及干预的时间节点。

复原结果表达要求同上。

(3)从现实情形出发,还可能有双面打印文件的碎纸片拼接复原问题需要解决。

附件5给出的是一页英文印刷文字双面打印文件的碎片数据。

请尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果,结果表达要求同上。

1.3 问题的分析对破碎文件这类边缘相似的碎纸片的拼接,理想的计算机拼接过程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎纸片内的字迹断线或碎片内的文字内容是否匹配,然而由于理论和技术的限制,让计算机具备类似人那种识别破碎边缘地字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。

碎纸片的拼接还原研究

碎纸片的拼接还原研究

碎纸片的拼接复原摘要碎纸片的拼接复原是一门借助计算机,把大量碎纸片重新拼接成初始纸张的技术。

针对问题一,本文首先利用碎纸片图像灰度矩阵的边缘矩阵,建立了两个碎纸片之间的匹配度函数,求得了每一张图片之间左右边缘匹配度矩阵。

然后根据左边边缘位置的碎片的左边空白部分最多的特点,确定了左边位置的碎纸片。

接着根据拼接碎纸片的拼接复原时,所有碎纸片匹配度之和取极大值的原则,采用贪心算法,得到了所有碎纸片的初始位置,拼接复原了附件1和附件2中纸片。

针对问题二,由于附件3碎片数量太多,并且碎片的拼接复原,是一个以碎纸片总匹配度为目标函数的组合优化问题。

所以本文采用遗传算法将碎纸片的编号作为基因,并将基因均匀分成19段,按顺序每一段对应一个初始纸片列位置,进行了求解。

然后,根据边缘碎纸片某些边的空白部分多的特征,对初始基因进行了优化。

接着,根据碎纸片的黑色像素密度不同的特点,将碎纸片分成三类,根据同类纸片优先匹配的原则,对遗传算法的运行过程进行了优化,拼接复原了附件3和附件4中纸片。

针对问题三,随着碎纸片量的增多,计算量急剧增加。

在上述拼接复原碎纸片的基础上,又引进了同行位置碎纸片的上部(或下部)空白位置宽度相近的聚类思想。

先对每个类内部拼接,在合并所有类并做一次整体拼接。

由于时间有限,我们未能完成最后一次的整体的拼接,但我们会在比赛后继续探究。

关键词:边缘矩阵匹配度函数遗传算法聚类一、问题重述碎片拼接实际用途已经越来越广泛,传统上拼接复原工作由人工完成,碎片拼接的准确率较高,但效率很低。

并且当碎片数量很大时,人工短时间内拼接出来几乎是不可能的。

所以开发碎纸的拼接技术,以提高拼接复原效率已成为越来越多人的期望。

现在,在碎纸片是规则的情况下,题目要求我们在以下条件建立碎纸片拼接复原模型和算法。

1.来自同一页印刷文字文件(中文、英文各一页)的碎纸机破碎纸片(仅纵切)拼接复原,并将附件1和附件2复原。

2.对碎纸机既纵切又横切文件的情形,将碎纸片拼接完整。

基于规则碎纸片文字特征的拼接复原算法

基于规则碎纸片文字特征的拼接复原算法

基于规则碎纸片文字特征的拼接复原算法承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):中国人民解放军第三军医大学参赛队员(打印并签名) :1. 王家*2. 黄嘉*3. 邵*指导教师或指导教师组负责人(打印并签名):周*(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。

以上内容请仔细核对,提交后将不再允许做任何修改。

如填写错误,论文可能被取消评奖资格。

)日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):基于规则碎纸片文字特征的拼接复原算法摘要目前对于碎纸片的拼接问题,大多数方法是基于不规则碎纸片的几何边缘特征进行拼接,而本题是基于规则碎纸片的文字特征进行的。

我们首先提取各碎纸片的像素边缘特征,然后通过寻找最大匹配率和少量人工干预,得到碎片拼接方案。

碎纸片的拼接复原数学模型1

碎纸片的拼接复原数学模型1

碎纸片的拼接复原数学模型摘要首先对图片进行灰度化处理,然后转化为0-1二值矩阵,利用矩阵行(列)偏差函数,建立了基于最小二乘法的碎纸片拼接数学模型,并利用模型对图片进行拼接复原。

本文主要研究了规则碎纸片的拼接复原问题。

首先利用二值法、环形像素点匹配等算法建立基于像素点数值匹配模型,然后利用MATLAB软件对碎纸片像素点进行数字化处理,得到各碎纸片的像素点数值矩阵,再利用MATLAB 软件编程进行矩阵特征优化匹配得到复原图。

针对问题一,当两个数字矩阵列向量的偏差函数最小时,对应两张图片可以左右拼接。

经计算,得到附件1的拼接结果为:9,15,13,16,4,11,3,17,2,5,6,10,14,19,12,8,18,1,7附件2的拼接结果为:4,7,3,8,16,19,12,1,6,2,10,14,11,9,13,15,18,17,5针对问题二:本文采用聚类分析方法建立优化模型。

将所有图片的像素转化为矩阵,其次采用人工干预的方式找出第一行第一张碎纸片,然后将所有图片灰度二制化,将灰色像素值转化为黑色像素值,然后由上至下找出黑白像素的分界线,根据分界线位置的差异值最小聚合出第一行所有的图片,同理聚合出第一列所有的图片,将第一行所有图片利用问题一的拼接算法求解出第一行图片拼接顺序。

以第一行第一张碎纸片下侧像素点与其他碎纸片上侧像素点像素匹配差异值最小为目标函数,依次穷举第一列所有的碎纸片,从而找出第二行第一张碎纸片。

根据第一行排好顺序的碎纸片以及第二行第一张碎纸片,采用上下侧边缘像素匹配以及左右侧边缘匹配,依次找出并排列好第2行,其他行依理重复步骤(2)、(3)即可。

完成匹配后,进行适当的人工干预即可确定碎纸片的复原图。

(见附录3、4图11,图12)。

最后,本文对所建模型的优点和缺点进行了客观的评价,认为本文研究的结果在图像拼接问题中有一定的参考价值。

关键词:灰度处理,图像二值化,最小二乘法,聚类分析,碎纸片拼接一、问题重述碎纸片的拼接复原技术在司法鉴定、历史文献修复与研究、军事情报获取以及故障分析等领域都有着广泛的应用。

基于欧氏距离的规则碎纸片拼接复原模型

基于欧氏距离的规则碎纸片拼接复原模型
2 0 41 1 0 8 l l 6 1 3 6 7 3 3 6 20 7 1 3 5 1 5 76 4 3 1 9 9 4 5 l 7 3 7 9 1 61 l 7 g 1 4 3
其中, D 中第 i 行第 J 列元素表示第 i 号二值
矩 阵 所属 的碎 片 的左 边缘 和第 J 号 二值 矩 阵所 属 的
d 一 0 =
, j 等于 1 或2
( 5 )
d 一 =
, j 等于 1 或2
( 4 )
氏距 离 ( i , l = 0 , 1 , 2 , …, n ) 。
其中, d u - U 表示列向 量磊 与列向量 之间的欧
3 - 3 分割横 向复原图片并纵 向拼接
根据 已知每横行碎片个数 ,分割碎片横向拼接
图片,仅取各个横 向复原拼接图片的第一个碎片二 值矩阵的第一行与最后一行 , 组成矩阵 s ’ , 转置得到
矩阵 s i T计算 中各 列 向量 间的欧 氏距 离 。 记第 i 幅分 割后 的横 向拼 接 图片 中第 一 个碎 片

列之间的排列顺序 , 继而得到碎片的复原顺序。 由于 些碎片的边缘全为白色, 无法确定其位置 , 此时需
虑将碎纸片横向复原 , 得到横向呈带状的拼接图片 ; 然后根据附件 5的每横行碎片个数 , 分割横 向拼接 图片并进行纵 向复原 , 最后对无法判定 的碎片进行
人工 干 预 。
要 人 工干 预 。
运用 Ma t l a b 软件 , 得到附件 5 所有碎片数据的
二值 矩 阵 。
记碎片的正面的二值矩 阵为第 1 号至第 n 号, 碎片的反面的二值矩阵为第 n + l 号至 n + 2号 , 将所 有读人碎片的二值矩阵的第一列和最后一列取 出, 组成矩阵 s , 计算 s中各列 向量间的欧氏距离。 记第 i 号二值矩阵的第一列为 , 最后一列为

碎纸复原文档

碎纸复原文档

碎纸复原简介碎纸复原是一种通过将被撕碎的纸张片段重新拼接起来的技术,以恢复原始纸张的内容。

这种技术在犯罪调查、情报收集和文件重建等领域有着很重要的作用。

随着技术的不断发展,碎纸复原的方式和工具也在不断改进,为碎纸复原的效率和准确性提供了更好的保障。

历史碎纸复原的历史可以追溯到十九世纪末。

最早期的碎纸复原是通过手工将纸张碎片逐个拼接起来,这种方法耗时耗力,效果也不太理想。

随着科技的进步,人们开始尝试使用化学方法进行碎纸复原。

在二战期间,间谍机构和情报部门开始开展碎纸复原的工作,并且相应的科研机构也加大了对于这方面的研究力度。

到了20世纪中后期,计算机图像处理技术的兴起使得碎纸复原取得了长足的进步。

碎纸复原的技术方法传统方法传统的碎纸复原方法主要是基于手工拼接和化学试剂辅助处理的方式。

手工拼接需要对纸张碎片进行分类、匹配和拼接,这需要较高的人力和耐心。

而化学试剂辅助处理则是通过柔软和粘附性较强的化学物质,使得碎片能够更容易地连接起来。

这些方法只能处理尺寸较大的碎纸,对于小碎片或者碎纸数量很多的情况效果较差。

计算机辅助方法随着计算机图像处理技术的发展,碎纸复原在20世纪中后期开始快速发展。

计算机辅助方法通过将碎纸片段进行数字化处理,利用计算机的图像处理能力进行拼接和恢复原始图像。

这种方法主要包括图像匹配算法、特征提取算法和图像重建算法等。

图像匹配算法通过比对不同碎纸片段之间的特征,找到匹配的碎片进行拼接;特征提取算法则是提取碎纸片段的特征,构建特征数据库以供匹配算法使用;而图像重建算法则是对拼接后的碎片进行修复和还原。

碎纸复原的应用领域碎纸复原在犯罪调查、情报收集、文件重建等领域具有重要的应用价值。

犯罪调查碎纸复原在犯罪调查中能够帮助警方或侦查人员还原被破坏或删除的证据。

例如,在一起谋杀案中,嫌疑人可能会试图将重要的证据纸张撕碎以销毁,但通过碎纸复原技术,警方可以恢复碎纸片段上的文字、图像或指纹等关键证据,从而推进案件的侦破。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

碎纸片的拼接复原
班级:一班成员:陈腊梅:1109401010 蔡越萍:1109401004 游露:1109401041
一、背景
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。

特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。

随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。

二、问题分析
文档碎片的边缘形状对拼接复原的结果有着重要的影响。

常见的计算机拼接方式一般先考虑边缘的尖角、尖点及面积等特征,在利用碎片边缘的几何特性搜索与之匹配的相邻的碎纸片。

而问题中所给出的碎纸片均由碎纸机有规律的纵切、横切,使得来自同一页的破碎纸片均有相同的大小和规则的边缘形状,所以基于边界几何特征的方法并不适用于这种边缘形状相同的碎纸片。

针对附件当中既有汉字,也有英文的情况,在拼接时就要考虑碎纸片内文字内容的匹配情况,然而计算机在短时间内具有人工拼接时识别及理解文字图像含义的能力难度很大。

利用计算机以及MATLAB中的图像处理工具箱却可以较容易的分析获得文字的几何特征,比如文字的高度、文字间距等信息,在匹配时也可以充分利用碎纸片边缘像素点的连续性,从而不需要让计算机去匹配文字的内容,而仅仅考虑边缘文字的形状特征。

这样可以有效提高拼接的效率,但是由于碎纸片边缘形状相同,某些纸片边缘的灰度值完全相同,从而导致匹配的纸片不唯一,可以有多种选择,让计算机对碎纸片进行全自动化拼接还要保证拼接的准确性,实现起来可能性不大,因此需要在拼接过程中加入人工干预。

一般先根据建立的模型及算法给出待选的匹配碎片,在利用人工进行进一步的分析,对不唯一的待选碎片进行舍弃,正确选择待匹配的碎片。

对于问题1,可以利用相邻纸片边缘像素值相似的特性,提取每一张图片文件的左,右两侧边缘像素信息,通过逻辑异或逻辑运算对图片边缘进行点对点的匹配,建立了基于灰度信息的特征匹配模型,对附件1和附件2的碎片数据进行拼接复原,通过计算机模拟,在没有人工干预的情况下,全自动的实现了快速复原。

对于问题2,在模型(1)的基础上,通过增加对图片上侧和下侧边缘灰度信息的匹配建立模型(2)。

首先拼接原纸片文件的四周,在根据先水平拼接,在垂直拼接的原则,适时进行人工干预,对附件3的文件使用计算机自动匹配正确率达到了85.2%,对附件4的文件使用自动匹配正确率达到72.7%。

对于问题3,针对模型二对汉字的拼接效果好于对英文的拼接效果这一特性,对附件5中的英文进行类汉字处理,建立了基于文字形状的特征匹配模型。

通过计算机模拟,花费较长时间加上人工干预才对双面打印的文件实现了拼接复原,计算量较大。

三、模型假设
(1)同一页的每一个碎纸片的边缘形状与尺寸都相同;
(2)纸张上的文字行方向沿水平方向,列方向沿垂直方向;
(3)文字为汉字或英文,且一张纸上不同时出现汉字和英文;
(4)汉字与汉字之间有间隔,字符之间没有粘连情况;
(5)文字颜色单一,与背景有较大差异,图像清晰。

四、复原模型
1、复原模型(1)
根据附件1给出的一页中文文件的碎片数据,通过观察发现文字距纸张的左,右侧边缘较近,考虑汉字水平方向笔画的延伸性,在实际相邻的纸片边缘的像素值应具有相似性。

因此,针对问题1,应建立基于边缘灰度信息的特征匹配模型。

2、复原模型(2)
根据问题二的要求,针对碎纸机既纵切又横切的情况,要对碎纸片上侧边缘和下侧边缘进行匹配。

因此,复原模型(2)在模型(1)的基础上增加纸片上侧边缘与下侧边缘的检测和匹配,同时,由于纸片数量的增加,考虑到可能出现匹配不唯一的情况,考虑在匹配的过程中适时进行人工干预。

3、复原模型(3)
3.1汉字字符的形状特征
在问题二的解答中,模型(2)对附件3的碎纸片拼接效率高于附件4,因为附件3和附件4的碎纸片数量和形状都相同,造成差异的主要原因来自于中文和英文的形状差异,因此针对问题三正反两面都是英文的情况,考虑充分利用文
字的形状特征。

3.2英文字符的类汉字化
为了提高附件5的碎片拼接正确率,除了利用模型(2)中的基于边缘相似性的匹配准则,还要考虑碎片上字符的形状特征,对英文进行图像分割,使之成为类汉字的图像,即形状较一致,宽度与高度近似的图像。

3.3基于文字形状的特征匹配模型
由于问题三中碎片为双面打印的英文文件,因此。

模型(3)从文字的形状特征出发,利用英文的类汉字化操作建立了基于文字特征的匹配模型。

相关文档
最新文档