基于结构特征的碎纸片的拼接复原问题
碎纸片的拼接还原研究

碎纸片的拼接复原摘要碎纸片的拼接复原是一门借助计算机,把大量碎纸片重新拼接成初始纸张的技术。
针对问题一,本文首先利用碎纸片图像灰度矩阵的边缘矩阵,建立了两个碎纸片之间的匹配度函数,求得了每一张图片之间左右边缘匹配度矩阵。
然后根据左边边缘位置的碎片的左边空白部分最多的特点,确定了左边位置的碎纸片。
接着根据拼接碎纸片的拼接复原时,所有碎纸片匹配度之和取极大值的原则,采用贪心算法,得到了所有碎纸片的初始位置,拼接复原了附件1和附件2中纸片。
针对问题二,由于附件3碎片数量太多,并且碎片的拼接复原,是一个以碎纸片总匹配度为目标函数的组合优化问题。
所以本文采用遗传算法将碎纸片的编号作为基因,并将基因均匀分成19段,按顺序每一段对应一个初始纸片列位置,进行了求解。
然后,根据边缘碎纸片某些边的空白部分多的特征,对初始基因进行了优化。
接着,根据碎纸片的黑色像素密度不同的特点,将碎纸片分成三类,根据同类纸片优先匹配的原则,对遗传算法的运行过程进行了优化,拼接复原了附件3和附件4中纸片。
针对问题三,随着碎纸片量的增多,计算量急剧增加。
在上述拼接复原碎纸片的基础上,又引进了同行位置碎纸片的上部(或下部)空白位置宽度相近的聚类思想。
先对每个类内部拼接,在合并所有类并做一次整体拼接。
由于时间有限,我们未能完成最后一次的整体的拼接,但我们会在比赛后继续探究。
关键词:边缘矩阵匹配度函数遗传算法聚类一、问题重述碎片拼接实际用途已经越来越广泛,传统上拼接复原工作由人工完成,碎片拼接的准确率较高,但效率很低。
并且当碎片数量很大时,人工短时间内拼接出来几乎是不可能的。
所以开发碎纸的拼接技术,以提高拼接复原效率已成为越来越多人的期望。
现在,在碎纸片是规则的情况下,题目要求我们在以下条件建立碎纸片拼接复原模型和算法。
1.来自同一页印刷文字文件(中文、英文各一页)的碎纸机破碎纸片(仅纵切)拼接复原,并将附件1和附件2复原。
2.对碎纸机既纵切又横切文件的情形,将碎纸片拼接完整。
碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终引言碎纸片的拼接复原是一项有趣且具有挑战性的任务。
无论是为了还原重要文件还是拼接有意义的图像,我们都需要使用各种技巧和方法来完成这项任务。
本文将介绍一种基于分析的碎纸片拼接复原方法,通过对碎纸片的形状、颜色和纹理等特征进行分析,最终达到拼接复原的目标。
碎纸片的特征提取在进行碎纸片的拼接复原之前,首先需要提取碎纸片的特征。
这些特征包括碎纸片的形状、颜色和纹理等。
形状特征提取为了提取碎纸片的形状特征,可以通过计算碎纸片的边界和角度来获得。
首先,使用图像处理技术,如Canny边缘检测算法,将碎纸片的边缘提取出来。
然后,使用霍夫变换来检测碎纸片的直线和角点,从而计算出角度和边界。
颜色特征提取碎纸片的颜色特征可以通过计算图像的颜色直方图来得到。
颜色直方图表示了图像中每个颜色的像素数量。
我们可以使用像素级别的颜色分布来比较不同碎纸片的颜色特征,并找到相似的碎纸片来进行拼接。
纹理特征提取碎纸片的纹理特征可以通过计算图像的纹理描述符来得到。
纹理描述符是用于描述图像纹理的数值特征。
其中,最常用的纹理描述符包括灰度共生矩阵(GLCM)和局部二值模式(LBP)。
通过计算碎纸片的纹理描述符,我们可以比较不同碎纸片之间的纹理相似度,并选择相似的碎纸片进行拼接。
碎纸片的拼接策略在完成碎纸片特征提取后,接下来需要制定碎纸片的拼接策略。
拼接策略将基于碎纸片的特征相似度和拼接的整体目标来确定。
相似度匹配根据碎纸片的形状、颜色和纹理特征,我们可以计算两个碎纸片之间的相似度。
一种常用的相似度计算方法是使用余弦相似度,它衡量两个向量之间的夹角。
通过计算碎纸片之间的相似度,我们可以找到最相似的碎纸片来进行拼接。
拼接顺序在进行碎纸片的拼接时,需要制定一个拼接顺序。
一种常用的策略是首先选择与已拼接部分最相似的碎纸片进行拼接,然后逐渐增加已拼接部分的面积,直到最终完成拼接。
拼接约束为了保证拼接的准确性,我们需要制定一些拼接约束。
碎纸片复原

关于碎纸片的自动拼接复原的数学模型问题摘要本文根据碎纸片内的文字特征、图片像素特征特点提出了基于文字特征的文档碎纸片自动拼接复原模型。
根据碎纸拼接模型提出了基于MATLAB[1]语言为核心的自动拼接算法,并用该算法的程序对碎纸机碎纸的实际例子进行了拼接实验。
对这类边缘相似的碎纸片的拼接,理想的计算机拼接过程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配。
然而由于理论和技术的限制,让计算机具备类似人类那种识别碎片边缘的字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。
但是利用现有的计算机技术,完全可以获取碎片文字所在行的几何特征信息,比如文字行的行高、文字行的间距等信息。
拼接碎片时如利用这些信息进行拼接,其拼接效率无疑比单纯手工拼接要高。
针对问题一,由于碎纸片数量比较少且只有纵向切割,采用比较简单的二值模型进行碎纸配对。
由于图像都具有三颜色RGB,扫描之后的碎纸片需要对其进行灰度处理得到一张灰度值图像,若定义原点之后,每一个像素点都具有X、Y坐标值,碎纸片的灰度值可构成一个二维矩阵。
二维矩阵的每一个元素都代表着碎纸片的特征值,根据图片每一个灰度值的大小即可判断出碎纸图片边界特性。
对于一个选定的纸片,将每一个待拼接碎纸片的二维矩阵的最左一列与其二维矩阵的最右一列进行差值比较,再求把所有的差值求和,生成一个相应的矩阵。
将该矩阵的最小值来作为相似度矩阵的判断条件,以此便可求出该图片是否能够成功拼接。
最后利用加权平均的融合方法进行图像无缝平滑,得到无缝拼接[2]图像。
针对问题二:根据附件3和附件4给出的碎片资料可以看出,碎片除了有纵向切割之外还有横向切割,这给单一的拼接算法带来了一定的困难。
本文根据图片的质量与清晰度可以将问题简化,将附录所给出的碎纸片用简单的算法进行分组归类,使得拼接问题变得单一化,先使用第一问的模型进行纵向拼接成11行之后,再以第一问的模型进行横向拼接。
碎纸片的拼接复原的数学模型

碎纸片的拼接复原摘要本文主要采用了模糊模型识别、灰度相关、傅里叶变换等方法对碎纸自动拼接进行了深入探讨。
文中主要结合司法物证复原、历史文献修复、军事情报获取这一背景,针对横纵切碎自动拼接展开探究。
提出一种基于最大梯度和灰度相关的全景图拼接法。
同时采用边界提取法使图像预处理达到最好的效果,期间采用傅里叶变换对图像进行处理,最后再利用匹配准则等方法处理图像的拼接。
最终应用模糊模型识别法建立模型,通过隶属函数的建立实现最终的碎纸拼接。
期间有些碎纸片计算机无法识别,需要进行人工干预,从而才能得到一副完整的复原图。
图像拼接的主要工作流程可以概括为以下三个步骤:(1) 对图像碎片进行预处理,即对物体碎片数字化,得到碎片的数字图像。
(2) 图像碎片匹配,通过匹配算法找到相互匹配的图像碎片。
(3) 图像碎片的拼接合并,将相互匹配的图像碎片拼接在一起得到最终结果。
针对问题一:将图像导入MATLAB 进行相应的转化,由于数据量较大,所以对数据进行优化提取。
计算提取数据的均值与方差,找出其模糊集,建立符合题意的隶属函数。
由于模糊集的边界是模糊的,如果要把模糊概念转化为数学语言,需要选取不同的置信水平(01)λλ≤≤ 来确定其隶属关系,从而实现纵切图像的全景拼接。
(如表一、表二)针对于问题二:由于是横纵切碎纸片,所得图像较多,采用提取像素法对图片进行灰度分析,通过中介量阈值的确定来找出像素点的差别,梯度值在这一过程中也是作为衡量两张碎纸片是否匹配的标准。
从而对数据进行处理,最后导入MATLAB 软件实现拼接。
(如表三、表四)针对问题三:它是在问题一和问题二上加深了难度,采用提取像素点,傅里叶变换,灰度相关、模糊相似优先比等方法对问题进行分析,通过(0,1)矩阵的简化运算以及傅里叶变换得到最后的结果,但对于傅里叶变换需说明一点,变换之后的图像在原点平移之前四角是低频,最亮,平移之后中间是低频最亮,也就是说幅角比较大。
此过程中同时也需要人工干预,最终实现拼接。
数学建模碎纸片拼接复原题目

数学建模碎纸片拼接复原题目《数学建模碎纸片拼接复原:一场奇妙的探索之旅》我呀,最近在学校里遇到了一个超级有趣又超级难的事儿,那就是关于数学建模里的碎纸片拼接复原题目。
这可不是一般的题目,就像是一个超级复杂的拼图游戏,但又比普通拼图难上好多好多倍呢!咱们先来说说这个碎纸片是怎么回事吧。
想象一下,有好多好多的碎纸片,就像被大风吹散了的树叶一样,到处都是。
每一片碎纸片都像是一个小秘密,它上面只有一部分的文字或者图案。
这些碎纸片有的边缘是平滑的,有的却是弯弯曲曲的,就像不同形状的小云朵在纸上飘着。
我和我的小伙伴们刚开始看到这个题目的时候,都瞪大了眼睛,嘴巴张得能塞下一个大鸡蛋。
“这可怎么拼啊?”我的小伙伴小明忍不住叫了出来。
我也在心里直犯嘀咕,这简直就像是要把散落在地上的星星重新组合成原来的星座一样困难。
不过,我们可没有被这个难题吓倒。
我们就像一群勇敢的小探险家,准备去解开这个谜题。
我们首先想到的是从碎纸片的边缘入手。
就好比我们在搭积木的时候,先找那些有特殊形状的积木块一样。
那些边缘有独特形状的碎纸片,可能就是我们找到拼接复原方法的关键。
我拿起一片碎纸片,上面有一点点像是字母“e”的半边。
我就大声地对小伙伴们说:“你们看,这个会不会和另一片能组成一个完整的‘e’呢?”大家都围了过来,眼睛里闪烁着兴奋的光芒。
小红说:“那我们快找找看呀!”于是我们就开始在那一堆碎纸片里翻找起来。
这感觉就像是在寻宝,每一片碎纸片都可能是宝藏的一部分。
可是,找了半天,我们发现事情并没有那么简单。
有好多碎纸片的边缘看起来好像能拼接在一起,但实际上它们的内容却对不上。
这就像你以为你找到了两块合适的拼图,结果发现上面的图案根本不是一回事儿。
我有点沮丧地说:“这也太难了吧,感觉就像在黑暗里摸东西,怎么也找不到正确的方向。
”这时候,聪明的小刚说话了:“我们不能只看边缘呀,还得看看纸片上的文字或者图案的内容呢。
比如说,如果一片碎纸片上有一个单词的开头部分,那我们就得找有这个单词结尾部分的碎纸片。
碎纸片拼接问题(2013B)

方法2:聚类算法:主要方法,效果好。
• 计算 Ai 的行和,得到一个特征向量 ri 。定义适当的 向量相似度指标,对 ri 进行相似度计算,然后对所有 碎片进行聚类,得到分行结果。
几种相似度度量指标:
1 欧式距离倒数: d ij || ri r j ||
夹角余弦: cos ij || r || || r || i j 相关系数: ij
规划方法:将每一行的碎片依次编号为 1, 2, , N . 定义两碎片之间的有向距离为 cij 。
令 xi ,k 1, 第 i 块碎片在第 k 个位置上 否则 0,
ห้องสมุดไป่ตู้
min z
N 1 N
c
k 1 i 1 j 1 , j i
N
ij
x i ,k x j ,k 1
c
MN
k ,l
x i , j , k x i , j 1 ,l
M 1 N MN
i 1 j 1 k 1 l 1 , l k
d
MN
k ,l
x i , j ,k x i 1 , j ,l
约束条件: (1)每个碎片只能放在一个位置上。
x
i 1 j 1
(1)整体的文字拼接正确度;
不易衡量。
(2)纸片两两之间的拼接正确度。
•如何计算纸片两两之间的拼接正确度? 分析:假设纸片 i 和 j 拼接在一起,i 左 j 右,则 应该可以计算出一个相关的正确度指标。 怎么计算?
• 利用什么信息计算? 利用Matlab 软件读取碎片,生成相对应的灰度值 数字矩阵 Ai 。
如何确定碎纸片的位置?
方法一:一次性确定所有碎纸片的位置。 方法二:分组确定碎纸片的位置。 方法三:逐一确定碎纸片的位置。
数模-基于特征点的碎纸片拼接复原算法研究

二、问题假设
1、假设每张图片的切口平滑 2、假设纸张每次放入碎纸机时都竖直平整,即来自同一页的碎片形状大小都相同。 3、假设不存在两张完全一样的碎纸片 4、假设相互匹配的两张图片的切割边灰度值相同 5、假设同一附件中的所有碎片均出自同一张纸且能拼成一份完整文件
三、名词解释及符号说明 3.1 名词解释
[1][2]
3
围和位置,从而实现图像拼接。 简易类拓扑: 简易类拓扑是基于拓扑学变换和性质,针对此实际问题提出的一种简化处理方式。 将所给每对碎片进行镜像翻转变化,即类拓扑变换——使任意碎片编号为 b 的碎片正向 拼接到想通过数字编号的 a 碎片右端,方便数据的整理和行高匹配结果的运算。 拆分比配法: 拆分比配是基于拓扑学性质和比值匹配法提出的一种针对问题三的一种优化算法。 由于从本质上,同一数字编号的 a、b 碎片仍是两张图片,内容上并不具有共通性,在 计算完行高匹配结果后,进行拆分,通过扫描匹配,获得顺序结果。 4.2 模型的求解 4.2.1 对问题一利用比值匹配法及 matlab 编程算法分析两两图片间的契合度 4.2.1.1 对附件 1 中图片数据进行处理分析 利用编程语言中的循环语句将附件 1、2 中的图片采取两两对比的方法,以附件 1 为例,如选取图片
201X 高教社杯全国大学生数学建模竞赛
承
诺
书
我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参 赛规则》 (以下简称为 “竞赛章程和参赛规则” , 可从全国大学生数学建模竞赛网站下载) 。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网 上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或 其他公开的资料(包括网上查到的资料) ,必须按照规定的参考文献的表述方式在正文 引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有 违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展 示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等) 。
碎纸片的拼接复原数学建模论文

碎纸片的拼接复原摘要破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,拼接复原工作由人工完成,虽准确率高,但效率很低。
特别是当碎片数量巨大,人工拼接难以完成任务。
因此随着计算机信息技术的发展,开发一个碎纸片的自动拼接技术,并建立简便的拼接复原模型,提高拼接复原效率,具有重要的实现意义。
文章通过对所给的附件图片数据进行分析研究,在综合考虑了碎片边缘的尖点特征、尖角特征、面积特征等几何特征下,我们将图片读入电脑,并进行二值化转换,考虑边界值的匹配,建立了图片边界匹配模型。
依据模型,只要边界能匹配上就可以拼接,并依次解决了如下问题。
对于问题一,由于给定图片来自同一页印刷文字文件仅纵切破碎纸片,针对附件1、附件2给出的碎片数据,建立了碎纸片拼接复原的边界匹配模型。
根据模型,我们首先对附件1、附件2中的图片用Matlab软件进行二值转化,得到一个储存图片的二值灰度矩阵,并利用边界相关性比较法判断矩阵中两边界变量是否能匹配得上,如果匹配得上就拼接在一起,按此算法,附件1、附件2中的碎纸片就能拼接成功,具体的算法结果见附录中的附件1、附件2。
对于问题二,由于碎纸机既有纵切又有横切的情形,算法的设计上要相对复杂一些,我们在前面模型的基础上进行了修改和补充,对图片的上下左右的边界都进行了边界提取。
首先,我们选将图片作二值转换,分别用矩阵进行保存,然后任迁一个,对其余的进行全程扫描,按照问题一中的边界匹配模型,逐一对其边界进行扫描匹配,其间,有些矩阵的边界数据可能一样(如空白时),我们便跳出模型,进行适当的人工干预,干预完成,再进入模型进行迭代,按此方法便可拼接成功,具体的算法结果见附录中的附件3。
对于问题三,根据现实问题中的双面打印文件的碎纸片拼接复原问题,由于多了双面的问题,在算法的设计上,我们考虑了正反两的边界匹配,在原有模型的基础上,将问题一和问题二的模型相结合,建立一个新的双面碎纸片拼接模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):基于结构特征的碎纸片的拼接复原问题摘要碎纸自动拼接技术是图像处理与模式识别领域中的一个典型的应用,该技术通过扫描和图像提取技术获取一组碎纸片的形状、纹理及内容等信息,然后利用计算机进行相应理解从而实现对这些碎纸片的全自动或半自动拼接还原。
针对问题一,考虑到纵切的碎纸片所含有的信息量较大,利用图像处理中的信号匹配方法,结合左右两个碎纸片的灰度像素矩阵的边缘特征,建立基于结构特征的灰度匹配模型,对英文字母制定了灰度相似的配准规则,使待拼接的碎纸片边缘的对应行像素之差的平方和最小;而结合中文字符的横笔结构特征,对中文字制定了“横笔”匹配相似度的配准规则,并给出了最终的碎纸拼接图和拼接次序,拼接的正确率是100%。
针对问题二,对于既纵切又横切的情形,每一个纸片的边缘所含的信息量相对较少,故对中、英文碎片的拼接复原需各自建模分析。
首先利用“分而治之”的思想,将一个难以直接解决的大问题,分割成一些规模较小的相同问题。
对于中文碎片拼接复原,根据中文的方块特点,给出了中文的文字结构特征向量及其边缘像素的特征向量。
根据这些结构特征向量对所有的碎纸片进行粗分类,在此基础上设计了基于边缘特征的匹配规则集,对每一行从左到右在进行细匹配。
利用等距序列图像的快速拼接技术拼出左边第一列,基于灰度匹配,将图像转化为二值图像并对每行进行最优匹配。
先按照行配准,然后再进行列配准,最终匹配出误差最小的图像;对于英文碎片复原同样采取人工干预粗分类,粗匹配后,采用神经网络算法对碎片图像训练、学习构建BP网络对英文字母进行匹配识别,结合剪枝定界法实现英文碎片的拼接复原。
发现每行匹配率为78.85%,整篇匹配率大约为68.73%。
针对问题三,由于碎片数据均为双面打印文件,文字特征相同,仅用问题二中的方法产生的误差太大,仍沿用粗分类特点通过神经网络拼接、灰度匹配修正、人工干预,结合等距序列拼接技术实现单面拼接,然后验证反面的正确性并修正。
关键词:图像拼接,灰度配准,结构特征,配准规则,神经网络一、问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
拼接复原工作若由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
现试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
我们需要建立数学模型解决以下问题:1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,写出干预方式及干预的时间节点。
2. 对于碎纸机既纵切又横切的情形,设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,写出干预方式及干预的时间节点。
3. 现实情形中可能有双面打印文件的碎纸片拼接复原问题需要解决。
附件5给出的是一页英文印刷文字双面打印文件的碎片数据。
尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果。
二、问题分析碎纸自动拼接复原技术在司法鉴定,历史研究等领域都有着广泛的应用。
近年来,随着德国斯塔西文件的恢复工程的公布,碎纸文件复原技术的研究引起了人们的广泛关注。
碎纸自动拼接技术是模式识别领域中的一个很典型的应用。
涉及数字图像处理,机器学习等多个学科,充分体现了当下多学科相互融合的学科特点,这也正说明了碎纸自动拼接本身具有一定的难度。
匹配技术是碎纸自动拼接技术的关键,它可以分为两个步骤:局部拼接和全局恢复。
局部拼接是指碎片两两之间的拼接问题,全局拼接是关于一组碎片之间的匹配问题。
局部匹配技术可以分为两类,一类比较具体,多对应图像低层像素或像素的集合,统称为图像匹配;另一类则比较抽象,主要与图像或目标的性质有关统称为广义匹配。
图像匹配包括模板匹配、目标匹配和动态模式匹配。
广义匹配包括关系匹配、线图同构和特征内容匹配。
特征内容匹配包括颜色匹配、纹理匹配、形状匹配和综合特征匹配等。
目前对碎纸拼接的研究,主要应用的是特征内容的匹配,本文应用其中的轮廓匹配。
碎纸拼接中的匹配技术,与传统匹配技术不同,它的特征都是未知的,没有先验知识可以参考,这也是碎纸拼接的难点。
对于传统破碎文件的拼接,更多的使用破碎纸片的边缘形状提取其轮廓曲线并利用计算机算法进行拼接,但现今越来越多的破碎纸片拼接问题中破碎纸片的边缘形状都近似相同,边缘形状拼接不再实用。
而对于边缘相似的破碎纸片的拼接,理想的计算机拼接过程应当与人工拼接的结果相同,但计算机无法完全的识别破碎纸片上带有的信息,所以对于现有算法只能近似完成破碎纸片的拼接。
针对问题一,因使用碎纸机对纸片进行纵切,每个纵切的纸片所含的信息量较大,所以对于问题一,利用左右两个纸片的边缘特征,可以制定灰度相似的配准规则,使得纸片边缘的对应行像素之差的平方和最小,拼接成功率将会更高。
针对问题二,使用碎纸机对纸片进行纵切且横切,问题变的复杂,由于纸片数量多,且碎纸片包含的信息少,用灰度匹配的话,一定会有较大的误差。
如果单纯考虑使用某种算法在解空间中进行遍历搜索最优匹配,算法的复杂度较高。
如何合理的减小误差又不至于增加太多的工作量,就需要找到恰当的算法和模型对问题一进行优化。
我们可以利用“分而治之”的思想,首先把所有的纸片按照其字符的结构特征(如行间距,列间距,字高,字宽,字间距等)进行粗分类,然后通过人工干预,拼出左边第一列,先按照行配准,然后在进行列配准。
对于每一行配准,我们可以刻画每个碎纸片的特征,分为结构特征和边缘像素特征。
对于碎纸片,我们在寻找某个边的待选碎片时,可以指定规则来提升效率,比如在左边匹配时,用行间距过滤掉不符合的碎片(也就是过滤掉不符合约束条件的取值范围),也就是剪枝定界法;如果带匹配的左边是有黑色数值的,再用目标碎片右边应该也有黑色数值,且出现的位值相近过滤掉图片;再用拼接好的图片中的字间距看看是否符合一个字的宽度等。
通过配准规则,结合字符的结构特征和边缘特征,我们应该可以得出第二问的配准图像。
针对问题三,碎片依然被纵切、横切成了209块。
但本题中还加入了正反两面,增加了问题的复杂性,不过建模的总体思想并没有变。
首先我们要通过配准规则,结合字符的结构特征和边缘特征对碎片进行一次拼接,但误差将会很大。
为更好的减小误差,我们可以结合灰度匹配和人工干预对已生成的图像进行修正。
三、符号说明四、模型假设结合本题实际,为了确保模型求解的准确性和合理性,我们排除了一些因素的干扰,提出以下几点假设:1.假设每条碎纸片都保持完整,无破损。
2.假设碎纸机切纸片的切口都较整齐。
3.假设同一页文件上文字的打印墨浓度相同。
4.假设同一页文件上文字的字体相同,同一页文件上文字只包含中文或者英文。
5.假设文件上文字颜色不受空气中水分等其他因素的影响.6.假设图像不许进行降噪、平滑滤波等预处理。
五、模型的建立与求解5.1模型建立前的准备5.1.1设置匹配准则集本题目并不是一个简单的图像拼接问题,所以我们设置包含灰度匹配、基于特征、BP神经网络、异或运算相结合的匹配准则集。
1.灰度匹配灰度匹配的基本思想:以统计的观点将图像看成是二维信号,采用统计相关的方法寻找信号间的相关匹配。
利用两个信号的相关函数,评价它们的相似性以确定同名点。
灰度匹配通过利用某种相似性度量,如相关函数、协方差函数、差平方和、差绝对值和等测度极值,判定两幅图像中的对应关系。
最经典的灰度匹配法是归一化的灰度匹配法,其基本原理是逐像素的把一个以一定大小的实时图像窗口的灰度矩阵,与参考图像的所有可能的窗口灰度阵列,按某种相似性度量方法进行搜索比较的匹配方法,从理论上说就是采用图像相关技术。
2.基于特征大多数完整文字文档的文字行方向和行间距平行且单一,如果碎片内的文字行在碎片边缘断裂,那么与它相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行,凭此特征可以很容易得从形状相似的多碎片中挑选出相邻碎片。
因文字行的高度特征、间距特征的识别比字迹断线识别和文字图像的理解实现起来更容易些,利用碎片内文字行特征拼接相似的碎纸片理论上是可行的。
3.BP神经网络BP (Back Propagation)神经网络,即误差反传误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成。
输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。
当实际输出与期望输出不符时,进入误差的反向传播阶段。
误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。
周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
4.异或运算异或逻辑的真值表如图1所示,其逻辑符号如图2所示。
异或逻辑的关系是:当不同时,输出;当相同时,输出。
“”是异或运算符号,异或逻辑也是与或非逻辑的组合,其逻辑表达式为:由图1可知,异或运算的规则是0⊕0=0,0⊕1=11⊕0=1,1⊕1=0口诀:相同取0,相异取1事实上,XOR 在英文里面的定义为either one (is one), but not both,也即只有一个为真(1)时,取真(1)。