基于汉字识别的碎纸片拼接复原模型研究

合集下载

碎纸片拼接复原(国一)

基于分治算法碎纸片的拼接复原模型摘要本文针对不同切割方式碎纸片的拼接问题，通过对图像数字化处理得到灰度矩阵，建立了复原模型并得到复原后的图像。

针对单面仅纵切碎纸片的拼接问题，根据完整文件最左边部分无文字的特点，运用matlab编程可确定出第一碎纸片。

随后，根据贪婪算法的思想，以确定位置的碎纸片与剩余未拼接碎纸片相邻边缘灰度值的平方欧氏距离最短为目标函数，可逐步求得碎纸片的拼接顺序,进而将其复原.中文碎纸片顺序为：8、14、12、15、3、10、2、16、1、4、5、9、13、18、11、7、17、0、6；英文碎纸片顺序为：3、6、2、7、15、18、11、0、5、1、9、13、10、8、12、14、17、16、4。

本问碎纸片拼接过程没有人工干预，实现了全自动化的拼接。

对于既横切又纵切碎纸片拼接问题，本问采用分治算法的思想，先对中、英文碎纸片分别层次聚类分析，将最可能位于同一行的碎纸片归为同一类，其中中文碎纸片分为11类，英文碎纸片分为10类；再对分类后的碎纸片使用编程加人工干预的半自动拼接方式，得到11块仅横切的碎纸片块；最终对得到的11块仅横切的碎纸片块进行类间拼接，实现文件的复原。

中文碎纸片第一列顺序为：49、61、168、38、71、14、94、125、29、7、89；英文碎纸片第一列顺序为：191、201、86、19、159、20、208、70、132、171、81。

此问中有两次人工干预的过程，第一次位于类拼接处，第二次位于类间拼接处。

中文文件总共干预了33块，英文文件总共干预了40块。

考虑双面碎纸片拼接问题时，本问延续了分治算法的思想。

由于每碎纸片含有正反两面，在聚类分析时，可将正反两面的灰度值相加为一列特征值作为它们是否可能位于同一行的依据，进而将双面碎纸片分为9类。

再对这9类碎纸片使用编程加人工干预的半自动拼接方式，得到22块仅横切的碎纸片块；最终对这22块仅横切的碎纸片块进行类间拼接，实现文件的复原。

基于多约束条件的中文碎片拼接复原算法设计

基于多约束条件的中文碎片拼接复原算法设计摘要：文章对纵横切中文碎纸片的拼接复原问题进行了分析，对碎片图像进行数字化处理，采用灰度相似性比较的方法，利用循环遍历的思想匹配碎片；接着对图像进行二值化降噪处理，去除干扰元素，考虑到传统匹配算法下存在多种匹配、错误匹配、重复匹配的问题，设计基于多种约束条件的中文碎片拼接算法；最后利用编程实现得到完整的复原图形，该算法提高了碎片拼接复原效率和精准度。

关键词：碎片复原；相似性比较；多约束；匹配模型传统破碎文件的拼接复原工作需由人工完成，效率很低。

随着计算机技术的发展，人们试图开发碎纸片的自动拼接技术，以提高拼接复原效率。

本文对2013高教社杯全国大学生数学建模竞赛B题中提出的碎纸片拼接复原问题进行研究，主要研究纵横切中文碎纸片的拼接复原问题。

1 灰度值的相似性比较1.1 提取边缘灰度值①在得到所有图像的灰度值矩阵后，提取每组矩阵左边缘的灰度值，根据左边缘的灰度值的特点，判断该图像是否为第一张图片，若左边缘灰度值均为255（全白），则表示该列无文字信息，即可确定复原的第一张图片。

②提取第一张图像灰度值矩阵的右边缘灰度值，并与其他图像的左边缘灰度值作相似性比较，确定与之匹配的图像。

1.2 欧氏距离比较矩阵边缘灰度值相似性欧氏距离（Euclid Distance）也称欧几里得距离，是一个通常采用的距离定义，它是在维空间中两个点之间的真实距离。

在二维空间中的欧氏距离则为两点之间的直线段距离，其表达如下：d=■在确定灰度值相似性时，根据欧氏距离最短的准则，对于一张分辨率为m×n 的数字图像，用欧氏距离法确定出的的表达式为：d=■其中i=1，2……19，且i≠k，k表示要匹配的图片序号。

1.3 循环遍历搜索根据欧氏距离最小原则的相似性比较，匹配出与第一张图片相匹配的图像，然后将该图像作为待匹配的图像，寻找下一张与之匹配的图像，利用循环遍历搜索的方法，得到匹配顺序。

碎纸片拼接复原的数学方法

碎纸片拼接复原的数学方法拼图游戏，一种看似简单却富含深度的游戏，给人们带来了无穷的乐趣。

然而，大家是否想过，这样的游戏其实与数学有着密切的？让我们一起探索碎纸片拼接复原背后的数学方法。

碎纸片拼接复原，其实就是一个计算几何问题。

在数学领域，欧几里得几何和非欧几里得几何是两个基本而又重要的分支。

欧几里得几何主要研究的是在平面上两点之间的最短距离，这是我们日常生活中常见的几何学。

而非欧几里得几何则研究的是曲面上的几何学，这种几何学并不符合我们日常生活中的直觉。

碎纸片拼接复原的问题就是一种非欧几里得几何问题。

在计算机科学中，图论是研究图形和网络的基本理论。

其中，图形遍历算法可以用来解决碎纸片拼接复原问题。

这种算法的基本思想是：从一点出发，尽可能多地遍历整个图形，并在遍历的过程中对图形进行重建。

对于碎纸片拼接复原问题，我们可以将每一张碎纸片看作是图中的一个节点，当两张碎纸片拼接在一起时，它们就形成了一个边。

通过这种方式，我们可以将所有的碎纸片连接起来，形成一个完整的图形。

在计算机科学中，碎纸片拼接复原问题被广泛应用于图像处理、数据恢复等领域。

例如，在数字图像处理中，如果一张图片被切割成若干块，我们可以通过类似的方法来恢复原始的图片。

在数据恢复领域，当一个文件被删除或格式化时，我们也可以通过类似的方法来恢复文件。

碎纸片拼接复原的问题不仅是一个有趣的拼图游戏，更是一个涉及计算几何、图论等多个领域的数学问题。

通过运用这些数学方法，我们可以有效地解决这个问题，从而更好地理解和应用这些数学理论。

在我们的日常生活中，我们经常会遇到一些破碎的物品，例如碎镜子、破碎的瓷器，或是碎纸片等。

这些物品的复原过程都需要一种科学的方法来帮助他们重新拼接起来。

这种科学方法就是碎纸片拼接复原技术。

碎纸片拼接复原技术是一种基于数学模型的方法，它通过比较碎纸片边缘的形状、纹理、颜色等特征，来找到碎纸片之间的相似性和关联性，从而将它们拼接起来。

基于文字特征的文档碎纸片拼接软件设计

再根据不同字体的需要，设置相似度
法等搜素与之匹配的相邻碎纸片】。但对于
类似地，设Ｃ、Ｄ分别为左右放置的两闽值（即碎片与模板的相似程度闽值），拼
定义前一个矩阵接过程同２．边缘形状相似的碎纸片，这种基于边界几张图片对应的数字矩阵，２。
向切割的双面打印碎片，先在碎纸中找出２６个字模板进行匹配判定，借助人工拼接边缘
列，逐次手动调整，实现复原。
关键词：二值法最小二来法中图分类号：ＴＰ３０１
灰度
完整字符文献标识码：Ａ文章编号：１６７４－０９８Ｘ（２０１４）０４（ａ）－０１９５－０１
数据矩阵。
此时Ａ与Ｂ对应的图片可以左右拼邻的点构成一个区域，搜索得到完整字符的将不规则的文档碎片进行拼接，一般Ｂ匹配，
是利用碎纸片的边缘曲线，尖点、尖角、面接。２．１．２横向切割碎片拼接积等几何特征，通过神经网络算法、蚁群算
要：将图片进行灰度处理，再转化为０ —１二值矩阵，利用矩阵行（列）偏差函数，建立基于最４、二乘法的拼接模型。针对双向切割碎片全局
搜索的局限性，利用文字的行高和行间距的特征，建立相似度函数，并人工拼接出边缘列，再多行并行拼接，然后逐次调整，曩后复原。针对双

一种基于文字特征的碎纸片拼接算法设计

一种基于文字特征的碎纸片拼接算法设计刘秋菊;陈平;王仲英【摘要】提出了一种解决碎纸片拼接复原的方法.该方法首先把边界文字连续点的数目作为文字特征,然后使用连续八连通对边界文字灰度特征进行提取,通过特征提取得到基于灰度特征的连续点数目特征矩阵,最后,通过位置排序得到碎片的排序结果.按照算法设计思想编写C语言程序并针对实际例子进行拼接实验,实验结果表明,该算法符合设计要求.【期刊名称】《实验室研究与探索》【年(卷),期】2016(035)011【总页数】4页(P110-113)【关键词】纸片拼接;文字特征;连续八连通;特征矩阵【作者】刘秋菊;陈平;王仲英【作者单位】郑州工程技术学院信息工程学院,河南郑州450044;济源职业技术学院信息工程系,河南济源459000;河南经贸职业学院技术科学系,河南郑州450018【正文语种】中文【中图分类】TP391碎片拼接问题是数字图像处理中常常研究的问题。

碎片文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用，因此，通过计算机建立对于破碎文件自动拼接和恢复的算法与模型，具有很重要的现实意义。

一般对于碎片的拼接，针对碎片的破碎方式可以采用不同的算法完成拼接。

对于只有纵切方式的碎片要完成拼接复原，不能采用一般的根据边界几何特征拼接文件的方法拼接文件，使用边缘的尖点特征、尖角特征、面积特征等几何特征，搜索与之匹配的相邻碎纸片并进行拼接，这种基于边界几何特征的拼接方法并不适用于边界几何都是规则的碎片的拼接[1-8]。

对于不同横截面的中英文的碎片，首先，需要提取碎片特征，利用抽取到的特征，建立线性规划目标函数模型，利用图论中的二分图，整数0-1规划等对特征计算，使用特征之间的相似度或者距离作为拼接指标进行碎片的拼接，同时考虑到计算机的自动拼接可能带来的误差，加入人为的干预，提高拼接的准确率。

对于只有纵切方式的碎片要完成拼接复原，首先，对灰度图像进行全局阈值的二值化，得到二值化后图像的灰度值，同一个字符的共同特点是在它相应的位置和相应的领域内能够找到相应的笔段[9-11]。

碎片拼接复原技术研究

２碎纸片拼接模型的建立
中文规则碎纸片的拼接模型：在对碎纸片进行了二值化处理之后．我们试着建立一个碎纸片拼接的数学模型来解决这个问题在此之前．我们先给出模型的基本假设：假设一：整张纸张切割完整，碎片内没有丢失部分像素并且在切割之后所得碎纸片都全等：假设二：字与字之问的行间距都是相等的，没有发生突变的行为在建立模型之前．我们需要看一下实际的问题：对于给定的来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切）．建立碎纸片拼接复原模型和算法．并针对附件１给出的中文文件的碎片数据进行拼接复原。如果复原过程需要人工干预，请写出干预方式及干预的时间节点。复原结果以图片形式及表格形式表达除去文字本身．我们可以把每张碎纸片看出只有黑白两种颜色的图像通常遇到这种情景的图像可以用二值法来表示图像一幅二值图像的二维矩阵仅有ｆＯ，１１两个值构成， … ０’ 代表黑色， “ １ ” 代表白色。将图像中的像素点分别用｛０，ｌ１表示，把文字图像数字化，便于拼接修复二值图像通常用于文字，线条图的扫描识别ＯＣＲ．本文尝试运用二值图像修复碎纸片
成，准确率较高，但效率很低。针对规则碎纸片的拼接，本文基于中文文章试对文字特征进行探究，针对不同情况建立了逐步递进的模型，用现
实问题进行验证结合人工干预，效果较为良好。
【关键词】碎纸片拼接；文字特征；旅行商问题
１研究背景与意义
根据已经建立的Ｅ矩阵，我们通过计算得到一个１９ｘ２的ｓ矩阵．这个矩阵储存的是每一条碎片边缘取值为Ｏ的像素点（即为黑色的像素）的数量。例如，ｓ［订：３５０表示００１号碎片的左侧边缘有３５０个黑色像素点

碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终引言碎纸片的拼接复原是一项有趣且具有挑战性的任务。

无论是为了还原重要文件还是拼接有意义的图像，我们都需要使用各种技巧和方法来完成这项任务。

本文将介绍一种基于分析的碎纸片拼接复原方法，通过对碎纸片的形状、颜色和纹理等特征进行分析，最终达到拼接复原的目标。

碎纸片的特征提取在进行碎纸片的拼接复原之前，首先需要提取碎纸片的特征。

这些特征包括碎纸片的形状、颜色和纹理等。

形状特征提取为了提取碎纸片的形状特征，可以通过计算碎纸片的边界和角度来获得。

首先，使用图像处理技术，如Canny边缘检测算法，将碎纸片的边缘提取出来。

然后，使用霍夫变换来检测碎纸片的直线和角点，从而计算出角度和边界。

颜色特征提取碎纸片的颜色特征可以通过计算图像的颜色直方图来得到。

颜色直方图表示了图像中每个颜色的像素数量。

我们可以使用像素级别的颜色分布来比较不同碎纸片的颜色特征，并找到相似的碎纸片来进行拼接。

纹理特征提取碎纸片的纹理特征可以通过计算图像的纹理描述符来得到。

纹理描述符是用于描述图像纹理的数值特征。

其中，最常用的纹理描述符包括灰度共生矩阵（GLCM）和局部二值模式（LBP）。

通过计算碎纸片的纹理描述符，我们可以比较不同碎纸片之间的纹理相似度，并选择相似的碎纸片进行拼接。

碎纸片的拼接策略在完成碎纸片特征提取后，接下来需要制定碎纸片的拼接策略。

拼接策略将基于碎纸片的特征相似度和拼接的整体目标来确定。

相似度匹配根据碎纸片的形状、颜色和纹理特征，我们可以计算两个碎纸片之间的相似度。

一种常用的相似度计算方法是使用余弦相似度，它衡量两个向量之间的夹角。

通过计算碎纸片之间的相似度，我们可以找到最相似的碎纸片来进行拼接。

拼接顺序在进行碎纸片的拼接时，需要制定一个拼接顺序。

一种常用的策略是首先选择与已拼接部分最相似的碎纸片进行拼接，然后逐渐增加已拼接部分的面积，直到最终完成拼接。

拼接约束为了保证拼接的准确性，我们需要制定一些拼接约束。

基于文字特征和边缘特征的文本碎纸片拼接

基于文字特征和边缘特征的文本碎纸片拼接刘赐德;黄志祥;管一弘;赵建军【期刊名称】《信息技术》【年(卷),期】2018(000)001【摘要】For the hand-cut irregular pieces of paper scraping pieces of recovery,the basic characteristics of shredding paper was analyzed and this paper puts forward the splicing method based on character features and edge features.Firstly,the shredded image is preprocessed,and then the characters and edge features of the image are extracted.The corner matching algorithm was used to splice the boundary shredding sheet by using the edge features,and the whole splicing was accomplished by using the character feature.%针对手撕无规则的文本碎纸片拼接复原,分析了碎纸片的基本特征,提出了基于文字特征和边缘特征的拼接方法.先对碎纸片图像进行预处理,再对图像的文字特征和边缘特征进行提取.利用边缘特征,使用角点匹配算法拼接边界碎纸片,利用文字特征完成整个碎纸片的拼接.【总页数】5页(P20-23,28)【作者】刘赐德;黄志祥;管一弘;赵建军【作者单位】昆明理工大学理学院,昆明650504;上海大学理学院,上海200436;昆明理工大学理学院,昆明650504;昆明理工大学理学院,昆明650504【正文语种】中文【中图分类】TP391.41【相关文献】1.基于灰度及文字行位置的碎纸片拼接优化模型 [J], 孙魏;伍度志2.基于分层聚类的仅横纵切碎中文纸片拼接分类 [J], 熊保平;祝丽华3.一种基于文字特征的碎纸片拼接算法设计 [J], 刘秋菊;陈平;王仲英4.基于文字特点的碎纸片拼接技术探究 [J], 王玉霞;夏望红;林泓亮;肖响文5.基于文字边缘信息的碎纸片拼接 [J], 郝凯锋因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｈ
量明月，
（７２＿＿ｉ），则只需要对剩余所有图片自左向右读取第
ｎ－（７２一ｊ）列、第ｔ到ｔ＋ｎ行像素的灰度值。若该行
有缺损文字，则与第一张图片同一行的后（７２一ｉ）列像素灰度值进行匹配，再利用模式识别判断能否成字，这样就可以找到与第一张图片相匹配的图片。如果没有缺损文字，则从上往下读取第ｔ＋（ｉ一１）ｎ＋（ｉ一１）到ｔ＋ｉｎ＋（ｉ —１）水ｈ（ｉ为读取字的行数）行
（７２一ｊ）。
１１０－ “
『ｌｌ帕＋１ｒ
ｈ
第三步，由于每个印刷体方块字的字宽和字高
ｎ
、ｆ一
ｌ入
都是一定的，所以可以推断出剩余图片中与第一张图片缺损部分相匹配的缺损部分的宽度为ｎ一
ｔ
ｊ
ｎ
ｔ
‘ －・
第二步，通过Ｍａｔｌａｂ软件读取出第一张图片缺
ｈ
ｌ窗前
毛旦籼
ＮＣＬ
月光，
卜霞
［＝】１．／Ｉ、日。
损字的左边距ｉ，每个方体字的字宽和字高ｎ，字间
距ｈ。这样第一张图片最右边的缺损字的宽度即为
图四图片拼接展示图
进行灰度值处理、匹配，确保了模型建立的合理性，
编程实现简单，通俗易懂。且利用函数的连续性，证
明了函数的离散化是合理的，得到的结果相似度很高。缺点是在对图片进行匹配时，会同时出现多张匹
配图片，需要人工干预的次数增多，模式识别技术复杂，精确度相对较低。
２考虑单面文件汉字既纵切又横切的情况
（７２一ｊ）列、第ｔ到ｔ＋ｎ行像素的灰度值。若该行有缺损文字，则与第一张图片同一行的后（７２＿ｊ）列像素
灰度值进行匹配，再利用模式识别判断能否成字，这样就可以找到与第一张图片相匹配的图片。如果没有缺损文字，则于汉往下字识别读取第的碎ｔ＋（ｉ一１）ｎ＋（ｉ一１）到基纸片拼接复原模型研究什ｉｎ＋（ｉ一１）（ｉ为读取字的行数）行像素的灰度
边灰度值为ｎ一（７２＿＿ｊ）的图片。在这个过程中，我们也同样的考虑上下图片的匹配。通过利用文字几
何特征与模式识别相结合的方法对文字进行识别，判断是否成字。如果还有部分图片没有匹配出来，再加人人工干预，这样就可以精确地把图片拼接出来。第一步，通过Ｍａｔｌａｂ软件读取出所有图片的灰
度值，然后自左向右循环读取每一列像素的灰度值，直到读取到灰度值为０（黑色）就停止读取，这样就
～
可以根据前几列均为２５５（白色）找到每一行的第一张图片，而且可以确定左边距ｌ，同理可以测出上边
距ｔ。
灰度值为０（黑色）时则停止读取，这样就可以根据
前几列均为２５５（白色）找到第一张图片，而且可以
读取所有碎纸片
读出灰度值
ｌ囊 —习荻霞■全为
Ｉ２５５
Ｉｌ ■后—习灰霞■全为Ｉ
Ｉｌ２ｓｓｌ
值。利用文字几何特征与模式识别相结合的方法对文字进行识别，判断是否成字。若还有部分图片没
有匹配出来，则加人人工干预，即可准确地把图片拼
接出来。
（４）类似地，通过两两配对合模式识别，可以继
续匹配找出后面所有图片，最后完成碎纸片的拼接。流程如图二所示。图三是图片拼接展示。
８
［二亘垦口
８
［二垂Ｅ口
图二拼接流程图
图一图片的灰度值读取流程图
ｔ１
—
ｎ
‘
王
确定左边距Ｉ，同理可以测出上边距ｔ。流程如图一
所示ａｔｌａｂ软件读取出第一张图片缺损字的左边距ｊ，每个方体字的字宽和字高ｎ，行间距ｈ。这样第一张图片最右边的缺损字的宽度即为（７２一
Ｊ）。
听ｒ一
ｈ
图片拼接展示图
ｈ
（３）由于每个印刷体方块字的字宽和字高都是
一
深木海、．
图三
定的，所以可以推断出剩余图片中与第一张图片
缺损部分相匹配的缺损部分的宽度为ｎ一（７２一ｊ），则只需要对剩余所有图片自左向右读取第ｎ一
一
针对单面文件汉字既纵切又横切的情形，通过Ｍａｔｌａｂ软件检测所在行列的灰度值，首先确定好每
张图片中每一列的灰度值，确定第一张图片。继续
确定第一张图片最右边缺损汉字的灰度值为（７２一
），从左往右循环读取出剩余图片的灰度值，找出左
像素的灰度值。
第四步，同理，可以找出每一行后面所有图片，最后完成每一行碎纸片的拼接，可以得到ｌ１行的图片，接下来就进行行与行之间的图片拼接。