基于汉字识别的碎纸片拼接复原模型研究

合集下载

碎纸片拼接复原(国一)

碎纸片拼接复原(国一)

基于分治算法碎纸片的拼接复原模型摘要本文针对不同切割方式碎纸片的拼接问题,通过对图像数字化处理得到灰度矩阵,建立了复原模型并得到复原后的图像。

针对单面仅纵切碎纸片的拼接问题,根据完整文件最左边部分无文字的特点,运用matlab编程可确定出第一碎纸片。

随后,根据贪婪算法的思想,以确定位置的碎纸片与剩余未拼接碎纸片相邻边缘灰度值的平方欧氏距离最短为目标函数,可逐步求得碎纸片的拼接顺序,进而将其复原.中文碎纸片顺序为:8、14、12、15、3、10、2、16、1、4、5、9、13、18、11、7、17、0、6;英文碎纸片顺序为:3、6、2、7、15、18、11、0、5、1、9、13、10、8、12、14、17、16、4。

本问碎纸片拼接过程没有人工干预,实现了全自动化的拼接。

对于既横切又纵切碎纸片拼接问题,本问采用分治算法的思想,先对中、英文碎纸片分别层次聚类分析,将最可能位于同一行的碎纸片归为同一类,其中中文碎纸片分为11类,英文碎纸片分为10类;再对分类后的碎纸片使用编程加人工干预的半自动拼接方式,得到11块仅横切的碎纸片块;最终对得到的11块仅横切的碎纸片块进行类间拼接,实现文件的复原。

中文碎纸片第一列顺序为:49、61、168、38、71、14、94、125、29、7、89;英文碎纸片第一列顺序为:191、201、86、19、159、20、208、70、132、171、81。

此问中有两次人工干预的过程,第一次位于类拼接处,第二次位于类间拼接处。

中文文件总共干预了33块,英文文件总共干预了40块。

考虑双面碎纸片拼接问题时,本问延续了分治算法的思想。

由于每碎纸片含有正反两面,在聚类分析时,可将正反两面的灰度值相加为一列特征值作为它们是否可能位于同一行的依据,进而将双面碎纸片分为9类。

再对这9类碎纸片使用编程加人工干预的半自动拼接方式,得到22块仅横切的碎纸片块;最终对这22块仅横切的碎纸片块进行类间拼接,实现文件的复原。

基于多约束条件的中文碎片拼接复原算法设计

基于多约束条件的中文碎片拼接复原算法设计

基于多约束条件的中文碎片拼接复原算法设计摘要:文章对纵横切中文碎纸片的拼接复原问题进行了分析,对碎片图像进行数字化处理,采用灰度相似性比较的方法,利用循环遍历的思想匹配碎片;接着对图像进行二值化降噪处理,去除干扰元素,考虑到传统匹配算法下存在多种匹配、错误匹配、重复匹配的问题,设计基于多种约束条件的中文碎片拼接算法;最后利用编程实现得到完整的复原图形,该算法提高了碎片拼接复原效率和精准度。

关键词:碎片复原;相似性比较;多约束;匹配模型传统破碎文件的拼接复原工作需由人工完成,效率很低。

随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。

本文对2013高教社杯全国大学生数学建模竞赛B题中提出的碎纸片拼接复原问题进行研究,主要研究纵横切中文碎纸片的拼接复原问题。

1 灰度值的相似性比较1.1 提取边缘灰度值①在得到所有图像的灰度值矩阵后,提取每组矩阵左边缘的灰度值,根据左边缘的灰度值的特点,判断该图像是否为第一张图片,若左边缘灰度值均为255(全白),则表示该列无文字信息,即可确定复原的第一张图片。

②提取第一张图像灰度值矩阵的右边缘灰度值,并与其他图像的左边缘灰度值作相似性比较,确定与之匹配的图像。

1.2 欧氏距离比较矩阵边缘灰度值相似性欧氏距离(Euclid Distance)也称欧几里得距离,是一个通常采用的距离定义,它是在维空间中两个点之间的真实距离。

在二维空间中的欧氏距离则为两点之间的直线段距离,其表达如下:d=■在确定灰度值相似性时,根据欧氏距离最短的准则,对于一张分辨率为m×n 的数字图像,用欧氏距离法确定出的的表达式为:d=■其中i=1,2……19,且i≠k,k表示要匹配的图片序号。

1.3 循环遍历搜索根据欧氏距离最小原则的相似性比较,匹配出与第一张图片相匹配的图像,然后将该图像作为待匹配的图像,寻找下一张与之匹配的图像,利用循环遍历搜索的方法,得到匹配顺序。

碎纸片拼接复原的数学方法

碎纸片拼接复原的数学方法

碎纸片拼接复原的数学方法拼图游戏,一种看似简单却富含深度的游戏,给人们带来了无穷的乐趣。

然而,大家是否想过,这样的游戏其实与数学有着密切的?让我们一起探索碎纸片拼接复原背后的数学方法。

碎纸片拼接复原,其实就是一个计算几何问题。

在数学领域,欧几里得几何和非欧几里得几何是两个基本而又重要的分支。

欧几里得几何主要研究的是在平面上两点之间的最短距离,这是我们日常生活中常见的几何学。

而非欧几里得几何则研究的是曲面上的几何学,这种几何学并不符合我们日常生活中的直觉。

碎纸片拼接复原的问题就是一种非欧几里得几何问题。

在计算机科学中,图论是研究图形和网络的基本理论。

其中,图形遍历算法可以用来解决碎纸片拼接复原问题。

这种算法的基本思想是:从一点出发,尽可能多地遍历整个图形,并在遍历的过程中对图形进行重建。

对于碎纸片拼接复原问题,我们可以将每一张碎纸片看作是图中的一个节点,当两张碎纸片拼接在一起时,它们就形成了一个边。

通过这种方式,我们可以将所有的碎纸片连接起来,形成一个完整的图形。

在计算机科学中,碎纸片拼接复原问题被广泛应用于图像处理、数据恢复等领域。

例如,在数字图像处理中,如果一张图片被切割成若干块,我们可以通过类似的方法来恢复原始的图片。

在数据恢复领域,当一个文件被删除或格式化时,我们也可以通过类似的方法来恢复文件。

碎纸片拼接复原的问题不仅是一个有趣的拼图游戏,更是一个涉及计算几何、图论等多个领域的数学问题。

通过运用这些数学方法,我们可以有效地解决这个问题,从而更好地理解和应用这些数学理论。

在我们的日常生活中,我们经常会遇到一些破碎的物品,例如碎镜子、破碎的瓷器,或是碎纸片等。

这些物品的复原过程都需要一种科学的方法来帮助他们重新拼接起来。

这种科学方法就是碎纸片拼接复原技术。

碎纸片拼接复原技术是一种基于数学模型的方法,它通过比较碎纸片边缘的形状、纹理、颜色等特征,来找到碎纸片之间的相似性和关联性,从而将它们拼接起来。

基于文字特征的文档碎纸片拼接软件设计

基于文字特征的文档碎纸片拼接软件设计

再根据 不同字体 的需要, 设 置 相 似 度
法 等 搜 素与 之 匹配 的 相 邻 碎 纸 片 】 。 但 对 于
类似地 , 设 C、 D分 别 为 左 右 放 置 的 两 闽 值 ( 即 碎 片与 模 板 的 相 似 程 度 闽 值 ) , 拼
定 义 前 一 个 矩 阵 接过 程 同2. 边 缘 形状相似 的碎 纸片, 这 种 基 于 边 界几 张 图 片对 应 的 数 字 矩 阵 , 2 。
向切割的双 面打印碎 片 , 先在碎 纸中 找 出2 6 个 字模板进行匹配判定, 借助人 工拼接边缘
列, 逐 次手 动 调整 , 实现 复 原 。
关键词 : 二值法 最小二来法 中图分类号: T P 3 0 1
灰度
完整字符 文献标识码 : A 文章 编号 : 1 6 7 4 - 0 9 8 X( 2 0 1 4 ) 0 4 ( a ) - 0 1 9 5 - 0 1
数据 矩 阵 。
此 时A与B对 应 的 图片 可 以 左 右 拼 邻 的点构 成一 个 区域 , 搜 索 得 到完 整字 符 的 将不规 则的 文档 碎片进行拼 接 , 一般 B匹配 ,
是 利 用 碎 纸 片 的 边 缘 曲线 , 尖点、 尖角、 面 接 。 2 . 1 . 2 横向切 割 碎 片拼 接 积 等几 何特 征 , 通 过 神 经 网络 算 法 、 蚁 群 算
要: 将 图片 进行灰度处理 , 再转化 为0 —1 二值矩阵, 利用矩阵行 ( 列) 偏差函数 , 建立基于最4 、 二乘法的拼接模 型。 针对双 向切割碎 片 全局
搜索的局限性 , 利用文字的行高和行 间距的特征 , 建立 相似度 函数 , 并人工拼接 出边缘列, 再多行并行拼接 , 然后逐 次调整, 曩 后复原。 针对双

一种基于文字特征的碎纸片拼接算法设计

一种基于文字特征的碎纸片拼接算法设计

一种基于文字特征的碎纸片拼接算法设计刘秋菊;陈平;王仲英【摘要】提出了一种解决碎纸片拼接复原的方法.该方法首先把边界文字连续点的数目作为文字特征,然后使用连续八连通对边界文字灰度特征进行提取,通过特征提取得到基于灰度特征的连续点数目特征矩阵,最后,通过位置排序得到碎片的排序结果.按照算法设计思想编写C语言程序并针对实际例子进行拼接实验,实验结果表明,该算法符合设计要求.【期刊名称】《实验室研究与探索》【年(卷),期】2016(035)011【总页数】4页(P110-113)【关键词】纸片拼接;文字特征;连续八连通;特征矩阵【作者】刘秋菊;陈平;王仲英【作者单位】郑州工程技术学院信息工程学院,河南郑州450044;济源职业技术学院信息工程系,河南济源459000;河南经贸职业学院技术科学系,河南郑州450018【正文语种】中文【中图分类】TP391碎片拼接问题是数字图像处理中常常研究的问题。

碎片文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用,因此,通过计算机建立对于破碎文件自动拼接和恢复的算法与模型,具有很重要的现实意义。

一般对于碎片的拼接,针对碎片的破碎方式可以采用不同的算法完成拼接。

对于只有纵切方式的碎片要完成拼接复原,不能采用一般的根据边界几何特征拼接文件的方法拼接文件,使用边缘的尖点特征、尖角特征、面积特征等几何特征,搜索与之匹配的相邻碎纸片并进行拼接,这种基于边界几何特征的拼接方法并不适用于边界几何都是规则的碎片的拼接[1-8]。

对于不同横截面的中英文的碎片,首先,需要提取碎片特征,利用抽取到的特征,建立线性规划目标函数模型,利用图论中的二分图,整数0-1规划等对特征计算,使用特征之间的相似度或者距离作为拼接指标进行碎片的拼接,同时考虑到计算机的自动拼接可能带来的误差,加入人为的干预,提高拼接的准确率。

对于只有纵切方式的碎片要完成拼接复原,首先,对灰度图像进行全局阈值的二值化,得到二值化后图像的灰度值,同一个字符的共同特点是在它相应的位置和相应的领域内能够找到相应的笔段[9-11]。

碎片拼接复原技术研究

碎片拼接复原技术研究

2 碎 纸 片 拼 接模 型 的 建 立
中文规则碎纸片的拼接模型 : 在对碎纸片进行了二值化处理之后 . 我们试 着建立 一个 碎纸片拼 接 的数学模型来解决这个问题 在此之前 . 我们先给出模型的基本假 设: 假设一 : 整张纸 张切割完整 , 碎 片内没有丢失 部分像素并且在 切 割之后所得碎纸片都全等 : 假设 二 : 字与字之问的行间距 都是相 等的 , 没有发生 突变 的行为 在建立模型之前 . 我们需要看一 下实际 的问题 : 对于给定 的来 自 同一页印刷文字文件的碎纸机破碎纸片( 仅纵切 ) . 建立碎 纸片拼接复 原模 型和算法 . 并 针对附件 1 给 出的中文文件 的碎片数据进行 拼接复 原。 如果复原过程需要人工 干预 , 请写 出干预方式及干预 的时间节点。 复原结果 以图片形式及表格形式表达 除去文字本身 . 我们 可以把 每张碎纸 片看 出只有黑 白两种颜色的 图像 通常遇到这种情景 的图像可以用二值法来表示图像 一幅二值 图像 的二维矩 阵仅有f O , 1 1 两个值构成 , … 0’ 代表黑色 , “ 1 ” 代表 白色。 将图像 中的像素 点分 别用{ 0 , l 1 表示 , 把 文字 图像数 字化 , 便于 拼接 修 复 二值图像通常用于文字, 线条图的扫描识别 O C R . 本文尝试运用二 值 图像修 复碎 纸片
成, 准确率较高 , 但效率很低 。针对规 则碎 纸片的拼接 , 本 文基 于中文 文章试对文字特征进行探 究 , 针对不同情况建 立了逐步递进的模型 , 用现
实 问题 进 行 验 证 结合 人 工 干预 , 效 果较 为 良好 。
【 关键词】 碎纸片拼 接 ; 文字特征 ; 旅行 商问题
1 研 究 背景 与意 义
根据 已经 建立 的 E 矩阵 , 我们通过计算得到一个 1 9 x 2 的s 矩阵. 这个矩 阵储存的是每一条碎片边缘取值为 O的像素点( 即为黑色 的像素 ) 的数量。例如, s [ 订 : 3 5 0 表示 0 0 1 号碎片的左侧边缘有 3 5 0 个 黑色像素点

碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终

碎纸片的拼接复原分析最终引言碎纸片的拼接复原是一项有趣且具有挑战性的任务。

无论是为了还原重要文件还是拼接有意义的图像,我们都需要使用各种技巧和方法来完成这项任务。

本文将介绍一种基于分析的碎纸片拼接复原方法,通过对碎纸片的形状、颜色和纹理等特征进行分析,最终达到拼接复原的目标。

碎纸片的特征提取在进行碎纸片的拼接复原之前,首先需要提取碎纸片的特征。

这些特征包括碎纸片的形状、颜色和纹理等。

形状特征提取为了提取碎纸片的形状特征,可以通过计算碎纸片的边界和角度来获得。

首先,使用图像处理技术,如Canny边缘检测算法,将碎纸片的边缘提取出来。

然后,使用霍夫变换来检测碎纸片的直线和角点,从而计算出角度和边界。

颜色特征提取碎纸片的颜色特征可以通过计算图像的颜色直方图来得到。

颜色直方图表示了图像中每个颜色的像素数量。

我们可以使用像素级别的颜色分布来比较不同碎纸片的颜色特征,并找到相似的碎纸片来进行拼接。

纹理特征提取碎纸片的纹理特征可以通过计算图像的纹理描述符来得到。

纹理描述符是用于描述图像纹理的数值特征。

其中,最常用的纹理描述符包括灰度共生矩阵(GLCM)和局部二值模式(LBP)。

通过计算碎纸片的纹理描述符,我们可以比较不同碎纸片之间的纹理相似度,并选择相似的碎纸片进行拼接。

碎纸片的拼接策略在完成碎纸片特征提取后,接下来需要制定碎纸片的拼接策略。

拼接策略将基于碎纸片的特征相似度和拼接的整体目标来确定。

相似度匹配根据碎纸片的形状、颜色和纹理特征,我们可以计算两个碎纸片之间的相似度。

一种常用的相似度计算方法是使用余弦相似度,它衡量两个向量之间的夹角。

通过计算碎纸片之间的相似度,我们可以找到最相似的碎纸片来进行拼接。

拼接顺序在进行碎纸片的拼接时,需要制定一个拼接顺序。

一种常用的策略是首先选择与已拼接部分最相似的碎纸片进行拼接,然后逐渐增加已拼接部分的面积,直到最终完成拼接。

拼接约束为了保证拼接的准确性,我们需要制定一些拼接约束。

基于文字特征和边缘特征的文本碎纸片拼接

基于文字特征和边缘特征的文本碎纸片拼接

基于文字特征和边缘特征的文本碎纸片拼接刘赐德;黄志祥;管一弘;赵建军【期刊名称】《信息技术》【年(卷),期】2018(000)001【摘要】For the hand-cut irregular pieces of paper scraping pieces of recovery,the basic characteristics of shredding paper was analyzed and this paper puts forward the splicing method based on character features and edge features.Firstly,the shredded image is preprocessed,and then the characters and edge features of the image are extracted.The corner matching algorithm was used to splice the boundary shredding sheet by using the edge features,and the whole splicing was accomplished by using the character feature.%针对手撕无规则的文本碎纸片拼接复原,分析了碎纸片的基本特征,提出了基于文字特征和边缘特征的拼接方法.先对碎纸片图像进行预处理,再对图像的文字特征和边缘特征进行提取.利用边缘特征,使用角点匹配算法拼接边界碎纸片,利用文字特征完成整个碎纸片的拼接.【总页数】5页(P20-23,28)【作者】刘赐德;黄志祥;管一弘;赵建军【作者单位】昆明理工大学理学院,昆明650504;上海大学理学院,上海200436;昆明理工大学理学院,昆明650504;昆明理工大学理学院,昆明650504【正文语种】中文【中图分类】TP391.41【相关文献】1.基于灰度及文字行位置的碎纸片拼接优化模型 [J], 孙魏;伍度志2.基于分层聚类的仅横纵切碎中文纸片拼接分类 [J], 熊保平;祝丽华3.一种基于文字特征的碎纸片拼接算法设计 [J], 刘秋菊;陈平;王仲英4.基于文字特点的碎纸片拼接技术探究 [J], 王玉霞;夏望红;林泓亮;肖响文5.基于文字边缘信息的碎纸片拼接 [J], 郝凯锋因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

量 明月,
( 7 2 _ _ i ) , 则只需要对剩余所有图片 自左向右读取第
n -( 7 2 一j ) 列、 第t 到t + n 行像素的灰度值 。若该行
有缺 损文 字 , 则 与第一 张 图 片 同一 行 的后 ( 7 2 一i ) 列 像 素 灰 度值 进行 匹配 , 再 利 用模 式 识别 判 断 能 否成 字 ,这样 就 可 以找 到 与第 一 张 图片 相 匹 配 的 图片 。 如果 没有 缺损 文字 , 则从 上往 下读 取第 t + ( i 一1 ) n + ( i 一1 ) 到t + i n + ( i —1 ) 水 h ( i 为 读 取 字 的行 数 ) 行
( 7 2 一j ) 。
1 1 0 - “
『l l 帕 + 1 r

第三步 , 由于 每个 印 刷体 方 块 字 的字 宽 和字 高

、 f 一
l 入
都是一定的 , 所 以可以推断出剩余 图片中与第一张 图 片缺损 部 分相 匹配 的 缺损 部 分 的宽 度 为 n 一




‘ -・
第二步 , 通 过 Ma t l a b软件 读取 出第 一 张 图片缺

l 窗前
毛旦 籼
N C L
月光 ,
卜霞
[ = 】 1. / I 、 日 。
损字 的左边距 i , 每个方体字 的字宽和字高 n , 字间
距 h 。这样 第一 张 图 片最右 边 的缺损 字 的宽 度 即为
图四 图 片拼 接 展 示 图
进行灰度值处理 、 匹配 , 确保 了模 型建立的合理性 ,
编程 实现 简单 , 通俗 易懂 。且利 用 函数 的连续性 , 证
明了函数的离散化是合理的 ,得到的结果相似度很 高。 缺点是在对图片进行匹配时, 会同时出现多张匹
配 图片 , 需 要人 工干 预 的次 数增 多 , 模 式识 别技 术 复 杂, 精 确度 相对 较低 。
2 考 虑单 面文 件汉 字既 纵切 又横 切 的情 况
( 7 2 一j ) 列、 第t 到t + n 行像素的灰度值。 若该行有缺 损文字 , 则与第一张图片 同一行的后( 7 2 _j ) 列像素
灰 度值 进行 匹 配 , 再 利用 模式识 别 判 断能否 成字 , 这 样 就 可 以找到 与第一 张 图片 相匹 配 的图 片 。如 果没 有 缺损 文字 , 则于汉 往下字识别 读取 第的碎 t + ( i 一1 ) n + ( i 一1 ) 到 基 纸片拼 接复原 模型 研究 什i n + ( i 一1 ) ( i 为 读 取 字 的行 数 ) 行 像 素 的 灰 度
边灰度值 为 n 一( 7 2 _ _ j ) 的图片。在这个过程中 , 我 们也同样的考虑上下图片的匹配 。通过利用文字几
何 特 征 与模 式 识别 相 结 合 的方 法 对 文 字进 行 识别 , 判 断 是否 成字 。 如果 还 有部分 图片没有 匹 配 出来 , 再 加人 人工 干预 , 这样 就 可 以精 确 地把 图片 拼接 出来 。 第一 步 , 通 过 Ma t l a b软 件读 取 出所 有 图片 的灰
度值 , 然后 自 左 向右循环读取每一列像素的灰度值 , 直到读取到灰度值为 0 ( 黑色 ) 就停止读取 , 这样就

可 以根据 前几 列 均为 2 5 5 ( 白色 ) 找 到每 一行 的第 一 张 图片 , 而 且可 以确定 左边 距 l , 同理 可 以测 出上边
距 t 。
灰度值为 0 ( 黑色) 时则停止读取 , 这样就可以根据
前几列均为 2 5 5 ( 白色 ) 找 到第 一 张 图片 , 而且 可 以
读 取 所 有 碎 纸 片
读 出灰度值
l 囊 —习 荻霞■全为
I 2 5 5
I l ■后—习灰 霞■全 为 I
I l 2 s s l
值 。利用文字几何特征与模式识别相结合的方法对 文字进行识别 , 判断是否成字 。若还有部分图片没
有 匹 配 出来 , 则 加人 人 工干 预 , 即可准 确地 把 图片拼
接 出来 。
( 4 ) 类似地 , 通过两两配对合模式识别 , 可以继
续 匹 配找 出后 面所有 图片 , 最 后完 成碎 纸 片 的拼 接 。 流程 如 图二 所示 。图三 是 图片拼 接展示 。

[二 亘垦口

[ 二垂E 口
图 二 拼 接流 程 图
图 一 图片 的 灰 度 值 读 取 流 程 图
t 1




确 定左 边 距 I , 同理 可 以测 出上边 距 t 。 流程 如 图一
所示 a t l a b软 件读 取 出第 一张 图片缺 损 字 的 左边 距 j , 每 个方 体 字 的字 宽 和 字高 n , 行 间距 h 。 这 样第 一 张 图 片最 右 边 的缺 损 字 的宽 度 即为 ( 7 2 一
J ) 。
听 r 一

图 片拼 接 展 示 图

( 3 ) 由于 每 个 印刷 体 方 块字 的字 宽 和字 高 都 是

深 木 海 、 .
图三
定的 , 所以可 以推断出剩余图片中与第一张 图片
缺 损 部分 相 匹 配 的缺 损 部 分 的宽 度 为 n 一( 7 2 一j ) , 则 只 需 要 对 剩 余 所 有 图 片 自左 向 右 读 取 第 n一

针 对单 面 文件汉 字 既纵切 又 横切 的情形 ,通 过 Ma t l a b软 件检 测 所 在行 列 的灰 度 值 , 首先 确定 好 每
张图片中每一列的灰度值 , 确定第一张图片。 继续
确定第一张图片最右边缺损汉字 的灰度值为 ( 7 2 一
) , 从左往右循环读取出剩余图片的灰度值 , 找出左
像素的灰度值。
第 四步 , 同理 , 可 以找 出每 一行 后 面 所有 图片 , 最 后 完成 每一行 碎纸 片 的拼接 , 可 以得 到 l 1 行 的图 片, 接 下来 就进 行行 与行 之 间的图 片拼接 。
相关文档
最新文档