基本文本图像的倾斜校正
基于识别反馈的文档图像倾斜校正的研究和应用

基于识别反馈的文档图像倾斜校正的研究和应用随着现代科技的快速发展,文档图像的数字化处理已经成为一个重要的研究领域。
在文档数字化的过程中,图像倾斜是一个常见的问题,它会影响文档的可读性和识别准确性。
因此,研究和应用基于识别反馈的文档图像倾斜校正成为了当前的热点。
首先,了解文档图像倾斜校正的原理是非常重要的。
文档图像倾斜校正是通过对文档图像进行旋转操作,使得文本行与水平方向保持平行。
传统的图像倾斜校正方法通常是基于图像的几何特征进行处理,如直线检测和角度计算。
然而,这些方法往往需要先验知识或者手动选择参数,对于不同类型的文档图像效果不一致。
基于识别反馈的文档图像倾斜校正方法则是一种新的思路。
该方法首先通过OCR(Optical Character Recognition,光学字符识别)引擎对文档图像进行识别,然后根据识别结果来调整文档的倾斜角度。
具体来说,当OCR引擎在倾斜的图像上进行识别时,会产生一些错误的识别结果。
这些错误可以通过计算识别结果的置信度来量化,进而反映图像的倾斜程度。
根据置信度的变化,可以确定最佳的倾斜校正角度,从而实现文档图像的倾斜校正。
基于识别反馈的文档图像倾斜校正方法具有几个优点。
首先,它能够自动适应不同类型的文档图像,不需要手动选择参数。
其次,该方法可以通过不断迭代优化,提高倾斜校正的准确性和稳定性。
最后,这种方法不仅可以应用于文档图像的倾斜校正,还可以应用于其他类似的图像处理任务。
基于识别反馈的文档图像倾斜校正方法已经在实际应用中取得了一定的成果。
例如,在银行和邮政等行业,文档图像的倾斜校正是必不可少的任务。
采用这种方法可以提高文档图像的处理速度和准确性,从而提高工作效率和服务质量。
总之,基于识别反馈的文档图像倾斜校正是一种有效的方法,它可以通过OCR引擎的识别结果来校正文档图像的倾斜角度。
这种方法不仅简化了倾斜校正的流程,还提高了准确性和稳定性。
随着科技的不断发展,相信基于识别反馈的文档图像倾斜校正方法将在更多领域得到广泛应用。
基于hough变换的倾斜文档图像快速校正

基于hough变换的倾斜文档图像快速校正冯雷;耿英楠【摘要】对文档图像字符识别时,需要对有倾斜的图像进行校正,以提高分割和识别的精度.提出一种基于梯度方向统计的倾斜文档图像快速校正方法,该方法利用图像的梯度方向分段累积直方图,得到图像的大致倾斜角度,然后利用hough变换思想,在获取的大致角度范围内对图像进行投影,得到精确的图像倾斜角度,有效地缩小了hough变换角度的搜索范围.对手写和打印体文档图像进行的实验结果表明,与传统的hough变换投影方法相比,该方法的算法执行时间大幅度减小,对图像噪声也具有很强的抗干扰能力.%During the document images' character recognition,skew correction could improve the accuracy of segmentation and recognition.A fast correction method of skew document image based on gradient direction statistics is proposed.The method uses the gradient direction of the image to accumulate the histogram to obtain the approximate inclination angle of the image.Then,using the hough transform idea,the image is taken in the approximate angle range to shoot,get accurate image skew angle,effectively narrowing the hough transform angle search range.Experiments on handwritten and printed document images show that compared with the traditional hough transform projection method,the algorithm execution time of the method is greatly reduced,and the image noise also has strong anti-interference ability.【期刊名称】《内蒙古师范大学学报(自然科学汉文版)》【年(卷),期】2017(046)002【总页数】4页(P219-222)【关键词】文档图像;倾斜校正;字符识别;hough变换;梯度方向;累积直方图【作者】冯雷;耿英楠【作者单位】长春工程学院电气与信息工程学院,吉林长春130012;长春工程学院电气与信息工程学院,吉林长春130012【正文语种】中文【中图分类】TP391.41随着手机、数码相机、扫描仪等设备的快速发展,图像采集已经越来越简单,因此对纸质文档上的字符识别也得到越来越多的重视.在图像采集阶段,由于纸质材料放置不当或采集设备拍摄角度不正等原因,使采集到的文档图像发生倾斜,给后期识别对象的位置提取和字符识别带来影响.因此,对图像进行位置校正非常关键.倾斜角度是指文本基准线和水平方向的倾角[1],文本基准线一般是指文档图像中绝大多数文字的排列方向,而获取基准方向的角度,是图像校正的关键.目前,对倾斜文档的图像校正主要采用倾斜角度检测方法进行旋正校正.文献 [2] 提出的投影方法,可以估计得到倾斜角度,精度为±10°度,精度较低; 文献 [3-4] 采用hough变换,通过寻找图像中的直线得到倾斜角度; 文献 [5] 采用对连通域做K近邻聚类的方法,得到整体连通域的方向.这两类方法在图像噪声较小的情况下精度较高,但是计算量较大.本文针对以上算法的优缺点,提出由粗到精的两步法得到图像的精确旋转角度,首先通过图像的梯度方向累积直方图,有效地解决文档噪声对直接采用hough变换投影的影响,得到图像的大致倾斜角度,然后利用hough变换思想,在获取的大致角度范围内对图像进行投影,得到精确的图像倾斜角度,从而极大地缩小了hough变换的角度投影范围.1.1 hough变换投影法经典的hough变换常用来做图像中的直线检测,其原理是假设同一直线上的所有点(xi,yi),符合直线方程yi=kmxi+bm,将(x,y)坐标系转换到(k,b)坐标系,则直线上(xi,yi)点的数量,相当于在(km,bm)点处的投影值,投影值越大,成为一条直线的可能性就越大.为了解决垂直直线和参数的非线性离散化问题,一般将直角坐标系转换到极坐标系下进行hough变换计算,计算公式为r=x cos θ+y sin θ,其中r为原点到直线的垂直距离,θ为r与x轴的夹角.例如,对空间坐标点(x1,y1),(x2,y2),(x3,y3)分别计算θ和对应的rθ,当θ=a和rθ=b时,3条曲线交于一点,即该3点的直线方程参数为(θ=a,rθ=b).在文档图像校正时,取交点最多时对应的θ作为倾斜角.1.2 梯度方向累积直方图计算图像倾斜角度需要在[0°,180°)各个角度上都遍历一遍图像上所有的边缘点,计算量非常大.另外,纸质文档在使用过程中容易留下涂改笔迹、油墨污点等噪声,当噪声较大时,会影响正确倾斜角度的计算.针对这两个问题,本文利用图像梯度方向,得到图像的大概偏转角度,从而缩小hough变换时角度的遍历范围,同时也减小了噪声对精确角度计算的影响.图像梯度方向可以由sobel算子计算得到,α(x,y)=atan (Gy/Gx),其中为被卷积的图像.通常情况下,文档中文字大体往一个方向书写,因此主体梯度方向会集中在某个角度范围内.为了统计方便,把由(2)式得到的弧度转为角度,范围是[0,180°),并统计其阶段累积直方图,其中:即为梯度方向直方图; k是统计直方图的范围为符号函数; O为梯度方向图像,例如倾斜文档图像(图1)的梯度方向图如图2所示; edge为边缘检测图像.因此,本文算法的详细步骤为:Step 1: 将输入的图像I转换为灰度图,并进行高斯卷积滤波,输出为filterImg; Step 2: 计算filterImg的canny边缘,输出为edge;Step 3: 计算filterImg的梯度方向,并将弧度转换为角度,当角度值theta>180°时,令theta=theta-180,输出为O;Step 4: 利用(2)式,计算O的累计直方图A;Step 5: 统计A中最大值对应的角度i,即为该文档的大致倾斜角度;Step 6: 在 [i-k,i+k]角度范围内,利用hough变换遍历edge上的所有边缘点,并返回hough变换投影值最多时对应的θ角度,该角度即为图像倾斜角;Step 7: 根据倾斜角θ对图像进行反向旋转,得到校正后的图像correctImg.图3是图1梯度方向的阶段累积直返图,横坐标表示角度,范围是从 [0,180),纵坐标表示累积值.在计算阶段累计直方图时,(1)式的累计范围k设为10,实验效果较好.图3中峰值对应的横坐标值为24,则在使用hough变换时,在[14°,34°]范围内进行精确角度计算.而用原始hough变换方法计算时,需要对一个M×N的图像,访问180×M×N个像素点,改进后缩小到20×M×N次,减少了大量的计算时间.图4是hough变换关于(rθ,θ)的累计投影值,图中的灰度值越大,成为直线的可能性就越大.本例在[14°,34°]范围内,对图1的canny边缘检测图像进行hough变换直线检测,返回最大投影值时对应的倾斜角度为20°.图5是反向旋转20°后的校正图像,其中的直线是hough变换在图1上投影值最大时,对应的直线在旋转后图像上的位置.本文算法利用C++编程实现,其中利用opencv 3.1实现canny边缘检测和梯度方向计算.取图像尺寸为1920×1081,比较传统hough变换投影法和本文算法的算法执行时间,结果显示,传统hough变换投影法的计算时间为4.1 s,而本文算法的计算时间为0.36 s,性能提升了约10倍.纸质材料在流通过程中,存在人工涂改、磨损等现象,当噪声形成的直线长度大于文档上的基准线长度时,利用hough变换的方法会影响旋转的效果.图6(a)上的两条黑色线条,是模拟噪声画上去的线条,图6(b)和(c)分别是传统方法和本文方法的旋转性能比较.效果表明,本文方法具较强的抗干扰能力.另外,本文方法同样适合手写体文档的图像校正,效果如图7所示.采用级联式的分级倾角检测策略,由粗到精逐步得到文档倾斜角度,主要解决了hough变换耗时长的问题.采用统计图像梯度方向累积直方图的方法,不仅快速缩小了hough变换的角度遍历范围,同时减小了文档上噪声对计算旋转角度的影响.统计图像梯度方向累积直方图的方法,具有一定特征的统计特性,从实验效果来看,对噪声具有较好适应性,并且性能稳定.另外,本文方法也适用手写体文档的倾斜校正,并且可以推广到车牌、身份证、银行卡、票据等图像的旋转校正上去,具有一定的实际应用价值.【相关文献】[1] Slavik P,Govindaraju V. Equivalence of different methods for slant and skew corrections in word recognition applications [J]. IEEE Trans onPAMI,March,2001,23(3):323-326.[2] Jiang X,Bunke H,Widmer-Kljajo D. Proceedings of the Fifth International Conference on Document Analysis and Recognition,Bangalore [C]// Bangalore,India. The Institute of Electrical and Electronics Engineers,Inc,1999:629-632.[3] Srihari S,Govindaraju V. Analysis of textual images using the Hough transform [J]. Machine Vision and Applications,1989,2:141-153.[4] Singha C,Bhatiab N,Kaurc A. Hough transform based fast skew detection and accurate skew correction methods [J]. Pattern Recognition,2008,41:3528-3546.[5] Zhixin Shi,Venu Govindaraju. Skew detection for complex document images using fuzzy runlength [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition,2003:715-719.。
几何校正的常用方法有哪几种

几何校正的常用方法有哪几种几何校正是指通过对图像进行几何变换,使得图像中的几何结构满足某种规则或满足一定的几何要求。
常用的几何校正方法主要有:几何变换、图像扭曲校正、相机标定和校正。
1. 几何变换:几何变换是校正图像中的几何结构的一种常用方法。
通过对图像进行旋转、平移、缩放、翻转等变换操作,可以调整图像中的几何形状和位置。
常见的几何变换方法包括仿射变换、透视变换和二维码矫正。
仿射变换是一种能够保持直线平行和保持直线比例的变换方法,它由平移、旋转和缩放组成。
在图像校正中,可以使用仿射变换来调整图像的倾斜和旋转角度,使得图像中的几何结构恢复正常。
透视变换是一种能够调整图像中物体的空间形状和位置的变换方法。
它在处理有投影效果的图像时非常有效,可以用来校正图像中的透视畸变或者从巴比伦塔中恢复草地的直线。
透视变换可以通过计算图像中的对应点关系,进行透视矩阵的计算和图像的透视变换。
二维码矫正是一种通过对二维码进行几何变换,使得二维码图像中的条码恢复正常的方法。
二维码由若干个小模块组成,当二维码被拉伸或旋转时,这些小模块会变形,导致二维码无法被正常解码。
通过对二维码图像进行几何变换,可以使得二维码中的条码恢复正常,从而能够被正常解码。
2. 图像扭曲校正:图像扭曲校正是指通过调整图像的畸变变形,从而使得图像中的几何结构恢复正常。
图像扭曲校正方法主要应用在图像矫正、图像拼接和图像匹配等领域。
常见的图像扭曲校正方法包括球面校正、鱼眼校正、柱面校正等。
球面校正是一种通过将图像映射到球体上,从而消除球面畸变的方法。
球面校正适用于由鱼眼镜头拍摄的图像或者全景图像,它可以将图像中的直线变为直线,从而实现图像的几何校正。
鱼眼校正是一种通过将鱼眼图像进行逆畸变,从而消除鱼眼图像的畸变的方法。
鱼眼镜头的主要特点是中心变形,鱼眼校正可以通过对鱼眼图像进行几何变换,来实现鱼眼图像的几何校正。
柱面校正是一种通过将图像映射到柱面上,从而消除图像中的畸变的方法。
用于原文传递的手机拍摄文本图像批量自动校正程序设计

图书馆文献传递工作中,“复制——非返还”型业务以传递电子文献为主。
由传统纸质文献转为电子文献,大多借助扫描仪完成,其优点为数据质量统一、资料平整清晰,缺点为扫描耗时长、工作效率偏低。
随着智能手机日益普及及手机摄像头像素越来越高,文献传递员遇到用户“只想看一眼,不用多高清”的需求时,可以用手机随手拍发给用户,快速便捷,缺点为成像距离不同、易倾斜易畸变等。
本文通过编制程序,自动批量校正手机拍摄文本图片,兼顾手机拍照的便利性与扫描仪成像的易读性,有助于提高图书馆文献传递员工作效率和读者体验。
1 研究背景传统平板式扫描仪成像质量高但效率偏低,价格相对昂贵,低价位设备大多需连接电脑工作。
便携式扫描仪携带方便,工作速度一般高于平板式扫描仪,但画质稍逊。
高拍仪价格及成像质量介于平板式扫描仪与便携式扫描仪之间,一般自带图片倾斜旋转功能,但也需连接电脑才能工作。
上述3种扫描仪平均像素基本都高于手机平均像素,成像质量也高于手机拍照质量。
已知华为、小米、VIVO、苹果、魅族、flyme等手机原生内置“文档校正”(或“文档矫正”等类似叫法)功能,即用户拍照后,内置软件可自动或半自动校正图片倾斜、梯形或桶形畸变等[1]。
另有很多运行于Android或IOS平台的第三方App,主打扩展手机摄像头扫描功能,如“扫描全能王”“全能扫描王”“扫描文件全能王”[2],“vFlat”等实现了“文档校正”功能[3]。
不以扫描为主打功能但带有“文档校正”功能的第三方App还有印象笔记等[4]。
上述手机或App每当用户拍摄完毕即弹出窗口提示交互操作,一般不支持批量自动处理图片,不方便处理大宗相同或近似质量文档。
“文档校正”功能属于图像处理范畴,其核心原理为在原图中计算并划定待处理像素点,遍历各点,根据一定算法将各点映射到理想图片中坐标点并重排构建,使用一定算法自动生成像素点填充理想图片中可能出现的“孔洞”。
束彩炜以验证有效的图像摘 要 为解决原文传递业务中使用手机拍摄所得文本图像的倾斜、畸变等问题,在使用铁架台固定手机采集图像环境下,使用Python及其第三方图像处理库编制程序,对采集图像进行批量自动几何校正,在拓展手机摄像头扫描功能的同时提升了读者阅读体验,取得较好效果。
文本图像匹配方法

应用场景与实例分析
▪ 文本图像匹配在人脸识别中的应用
1.人脸识别技术已经广泛应用于身份验证、安全监控等领域,文本图像匹配技术在其中发挥着 重要作用。 2.通过文本图像匹配技术,能够将人脸图像与身份信息进行准确匹配,提高身份验证的准确性 和可靠性。 3.随着人脸识别技术的不断发展,文本图像匹配技术将进一步提高其准确性和鲁棒性,为人脸 识别技术的更广泛应用提供支持。 以上内容仅供参考,具体内容可以根据您的需求进行调整优化。
1.智能文档处理已成为企业和机构提高效率的关键技术,文本图像匹配作为其中一环,对于实 现文档数字化、自动化处理有着重要作用。 2.通过文本图像匹配技术,能够将图像中的文字信息转换为可编辑、可搜索的数字文本,大幅 度提高了文档处理的准确性和效率。 3.随着OCR技术的不断发展,文本图像匹配在智能文档处理中的应用将更加广泛,成为实现 文档全流程数字化的重要推动力。
匹配方法分类与特点
▪ 多尺度图像匹配
1.考虑不同尺度的图像特征进行匹配,提高匹配鲁棒性。 2.适用于不同分辨率和尺度的图像匹配。 3.需要考虑计算复杂度和实时性要求。
▪ 基于几何特征的图像匹配
1.利用几何特征对图像进行匹配,提高匹配精度和稳定性。 2.适用于存在几何形变和光照变化的应用场景。 3.需要考虑几何特征的提取和匹配算法的设计。
▪ 文本图像匹配在场景文字识别中的应用
1.场景文字识别是计算机视觉领域的重要研究方向,文本图像匹配作为其中的关键技术,对于 提高场景文字识别的准确率具有重要意义。 2.通过引入深度学习等技术,文本图像匹配能够更好地应对复杂背景下的文字识别问题,提高 识别准确率和鲁棒性。 3.随着移动互联网和智能终端的普及,场景文字识别将在更多领域得到应用,文本图像匹配技 术的重要性也将进一步凸显。
文本图像倾斜校正算法的研究与应用

文本图像倾斜校正算法的研究与应用近年来,随着数字化时代的到来,文本图像的处理和应用越来越广泛。
然而,由于多种原因,文本图像可能出现倾斜的情况,影响了其可读性和识别准确性。
为了解决这一问题,研究者们致力于开发文本图像倾斜校正算法。
文本图像倾斜校正算法是一种通过自动调整图像中的文本角度,使得文本水平或垂直于图像边缘的方法。
这种算法可以有效地减少由于倾斜造成的文本歪斜、模糊或不清晰的问题。
研究者们通过分析文本图像的特征和几何关系,提出了多种文本图像倾斜校正算法。
其中一种常见的方法是基于直线检测的算法。
该算法首先通过边缘检测算子提取图像中的边缘信息,然后利用Hough变换或其他直线检测方法找到文本行的直线特征。
最后,通过计算直线的斜率,将图像旋转相应的角度来校正倾斜。
另一种常见的方法是基于文本行检测的算法。
该算法首先通过边缘检测和二值化等方法,将文本区域从图像中分割出来。
然后利用形态学操作和连通区域分析等技术,找到文本行的位置和角度。
最后,通过透视变换或仿射变换等方法,将文本行调整为水平或垂直。
除了这些基于几何特征的方法,还有一些基于机器学习的算法。
这些算法通过训练大量的文本图像样本,学习到文本倾斜校正的模式和规律。
然后通过应用这些模式和规律,对新的文本图像进行倾斜校正。
文本图像倾斜校正算法在很多领域都有广泛的应用。
在OCR (光学字符识别)系统中,倾斜校正可以提高字符的识别准确率。
在图像分类和检索中,倾斜校正可以提高图像的特征提取和匹配效果。
在图像处理和图像合成中,倾斜校正可以提高图像的质量和美观度。
总的来说,文本图像倾斜校正算法是一种重要的图像处理技术。
通过对文本图像进行倾斜校正,可以提高文本的可读性和识别准确性,进而提高相关应用的效果。
未来,我们可以进一步研究和改进这些算法,以满足不同领域和应用的需求。
书籍翻拍校正及文本转化简单ps教程

书籍翻拍校正及文本转化简单ps教程文 cygnuszzz首先要讲同样条件下扫描效果更好但种种原因 翻拍也许更方便的图片调整载入文件1Ctrl+M进行明暗曲线调节2调节效果3选中不满意的部分 再进行曲线明暗调整4配合历史画笔功能 修复5再对历史画笔恢复部分进行曲线调节(可以在一次曲线完成后对同一选区 再进行曲线调节 可以得到不同效果)6过亮或者过暗部分 除了曲线 可以进行减淡、加深或者选区对比度调节(图像-调整-亮度对比度)图像——调整——黑白——确定把图片转为黑白全部选取——右键——自由变换右键——变形7拖动控制点 修正变形8重复 改变选区 变形 操作直到修复所有扭曲部分文件——储存为——选取格式(jpg等)调节品质以控制生成文件大小文字识别之后可以配合尚书等光学识别软件进行文本识别/f/7747822.html Word等文字工具的替换功能进行格式字符批量校正如换行问题1在word中可以用替换功能“+”批量替换“^p_ _ _ _”(“_”代表空格,操作时直接用空格即可,^p是word中回车符,也有^l换行注意统一)2用空字符替换剩余的“^p”3逆向1操作 用“^p_ _ _ _”替换“+”多个文本合并可以通过小软件实现/f/7734631.html 也可以用adobe acrobat pro虚拟打印生成pdf附 其他一些转化过程中可能出现的问题一些doc文件转化txt过程 可能出现所有注释全都在文本末尾的情况 可以通过转化过程doc——pdf——txt的过程转化再进行换行校正910。
图像处理中的畸变矫正方法

图像处理中的畸变矫正方法在图像处理中,畸变指的是相机在拍摄时由于技术或物理原因引起的图像形变。
这种畸变的存在可能会使得图像的质量下降,影响图像的识别、分析和应用。
因此,在很多应用场景中需要进行畸变矫正。
畸变矫正方法的研究一直是图像处理领域的热点之一。
本文将介绍几种常见的畸变矫正方法。
一、几何矫正方法几何矫正方法是一种基于相机内外参数的畸变矫正方法。
这种方法的原理是通过计算相机的内部和外部参数,从而估计出畸变矫正所需要的变换矩阵。
在实现上,一般需要先标定相机,即通过多次拍摄特定的标定物件,得到相机的内部和外部参数。
然后再利用这些参数来进行畸变矫正。
几何矫正方法的优点是矫正效果比较好,可以达到很高的精度。
但是,这种方法需要相机标定的前提,而相机标定要求高精度的相机和标定物。
此外,该方法还需要大量的计算和复杂的算法,因此实现起来比较困难。
二、校正板矫正方法校正板矫正方法是一种简单而有效的畸变矫正方法。
这种方法的原理是通过先拍摄一张已知形状的校正板的图像,然后在图像中测量校正板的形状,最后利用测量结果进行畸变矫正。
校正板矫正方法的优点在于实现简单,只需要用一个已知形状的校正板即可。
而且这种方法的矫正精度也比较高。
但是,该方法的缺点是需要在每次拍摄之前先拍摄一张校正板的图像,这会增加系统的运行时间。
三、基于自适应滤波的方法自适应滤波是一种基于图像的局部特征进行滤波的方法。
该方法的思想是根据图像局部的特征来确定畸变的程度,并对其进行滤波,从而达到畸变校正的目的。
这种方法的优势在于可以适应不同的畸变类型和程度,并且可以在没有标定物的情况下进行畸变矫正。
自适应滤波方法的实现可分为两个步骤。
首先,需要提取图像的局部信息,确定畸变的程度和类型。
然后,根据提取的信息进行图像滤波,从而实现畸变矫正。
该方法的缺点在于需要大量的计算和运行时间,因此实现起来比较困难。
四、基于卷积核矫正方法基于卷积核的矫正方法是一种基于变换矩阵的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程设计说明书题目:基本文本图像的倾斜校正学院(系)电气工程学院年级专业: 11级仪表三班学号: ************* 学生姓名: ****** 指导教师:教师职称:副教授副教授燕山大学课程设计(论文)任务书摘要数字信息时代人们更多地依赖图像这一媒介,而比较常用的文本图像的倾斜问题无疑图像应用的是一大障碍。
为了解决文本倾斜的自动校正功能,本文列举了四种倾斜校正的方法,涉及到基于文本图像边缘、矩形边缘的校正、基于文字向各方向投影的校正、基于投影实现特殊方向的文本校正、基于傅立叶频域分析的校正四种方法。
本文方法涵盖了图形图像边缘倾斜校正、表格的倾斜校正、打印及手写文本的倾斜校正、90度特殊角情况的文本校正、180度倒立文字的校正,适用面广。
通过实验验证以及与目前具有相关代表性的方法对比,论证了本文所采用的算法对带有表格、图像、手写体,以及各种语言的文本具有很好的校正效果,具有良好的有效性和可靠性。
关键词:倾斜校正、文本、边缘、投影、傅里叶。
目录一、引言 (5)二、算法综述 (5)三、各算法原理分析及实现代码: (5)四、各算法评价 (16)五、课程设计总结 (17)参考文献 (17)第一章引言在现今数字信息化高速发展的大时代背景下,随着数码产品的拍照能力越来越出色,人们更多地将信息的存储和传输依靠在数字图像这一媒介上。
而文字的数字图像化——数字化图书库、pdf纸质电子书、文字扫描的发展,无疑对文本的转换技术提出了更高的要求。
谈到数字图像化文本,就不得不提到这一技术遇到的最大障碍之一:输入文本图像的倾斜问题。
正基于这一普遍存在的问题,我们提出了文本、图像的倾斜校正这一课题。
第二章算法综述论文的倾斜校正共涉及以下四种方法:1)基于文本图像边缘、矩形边缘的倾斜校正。
2)基于文字向各方向投影的倾斜校正,90度以下都能用。
3)基于投影实现特殊方向的文本——垂直和倒立文本的校正。
4)基于傅立叶频域分析的文本、表格、图像的倾斜校正。
第三章各算法原理分析及实现代码1)基于文本图像边缘、矩形边缘的倾斜校正适用范围:具有清晰边缘的图片、形状,倾斜角小于45度。
1.将图像转化为灰度图像。
使用MATLAB进行处理时,所读入的图像是RGB三维矩阵,在以后的处理中用到的是灰度图像和二值图像,因此,必须经过处理变成灰度图像。
2.用im2bw函数实现图像的二值化,变成只有0和1的图片。
一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是图像的二值化。
灰度图像二值化处理是将图像上的点的灰度值置为0或1,本代码中选取的是自动二值i=im2bw(i,graythresh(i))。
3.找文本图片的两个边缘角所在的点。
通过i,j循环扫描,找到第一个灰度值为1的点,也就是白点。
找上边界点:从第一个点(0,0)开始,在每一行里逐列扫描,寻找第一列灰度值为1像素点即上边界的角所在点,(x1,y1),找到后立即停止寻找,跳出循环;找左边界点:从第一个点(0,0)开始,在每一列里逐行扫描,寻找第一列灰度值为1像素点即左边界的角所在点,(x2,y2),找到后立即停止寻找,跳出循环。
4.两点式求斜率。
通过(x1,y1),(x2,y2)两点,用公式k=(y2-y1)/(x2-x1)求找到的边缘的斜率,用反正切atan函数求出倾斜角。
5.确定图像倾斜角。
通过倾斜角大于45度还是小于45度,确定图像是经过顺时针旋转还是逆时针旋转产生的倾斜6.倾斜校正。
用imrotate函数实现倾斜校正。
7.代码部分clc;clear;i=imread('D:\12.png'); %读入图片V = i;i_hight=size(i,1);i_width=size(i,2);i=rgb2gray(i); %变灰度图片i=im2bw(i,graythresh(i)) %自动二值化sign=1; %循环找两个边缘点for y=1:i_hightfor x=1:i_widthif i(y,x)==1 %在每一行里逐列扫描sign=0;x1=x;y1=y;breakendendendfor x=1:i_width %在每一列里逐行扫描for y=1:i_hightif i(y,x)==1sign=0;x2=x;y2=y;breakendendendk=(y2-y1)/(x2-x1); %求两点确定的边缘直线的斜率theta=atan(k); %求直线的倾斜角a=theta*180/pi; %弧度转危角度if (abs(a)<=45) %由倾角大小与45度的比较判断校正应该顺时针旋转还是逆时针旋转 imshow(V);title('校正前图像') %输出原图像figureA=imrotate(V,a); %逆时针转a度imshow (A);title('校正后图像')elseimshow(V);title('校正前图像') %输出原图像figureA=imrotate(V,a+90); %顺时针转a+90度 imshow (A);title('校正后图像') %输出校正图像end2)基于文字向各方向投影的倾斜校正,倾斜角绝对值在90度以下都能用。
适用范围:文本,手写和打印的,表格均可,倾斜角绝对值在90度以下。
1.将图像转化为灰度图像。
2.利用radon函数,沿着0度到180度,分别计算180个方向角的积分,找文本各方向投影最大的方向,该方向直线与水平线夹角即为文本中文字行的倾斜角。
3.用imrotate函数进行倾斜校正。
4.代码部分clear allclose allbw=imread('D:\1.png');b=rgb2gray(bw);figure,imshow(b);title('校正前灰度图像');%================倾斜校正======================b=edge(b);theta = 1:180;[R,xp] = radon(b,theta); %theta表示角度从1取到179.这样,radon就得到了不同角度下的径向上的图像场强值,即R矩阵。
xp是对应的角度,跟theta一样。
[I,J] = find(R>=max(max(R))); %J记录了倾斜角qingxiejiao=90-J;bw=imrotate(bw,qingxiejiao,'bilinear','crop'); %qingxiejiao取值为正则逆时针旋转figure,imshow(bw);title('倾斜校正后图像'); %输出校正图像3)基于投影实现特殊方向文本—垂直和倒立文本的校正。
1.适用范围:仅适用于正负90度或180度倾斜的表格、文本,文字等排列比较整齐图片,打印、手写均可。
2.将图像转化为灰度图像。
3.向水平和垂直方向投影,找出投影大于一定阈值(经实验后取450)的方向即为行所在方向,进而识别倾斜角是90度还是180度。
4.imrotate函数倾斜校正。
每一个处理后同时输出两张旋转角相差180度的图片,解决可能出现的90文字倒立的问题(原创,前所未有)。
5.代码部分:i=imread('D:\23.png');imshow(i);title('原图像');bw=rgb2gray(i);bw=im2bw(i,graythresh(bw))%自动二值化[mt1,nt1] = size(bw);Ty=find(sum(bw)>=450==1);%向横轴投影,投影点的灰度值累加,阈值取450,大于450的区域即为累加后的白色投影的位置%b =length(Ty)rat= length(Ty) / nt1;if (rat>= 0.4) %白色投影长度占投影线长度的比例大于0.4即认为该投影方向为文字行方向A=imrotate(i,270); %图像校正C=imrotate(i,90); %图像校正subplot(1,2,1);imshow(A);title('校正图像1');subplot(1,2,2);imshow(C);title('校正图像2');else %比例<=0.4即认为该投影方向为文字行方向的垂直方向A=imrotate(i,0); %图像校正C=imrotate(i,180); %图像校正subplot(1,2,1);imshow(A);title('校正图像1');subplot(1,2,2);imshow(C);title('校正图像2');end4)基于傅立叶频域分析的文本、表格、图像的倾斜校正。
适用范围:可用于表格、矩形及一些文字校正,文字手写打印均可,文本行最好有下划线识别率更高。
1.离散傅里叶变换fft2处理成频域图片。
2.交换高低频位置fftshift。
3.将频域图片按所在象限分割,分别计算各象限中线的斜率,求四个倾斜角平均值。
4.通过原图矩阵乘以一个倾斜校正的矩阵实现图片旋转,达到倾斜校正目的。
5.代码部分clcclearf = imread('D:\31.jpg');f = im2double(f); %把图像数据类型转换为双精度浮点类型。
figure(1), imshow(f, [])title('1.输入图像')F = fft2(f); %fft2是2维离散傅立叶变换%imshow(F)Fc = fftshift(F); %低频移到频域图的中间%imshow(Fc)S = log(1 + abs(Fc)); %输入图像的频域图%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%↓%下面将频域图按所在象限分成四块,分别计算每个象限亮线的倾斜角[m, n] = size(Fc);M = floor(m/2)+1; N = floor(n/2)+1; %取原频域图的几何中心点。
floor为向下取整S1 = S(M-150:M, N:N+150); %分别将频域图按所在象限等分成四块[M, N] = size(S1); %取出第一象限S1(M-5:M, 1:5) = 0; S5 = S1; %标出原频域图的几何中心点,方便查看for k = 1:20maximum = max(max(S1)); %maximum取最大值[I1(k), J1(k)] = find(S1 == maximum); %最大值的位置坐标S1(I1(k),J1(k)) = 0; %最大值点变为原点I1(k) = M - I1(k);endJ1 = J1'; I1 = I1'; %转置[row, col] = size(J1); %矩阵大小one = ones(row); % ones是生成一个单位矩阵,赋值为1.矩阵中横着行的叫row.竖着的列叫做column。