一种快速的文档图像倾斜角检测算法

合集下载

基于hough变换的倾斜文档图像快速校正

基于hough变换的倾斜文档图像快速校正冯雷;耿英楠【摘要】对文档图像字符识别时,需要对有倾斜的图像进行校正,以提高分割和识别的精度.提出一种基于梯度方向统计的倾斜文档图像快速校正方法,该方法利用图像的梯度方向分段累积直方图,得到图像的大致倾斜角度,然后利用hough变换思想,在获取的大致角度范围内对图像进行投影,得到精确的图像倾斜角度,有效地缩小了hough变换角度的搜索范围.对手写和打印体文档图像进行的实验结果表明,与传统的hough变换投影方法相比,该方法的算法执行时间大幅度减小,对图像噪声也具有很强的抗干扰能力.%During the document images' character recognition,skew correction could improve the accuracy of segmentation and recognition.A fast correction method of skew document image based on gradient direction statistics is proposed.The method uses the gradient direction of the image to accumulate the histogram to obtain the approximate inclination angle of the image.Then,using the hough transform idea,the image is taken in the approximate angle range to shoot,get accurate image skew angle,effectively narrowing the hough transform angle search range.Experiments on handwritten and printed document images show that compared with the traditional hough transform projection method,the algorithm execution time of the method is greatly reduced,and the image noise also has strong anti-interference ability.【期刊名称】《内蒙古师范大学学报（自然科学汉文版）》【年(卷),期】2017(046)002【总页数】4页(P219-222)【关键词】文档图像;倾斜校正;字符识别;hough变换;梯度方向;累积直方图【作者】冯雷;耿英楠【作者单位】长春工程学院电气与信息工程学院,吉林长春130012;长春工程学院电气与信息工程学院,吉林长春130012【正文语种】中文【中图分类】TP391.41随着手机、数码相机、扫描仪等设备的快速发展,图像采集已经越来越简单,因此对纸质文档上的字符识别也得到越来越多的重视.在图像采集阶段,由于纸质材料放置不当或采集设备拍摄角度不正等原因,使采集到的文档图像发生倾斜,给后期识别对象的位置提取和字符识别带来影响.因此,对图像进行位置校正非常关键.倾斜角度是指文本基准线和水平方向的倾角[1],文本基准线一般是指文档图像中绝大多数文字的排列方向,而获取基准方向的角度,是图像校正的关键.目前,对倾斜文档的图像校正主要采用倾斜角度检测方法进行旋正校正.文献 [2] 提出的投影方法,可以估计得到倾斜角度,精度为±10°度,精度较低; 文献 [3-4] 采用hough变换,通过寻找图像中的直线得到倾斜角度; 文献 [5] 采用对连通域做K近邻聚类的方法,得到整体连通域的方向.这两类方法在图像噪声较小的情况下精度较高,但是计算量较大.本文针对以上算法的优缺点,提出由粗到精的两步法得到图像的精确旋转角度,首先通过图像的梯度方向累积直方图,有效地解决文档噪声对直接采用hough变换投影的影响,得到图像的大致倾斜角度,然后利用hough变换思想,在获取的大致角度范围内对图像进行投影,得到精确的图像倾斜角度,从而极大地缩小了hough变换的角度投影范围.1.1 hough变换投影法经典的hough变换常用来做图像中的直线检测,其原理是假设同一直线上的所有点(xi,yi),符合直线方程yi=kmxi+bm,将(x,y)坐标系转换到(k,b)坐标系,则直线上(xi,yi)点的数量,相当于在(km,bm)点处的投影值,投影值越大,成为一条直线的可能性就越大.为了解决垂直直线和参数的非线性离散化问题,一般将直角坐标系转换到极坐标系下进行hough变换计算,计算公式为r=x cos θ+y sin θ,其中r为原点到直线的垂直距离,θ为r与x轴的夹角.例如,对空间坐标点(x1,y1),(x2,y2),(x3,y3)分别计算θ和对应的rθ,当θ=a和rθ=b时,3条曲线交于一点,即该3点的直线方程参数为(θ=a,rθ=b).在文档图像校正时,取交点最多时对应的θ作为倾斜角.1.2 梯度方向累积直方图计算图像倾斜角度需要在[0°,180°)各个角度上都遍历一遍图像上所有的边缘点,计算量非常大.另外,纸质文档在使用过程中容易留下涂改笔迹、油墨污点等噪声,当噪声较大时,会影响正确倾斜角度的计算.针对这两个问题,本文利用图像梯度方向,得到图像的大概偏转角度,从而缩小hough变换时角度的遍历范围,同时也减小了噪声对精确角度计算的影响.图像梯度方向可以由sobel算子计算得到,α(x,y)=atan (Gy/Gx),其中为被卷积的图像.通常情况下,文档中文字大体往一个方向书写,因此主体梯度方向会集中在某个角度范围内.为了统计方便,把由(2)式得到的弧度转为角度,范围是[0,180°),并统计其阶段累积直方图,其中:即为梯度方向直方图; k是统计直方图的范围为符号函数; O为梯度方向图像,例如倾斜文档图像(图1)的梯度方向图如图2所示; edge为边缘检测图像.因此,本文算法的详细步骤为:Step 1: 将输入的图像I转换为灰度图,并进行高斯卷积滤波,输出为filterImg; Step 2: 计算filterImg的canny边缘,输出为edge;Step 3: 计算filterImg的梯度方向,并将弧度转换为角度,当角度值theta>180°时,令theta=theta-180,输出为O;Step 4: 利用(2)式,计算O的累计直方图A;Step 5: 统计A中最大值对应的角度i,即为该文档的大致倾斜角度;Step 6: 在 [i-k,i+k]角度范围内,利用hough变换遍历edge上的所有边缘点,并返回hough变换投影值最多时对应的θ角度,该角度即为图像倾斜角;Step 7: 根据倾斜角θ对图像进行反向旋转,得到校正后的图像correctImg.图3是图1梯度方向的阶段累积直返图,横坐标表示角度,范围是从 [0,180),纵坐标表示累积值.在计算阶段累计直方图时,(1)式的累计范围k设为10,实验效果较好.图3中峰值对应的横坐标值为24,则在使用hough变换时,在[14°,34°]范围内进行精确角度计算.而用原始hough变换方法计算时,需要对一个M×N的图像,访问180×M×N个像素点,改进后缩小到20×M×N次,减少了大量的计算时间.图4是hough变换关于(rθ,θ)的累计投影值,图中的灰度值越大,成为直线的可能性就越大.本例在[14°,34°]范围内,对图1的canny边缘检测图像进行hough变换直线检测,返回最大投影值时对应的倾斜角度为20°.图5是反向旋转20°后的校正图像,其中的直线是hough变换在图1上投影值最大时,对应的直线在旋转后图像上的位置.本文算法利用C++编程实现,其中利用opencv 3.1实现canny边缘检测和梯度方向计算.取图像尺寸为1920×1081,比较传统hough变换投影法和本文算法的算法执行时间,结果显示,传统hough变换投影法的计算时间为4.1 s,而本文算法的计算时间为0.36 s,性能提升了约10倍.纸质材料在流通过程中,存在人工涂改、磨损等现象,当噪声形成的直线长度大于文档上的基准线长度时,利用hough变换的方法会影响旋转的效果.图6(a)上的两条黑色线条,是模拟噪声画上去的线条,图6(b)和(c)分别是传统方法和本文方法的旋转性能比较.效果表明,本文方法具较强的抗干扰能力.另外,本文方法同样适合手写体文档的图像校正,效果如图7所示.采用级联式的分级倾角检测策略,由粗到精逐步得到文档倾斜角度,主要解决了hough变换耗时长的问题.采用统计图像梯度方向累积直方图的方法,不仅快速缩小了hough变换的角度遍历范围,同时减小了文档上噪声对计算旋转角度的影响.统计图像梯度方向累积直方图的方法,具有一定特征的统计特性,从实验效果来看,对噪声具有较好适应性,并且性能稳定.另外,本文方法也适用手写体文档的倾斜校正,并且可以推广到车牌、身份证、银行卡、票据等图像的旋转校正上去,具有一定的实际应用价值.【相关文献】[1] Slavik P,Govindaraju V. Equivalence of different methods for slant and skew corrections in word recognition applications [J]. IEEE Trans onPAMI,March,2001,23(3):323-326.[2] Jiang X,Bunke H,Widmer-Kljajo D. Proceedings of the Fifth International Conference on Document Analysis and Recognition,Bangalore [C]// Bangalore,India. The Institute of Electrical and Electronics Engineers,Inc,1999:629-632.[3] Srihari S,Govindaraju V. Analysis of textual images using the Hough transform [J]. Machine Vision and Applications,1989,2:141-153.[4] Singha C,Bhatiab N,Kaurc A. Hough transform based fast skew detection and accurate skew correction methods [J]. Pattern Recognition,2008,41:3528-3546.[5] Zhixin Shi,Venu Govindaraju. Skew detection for complex document images using fuzzy runlength [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition,2003:715-719.。

倾斜矫正方案

倾斜矫正方案背景在现代社会中，越来越多的场合需要对文本图像进行识别与处理。

然而，在拍摄过程中，由于拍摄设备的因素，如相机的拍摄角度、拍摄位置等，会导致图片出现倾斜，从而给后续处理带来不便。

因此，进行倾斜矫正处理，将文本图像矫正成水平或垂直方向有利于提高识别和后续处理的准确度。

方案基于Hough变换的倾斜矫正Hough变换是一种常用的图像处理方法，适用于直线、圆等形状的提取与检测。

其中，概率Hough变换适用于检测直线。

运用概率Hough变换，可以通过以下步骤进行文本图像倾斜矫正：1.图像二值化处理，将颜色转化为黑白两种2.进行边缘检测，得到文本的边缘3.使用概率Hough变换，检测出文本的倾斜角度4.对图像进行旋转矫正，将文本矫正至水平或垂直方向使用Hough变换法进行倾斜矫正处理，具有以下优点：•对各角度的线段都能检测，鲁棒性好•可以适用于各种形状的文本图像但这种方法也有以下缺点：•算法对计算时间要求高，处理大图像时速度较慢•对于垂直、水平直线检测不如霍夫变换基于霍夫变换的倾斜矫正霍夫变换也是常用的图像处理方法，适用于基于形状特征的检测，例如直线、圆、椭圆等形状。

使用霍夫变换法进行倾斜矫正处理，具有以下优点：•操作简单，速度快•可以适用于各种形状的文本图像以下是使用霍夫变换进行文本图像倾斜矫正的步骤：1.将文本图像转化为灰度图像2.边缘检测，检测出文本的边缘3.进行霍夫变换，计算得到图像中直线的参数4.计算出倾斜角度，进行图像矫正使用霍夫变换进行倾斜矫正处理，可以快速地对文本图像进行处理。

但是，需要注意的是，霍夫变换的缺点是对于小角度的垂直或水平线检测精度不够高。

总结在进行文本图像处理时，倾斜矫正是必要而重要的一个环节。

使用Hough变换或是霍夫变换都可以对图像进行矫正，但应根据图像的特征选择相应的处理方法。

以下是常用的倾斜矫正处理方法：•Hough变换•霍夫变换根据图像的需求和特征，选择合适的方法进行处理，可以达到较好的处理效果。

基于视窗的OCR页面图像倾斜检测方法

摘要文档在扫描输入过程中, 所生成的页面图像一般都存在一定的角度倾斜, 当页面图像倾斜角度过大时, 将对进一步的版面分析以及字符识别产生不良影响。为了快速准确地检测页面图像倾斜角度和降低计算量, 提出了一种基于视窗变换的页面图像倾斜检测方法, 该算法首先对视窗中的文字及图片的细节部分进行模糊, 然后对其边沿进行直线拟合, 以便快速检测页面图像倾斜角度。实验结果表明, 该方法能快速准确地检测出各类页面图像的倾斜角度, 并具有良好的适应性。关键词图像处理倾斜检测文档图像中图法分类号: T P391. 41 文献标识码: A 文章编号: 100628961 (2004) 1121290204
收稿日期: 2003209204; 改回日期: 2004205210
第 11 期
靳从等: 基于视窗的O CR 页面图像倾斜检测方法
1291
正、识别和表格中固有信息的去除发生困难[3]。由于在文档图像扫描输入过程中, 让用户在输入时保证无倾斜是很难做到的, 因此在版面分析之前, 对整个页面图像进行倾斜检测和校正十分必要。
Abstract D u ring O CR (op tica l cha racter recogn ition ) im age scann ing, the docum en t im ages, a re a lw ays p laced slan tw ise to som e ex ten t. W hen the skew deg ree is b ig enough, it w ill influence the effect of docum en t ana lysis and low er the recogn ition accu racy a s the a lgo rithm fo r layou t ana lysis and cha racter recogn ition a re very sen sitive to p age skew. So the skew deg ree detection is a very im po rtan t step du ring the p rep rocessing of docum en t ana lysis. In th is p ap er, a skew detection m ethod ba sed on the w indow ana lysis is p resen ted. F irst it choo ses the su itab le w indow s w h ich a re no t in the m a rg in bu t in the layou t of a p rin ted p age. T hen acco rd ing to the k ind of con ten ts, ju st like tab les, tex t lines, im ages and etc. , it u ses the d ifferen t m ethod s to p re2p rocessing the w indow s im age. To overcom e the la rge com p u ting, the th ird step is to b lu r the tex t lines and im age from the w indow. T he fo rth step is to detect the edges of the b lu rring reg ion s. A t la st it u ses a stra igh t line fitting to the edges, and gets the skew ang le. B y th is m ethod, exp erim en ta l resu lts show tha t the skew ang les of m any k ind s of docum en t im ages can be efficien tly and accu ra tely detected, and it ha s sufficien t adap tab ility. Keywords im age p rocessing, skew detection, docum en t im age

一种检测图像直线倾斜角度的新算法

一种检测图像直线倾斜角度的新算法徐兴东;程立【摘要】In this paper, a new algorithm used to measure the skew angle of lines is proposed.In the algorithm, the average value of direction code is computed after traversing the thinned skeleton of a line, then an error compensation is added to the average value, the final result is the skew angle of the line.At last the test proves the error of skew angle of lines measured by the algorithm to be very small, and the measuring time is independent of the skew angle range and detection precision of lines.%为了更加快速地检测直线的倾角，提出了一种新的检测方法。

该方法对细化后的直线轮廓进行遍历，计算直线上点的方向码的平均值，并加入误差补偿，最终获取直线的倾斜角度。

试验结果表明：使用文中方法检测到的角度误差很小，而且检测所需要的时间与直线的倾角范围无关。

【期刊名称】《中南民族大学学报（自然科学版）》【年(卷),期】2014(000)004【总页数】4页(P90-93)【关键词】倾角检测;细化;8邻域;遍历;方向码【作者】徐兴东;程立【作者单位】中南民族大学实验教学中心，武汉430074;中南民族大学计算机科学学院，武汉430074【正文语种】中文【中图分类】TP391.1在图像处理中，通常使用HOUGH变换检测直线的倾斜角度.HOUGH变换的基本思想是利用平面空间和参数空间的点-线的对偶性，将平面空间的直线上的点变换到参数空间，得到直线的表达式[1,2].使用HOUGH变换检测直线倾角，具有很强的抗干扰性，能检测出不连续的直线和具有弯曲变形的直线的倾角.该种算法实际上是一种试探的算法，在一定倾角范围内，检测有没有一定角度的直线出现，并统计落在该直线上的点数.很明显，由于要探测多种可能，HOUGH变换算法计算量大，特别是在直线可能出现的倾角范围很大，并且对直线倾角检测精度要求较高时，必须在很大的范围内进行探测，需要更多的计算时间.同时，对于HOUGH变换来说，还需要比较大的存储空间来存储各种探测直线上的点数.在很多应用中，需要能快速检测出直线的角度.在这里，采取的方法是首先对直线进行细化，然后找到直线的端点，由端点开始沿着直线进行遍历，记下前进的方向码.遍历完毕后，计算方向码的平均值，并进行修正，即可检测出准确的直线的倾角.1 方向码与角度的关系在处理中，首先要对直线图像进行细化，即得到直线的轮廓，通过一些方法很容易得到直线边缘的轮廓[3].对于连续的直线，细化后的骨架也是连续的.根据直线上点的8邻域状况，很容易找到一条直线的起点[4].在此主要考虑的是黑点(背景为白色)，则一个黑点的8邻域如图1所示.其45°以内的细化直线如图2所示.图1 点P的8邻域Fig.1 Eight neighborhood diagram of point P图2 45°以内的细化直线Fig.2 Lines thinned in 45°其中P为直线上的黑点，0～7为点P的8邻域，很明显，如果邻域0为黑点，则P和0点连线为0°，1为黑点则为45°，称n为点P的方向码，可知方向码n(n=0～7)与角度α关系为：α=45n.2 直线的角度检测对于细化后的直线，其端点的8邻域中只有一个黑点，依此可以找到直线的起点.要检测出整条直线的倾斜角度，可以从某一端点开始进行遍历，在遍历过程中，记下所有点到下一点的方向码，然后用方向码的总和除以总点数，即可得到直线倾角的大致角度.我们在这里使用该方法以5°为间隔检测了0～90°的直线，其数据如表1所示.表1 直线的实际值和检测值Tab.1 The real and estimate angle value of lines 实际角度/(°)测量角度/(°)点数误差/(°)00254053.93252-1.07107.92250-2.081512.12245-2.882016.38239-3.622520.93230-4.073025.98220-4.023531.59208-3.414037.85195-2.154544.75180-0.255052.151952.155558.632083.636063.822203.826569.072304.077073.81 2393.817578.062453.068082.082502.088586.092531.099090.002540依照表1，图3给出了检测角度和误差的曲线图.图3 误差-测量角度曲线图Fig.3 Error-angle graph很明显，误差和测量角度间的关系近似于正弦关系.按照表1的数据进行正弦曲线的拟合，将测量的角度加上拟合后正弦的相反数即为补偿.图4为拟合后的曲线.按照拟合的曲线，补偿之后的直线测量角度为：α′ = Σn/N，(1)α = α′ + 4.20sin(4πα′/180)，(2)式中n为直线上所有点相对于上一点的方向码，N为总点数，α为修正后的检测角度.图4 拟合后的误差-测量角度曲线图Fig.4 Error-angle fitting graph3 补偿的理论依据在此讨论0～45°的范围，其余范围同理.在0～45°的范围内的直线，细化后，轮廓上的点至下一点(从左至右，从下到上)的方向码只有两种情况，即0和1，如图2所示.设所有方向码为0的点(正右方)总数为n0，所有方向码为1的黑点(右上角)的总数为n1，且直线上点的总数为N(不计起点)，则有N=n0+n1；按照方向码均值求的角度为：α′ = (45×n1+0×n0)/N = (45×n1)/N，(3)按照反正切求的角度应为：α=atan(n1/N)×180/π ，(4)则其误差为：err = 45×n1/N -atan(n1/N)×180/π.(5)由图2知，补偿的正弦规律函数在测量角度为0～90°即为一个整周期，故补偿函数的幅值表达式为：(6)对此表达式，使用Matlab从总点数N=10到N=10000，n1从0到N(即角度从0～45°)进行计算，可求出A介于4.1873和4.2207之间，变化很小，取最大值和最小值的均值4.2040，作为补偿函数的幅值，即可得到误差很小的直线倾斜角度.将此补偿幅值作为公式(2)中的参数，并以此作为最终的直线倾角检测角度，在设计的VC检测程序中进行检测，能获得非常精确的直线倾角.4 异常处理在直线的细化中，可能出现异常的情况，考虑连续的3个黑点，一共有4种情况，如图5所示.其中(a)、(b)中3个点应该在一条水平线上，(c)、(d)中的3个点应该在一条竖直线上.图5 细化后的异常情况Fig.5 Abnormal conditions diagram after thinning process对于图5(a)、图5(b)，遍历直线的方向有从左到右和从右到左两种方式.当采取从左至右遍历时，图5(a)的方向码为1和7，图5(b)为7和1，其和为8，而实际应该为0和0，显然有较大误差.若采用从右至左的方向，则图5(a)、图5(b)的方向码分别为3，5和5，3，其和与实际值4，4之和是相同的.而对于图5(c)、图5(d)无论是采用从上至下还是从下至上的方向进行处理，方向码之和和正常情况都是相等的.很明显，对于图5(a)、图5(b)两图，当采用从左至右的方向遍历时，由于按图(1)图像中任一点P右端3个邻域点的方向码分别为1，0，7，而点P的上侧、左侧和下侧相邻的3邻域中，中间点均为两边点的平均值，所以不用进行处理.综上所述，当出现图5中图5(a)和图5(b)两种情况时，需进行特别的处理，将其变为实际的方向码.5 时间复杂度分析本算法相对于HOUGH变换，在时间复杂度和空间复杂度上均具有明显的优势.以图形上某一条具有N个点的直线为例，若采用HOUGH变换检测直线角度，需首先预设直线倾角范围，并设定角度探测步长，也就是检测精度.假设角度范围为[θ1, θ2], 探测步长为Δθ，则采用HOUGH变换时需完成的循环次数为：(7)而采用本算法，最坏情况下循环次数为8N, 平均循环次数4N, 即每个点在其8邻域中找其下一点的方向码.采用HOUGH变换时，假设当直线倾角范围为[-45°,45°]，检测步长为0.5°，则需循环次数为180N，很明显本算法处理的循环次数大大低于HOUGH变换.并且采用HOUGH变换时，每次循环需计算所探测角度的正弦和余弦，还需实现两次乘法和一次加法，而本算法只需在循环中完成一次加法.可见本算法在时间复杂度上明显低于HOUGH变换，并且检测时处理时间和直线的倾角范围及检测精度无关，只与直线上的点数成线性关系.6 结果与讨论按照遍历直线轮廓，求出各点到下一点的方向码的平均值，并做修正后，可以获得直线的准确的倾角.相对于HOUGH变换，本方法计算量小很多；而相对于求反三角函数的方法，本方法不需要讨论角度的范围.表2为经过修正后的直线的测量角度和实际角度，可见经过补偿后，检测的角度和直线的实际角度非常接近，误差很小.而且使用该方法检测直线的角度，既可以遍历到直线的另一端点结束，也可以只遍历一定的点数，检测所需要的时间与直线的倾角范围无关.当然，本算法只能适用于连续直线的情况，对于断续直线，本算法则不适用[5].而且，在使用算法前，首先必须对直线进行细化处理，或者是单像素的直线边缘，其处理情况和图2类似，只是不同角度的直线，方向码不同，所以文中未给出更多的实验图例.表2 直线的实际角度值和修正后的检测角度值Tab.2 The real and estimate angle after correction of lines实际角度/(°)测量角度/(°)误差/(°)误差率/% 点数000025455.050.0512521010.090.090.902501515.210.211.402452020.140.14 0.702392525.040.040.162303029.98-0.02-0.072203534.91-0.09-0.262084039.82-0.18-0.451954544.82-0.18-0.401805050.180.180.361955555.270.270.492086059.83-0.070.122206564.96-0.040.062307070.070.070.102397575.00002458079.91-0.09-0.112508584.97-0.03-0.042539090.0000245参考文献【相关文献】[1] 肖志涛, 国澄明, 孟翔宇. 基于Hough变换的倾斜文本图像的检测[J]. 红外与激光工程, 2002,31(4): 315-317.[2] 赵小川,罗庆生,陈少波. 改进型图像中的直线快速检测[J]. 光学精密工程, 2010,18(7): 1654-1660 .[3] 杨威, 郭科, 魏义坤.一种有效的基于八邻域查表的指纹图像细化算法[J]. 四川理工学院学报,2008, 21(2): 61-63.[4] 张晓青,王国文,曹海云,等. 基于细化的手写汉字的笔段提取方法[J]. 哈尔滨工业大学学报, 1999, 31(5):107-110.[5] 程立，王江晴，田微，等.手写体女书文字规范化处理程度研究[J].中南民族大学学报：自然科学版，2012，31(1)：93-96.。

基于投影的文档图像倾斜校正方法

基于投影的文档图像倾斜校正方法张顺利;李卫斌;吉军【摘要】针对文档图像的倾斜校正问题,提出了一种新的基于投影的文档图像倾斜角检测方法.首先采用一种高效的像素遍历算法对文档图像从不同角度进行投影,然后对投影数据进行累加求和,通过比较不同角度下的累加和来确定倾斜角度.该方法在投影过程中只需对文档图像进行极少部分投影,因而大大减少了运算量.基于该方法的特点,提出了由"粗"到"精"的投影策略,在确保检测精度的同时大幅提高了检测速度.实验结果表明,方法非常有效,可以获得很高的检测精度.【期刊名称】《计算机工程与应用》【年(卷),期】2010(046)003【总页数】3页(P166-168)【关键词】图像处理;倾斜校正;文档图像【作者】张顺利;李卫斌;吉军【作者单位】咸阳师范学院,图形图像处理研究所,陕西,咸阳,712000;西北工业大学,现代设计与集成制造技术教育部重点实验室,西安,710072;咸阳师范学院,图形图像处理研究所,陕西,咸阳,712000;西北工业大学,现代设计与集成制造技术教育部重点实验室,西安,710072【正文语种】中文【中图分类】TP3911 引言在将纸质文档资料通过图像采集设备进行光学扫描时，所得到的图像不可避免地存在一定程度的倾斜，这会给后续的文档图像的分析和处理带来困难。

尤其是在对文档图像进行光学字符识别（Optical Character Recognition，OCR）时，由于文档图像的倾斜会降低文字的识别率，因此，有必要对文档图像进行倾斜校正处理。

倾斜校正的关键是如何高效、准确地检测出图像的倾斜角。

目前，倾斜角检测的方法有多种，主要分为基于Hough变换的方法[1]、基于交叉相关性的方法[2]、基于Fourier变换的方法[3]、基于投影的方法[4-5]和K-最近邻簇方法[6]等五类。

其中基于投影的方法是最常用的倾斜校正方法，它是对文档图像进行不同角度的投影，得到若干投影图，再根据这些投影图的某些特征如均方差、第一特征矢量以及梯度等[7]的统计特性来求得文本倾斜角。

基于图元识别的OCR文本图像倾斜矫正快速算法

文章编号:1009-3486(2004)04-0048-05基于图元识别的OCR 文本图像倾斜矫正快速算法张秀山1,吴产乐2(1.海军工程大学电子工程学院,湖北武汉430033; 2.武汉大学计算机学院,湖北武汉430072)摘要:提出了一种基于文本图元识别以跟踪字符中心线的高精度矫正OCR 图像倾斜的快速算法,该算法思想虽然简单,却具有高效和高精度的特点,同时还具有高可靠性和良好的抗噪特征.实验表明,该方法完全满足实时应用的需要.关键词:光学字符识别;倾斜矫正;图元识别;图元标准包围盒中图分类号:T P391.4 文献标识码:AA rapid algorithm to O CR image slant correction based on p rimitive recogn itionZHANG Xiu -shan 1,WU Chan -le 2(1.Electronic Eng.College,Naval Univ.of Engineering,Wuhan 430033,China;puter School,Wuhan U niversity,Wuhan 430072,China)Abstract:This paper proposes a rapid algorithm to OCR imag e slant correction,w hich applies the g raphic prim itive recognition technique and then keeps track of the character center -line.Though being sim ple,the algorithm is so efficient,accurate,and reliable that it can be used in rea-l ime applications.Key words:optical character recog nition;slant correction;graphic prim itive recognition;standard bound -ing box for a graphic prim itive扫描的文本图像的倾斜度往往会影响字符的识别率,因此需要使用某种软件方法对图像进行矫正.瞿洋等为此提出一种应用Hough 变换[1,2]进行图像倾斜矫正的方法.利用Hough 变换发现图像中的直线模式的方法的突出缺点是计算量很大,尽管文献[1]采用分辨率层次模型以降低计算量,但算法与不采用分层模型的时间复杂度是等量级的,它只是在常数意义上较优.假设H ough 变换使用的累积矩阵A ( , )的大小为m n ,则显然算法总的时间复杂度为 (mnS ),这里S 是整幅图像的以像素为单位的像素面积.另外,Hough 变换应用在像文字等这种粗直线图像模式识别,若不考虑水平边缘提取时,图像倾斜角度的精度取决于门限的选取,而门限的选取应依据字体大小以及字间距和行间距等排版参数.事实上,文献[1]给出的门限的动态范围很大,一般需要人工干预.1 算法思想一种简单的避免大量统计运算的跟踪直线的方法是跟踪同行同字号字符体的中心线,一旦确定了中心线就可通过简单的几何运算来确定光学字符识别(Optical Character Recognition,OCR )图像的倾斜角.确定中心线需要确定至少2个字符体的中心位置,这就需要识别同一行中2个或多个字符体,并检查其中是否有等高字符体.识别字符体的方法可以有多种,一种有效的识别方法是采用广度优先的图元第16卷第4期 2004年8月海军工程大学学报JO U RNAL OF NAV AL U N IV ERSI T Y OF EN GI NEER IN G Vol.16 No.4 A ug.2004收稿日期:2004-02-02;修订日期:2004-04-02基金项目:海军工程大学科学研究基金资助项目(HGDJJ04034)作者简介:张秀山(1968-),男,讲师,博士生.识别技术.确定中心线的方法可以直接通过两端点求得,也可利用直线拟合的方法以提高精度.这种算法思想不仅简单高效,而且图元识别的结果还可进一步在图元分割时结合和利用.我们知道,中文字符不会越过其字符体,但带核[3]的小写西文字符可以越过字符体;虽然同一字体字号的小写英文字符逻辑上定义基线和顶线相同,但字符的实际高度可能并不相同,如这里的 a 和 g .为了确定字符的实际高度,我们需要引入图元(字符)标准包围盒的定义.定义1 一个四连通区域即是一个图元;包围一个图元的最小水平方向矩形称为该图元的标准包围盒;相似地,包围一个字符的最小水平方向矩形称为该字符的标准包围盒.一个图元(字符)p 的标准包围盒B (p )可用2个设备坐标序偶表示,一个是左上角坐标,一个是右下角坐标,此处记为 (left,top),(rig ht,bottom) .定义2 设p 1和p 2是2个图元,它们的标准包围盒分别为B (p 1)= (l 1,t 1),(r 1,b 1) 和B(p 2)= (l 2,t 2),(r 2,b 2) ,定义图元标准包围盒的并运算如下:B(p 1) B (p 2)= (min (l 1,l 2),min (t 1,t 2)),(max (r 1,r 2),max (b 1,b 2)) =B(p 1 p 2) 由上述标准包围盒的并运算的定义,可以立即得到如下定理.定理1 字符的标准包围盒是该字符所包含的所有图元的标准包围盒的并 .即B ( p i )= B (p i )(i =1, ,n ),其中n 为字符所包含的图元数.证明:由定义2对i 进行归纳,即可得证.所有的大写英文字母和除i ,j 以外的所有小写英文字母均是单个图元构成的;而许多汉字都是多个图元构成的.因此,对汉字来讲,要识别字符体还需要对图元进行并运算处理.定理2 设P 1和P 2是识别出的任意2个同一行中的等高图元,且B (p 1)= (l 1,t 1),(r 1,b 1)B (p 2)= (l 2,t 2),(r 2,b 2)则P 1P 2的中心线的倾斜角为:p 1p 2=arctan ((b 2+t 22-b 1+t 12)/(r 2+l 22-r 1+l 12))(1)证明从略.(1)式计算的倾斜角度即可作为图像的倾斜角.显然,为了保证倾斜角识别的精度,要求这2个等高图元要相距最远.一般地,由于上式分母远大于分子,故(1)式还可表示为:p 1p 2 (b 2+t 22-b 1+t 12)/(r 2+l 22-r 1+l 12)(2) 应该注意的是,倾斜的字符标准包围盒和未倾斜的该字符标准包围盒往往并不相同,面积可能变大也可能变小,甚至其中心点的水平和垂直位置都会发生偏移.但如下定理3可以确保一个实心矩形无论如何倾斜,它的标准包围盒的中心点不会偏离原中心点.中西文字符的笔画连贯性和像素分布正态性有利于保证中心点不会过度偏移.图1 定理3示意图定理3 任意方向矩形的标准包围盒的中心点穿过原矩形中心点.证明:如图1所示,ABCD 是任意方向的矩形,EFGH 是该矩形的标准包围盒,O是E G 与BD 的交点.在RT A DE 和RT CBG 中,因为AD =CB ,所以RT ADE RT CBG BG =DE 因为BG DE OBG = ODE又因为 DOE = BOGOBG ODE O 是EG 和BD 的中点.同理可证,O 也是FH 和A C 的中点.O 即是ABCD 的中心点,也是EFGH 的中心点.于是,定理得证. 49 第4期张秀山等:基于图元识别的OCR 文本图像倾斜矫正快速算法2 算法描述基于以上思想,可以给出图像倾斜矫正算法的一般流程(见图2).图2 OCR 图像倾斜矫正算法的一般流程字符的标准包围盒识别可根据定理1通过图元标准包围盒的并运算求得.于是,需要先实现图元标准包围盒的识别算法.下面用伪C++代码[4]给出该算法的较为详细的算法描述.Prim itiveBoxRecognition 函数参数bmp 是一幅灰度位图,c 为颜色阈值,current 为当前像素起点,函数中box 为输出的图元标准包围盒.算法中引用的未定义函数可从函数名字及其参数理解其功能及实现.算法1 图元标准包围盒识别算法CBox PrimitiveBoxRecog nition (BM P&bmp,COLOR c,POINT current)(1)MarkPixel(current)//标记current 属于当前图元(2)InsertQueue(current)//并将current 像素插入待处理像素队列(3)box.topleft=box.bottomrig ht=current //然后初始化包围盒box(4)//识别包含current 像素点的图元标准包围盒(5)while !IsQueueEmpty()//像素队列非空(6) do current=ExtractQueue()//取队首像素(7) for each dir in {U P,DOWN,LEFT,RIGH T}//四连通图元(8) do neighbor=GetPix el(dir,current)//取四连通像素(9) if IsPixel(current,bmp,c)and !IsPix elMarked(current,bm p)(10) then MarkPixel(neighbor)(11) InsertQueue(neig hbor)(12) U pdateBox(box )//更新box(13) return box计算字符的标准包围盒需要首先识别同一字符行中的所有图元,然后按水平方向坐标进行排序,接着就可进行并运算以求得各字符的已排好序的标准包围盒;最后,进行等高字符匹配,搜索最远的2个等高字符,并计算倾斜角.下面的算法将以上各步合并起来,给出总的OCR 图像矫正算法.算法2 OCR 图像矫正算法SlantCorrection(BM P&bmp,COLOR c)(1)index=0//初始化(2)for current=(0,0)to (bm p.w idth -1,bmp.height -1)//从左到右从上到下扫描图像(3)//搜索从当前像素开始的第一个未被标记的像素并识别其标准包围盒(4) do if IsPix el (current,bmp,c)and !IsPixelM arked(current,bmp)(5) then box[index]=PrimitiveBoxRecog nition (bmp,c,current)(6) if index =0(7) then linebox =box[index ++]//初始化linebox(8) continue(9) else if IsInSameLine(linebox,box[index ]) 50 海军工程大学学报第16卷(10) then linebox+=box [index++]// 并运算(11) continue(12) if index>1(13) then SortBox (box,index )//排序,这里index 为当前字符行图元总数(14)M ergeBox(box ,index)//合并各字符的各图元,index 返回字符总数(15) //SearchSameHeightChar 搜索等高字符,返回距离最远的两个等高的box 下标(16) if SearchSameH eightChar (box ,index,i,j)//搜索成功(17) then return CaculateSlantAngle(box ,i,j)//计算倾斜角(18) else index=0//扫描下一行(19) return FAILU RE! //图元太少或未匹配成功!其中:index 为行中图元/字符个数;linebox 为字符行包围盒.定理4 SlantCorrection 算法在最好情况下的时间复杂度为 (L )+ (n 2),这里L 是单行字符的像素面积,n 为单行字符数.证明:显然,算法PrimitiveBox Recognition 的时间复杂度为相应图元i 的标记次数即 (C i ),其中C i 为相应图元i 的像素面积.SlantCorrection 算法的最好情况是首行匹配,第(1)~(11)行的算法时间应与该行的所有图元面积成正比,即为 ( C i );第(13)行可采用堆排序,其时间复杂度为 (n log n),其中n 为行图元总数;第(14)行为 (m ),其中m 是字符图元总数,显然m n;第(16)行为 (m 2).SlantCorrection 算法在最好情况下的时间即是上述各行时间的总和.即:T 首行= (C i )+ (n log n)+ (m )+ (m 2)= (L )+ (n 2) 证毕.一般情况下,算法能够在首行匹配成功.推论1 若OCR 图像的幅面宽度保持恒定,则SlantCorrection 算法在最好情况下的时间复杂度为 (w ),其中w 是单个字符的平均高度(宽度).证明从略.应该注意到算法中引入了一个行包围盒linebox,它是由同行中的所有图元的标准包围盒通过并运算得到的.它具有统计学特征,不仅有助于同行中的所有图元的可靠识别,进而确保字符标准包围盒的可靠识别,而且也提高了倾斜角发现的准确性和可靠性.另外,同行中会有些随机噪声图元出现,它们的产生不是由于得不到正确的匹配而被忽略,就是被M ergeBox 过程所合并,但不管它们的产生是否影响字符标准包围盒中心点,一般都不会影响最终倾斜角计算结果.因而,算法也具有良好的抗噪特征.3 实现与测试作者采用visual C++在Celeron466机器环境下实现了上述算法.图3是经过裁剪的原图,经二图3 二值变换前的原始OCR 文本图像图4 二值变换后的黑白OCR 文本图像值变换后得到图4,其二值映射阈值为R ,G ,B =108.经过对多幅不同字号的大小为720 576的未裁51 第4期张秀山等:基于图元识别的OCR 文本图像倾斜矫正快速算法剪原图进行测试,不但都成功发现图像的倾斜角,而且程序响应很快,一般在100ms 以内,完全满足实图5 运行时间曲线时检测的需要.如图5所示是图像幅面宽度恒定为720像素时的算法运行时间曲线.由图5可知,该曲线确实验证了推论1.经程序计算和跟踪得到按图中字符出现顺序的5个字符 w oew o 的各图元识别标准包围盒分别为<(83,205),(171,263)>,<(243,207),(302,266)>,<(355,209),(403,268)>,<(446,213),(532,270)>和<(533,213),(590,273)>.可分别利用2个w 、2个o 或第一个单词的首尾字符即w 和e 按(1)式计算得到图像的倾斜角 ww 、 oo 和 we :ww =arctan (7.5/362)=1.187,精度为arctan (0.5/362)=0.079 oo =arctan (6.5/289)=1.288 ,精度为arctan (0.5/289)=0.099we =arctan (4.5/252)=1.023 ,精度为arctan (0.5/252)=0.114以上精度计算假定同行的2个等高字符的图元识别标准包围盒的中心垂直偏差为1个像素的情形.以上精度都足以满足OCR 字符识别的需要.用商用软件汉王OCR 5.0对原灰度图像进行倾斜矫正,它测得倾斜角度为0 ,即未检测到倾斜.由于应用Houg h 变换计算量较大(文献[1]给出2000 3000像素的图像在Pentium 133上测试时间为2s 左右),而且需要一些经验参数,因而也未能去实现和详细比较.4 结论本文在充分分析OCR 扫描文本特征基础上,提出了基于图元(字符体)识别的跟踪字符中心线以提取图像倾斜角的方法.该方法不仅算法思想简单,实时高效,而且具有较高的精度和可靠性,以及良好的抗噪特征.参考文献:[1] 瞿洋,杨利平.Hough 变换O CR 图像倾斜矫正方法[J].中国图像图形学报,2001,6(2):178-181.[2] Ballard D H.Generalizing the Houg h transform to detect arbitrary shapes [J].Pattern Recongnition,1981,13(4):111-122.[3] Hearn D,Baker M puter Graphics [M ].N ew Yor k:Prentice Hall Press,1997.[4] Cor men T H,Leiserson C E,Rivest R L ,et al .Introduction to Algor ithms [M ].M assachusetts:M IT Press,2001. 52 海军工程大学学报第16卷。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种快速的文档图像倾斜角检测算法本文提出一种快速的文档图像倾斜角计算方法，根据文档图像的行特征估计倾斜角度。

先计算图像的水平梯度图像，根据梯度进行文本行字符区域合并，通过简单的非文本区域滤波来获取有效的文本行，最后统计文本行特征的倾斜角度作为图像的倾斜角。

本文给出了算法的实现过程，实验结果表明，本文提出的算法具有较高的精度和较小的算法复杂度，并具有很高的稳定性，可用于实时图像处理领域，另外本文算法可用于图文混和图像自动纠偏、版面分析、图文分割、内容检索等领域。

【关键词】文档图像倾斜角估计倾斜角检测图像纠偏梯度1 引言在文档图像处理领域，图像的倾斜角检测是数据处理中非常重要的组成部分，是进一步进行图像分析、识别的基础。

在基于图像的数字识别系统中，识别的可靠性和图像数据的质量密切相关，因此在大多数实时文档图像处理领域，需要快速、准确的确定图像的倾斜角度，用以提高文档信息采集、录入的准确性，并减少拒识率，提高系统的可靠性和适应性。

大多数扫描设备具备图像的自动纠偏功能，将倾斜的文档图像从背景中分割出来，但在实际应用中，由于印刷、打印的倾斜情况经常发生，这样导致不能正确的进行倾斜校正，因此研究基于文档图像内容的倾斜校正更能反映问题的本质，在文档图像处理中具有重要意义。

现有的倾斜角估计方法主要有5类：基于Hough变换的方法，基于交叉相关性的方法，基于投影的方法，基于Fourier 变换的方法和K-最近邻簇方法。

基于Hough变换的直线检测方法的优点是对图像中的噪声不敏感，计算量比较大，因此实际使用时尽量降低Hough 变换的次数，降低参与Hough变换的点数或者降低倾斜角检测精度，文献[3] 使用文本行投影进行变换，然后使用Hough 变换估计出文档图像的倾斜角度。

对图像中的直线可使用链码方法进行标记算法，该方法对每个有效点进行标记和标记合并。

根据图像的文本行字符块估计倾斜角度，不同的行块依赖一个合适的阈值。

基于Fourier变换的方法也用于倾斜角的估计，计算量非常巨大。

倾斜角检测的算法需要正确抽取直线，并根据统计特性来增加算法估计角度的可靠性，文档图像本身比较复杂，分类标准也各不相同，既有语言种类的区别，也存在打印和手写体的区别，并且文字的大小、颜色在不同的应用领域也是区别较大的。

文本区域的水平梯度较大，图像的边缘特性不是文本区和非文本区域的本质区别，另外文本行具有一定的长度，因此使用长度进行非文本区域的滤波是有效方法，算法设计上充分考虑文本行的特点以降低计算复杂性。

本文针对文档图像，先介绍文本行的特点，据此计算输入图像的梯度图像，并根据梯度图像合并字符块，获取可能文本行块，使用长度滤波抽取正确的行块特征，因此算法对噪声不敏感，为降低倾斜角计算复杂性，避免使用复杂度较高的Hough 变换，使用垂直梯度计算行线特征，通过对行线的跟踪算法，得到每条行线的倾斜角度，最后根据统计特征，计算图像的倾斜角度。

本文最后给出算法的实验结果，并说明算法的有效性。

2 文本区行线特征抽取2.1 文本行的特点文档图像一般指含有文字信息的图像，本文所研究的文档图像为手写体扫描图像，实验证明本文算法对图文混和图像是有效的。

文本行的特点主要有以几个：（1）一个文本行水平梯度较大。

（2）单个字符的各个部分可能不是一个完整的连通域，且连通性算法复杂度相对较高。

（3）两个相邻的字符之间有一定的间隙。

（4）文本行之间有一定的间隙。

（5）文本行具有直线特点。

（6）字符在尺寸、语言类别、颜色、字体等方面复杂，算法要具有一定的适应性。

（7）假定一个字符不是一个有效的文本行。

2.2 文本行块的计算方法前面介绍了文本行块的基本特点，水平梯度的计算方法使用梯度差方法，即使用[-1，0，1]对图像进行滤波，如图1所示。

如图1所示，待计算梯度图像中包含了Lena图像和文本图像两部分：（a）图像中的黑线代表检测的行。

（b）图像显示了检测行的梯度计算结果。

水平方向上的梯度文本区是较大的，可以充分利用这一特性检测可能的文本区域。

单个字符之间、两个相邻字符之间是有一定间隙，使用连通性检测算法并合并相邻字符获取文本块会增加算法的复杂性，本文使用梯度图像的扩展获取可能的文本块，使用一个固定宽度为n，高度为3的模版实现字符之间的合并，n 的选取大于字符间距即可，高度为3时，可确保两个行块之间应至少大于两个像素的距离，而这种要求通常情况下可以满足。

如图2所示，算法对梯度图像进行二值化，使用n=15对二值图像进行扩展，通过非文本区滤波，得到较好的文本区版面结构。

该算法说明Lena图像作为文档图像的噪声参与计算过程，对于图文混和图像倾斜角估计也是适用的。

2.3 文本行线的抽取文本行块具有直线特点，这是文档图像倾斜角检测的重要特征，为了降低算法的复杂性，使用垂直梯度计算经过非文本区域滤波的二值图像，达到图像细化的效果，仅保留文本行块的下边缘或上边缘特征，简化行线跟踪算法。

如图3所示，适用文本行块的下边缘作为文本行线的特征，这个特征可以表征图像的倾斜角度，使用Hough变换也可以检测图像的倾斜角。

3 倾斜角度的估计方法3.1 行线角度的确定行线的跟踪算法对连续行线特征进行标记算法，用以确定一个行特征的起点和终点，从而确定一个行线的倾斜角度，每个行线目标具有一定的长度，较小长度的目标不进行角度计算。

如图4所示，行跟踪标记算法判断三个方向上的连续像素，计算一个有效的文本行。

进行目标跟踪算法后，可以确定每个行线目标，记有M个目标，标记为t的目标行线起点、终点坐标为（xs，ys），（xe，ye），则行线的倾斜角可估计为：θt=（ye?ys）/（xe?xs）3.2 倾斜角度计算方法前面计算了每个行线的倾斜角度，但是行线的长度可能差别很大，一个行线的长度越大，越能真实反映图像的倾斜角度，因此不能简单的将每个目标计算倾斜角度然后取平均值，使用行线目标的长度作为权重是合理的计算方法，行线长度越大，权重越大。

定义行线的角度能量，假设标记为t的目标行线倾斜角度为θt，行线长度（目标像素数）为ct，则该行线的角度能量为：pt=θt*ct记文档图像的行线特征有M个，则文档图像倾斜角度最终确定为：θ=pt /ct使用最大的行线特征作为文档图像的倾斜角度也是合理的，行线长度越大，计算精度越高。

3.3 算法实现过程上述介绍了确定文档图像倾斜角的方法，定义了一个行线特征的角度能量，下面给出算法的流程图5。

4 实验结果与分析为了测试检索算法的检测倾斜角度的可靠性，进行相关的实验，该方法具有很好的抗噪声能力，以图1为例，行线特征检测准确可靠。

如图6所示，红色之间为检测到的行线特征，行线特征总共检测到30个，与实际相符，行线像素数最大的一条直线为长度为535，行线高度差为0，最小的行线长度像素为77，高度差为0，文档图像的上半部分为英语文本，下半部分为汉字文本，均为打印体，计算图像的倾斜角度为-0.0365角度，与图像的实际倾斜角度相一致。

为测试算法的适应性和稳定性，对文本区旋转一定的角度，然后检测图像的倾斜角，实验结果如图7。

如图7所示，对文本区分别旋转角度1，2，3，4角度，可以正确的检测行线特征。

其他偏转角度与检测结果如表1所示。

5 结束语本文针对文档图像的倾斜角度估计问题，提出一种基于文本块行线特征的快速的倾斜角度估计方法，分析了文档图像文本行特性，使用水平梯度信息合并可能的文本块，在进行非文本区域滤波后，行线特征明显，通过简单行线跟踪算法确定行线的起点和终点，并介绍了倾斜角计算方法。

该算法避免了Hough变换和图像细化过程，计算过程简单高效。

实验结果表明：该方法可有效抽取文档图像的文本行特征，对噪声不敏感，倾斜角度估计精度较高，适合实时图像处理系统。

另外，本文算法可用于版面分析、图文分割、内容检索等领域。

参考文献[1]李庆峰，付忠良，王琴.一种高效的倾斜图像校正方法[J].计算机工程，No.21，2006（11）：194-196.[2]Manjunath Aradhya V N*，Hemantha Kumar G，Shivakumara P.Skew Detection Technique for Binary Document Images based on Hough Transform. International Journal of Information Technology V olume3 Number 3，2006.04，PP194-200.[J].[3]S.M.Murtoza Habib，Nawsher Ahamed Noor，Mumit Khan.Skew Angle Detection of Bangla Script using Radon Transform.Working Papers 2004-2007，PP136-140.[4]S.Lowther，V.Chandran and S. Sridharan，An Accurate Method for Skew Determination in Document Images，Digital Image Computing Techniques and Applications，21-22 January 2002，Melbourne，Australia.[C].[5]Jae-Hyun Kwon，Tae-Tong Park，Yang-Ho Cho，et al.Photo-text Segmentation in Complex Color Document.The National Resrarch Laboratory Program of the Ministry of Science &Technology.[6]E.K.Wong，M.Chen.A new robust algorithm for video text extraction.Pattern Recognition，vol.36，no.6，pp.1397-1406，June 2003.[M].作者简介吴军，硕士研究生学历。

现供职于山东师范大学。

主要研究方向为数字图像处理。

侯德文，现为山东师范大学副教授。

主要研究方向为数字图像处理。

刘江，现为山东山大鸥玛软件有限公司工程师。

作者单位山东师范大学山东省济南市250100。