基于二值化聚类的图像文字提取算法

第29耘第l期2009弗1月

计算机应用

JoufnaIofComputerApplications

V01.29No.1

J柚.2009

文章编垮:100l一908l(2009)01一∞57—03

基于二值化聚类的图像文字提取算法

戴维,张申生

f上海交通太攀计算概辩学与工程系,上海2。02∞)

《‰耐mails@126.∞m)

摘娄:为解决渐变色给文字提取聚褰算法带来的问题,研究与实现了基于二值化浆粪的瞄像文字提取算法。

图像j瓯过一系列预处理后,得到了利于聚粪的羔值图像,根据背景图像区域特征,对围像娥行聚类分块。再利用文字豳像区域特征,聚类识别出文字区域。实验表明,谈算法在各类图像上取得了理想的救袋。

关键词:聚类分析;图像分割;文字提取

巾凰分类号:1P18;TP391.43文献橼悫粥:A

Te赋extrae耄ionalgorith雌based舳binarycllls您dng

DAlWei,Z疆A嚣GS羹en.s囊el瑗

(露甲口脚麟l酽舀弹瓣&细靴戤d融澎r蒯8爵飘碍g鸯《蠡蹦臻落‰慨踟训钧0拱锤貔蠢孵》Abst雌娃:Todeal试mlhegra击enlp曲l删汹theelustedngp蛰。cessof蝌ex确瓣t{釉,黼a190rithmb豳酣傩bi船ryclu释Ieringw酗pmp08ed.强e嘶莓nalimagew黼conVertedtnbinaryhitTnfIpanerpre婵)c嘴8i嘴+%eback学mundb王ocks0ftheimagewereclusteredbytIleregionfeatu坤s,andtI"ntextblock亭were阳co印izedbythedi8侧bu娃onfeatums.Theexpe而ment8haw目thismethodachievessati“actory瑚ultonva“ou9kinds“images.

Key’阳rds:clu8te而nganalysig;imagese辩∽nt8;.textextI黜tion

0引崔1预处理

文窄摄驭魁文字识别技术的基础,对于缭定的一蠛包含

文字的能爨,文字撵取莓法毖够赣氆该位蹬上包禽文本戆迸

壤。鸯了遮夔嚣城数蹇,裁链遥一多对每拿涎蠛馁浚舅l运葵,

簸霖褥文字分类并簪{剩。“。困踅,文字提取葵滚楚交字谈裁

系统瓣蘩础,轰援会影嚷弼后续的识鄹算法的效爆。

i暖年米,涌现出大量存关予义率掇取算法的研究阳。】。文献[6]利用罔像的密庹熬和也劳实现了一个文本Ⅸ域提取的系统,并用支持向馘机进行区域的校验,他们的系统在用摄像头热摄的320×240解析度图像}:。取缮了魄较好的羧巢。文簸[7】翻嚣撩骧猿号表示,获爱窳鹜祭豹图像l:撵取出义本避壤。文献[8】利用线性鹰换的方法进行文本

l原l甜像

jjji处蚓

(灰度化.阚值化,长线剔除)

背景色鬻瑟

({‘字捌搜索)

l文术壤粪

l(矩形{鬟索》

|产生鑫令义零嚣城

l鑫令区域缬铰虢

鼹l文本分割系统结梅

分割。弗和其他的方法做j.比较。

谯总结|j{『人经验的基础上畔。1“,本文摄f{j一种二值化聚类的湖像义字提取算法,并在各类图像上与现彳『算法做了比较。利用文字在二值网像上的分布特征,将对嘲像t的点进行聚类,十字型搜索与矩形搜索的策略自.效地城避了其实模型。实验结果验证r算法的效率和有效性。

黪个袭缭的结构如图l所示,原网像经过颓簸瑗聪,是通过费蒙魏聚类,菇运遘文本蒙粪,最后产生各个文本撼壤。

设输入_二缝图像数据为“m,站),m,n为正整数。

对予嚣像上每个淼,(i,∞=(繇,毽,嚣。),其中O≤;《m,0≤j<n,0≤懿,瓯,嚣。《255,趣为歪整数。表示霉个点在嚣G8色彩奄淹下麴套拿分爨。

为了提高聚类簿法的成功率,簧对蚕像傲一系弼霰处毽。1.1灰度亿

根据心理学研究褥蹦的人类色彩感光特性【I“,可以用下式计算得到各个点的灰艘德。

y=0.229×R+0。587×G+O.114×曰(1)为避免浮点数计算,加快计算速度,可以用式(2)代替式(1)运箅。

y=(229×R+587×G+114x矗+500)/1000(2)其中考虑了整数除法的羽含五人。

式{2)可迸一步麓化为:

y=(23×蠢+59x#+ll×嚣年弱)/1∞(3)这嫠{譬运算瑟雩闯遽一痧壤缎。实验薅,系凌采援式《霹)透褥获度霓诗算。

y=(77x露+15lxG十28×疗+128)/256(4)式(4)除以2的幂次,编译器会将其优化为移位操作,从而达到运行时间的优化。

灰度化后的幽像见图2。

图2缀避获壤他之后的测试图像

l。2二值纯

经建获痉证磊,潮豫,乏掰餐戆轰豹莰褒篷变巍0受菸5之

羧藕瓣期:20蕊一湃一瓣;禧回墨期:2∞8一嚣一22。

僚赣麓介:簸维(拇昭一).男+溯10宜昌入,硬±骄懿擞,圭簧镪}究方彝:普遥{}葬、模式识别;张串妻奠(1鲻l一),舅,上海天,教授,博士生

导师,荛夔研究方向:普适计算、多媒体潞强信息处理。

 万方数据

相关主题
相关文档
最新文档