基于笔画提取和颜色模型的视频文字分割算法

合集下载

基于条件笔画密度提取的文本定位方法

基于条件笔画密度提取的文本定位方法
本 区 域 , 且 定 位 效 果较 好 。 并
关键 词 : 频文 本定位 ;笔 画提取 ; 条件 密度 ; 动 态形态 学;文 本 区域 视 中图法分 类号 : P 9 . T 3 1 3 文献标 识码 : A 文章 编号 :0 072 (0 1 1.4 60 10 —0 4 2 1) 03 4.4
r u t ho h tou ehodc n fle o tofno —e tr ginst bti ea i l c u aetxtr g o nd g tg d l c lz tonr s t es lss w t a rm t a trm s n t x e o o o a n r ltvey a c r t e e i nsa e oo o a ia i e uls i
t ed n mi o p o o yi p l dt c t ee ta tdt x , a db p i zn x g o s t els s l i g t n T ee p r n a h y a c m r h l g a p i l aet x r ce t n yo t s e oo h e mi i gt t e in , h t e u t s ot . h x e i e r a r e mec d e c mm nct nE gneig i gu nv r t S h o o C m ue i e n l o u i i n ier ,J n s i sy hnin 10 3 hn) S n a T e ao n a U e i ,Z ej g 2 1 ,C ia a 2
位, 以达 到减 少 文 本 信 息 漏 提 、 提 的 目的 ; 后 结 合 动 态 形 错 然
态 学 处 理 方 法 ,来 解 决 目前 研 究 方 法 中 不 能精 确 定 位 文 本 而

场景图像中文字提取算法介绍

场景图像中文字提取算法介绍

文字具有很强 的表述力 , 能够随时交流信息 。在 图像 中嵌 入文 本, 更 容易得到人们 的关 注 , 更容易传达信息 。然而 , 在实 际的运用 中, 由于多种因素图像 中的文本很难被检测识别 。 在 图像 中, 文本的 类型可 以分为图形文本和场景文本。图形文本指的是灵活覆盖 于图 像上的机器打印的文本 , 例如 视频 截图的字幕或 网页 邮件 中出现 的 文字 ; 场景文本 指的是 自然 环境 中物体上 的文本 , 例如广 告牌 的文 字, 也包括纸面文字 。 2文本提取方法介绍 图像 文本 检测 和识别 主要使用分步法和综合法 。 如图 1 ( a ) 所示 , 分 步法分成两个 部分 : 检测部分 和识 别部分 , 这两部 分通过前馈 通
A S u r v e y. I EEE Tr a n s a c t i o ns o n Pa t t e r n An a l y s i s 3 提取步骤方法介绍 l i g e n c e .2 0 1 5 ,3 7 ( 7 ) : 1 4 8 0 一 l 5 0 0 . 3 . 1 文本定位。通常使用连通域分析和滑动 窗 口分类 法进行图 & Ma c h i n e I nt e l -
2 . 1 分步法 。分步法 主要 分为四个步骤 : 定位、 验证 、 分割 和识 本 特征 区分方法 。 别 。定位步骤粗略地获得文本候选 区域 , 验证步骤进一步将之前得 3 . 3文本分 割。通常使 用文本二值化 、 文本行分割或字符分割等 到的区域划分为文本区域和非文本区域 , 分割步骤是将文本区域分 方法进行文本分割 。 文本二值化就是通过二值化方法将图像中文本 割成字符 区域 , 识别 步骤是将 之前分割得到的字符 区域 图像转化成 和背景进行 区分 。 常用 的算法包括 白适应 阈值 , 条件随机场模型 , 然 字符。 率模型或聚类 。 行分割 的是将有多条文本行 的区域分割成多个 单行 对于水平方 向呈现 的文本 , 可以使用投影 轮廓分析方 文献【 2 ] 提 出用卷积神经 网络训练大量 的原 始像 素值 , 局部 响应 的文本 区域 , 最大的部分作为潜在文本。 循迹环节用于确定文本的开始和结束位 法 。 一般可 以使用可适应的形态学方法 和聚类方法可 以用来分割字 置 。根据最短路径原则进行分割 , 最后通过语言模型提高准确率。 符。 文献[ 3 】 提 出首先根据 文本 字符 的形状 、 占有 比率 、 密度 等文本 3 . 4文本识别 。该环节所做的是将 图像 中的文本 区域转化为字 字符识别中 , 在文本字符字体一致的前 提下 , 可以使用简单 的 特征对决策树进行训练, 然后使用训练后的决策树过滤原始图像 , 符 串。 反之可 以使 用无监督 学习方法 , 特征 过滤后得到的像素点组成连通域, 使用以层次聚类算法为核心的多 分类器 和文本特征进行识别 , 区分池方法 、 图像矫正算法或者可变模来矫正字符 。 向链 中用决策树验 证连通域 。 2 . 2综合法 。 综合法 的核心是字符分类响应 , 关键是共享检测识 4 评 估 效 果 在I C D A R’ 0 3竞赛 中 ,基于笔 画宽度 的文本方法在场 景文本检 别模 型。 通过训练带有梯度方向直方图和近邻取样分类器 的字符模 C D A R’ 1 1的场景文本竞赛 中 , 基于最 型, 使 用多尺度 移动窗 口分类法来 获得字符 响应 , 通过非极大 值抑 测 中取得 了很好 的效果 。在 I 制方 法定 位候 选字符。将候 选字符和字符 的位置作 为输入 , 在词典 大稳定极值 区域的检测方法 和学习过 的连通域 分析模型取 得 了不 错 的效果 。在 I C D A R ’ 1 3 的场景文本竞赛 中 , 基于最大稳定极值 区 中找到一个 最佳的匹配字。 文献[ 4 ] 提出将无监督特征学习方法与卷积神经网络结合的方 域和多种文本特征 的识别方法取得 了不错的成绩。 5 结 论 法 。使用 基于滑动窗 口字符 分类 法的卷积神经 网络 , 得到相应的字 本文描述 了图像 中文本检测 和识别相 关的问题 , 它分析 了目前 符 响应 , 从而确定候选文本行 的位置 。接着将带 有字符间距的字符 常用 的方法 , 根据不 同标准进行分类 , 并且 阐明 了最具代 表性方法 响应 和使用定 向搜 索算 法的词典相配合进行单词识别 。 2 . 3方法论对 比。 分步法运用粗到精的策略 , 在粗定位环节能过 的效果 。 参考文献 滤掉大部分背景可 以保证计算效 率。整合法优化检测和识别环节 , 降低背景 和低分辨率造成 的影响 。 [ 1 ] Q Y e , D D o e r ma n n T e x t D e t e c t i o n a n d R e c o g n i t i o n i n I ma g e r y :

视频图像中的文字提取技术论文

视频图像中的文字提取技术论文
上海交通大学硕士学位论文
摘要
视频图像中的文字提取技术研究
摘 要
视频中的文本为描述视频内容提供了十分有用的信息, 对于构建 基于内容的多媒体检索系统具有重要作用。因此,有效地提取和识别 这些文字对于图像理解、视频内容分析、基于内容的图像和视频检索 等领域具有重要意义。 目前商业的OCR技术对于二值图像中文字的提取识别已经趋于成 熟,但视频中的文字具有分辨率低、背景复杂、文字形态差异大等特 点,这给视频中文字的有效提取带来了极大的挑战,限制了OCR技术 的成功应用。针对这些问题,本文主要围绕如何充分利用文字的各种 特性,更鲁棒地从复杂背景图像中提取出文字进行了研究,具体研究 了文字区域检测、文字恢复、文字分割这三部分的算法。 在视频文字检测方面, 本文提出了一种基于线条分类的视频文字 检测算法。首先利用 Canny 算子对图像进行边缘检测,然后根据文字 边缘线条的特征,过滤非字符的边缘线条,并利用文字线条区域的相 似性,设置综合阈值,得到最终的文字区域。该算法在边缘检测的基 础上, 有效地利用了文字本身的结构特征和文字笔画的线条特征对文 字区域进行判别,在获得较高查全率的同时大大降低了虚警,而且对 不规则排列及发生形变的文字也能够准确定位,并对光照、阴影等条
1

义。例如,在新闻视频中检测到的字幕文字,不仅可以为新闻故事单元切分提供 时间标志,还能够为新闻事件内容的理解提供直接的语义特征;在体育视频中, 比赛中出现的比分、运动员号码等文字信息对于自动体育视频内容分析,精彩事 件检测也具有重要的作用。因此,若能准确地将这些文字信息检测出来,并进行 处理,使之能够被传统的 OCR 软件识别并被转化成为机器内码,这样就可以用类 似文本检索的“关键字”查询方法,对视频片断进行快速有效的查询,并对其内 容 进 行 理 解 和 分 析 。 图 像 文 字 提 取 与 识 别 (image text extraction and recognition)就是将这些文字提取出来,经过识别转化为纯文本的过程[3]。 图像文字的识别可以借助于现有的 OCR 技术。OCR 技术以自动识别二维点阵 字符并将其转换为纯文本为目标,经过数十年的发展己经相当成熟,被广泛用于 文档扫描。然而,与文档不同的是,嵌入在图像和视频中的文字通常都带有复杂 的背景,而且文字出现的位置未知,在没有去除背景和二值化之前,现有的 OCR 系统难以识别出字符, 因而在提交给 OCR 系统之前都必不可少地需要一个文字提 取(text extraction)的过程[4]。这样,如何从复杂背景中提取出图像文字就成 为以文字为线索来理解和检索图像和视频内容的一个关键任务。

如何应用计算机视觉技术进行视频分割与标注

如何应用计算机视觉技术进行视频分割与标注

如何应用计算机视觉技术进行视频分割与标注视频分割与标注是计算机视觉技术的重要应用之一。

通过视频分割与标注,可以将视频中的物体或场景进行分割,并进行详细的标注,为后续的视频处理和分析提供基础。

本文将介绍如何应用计算机视觉技术进行视频分割与标注,并探讨其在各个领域的应用。

首先,我们来了解一下视频分割与标注的基本概念。

视频分割是指将视频序列按照时间和空间的特征进行划分,将其分割成不同的区域或物体。

而视频标注则是对视频中的每个区域或物体进行详细的描述和标记,例如位置、形状、颜色等信息。

计算机视觉技术在视频分割和标注中发挥关键作用。

首先,视频分割可以通过计算机视觉技术中的目标检测、图像分割和实例分割算法实现。

目标检测算法可以在视频中识别出感兴趣的物体,图像分割算法可以将图像中的像素划分成不同的区域,而实例分割算法则可以将图像中的每个物体都分割出来。

然后,通过对分割结果进行标注,可以为每个区域或物体赋予相应的标签和属性。

在实际应用中,视频分割与标注可以应用在许多领域。

首先是视频编辑和剪辑领域。

通过对视频进行分割和标注,可以方便地对视频进行剪辑和处理,去除不需要的部分或者合并不同视频段落。

其次是视频监控和安防领域。

通过对监控视频进行分割和标注,可以准确地检测和识别出监控区域中的物体或人员,实现智能化的监控和报警系统。

此外,视频分割与标注还可以应用在医学影像分析、交通监管、智能驾驶等领域。

针对视频分割与标注的具体实现,可以采用多种计算机视觉技术和算法。

首先是目标检测算法,如基于深度学习的目标检测算法YOLO、Faster R-CNN等。

这些算法可以在视频中实时检测出多个物体并跟踪它们的位置。

其次是图像分割算法,如GrabCut、MeanShift等。

这些算法可以将图像中的像素进行分割,形成感兴趣的区域。

最后是实例分割算法,如Mask R-CNN。

该算法不仅可以分割出物体,还可以准确地标记出物体的轮廓和边界。

此外,视频分割与标注还可以结合其他计算机视觉技术进行进一步的处理和分析。

基于分层块过滤和笔划特征的场景文字提取方法

基于分层块过滤和笔划特征的场景文字提取方法
( colfC m ue Si c, ua nvrt,h nh i 0 4 3 C ia Sho o p t c neF d nU i sy Sa g a 0 3 , hn ) o r e ei 2
Ab t a t sr c S e e tx o ti si o a t e n i if r t n o c n g s o i wi e h l f l o o tn n lss r w ig a d r — c n e t n an mp  ̄ n ma t n o ma i f e e i e .S t l b e p u r n e ta ay i ,b o sn n e c s c o s ma l f c
S CENE EXT E T XTRACTI oN ETH oD M BAS ED oN E HI RARCHI CAL BLo CK I F LTE NG RI AND T S RoKE F EATURES
B iHo ge Jn C e g a n fi i h n
tiv l fte s e e i g h n t e e r ig t x no main i e ta t d f m t h c n e te ta t n meh d p o o e h sp p ri r a c n ma e w e h me gn e ti fr t s x rc e r i e o h o o .T e s e e tx x r ci t o r p s d i t i a e o n s i u h a wa h ti a o t i rr h c lb o k f trn t o o g n r t c n e t r go s f s y f t r g t e b c g o n n df r n n s c y t a t d p s h e ac ia lc l i g meh d t e e ae s e e tx e in rt b l i h a k r u d o i e e t i e i i en f s ae a e n e g e e t g,atrt a ,t e a g e ae e t e in i ee e u e h ia ie e me tt n a c r i g t t k e tr s c l sb s d o d e d tc i n f t h g r g td tx go s w l b x c t d t eb n rz d s g n ai c o d n sr ef au e e h r l o o o

基于特征点的电影字幕提取

基于特征点的电影字幕提取

从图 5 中可以看出ꎬ ORB 特征点检测算法
检测字幕帧后ꎬ字幕区域的特征点比其他区域的
特征点更密集. 其他区域的特征点将会干扰字幕
定位ꎬ需要对特征点进一步筛选.
3 2 启发式规则筛选定位
去除字幕帧中字幕区域外的特征点的方法
of GaussianꎬDOG) ꎬ独立、可靠的二进制基础特
是将包含特征点的字幕帧进行二值化ꎬ并进行形


的像素行ꎬ 删除距下边缘 h 个像素点的像素
50
行. 其中:w 代表字幕候选帧的宽ꎻh 代表字幕候
选帧的高. 由于一般的字幕笔画都比较多ꎬ所以ꎬ
如果字幕出现和消失时ꎬ其字幕区域的像素变化
会很集中ꎬ当密度超过一定阈值时判定此区域含
有字幕. 用式(2) 计算固定区域像素密度:
I( t) =
图 2 字幕帧
影视频中的目标出现运动时ꎬ相邻两帧图像之间
会出现较为明显的差别ꎬ将两帧相减以求得图像
对应位置像素值差的绝对值ꎬ判断其是否大于某
一阈值ꎬ进而提取具有运动特性的字幕候选帧.
D( iꎬj) =
{
1ꎬ if | I( t) - I( t - 1) | > yꎬ
0ꎬ ot) 为连续两帧之间的差分图像各像素
充ꎬ互相影响ꎬ在一种特征对文本不敏感的情况
的纹理ꎬ运用基于曲率和纹理特征技术可以检测
下ꎬ另一种特征可以补充文本提取的不足ꎬ提高
到丰富的特征点ꎬ而其他区域相对较少ꎬ利用特
了文本的定位效率和文本分割的准确度.
征点检测技术可以检测到字幕区域内密集的特
本文算法的特点是运用帧间差分算法提取
字幕帧后ꎬ在字幕定位阶段融合了文本的空间特
特征点检测技术、启发式筛选、形态学处理等方法定位字幕ꎬ对准确定位的文本区域通过颜色聚类

基于笔划提取和合并的离线手写体汉字字符切分算法

基于笔划提取和合并的离线手写体汉字字符切分算法
维普资讯
第 3 卷第 1 1 期
Vo . l . 1 3 NO 1
红 外 与 激 光 工 程
I r r d a d La e gi e i g nfa e n s r En ne rn
20 0 2年 2月
Fe . 0 b 2 02
t h i v r fe t e f ro fl e h n wrte i e e c a a t r s g i m s e y e f ei o f i a d i n Ch n s h r c e e me t to . t v n t n a i n
Ke r s y wo d :
Z AO i g H Yum n . J ANG Xig z i S n —e I n h, HIPe g fi
I t: eo ma ePr e sn & Pa tr c g iin nsiut fI g ocs ig te n Re o nto ,Sh n h iJa t g Un v riy S a g a 0 0 C.(h  ̄) a g a !oon ie st h n h i 0 3 2 Th a
碹 _藕 目期 :0 i 62 I 修订 日 : 0 91 2 0 0 8 期 2 1 2 0 0 作者罅忭{ 赵字明( 0 8 . . 1 6一 女 瑚北武汉市^ , ) 博士 . 主要从事图像处理 与模式识别的研究 工作 , 研究方向为文本识别、 信息安生
H a d i e i e e c a a t rs g n wr t n Ch n s h r c e e me t t n Of— n i e e c a a t r t n ai ; o fl e Ch n s h r c e i r c g ii n; S r e o h n s h r c e s e o nt o tok fc i e e c a a t r ; S r k o n i g b x t o e b u dn o

用小波变换及颜色聚类提取的视频图像内中文字幕

用小波变换及颜色聚类提取的视频图像内中文字幕

用小波变换及颜色聚类提取的视频图像内中文字幕
黄晓东;周源华
【期刊名称】《计算机工程》
【年(卷),期】2003(029)001
【摘要】提取文字信息是基于内容的视频检索中重要内容.该文综合应用小波变换技术和颜色聚类技术提取含有中文字幕的视频图像的文字,并利用印刷中文字体特点进行噪音处理得到完整清晰的字幕文字.在进行颜色聚类时,该文提出一种8邻域颜色聚类方法,充分利用图像像素的空间相关性,使聚类具有较好的鲁棒性.实验结果表明这是一个有效的中文字幕文字的提取方法.
【总页数】3页(P43-44,135)
【作者】黄晓东;周源华
【作者单位】上海交通大学图像通信和信息处理研究所,上海,200030;上海交通大学图像通信和信息处理研究所,上海,200030
【正文语种】中文
【中图分类】TP391.4
【相关文献】
1.基于K-means颜色聚类分割与边缘检测的文字提取 [J], 吴春法;潘亚文;王敬
2.基于敏感点颜色聚类和行聚类筛选的文本提取 [J], 刘琼;周慧灿;王耀南
3.一种新的维吾尔文字幕关键帧提取方法 [J], 闫轲;哈力旦·阿布都热依木;李敏强
4.基于纹理滤波和颜色聚类的提花织物纹样自动提取方法 [J], 傅艺扬; 刘妹琴; 樊臻; 张森林
5.空间颜色聚类算法及其在图像特征提取中的应用 [J], 李健; 姜楠; 宝音巴特; 张帆; 张伟健; 王薇
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

—193—基于笔画提取和颜色模型的视频文字分割算法程 豪1,黄 磊2,刘金刚1(1. 首都师范大学计算机科学联合研究院,北京 100037;2. 中国科学院自动化研究所,北京 100080)摘 要:提出综合利用视频文字时空、笔画、颜色和几何特征的文字分割算法,快速准确地从复杂背景的视频图像中分割出文字。

利用多帧融合进行图像增强,基于笔画宽度特征,使用笔画特征算子提取文字笔画,根据笔画图标注的文字区域建立颜色模型,提取文字颜色层,并用改进的连通域分析法去除文字颜色层中的同色背景和噪声。

实验结果表明,该算法比传统算法能更好解决复杂背景的视频文字分割 问题。

关键词:视频文字识别;视频文字分割;笔画提取;颜色建模Video Text Segmentation Algorithm Based onStroke Extraction and Color ModelCHENG Hao 1, HUANG Lei 2, LIU Jin-gang 1(1. Join Faculty of Computer Scientific Research, Capital Normal University, Beijing 100037;2. Institute of Automation, Chinese Academy of Sciences, Beijing 100080)【Abstract 】This paper presents a segmentation algorithm which comprehensively utilizes various attributes of video texts, such as temporal and spatial, strokes, color, geometric. The algorithm uses multi-frame integration to enhance the images, performs the stroke operator to extract the character strokes based on the feature of the stroke width, analyses the color of the character strokes according to the stroke image and extracts the color layer of the character, removes the background with the same color and noises in the color layer of the character by the improved connected components analysis. Experimental results indicate that the proposed algorithm preferably solves the text segmentation problem which involves in a complex background, and its performance precedes that of the traditional method. 【Key words 】video OCR; video text segmentation; stroke extraction; color modeling计 算 机 工 程Computer Engineering第35卷 第4期Vol.35 No.4 2009年2月February 2009·人工智能及识别技术· 文章编号:1000—3428(2009)04—0193—03文献标识码:A中图分类号:TP3911 概述视频中的文字作为一种高级语义特征,对视频内容的理解、索引具有重要作用,但视频图像分辨率不高、视频中的文本背景复杂,给视频文字的检测和分割带来了困难。

传统的OCR 系统只接受二值化的文本图像,从视频的复杂背景中准确地分割出字符,是视频文字识别研究的重要技术之一。

关于文字分割的方法可分为以下3类:(1)基于阈值的方法:文献[1]利用局部阈值来去除背景和噪声,得到二值化的图像。

基于颜色阈值的方法来源于灰度成双峰分布的文档图像分析,但在处理背景复杂的视频文字图像时,该类方法失效。

(2)基于颜色模型的方法:文献[2]为图像的文字灰度建立一个高斯混合模型,用基于马尔科夫随机场的方法确定每个像素所属的高斯项,从而达到分割的目的。

该类方法中颜色模型的建立依赖于样本点的选取,在复杂的背景中不易分析出文字的颜色分布。

(3)基于连通体分析的方法:文献[3]利用连通体的拆分合并来分割文字。

在拆分阶段,输入图像被拆分成一系列的连通分量并进行过滤;在合并阶段,连通分量通过动态聚类进行合并。

该类方法的不足是较低的图像分辨率和较高的图像噪声会影响连通体分析的结果。

目前各类方法大多只选择颜色、笔画、连通体等单一方面特征实现文本分割,本文提出的算法综合利用视频文字的时空特性、笔画、颜色、几何特征,实现了不同特征在分割过程中的有效互补,并且对其中某些步骤做一些有效的改进。

算法利用多帧信息增强图像,使用笔画算子提取笔画信息,根据笔画区域像素建立颜色模型,并用改进的连通体分析方法取除噪声。

2 算法描述图1 算法框架基金项目:国家“863”计划基金资助项目(2007AA01Z174) 作者简介:程 豪(1981-),女,硕士研究生,主研方向:图像处理,视频文字识别;黄 磊,副研究员;刘金刚,博士生导师 收稿日期:2008-03-25 E-mail :chenghao05@—194— 用文献[4]的方法对视频文字进行定位和跟踪,在跟踪过程中,对每一个文本对象建立文本区域链,文本区域链表示同一文本在连续视频帧内的不同出现。

过程中各步骤分别利用了文字不同特征属性:(1)利用文字的时空特性增强图像;(2)利用文字笔画特征提取文字笔画图;(3)利用文字颜色特征提取文字颜色层;(4)利用文字几何属性,分析连通体去除同色背景和多余噪声。

2.1 多帧图像的融合增强视频文字一般具有下述时空特性:(1)文字通常跨越若干帧,甚至若干镜头;(2)文字存在时,不同帧之间背景变化可能很大,但字幕所在区域的亮度和颜色变化不大。

文本区域链记录了一个文本对象的不同出现,视频文字的冗余信息和时空特性,为增强图像和去除复杂背景提供了可能。

对一个文本区域链各位图对应像素点在时域上分别计算多帧融合的均值图,最小值图和最大值图,如图2(a)~ 图2(c)所示。

综合利用上述各图,根据图中每个像素在时间域上的灰度变化范围来决定对该像素采用何种方式增强。

图像增强的主要步骤如下:(1)确定文本的极性文字的极性指文本图像是属于正向文本(亮底暗字)还是反向文本(暗底亮字)。

选择多帧平均图,通过比较文本框的中心四行和边缘上下各2行的平均像素亮度来判断。

(2)计算增强图最大值图和最小值图表示了每个像素在时域上变化的上下界。

将最大值图与最小值图对应像素相减,所得的差值图则反映了变化范围,如图2(d)所示,可见文字区域像素变化较小,部分非文字区域像素变化范围较大。

将差值图作为选择何种方式增强的依据:像素变化范围小于阈值T 的区域选取平均图对应点,变化范围大于阈值T 的区域正(负)向文本选取最大(小)值图对应点。

图2(e)是上例负向文本的增强图。

(a)均值图 (b)最大值图 (c)最小值图(d)差值图 (e)增强图图2 图像增强(3)尺度归一化文本分割是为下一步文字识别做准备。

为了在标准OCR 上取得好的效果,将要处理的文本行(列) 固定高宽比地放缩到高(宽)为80像素。

2.2 文字区域的笔画特征对于背景变化不大的文本区域链,多帧融合的方法并不能完全简化背景。

在复杂背景中提取文字,须将这个问题转化为在图片中抽取文字的笔画信息。

文字笔画具有下述特性:(1)为方便阅读,文字笔画颜色与背景颜色通常存在较大的色差;(2)文字笔画可视为小于某一宽度上限的双边结构;(3)文字的笔画以0, π/4, π/2, 3π/4这4个方向为主。

基于上述文字笔画的特性,本文利用文献[5]中提出的笔画算子来生成笔画图。

文字笔画提取过程选择多帧增强图像作为处理对象,若为负向文本则对其进行反色处理,统一变为正向文本。

在正向文本中,方向笔画强度的计算公式为11()max {min{(),()}}()W d i d d DE p f p i f p W i f p +−==−+−− (1)()if ()0()0otherwise ++dd d DE p DE p DE p =⎧>⎪⎨⎪⎩(2) 其中,d=0, 1, 2, 3分别代表笔画最常见的0, π/4, π/2, 3π/4 4个方向,W 为笔画宽度上限;()d f p i +表示d 方向上与点p 距离为i 的点的像素灰度值。

笔画特征图定义为4个方向笔画特征的最大值,如图3(b)所示,用公式表示为30()Max {()};W d d DE p DE p == (3)对笔画特征图的二值化,采用Otsu 方法求得最佳阈值T ,得到二值笔画图,如图3(c)所示。

if ()_()255otherwiseDE p T Bina DE p >⎧=⎨⎩(4)(a)原始图(b)笔画特征图(c)二值笔画图 图3 笔画提取 将原始图像转换成笔画特征图,可检测到图像中笔画宽度小于W 限制的连通体。

笔画特征图中笔画较稀疏的文字区域均可获得较好效果。

但其不足之处在于:对笔画密集的区域,看不出明显的双边结构,笔画提取方法在该区域失效。

因此,仅依赖笔画算子的方法不能得到理想的文字分割结果,但笔画图获得大量可靠的笔画信息将在下文发挥作用。

2.3 文字区域的颜色特征颜色信息在分辨文字和背景时起重要作用。

在同一文本行内,文字区域通常具有较为均一的颜色。

因此,准确分析出文字像素的颜色及分布在文字分割过程中非常关键。

图3(c)标注了图像中绝大部分文字区域。

根据二值笔画图已标注的文字笔画区域,将其映射回原始图像能获得大部分可靠的笔画像素,据此对笔画图的标注区域建立文字的颜色模型。

由于颜色建模基于大量真实可靠的笔画像素,简单的颜色模型即可达到理想的效果,步骤如下:(1)用Gauss 分布拟合文字像素颜色的分布,建立文字区域的颜色模型。

计算二值笔画图标注区域对应原图像素颜色的均值mean 和标准差std 。

若文字颜色均一,则std 值较小。

(2)利用文字像素的颜色模型,提取文字像素所在的颜色层,将颜色处于[,]D mean k std mean k std =−⋅+⋅(k 为系数,一般取值为1~2)区间的像素点置为文字,其他置为背景,计算公式为if ()_()255otherwiseEnhance p D Layer img p ∈⎧=⎨⎩ (5)提取文字所在的颜色层(见图4)后,原笔画算子失效的笔画区域全部提取出来,但与文字颜色相似的背景区域也同时被提取出来。

相关文档
最新文档