自然场景图像文字检测研究综述

合集下载

自然场景图像中文本检测技术研究

自然场景图像中文本检测技术探究关键词：自然场景图像；文本检测；图像分割；特征提取；文本识别一、引言随着计算机视觉领域的不息进步和技术的不息进步，自然场景图像中的文本检测技术已经逐渐成为了该领域探究的热点之一，因为自然场景中的文字往往存在于各种复杂背景中，同时文字的外形、大小、颜色等也具有极大的多样性，因此，如何准确地检测出自然场景图像中的文本一直是该领域探究的难点之一。

二、自然场景图像中文本检测技术的探究进展1. 图像分割自然场景图像中的文本检测起首需要进行图像分割，也就是将整幅图像划分成不同的区域，以便于对文本区域的提取。

目前，常用的图像分割方法有基于颜色的分割、基于纹理的分割、基于边缘的分割等。

2. 特征提取对于自然场景图像中的文本区域的提取，需要使用一些特征来描述这些文本区域，并将其与其他区域进行区分。

常用的特征包括颜色、纹理、外形等。

3. 文本定位在提取出文本区域后，需要确定这些区域的详尽位置。

目前，常用的文本定位方法有基于连通性的方法、基于投影的方法、基于边缘的方法等。

4. 文本识别文本识别是自然场景图像中的重要任务之一。

对于提取出的文本区域，需要使用一些识别算法对其进行识别，目前，常用的文本识别算法有基于神经网络的方法、基于统计进修的方法、基于规则的方法等。

三、自然场景图像中文本检测技术存在的问题和将来的进步方向1. 存在的问题自然场景图像中的文本检测任务存在一些问题。

例如，文本区域的外形、大小、颜色等具有极大的多样性，同时背景噪声也很大，这导致了检测精度较低。

此外，浩繁现有的文本检测算法并不能很好地应用于大规模数据。

2. 将来的进步方向随着计算机视觉技术的不息进步，自然场景图像中文本检测领域依旧有很大的进步空间。

将来，探究人员可以从以下几个方面进行探究和探究：起首是改进目前的文本检测算法，提高其检测精度和稳定性。

其次，可以探究新的特征提取方法和识别算法，以提高对文本区域的准确提取和识别。

基于深度学习的自然场景文本识别研究

基于深度学习的自然场景文本识别研究随着科技的不断发展，人工智能已经成为了一个热门的领域。

其中，深度学习则是目前最为热门的一个子领域，它已经在计算机视觉、自然语言处理等领域取得了极大的成功。

在自然场景文本识别方面，深度学习也有着广泛的应用，本文将从深度学习的角度探讨自然场景文本识别的研究和进展。

一、自然场景文本识别的概述自然场景文本识别简称为OCR（Optical Character Recognition），它是指将场景中的文本转换成计算机可识别的字符的技术。

它的应用广泛，比如身份证、驾驶证、车牌号码等都是OCR的应用场景。

自然场景文本具有多样性和复杂性，其分辨率、字体、布局、摆放位置等方面都有着较大的差异性。

这给OCR技术的识别带来了极大的挑战。

此外，自然场景文本通常伴随着各种噪声，如光照等，还存在文本曲线、仿射变换、遮挡等问题。

二、基于深度学习的自然场景文本识别方法1、字符切割和识别早期的OCR系统在识别时是通过字符切割的方法。

但是字符切割方法需要先将字符从图像中分离出来才能进行识别，而且因为各种噪声和复杂场景的存在，字符之间可能会发生重叠、交叉等现象，导致切割错误。

近年来，基于深度学习的OCR方法受到了广泛的关注和研究。

深度学习可以通过自主学习更好的学习图片和字符之间的关系，避免字符切割的问题。

这种技术又称为端到端OCR，代表性的方法有CRNN、CTPN等。

这些方法通常使用卷积神经网络（CNN）和循环神经网络（RNN）组成，将字符的识别和定位合并起来。

这些方法可以进行多尺度的文本检测和字符识别，且可以处理复杂的场景，如自然场景、多角度文本等。

2、检测技术检测技术是识别自然场景文本的重要步骤。

自然场景文本通常与其他物体的连接、缩放、旋转有关，与角度和光照等相关。

因此，检测技术需要具有良好的鲁棒性和准确性。

目前，基于深度学习的文本检测方法已经达到了较高的水平。

基于卷积神经网络（CNN）的文本检测算法，如SSD、Faster-RCNN、YOLO等，并且在自然场景文本检测任务上也获得了良好的效果与推广。

基于深度学习的自然场景文本识别技术研究

基于深度学习的自然场景文本识别技术研究一、引言随着社会的发展，人们生活中越来越多的场景需要用文字来表达信息，但有些场景比如照片、视频等，存在文字信息，但并不能直接被机器识别。

自然场景中的文本识别技术因为其数据来源广泛、应用场景丰富，已经成为研究的热点之一。

而深度学习技术的发展为自然场景文本识别提供了技术支撑。

在本文中，我们将阐述基于深度学习的自然场景文本识别技术的研究现状、进展以及未来趋势。

二、自然场景文字识别技术前景分析当前社会，存在大量需要进行文本识别的应用场景，比如图书馆、博物馆、商场门头、道路标识、车牌识别、手写体文字识别、物联网感知等。

这些场景中需要识别的文本有一定的特点，如字体不固定，字迹不明显，文本区域不规则，甚至背景杂乱。

传统的机器学习方法对此很难实现较好的识别效果，而深度学习技术可以较好地处理这些问题。

三、基于深度学习的自然场景文本识别技术研究现状随着深度学习技术的发展，基于深度学习的自然场景文本识别技术也取得了长足的进步。

1. 文本检测文本检测是自然场景文本识别的前置技术，其主要任务是从背景图像中提取文本区域，然后传递给下游的字符识别算法进行进一步处理。

目前，基于深度学习的文本检测方法主要有基于回归的方法和基于检测的方法。

在基于回归的方法中，主要采用回归卷积神经网络，通过回归文本框位置来实现文本检测。

在基于检测的方法中，主要采用融合多个尺度的全卷积网络和自然场景文本检测技术实现文本检测。

这些方法在自然场景下的文本检测上可以达到较好的效果。

2. 字符识别在文本检测完成后，下一步需要进行的是字符识别。

字符识别技术主要是通过对文本区域中的字符进行分割、预处理和识别，来获取文本信息。

深度学习技术在字符识别方面的表现也非常出色，主要采用基于卷积神经网络（CNN）和长短时记忆网络（LSTM）的方法。

这些方法在单字、行文本和多行文本识别等方面效果较好，已经在多个应用领域得到了广泛应用。

四、深度学习技术在自然场景文本识别中的应用研究1. 手写体文字识别深度学习技术在手写体文字识别方面已经取得了显著的成果。

基于深度学习的自然场景文字识别技术研究

基于深度学习的自然场景文字识别技术研究在我们的日常生活中，我们经常会看到各种各样的文字，如路标、广告牌、菜单等等。

这些文字信息可以传递给我们重要的信息，但是对于那些无法读取文本的设备或者人类，这些信息可能是不可用的。

在过去，针对这个问题的解决方案是通过光学字符识别（OCR）技术将可用的文本转化为数字形式的文本，以便于机器更好地理解和使用它。

然而，即使是最先进的OCR技术，对于复杂的自然场景仍然存在识别错误和局限性。

例如，当文字被覆盖、模糊、歪曲或者被重叠在一起时，OCR的准确率可能会大大降低。

近些年来，基于深度学习的自然场景文本识别技术得到了极大的发展，并且取得了越来越好的表现，这种新兴技术已经在多个领域应用。

主要针对的问题是针对于自然图像中的图表元素与文本识别的难题，实现了深度学习算法与自然图像识别的融合。

首先，为了很好地理解深度学习技术的应用，需要了解一下深度学习的概念。

深度学习是一种人工智能的分支，它使用机器学习算法对输入数据进行分析和挖掘，从而识别出模式和特征。

深度学习的主要特征是具有多层神经元，这意味着它可以更好地学习、更好地理解和分类图像等。

对于自然场景的文字识别问题，深度学习技术能够处理非线性操作，同时，由于记忆的神经网络结构更加复杂，可以更好地学习和识别复杂的自然场景中的文本。

在深度学习技术方面，最著名的是卷积神经网络(ConvNets)和递归神经网络(RecNets)，这两只神经网络结合起来可以对图像中的文本信息和特征进行处理，将它们转化为机器可以理解的形式，从而提高识别的准确率。

在实际应用中，深度学习技术在自然场景文本识别方面取得了很好的效果。

例如，深度学习技术可以帮助自然场景文本识别系统识别曲线或倾斜的文本，这具有相当重要的意义。

通常，这样的文本是难以通过传统OCR技术识别的，但是通过训练深度学习模型，可以有效地识别这些文本，提高精度。

此外，深度学习还可以胜任自然场景文字识别系统中的其他任务，如文本定位、文本分割、字符识别等。

基于深度学习的自然场景文字检测算法研究

基于深度学习的自然场景文字检测算法研究摘要：自然场景文字检测是计算机视觉领域中重要的研究方向之一，具有广泛的应用前景。

传统的自然场景文字检测算法存在许多问题，例如对不同的形状、大小、颜色的文字无法进行有效检测等。

本文基于深度学习技术，提出了一种自然场景文字检测算法。

首先采用图像处理方法进行图像的预处理，然后利用卷积神经网络从预处理的图像中提取特征，再通过多尺度深度卷积神经网络对特征进行分类和定位。

实验结果表明，该算法具有较高的检测精度和鲁棒性，可以在不同场景下进行文字检测。

关键词：深度学习，自然场景文字检测，卷积神经网络，多尺度特征提取，分类和定位一、引言随着信息技术的飞速发展，图像和视频数据的产生量不断增加，其中包含着大量的自然场景文字信息，例如街景中的店铺招牌、公共场所中的标志牌等。

这些自然场景文字包含着丰富的语义信息，可以为人们提供实时和准确的服务。

因此，自然场景文字检测成为计算机视觉领域中研究的热点之一。

自然场景文字检测技术可以广泛应用于智能交通、文本识别、广告投放、安防监控等领域。

自然场景中的文字具有多样化的形状、颜色、大小等特征，这给文字检测带来了巨大的挑战。

传统的自然场景文字检测算法主要基于图像处理和特征提取等方法，例如边缘检测、颜色空间变换、滑动窗口检测等。

然而，这些方法无法有效处理复杂的自然场景图像，检测精度不高。

近年来，随着深度学习技术的发展，基于深度学习的自然场景文字检测算法受到广泛关注。

深度学习算法具有良好的特征表示能力和泛化能力，可以自动学习到图像中的重要特征，提高自然场景文字检测的精度和鲁棒性。

本文基于深度学习技术，提出了一种自然场景文字检测算法。

实验结果表明，该算法具有较高的检测精度和鲁棒性，可以在不同场景下进行文字检测。

二、研究内容1. 图像预处理自然场景中的文字具有多样化的形状、颜色、大小等特征，这对文字检测带来了巨大的挑战。

计算机视觉技术中的文本检测与识别方法综述

计算机视觉技术中的文本检测与识别方法综述计算机视觉技术的发展使得计算机能够理解和处理图像中的信息。

文本检测与识别作为计算机视觉的重要分支之一，在图像处理领域发挥着重要作用。

本文将综述计算机视觉技术中的文本检测与识别方法，探讨它们的应用、挑战和发展趋势。

一、背景介绍文本在图像中广泛存在于各种场景，如街景图像中的路牌、卫星图像中的标志等。

文本检测与识别的目标是从图像中准确地定位和识别出文本。

这项技术在自动驾驶、图像搜索、安全监控等领域具有广泛的应用前景。

二、文本检测方法1. 基于自然场景文本检测自然场景文本检测旨在从自然图片中准确地定位和识别出文本。

常用的方法包括基于图像特征的方法和基于深度学习的方法。

前者利用纹理、颜色和形状等图像特征来检测文本，后者通过训练深度学习模型来实现文本检测。

2. 基于场景文本检测场景文本检测是指从复杂背景中准确地定位和识别出文本。

这种文本往往存在于带有复杂背景和噪声的图像中，如商店招牌、海报等。

常见的方法包括边缘检测、角点检测和连通区域检测等。

三、文本识别方法1. 光学字符识别（OCR）光学字符识别是指将图像中的字符转化为可编辑和可搜索的文本。

OCR技术的核心是字符分割和字符识别两个步骤。

字符分割是将文本图像中的字符分离出来，字符识别是将分离后的字符识别为对应的文本。

2. 基于深度学习的文本识别基于深度学习的文本识别是近年来的研究热点。

这种方法将文本识别任务转化为序列识别问题，通过训练深度学习模型来实现文本识别。

这些模型通常由卷积神经网络和循环神经网络组成，能够对不同尺度的文本进行准确的识别。

四、应用与挑战文本检测与识别技术在许多领域都有广泛的应用，如自动驾驶、智能安防和图像检索等。

这些应用对文本检测与识别的准确性和实时性提出了更高的要求。

然而，文本检测与识别面临着一些挑战。

首先，场景中的光线、角度和遮挡等因素会对文本的检测和识别造成影响。

其次，文本的多样性也增加了任务的难度，如各种字体、大小和方向等。

基于深度学习的自然场景文本识别与分析技术研究

基于深度学习的自然场景文本识别与分析技术研究自然场景文本识别与分析技术是近年来深度学习领域的热门研究方向之一。

随着计算机视觉和自然语言处理领域的不断发展，对于从自然场景中提取和理解文本信息的需求也越来越迫切。

本文将针对基于深度学习的自然场景文本识别与分析技术进行研究和探讨。

自然场景文本识别是指从自然场景图像中提取和识别出存在的文本信息。

与传统的文本识别技术相比，自然场景文本识别面临着更多的挑战，例如复杂的背景干扰、不同光照条件下的光照变化、文本非对称形状等。

而深度学习作为一种能够从大规模数据中学习特征表示的方法，被广泛应用于自然场景文本识别。

深度学习在自然场景文本识别中的应用主要分为两个步骤：文本检测和文本识别。

文本检测任务旨在从图像中定位和检测出存在的文本区域，而文本识别任务则是对检测到的文本区域进行字符识别。

对于文本检测任务，目前主要采用的方法是基于区域的卷积神经网络（Region-based Convolutional Neural Network, R-CNNs）。

这种方法首先借助目标检测网络（如Fast R-CNN或Faster R-CNN）对图像进行区域提取，然后利用回归模型对提取的区域进行精确的边界框定位，最后使用分类模型对是否含有文本进行预测。

在文本识别任务中，传统的方法通常包括字符分割、特征提取和字符识别三个步骤。

然而，由于深度学习在图像特征学习方面的优势，近年来出现了基于深度学习的端到端文本识别方法。

这种方法直接将整张图像作为输入，经过卷积神经网络提取特征，并通过循环神经网络（Recurrent Neural Network, RNN）或注意力机制（Attention Mechanism）来实现字符识别。

然而，尽管深度学习方法在自然场景文本识别中取得了令人瞩目的成果，但仍然存在一些挑战和问题。

首先，深度学习方法对于大规模数据的需求非常高，需要大量标注的文本图像进行训练。

其次，复杂的背景干扰和光照变化等因素对文本识别的准确性产生较大影响。

自然场景中文字定位系统研究综述

收稿日期：２０１８－０４－１１作者简介：季昊龙（１９９４—），男，山东莱芜人，硕士研究生，从事刑事科学技术方向的研究。

自然场景中文字定位系统研究综述季昊龙（中国刑事警察学院声像资料检验技术系，辽宁沈阳　１１００３５）摘要：如今图像成为重要的信息载体，图像中含有大量有价值内容。

文字作为图像的重要内容蕴含了大量的信息，并且文字能够对于自然场景的定位识别提供重要线索。

本文简述了现在使用广泛的ＯＣＲ系统，并且依照不同的文字特征，介绍了三类自然场景文字定位的方法：基于纹理特征方法、基于连通域分析方法和基于边缘特征方法。

目前，国内外大量的研究机构和人员力求开发出高鲁棒性、高召回率的文字识别定位系统。

假如可以实现对这些文字信息的自动定位与识别，为人们生活提供极大的便利。

关键词：图像；文字；自然场景；特征；自动定位；鲁棒性；召回率中图分类号：Ｄ９１８．９文献标识码：Ａ文章编号：１００８－０２１Ｘ（２０１８）１１－００５９－０３ＡＳｕｍｍａｒｙｏｆｔｈｅＲｅｓｅａｒｃｈｏｆＴｅｘｔＬｏｃａｔｉｏｎＳｙｓｔｅｍｉｎＮａｔｕｒａｌＳｃｅｎｅＪｉＨａｏｌｏｎｇ（ＣｒｉｍｉｎａｌＩｎｖｅｓｔｉｇａｔｉｏｎＰｏｌｉｃｅＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎａＴｅｃｈｎｉｃａｌ，ＤｅｐａｒｔｍｅｎｔｏｆＳｏｕｎｄａｎｄＩｍａｇｅＤａｔａＩｎｓｐｅｃｔｉｏｎ，Ｓｈｅｎｙａｎｇ　１１００００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｎｏｗａｄａｙｓ，ｉｍａｇｅｈａｓｂｅｃｏｍｅａｎｉｍｐｏｒｔａｎｔｉｎｆｏｒｍａｔｉｏｎｃａｒｒｉｅｒ，ａｎｄｔｈｅｒｅａｒｅａｌｏｔｏｆｖａｌｕａｂｌｅｃｏｎｔｅｎｔｉｎｔｈｅｉｍａｇｅ．Ｔｅｘｔａｓａｎｉｍｐｏｒｔａｎｔｃｏｎｔｅｎｔｏｆｔｈｅｉｍａｇｅｃｏｎｔａｉｎｓａｌｏｔｏｆｉｎｆｏｒｍａｔｉｏｎ，ａｎｄｔｈｅｔｅｘｔｃａｎｐｒｏｖｉｄｅｉｍｐｏｒｔａｎｔｃｌｕｅｓｆｏｒｔｈｅｌｏｃａｔｉｏｎａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｎａｔｕｒａｌｓｃｅｎｅｓ．ＴｈｉｓｐａｐｅｒｂｒｉｅｆｌｙｄｅｓｃｒｉｂｅｓｔｈｅｗｉｄｅｌｙｕｓｅｄＯＣＲｓｙｓｔｅｍ，ａｎｄｉｎｔｒｏｄｕｃｅｓｔｈｒｅｅｋｉｎｄｓｏｆｍｅｔｈｏｄｓｏｆｔｅｘｔｌｏｃａｌｉｚａｔｉｏｎｂａｓｅｄｏｎｄｉｆｆｅｒｅｎｔｃｈａｒａｃｔｅｒｓ，ｓｕｃｈａｓｔｅｘｔｕｒｅｆｅａｔｕｒｅ，ｃｏｎｎｅｃｔｅｄｄｏｍａｉｎａｎａｌｙｓｉｓａｎｄｅｄｇｅｆｅａｔｕｒｅ．Ａｔｐｒｅｓｅｎｔ，ａｌａｒｇｅｎｕｍｂｅｒｏｆｒｅｓｅａｒｃｈｉｎｓｔｉｔｕｔｉｏｎｓａｎｄｐｅｒｓｏｎｎｅｌａｔｈｏｍｅａｎｄａｂｒｏａｄｓｔｒｉｖｅｔｏｄｅｖｅｌｏｐａｈｉｇｈｒｏｂｕｓｔａｎｄｈｉｇｈｒｅｃａｌｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎａｎｄｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ．Ｉｆｗｅｃａｎｒｅａｌｉｚｅｔｈｅａｕｔｏｍａｔｉｃｐｏｓｉｔｉｏｎｉｎｇａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｔｈｅｓｅｔｅｘｔｉｎｆｏｒｍａｔｉｏｎ，ｉｔｃａｎｐｒｏｖｉｄｅｇｒｅａｔｃｏｎｖｅｎｉｅｎｃｅｆｏｒｐｅｏｐｌｅ＇ｓｌｉｆｅ．Ｋｅｙｗｏｒｄｓ：ｉｍａｇｅ；ｔｅｘｔ；ｎａｔｕｒａｌｓｃｅｎｅ；ｆｅａｔｕｒｅ；ａｕｔｏｍａｔｉｃｐｏｓｉｔｉｏｎｉｎｇ；ｒｏｂｕｓｔｎｅｓｓ；ｒｅｃａｌｌｒａｔｅ１　研究背景和意义图像逐步成为不可或缺的信息载体，这是由于智能手机等数码产品的普及，使得图像的产生越发容易。

【OCR技术系列之五】自然场景文本检测技术综述（CTPN,SegLink,EAST）

【OCR技术系列之五】⾃然场景⽂本检测技术综述（CTPN,SegLink,EAST）⽂字识别分为两个具体步骤：⽂字的检测和⽂字的识别，两者缺⼀不可，尤其是⽂字检测，是识别的前提条件，若⽂字都找不到，那何谈⽂字识别。

今天我们⾸先来谈⼀下当今流⾏的⽂字检测技术有哪些。

⽂本检测不是⼀件简单的任务，尤其是复杂场景下的⽂本检测，⾮常具有挑战性。

⾃然场景下的⽂本检测有如下⼏个难点：⽂本存在多种分布，⽂本排布形式多样；⽂本存在多个⽅向；多种语⾔混合。

我们先从直观上理解⽂本检测任务。

给定⼀张图⽚，我们需要找出这张图⾥⽂字出现的所有位置位置，那这个任务其实跟⽬标检测任务差别不⼤，即找出每个物体在图⽚中的位置，并标出该包围框⾥的物体的类别。

⽽⽂本检测就是，找出每个⽂本在图⽚中出现的位置，因为我们的类别只有2个（有⽂字和没⽂字），看起来就像⼀个简单的单类别⽬标检测的任务，⾃然⽽然我们就会想到⽤经典的⽬标检测⽹络来进⾏⽂本检测，⽐如经典的Faster R-CNN。

Faster RCNNFaster RCNN来做⽂本检测从任务上分析是可⾏的，毕竟⽂本说到底还是⼀个Object。

我们回顾⼀下Faster RCNN做⽬标检测的关键步骤有哪些：1. 基础⽹络做特征提取；2. 特征送⼊RPN做候选框提取；3. 分类层对候选框内物体进⾏分类，回归层对候选框的(x,y,w,h)进⾏精细调整。

Faster RCNN做⽂本检测感觉问题不⼤，但是从效果来看，仅套⽤Faster RCNN来做⽂本检测效果并不好，原因在于，⽂本有⾃⼰独有的特点，这种通⽤的⽂本检测框架并不能很好地解决⽂本的这些特点。

那⽂本有什么特点呢？我总结如下：1. ⽂本⼤多数以长矩形形式存在，即长宽⽐⼀般较⼤或较⼩，这与普通的⽬标检测中的物体不⼀样（这些长宽⽐较接近1）2. 普通物体（⽐如猫）存在明显的闭合边缘轮廓，⽽⽂本没有；3. ⽂本中包含多个⽂字，⽽⽂字之间是有间隔的，如果检测做得不好，我们就会把每个字都当成⽂本⾏给框出来⽽⾮整⾏作为⽂本框，这与我们的期望不⼀样。

文字检测与识别在自然场景中的应用研究

文字检测与识别在自然场景中的应用研究近年来，文字检测与识别技术在自然场景中的应用越来越广泛。

这一技术不仅在智能交通系统、智能安防等领域得到了应用，也在商业广告、防伪溯源等方面展现了巨大的市场潜力。

一、背景介绍随着计算机视觉技术的不断发展，文字检测与识别已成为其中最重要的研究领域之一。

传统的文字识别技术只能在规则、结构化的环境下进行处理，而现实生活中的文字往往是多样化、随机分布的，因此传统的技术无法适应这一需求。

针对这一问题，许多学者逐渐从深度学习的角度出发研究文字检测和识别技术。

二、自然场景文字检测自然场景中的文字检测技术主要涉及两个方面：文字定位和文字分割。

（一）文字定位文字定位是指在图片中找到文字所在的位置。

这一步骤通常分为两个步骤：先生成可能存在文字的区域，再进一步筛选得到准确的文字区域。

常见的文字定位算法有：1. 基于区域的方法：该方法主要基于图像中感兴趣的区域分割，先通过图像分割得到区域再提取区域中的文字信息。

2. 基于检测的方法：该方法主要基于候选框的检测，通过一定的规则和阈值筛选得到候选框，再结合卷积神经网络模型对候选框进行分类，得到最终的文字区域。

（二）文字分割文字分割是指将文字从背景中分离出来。

常见的文字分割算法有：1. 基于像素的方法：该方法通过图像颜色、亮度等属性的变化来分离文字和背景，而且不依赖于先前的预处理。

2. 基于轮廓的方法：该方法利用轮廓提取文字的特征，再利用形态学运算得到文字区域。

三、自然场景文字识别自然场景中的文字识别技术也面临着一些挑战。

主要有以下两个方面：（一）字体多样性实际场景中的文字字体多种多样，有时还会出现文字畸变、模糊等问题。

要想解决这一问题，可以从以下两个方面入手：1.使用更好的特征表示方法：比如说使用针对性更强的局部二值模式（LBP）、方向梯度直方图（HOG）等特征来表示文字。

2.结合深度学习：使用深度学习算法（如卷积神经网络）进行训练，提高对字体多样性的适应能力。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Journal o f C om puter A p p lica tio n s计算机应用，2018, 38( S I):173 -178ISSN 1001-9081CODEN JYIIDU2018-06-15文章编号：1001-9081 (2018) S l-0173-06自然场景图像文字检测研究综述郭芬红”，谢立艳\熊昌镇2(1.北方工业大学理学院，北京100144; 2.城市道路交通智能控制技术北京市重点实验室，北京100144)(*通信作者电子邮箱gu〇fenhong@ 163. com)摘要:文字是图像内容的重要表达，随着基于内容的图像检索技术的发展，复杂场景图像下的文字检测技术越来越受关注，针对此类图像对现有的主流算法进行了详细的研究。

文字检测算法主要包括候选文本区域提取和文本/非文本分类两大核心步骤。

首先，总结了近5年的21种主流算法在公开数据集IC D A R上的文字检测效果，数据显示现有文字检测算法依然存在低召回率的问题，召回率最高为0. 83;其次，对候选文本区域提取和文本/非文本分类两大核心步骤中典型算法的优缺点及存在的问题进行了详细的分析；最后，探讨了文字检测未来的发展趋势，并提出了 4种可能的研究方向。

关键词：文本检测；场景图像;最大稳定极值区域；关键点检测；深度学习中图分类号：TP391.41 文献标志码:AText detection from natural scene image: a surveyGUO Fenhong1, XIE Liyan1, XIONG Changzhen2(1. College of Sciences, North China University of Technology, Beijing100144, China;2. Beijing Key Laboratory of Urban Intelligent Control, Beijing100144, China)Abstract：Text is an im po rtan t expression o f image con tent.W ith the developm ent o f content-based image re trie va l technology,more and more attention has been p a id to the a lgo rithm o f te xt detection fro m n a tu ra l scene im ages.F o r na tura l scene im ages,the m ainstream algorithm s were studied in d e ta il.There are two steps o f text d e te ctio n:extracting candidate regions and cla ssifyin g lo c a l regions.F irs tly,the experim ental results on the open data set IC D A R o f m ainstream te xt detection algorithm s were sum m arized,and the data shows the e xistin g algorithm s have lo w re c a ll rates and the highest re c a ll rate is on ly0.83. Secondly,the advantages and disadvantages in the two steps o f the m ainstream a lgo rithm were discussed,and theproblem s o f these algorithm s were analyzed in d e ta il;F in a lly,the developm ent tre n d o f te xt de tection was discussed and fo u r research areas were proposed.Key words：te xt d e te ctio n;scene im age;M a x im a lly Stable E xtrem al R egion (M S E R);key p o in t d e te ctio n;deep lea rn in go引百随着移动互联技术、多媒体技术的飞速发展，图像、声音和视频等多媒体逐渐成为信息交互的主题，传统的基于关键词的检索已不能满足多元化媒体检索的需求，基于内容的多媒体检索成为人们关注的焦点[1]。

对于一幅图像，文字在很大程度上表达了图像的内容，能帮助人们和计算机更好地识别和理解场景，所以图像文字提取对基于内容的图像检索意义重大。

图像文字提取通常包括文字检测和文字识别两大步骤。

文字检测是在图像中定位文本区域的位置，而文字识别是把检测到的文本区域中的文字识别出来，检测效果将直接影响识别效果。

自然场景图像中的文字在字体、方向、大小等方面存在多样性，而且光照、遮挡等原因导致场景图像背景非常复杂，场景图像文字的多样性和背景的复杂性给文字检测带来很多困难。

近年来针对场景图像的文字检测成为国内外研究热点，国内在该领的研究起步相对较晚，大部分经典算法来源于国外，如文献[2-5]等，但是国内对经典算法的改进发展迅速，如文献[6-7]等。

综合现有的图像文字检测算法可知，文字检测主要包括两个核心步骤:候选文本区域提取和文本/非文本区域分类。

候选文本区域提取是根据特征将输人图像分解成一系列候选区域的过程；文本区域特征主要包括边缘[8_1°]、笔画宽度[4’11_15]、连通区域[5’16_29]、角点[2_3’3°]、卷积特征算法[31_41]等。

提取候选区域的方法大致可以归结为基于区域[8_w’42_47]、基于连通区域[4_5’u_29]和基于深度学习[31_41]三类。

提取到候选区域后，下一步需要解决文字和非文字区域的分类问题，文本分类方法主要有随机森林分类方法[14]、支持向量机（S upport V e cto r M a c h in e,S V M)分类方法[15]、集成学习A d a b o o s t方法[48]等。

这些分类方法有三个步骤:基于孤立候选区域的形状或者纹理信息去除尽可能多的非文字候选区域;把剩余的候选连通区域串成候选文本行;验证文本行是不是文本。

候选文本区域提取和文本/非文本分类效果决定了文字检测的效果。

文字检测的效果有三个评价指标：准确率（P re c is io n，P)、召回率(R e c a ll，R)和标准指数(F-指数）。

IC D A R数据集中所有图像以J P E G的格式给出，文本定位的真实结果以单收稿日期=2017-08-21;修回日期=2017-11-08。

基金项目：国家十三五重点研发计划项目（2016Y F B1200402)。

作者简介:郭芬红（1980—），女，山东泰安人，讲师，博士，主要研究方向：图像处理、视频分析、机器学习；谢立艳（1990—），女，山东临沂人，硕士研究生，主要研究方向：图像处理、文宇检测；熊昌镇（1979—），男，福建建宁人，副教授，博士，主要研究方向：图像处理、视频分析、深度学习。

174计算机应用第38卷独的文件给出，每个图像有一个A S C II文件，每行包括一个单词的边界框的坐标和对应的文本副本。

IC D A R2011和IC D A R2013数据集中主要包含水平方向的文本，而IC D A R2015数据集中包含多方向、多尺寸、多视角的文本，2013年以来主流方法在IC D A R数据集上的实验结果统计如表1所不。

表1 2013年以来主流算法在I C D A R数据集上的实验结果文献N e um a nn et a l. [13] H u a n g et a l. [14]N e um a nn et a l. [28] B a i et a l.⑴S h i et a l. [25]H u a n g et al.Y in et a l. [26]Z a m b e rle tti et a l.[20] Z ha ng et a l. [29]Y in et a l. [27]T ia n et a l. [46]Sung et a l. [22]H o jin e t a l. [10]T ia n et a l. [38]H e et a l. [36]Z ha ng et a l. [39]Z ha ng et a l. [39]S h u p in g et al_ [5]H e et a l. [41]H e e t a l. [41]L ia o et a l. [40]年份准确率召回率F_指数数据集20130.790.660.72IC D A R2011 20130.820.750.73IC D A R2011 20130.850.680.75IC D A R2011 20130.790.680.73IC D A R2013 20130.850.630.72IC D A R2013 20140.880.710.78IC D A R2011 20140.880.660.76IC D A R2013 20140.860.700.77IC D A R2013 20150.880.740.82IC D A R2013 20150.840.650.73IC D A R2013 20150.850.760.80IC D A R2013 20150.890.740.81IC D A R2013 20160.860.780.82IC D A R2013 20160.740.520.61IC D A R2015 20160.930.730.82IC D A R2013 20160.880.780.83IC D A R2013 20160.710.430.54IC D A R2015 20170.790.810.80IC D A R2013 20170.920.810.86IC D A R2013 20170.820.800.81IC D A R2015 20170.880.830.85IC D A R2013表1数据表明近几年文字检测算法的准确率得到了很大的提升，文献[36]在IC D A R2013数据集上的准确率已经达到 0.93。