高效的验证码识别技术与验证码分类思想_文晓阳

合集下载

验证码识别原理及实现方法

验证码识别原理及实现方法验证码的作用：有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。

其实现代的验证码一般是防止机器批量注册的，防止机器批量发帖回复。

目前，不少网站为了防止用户利用机器人自动注册、登录、灌水，都采用了验证码技术。

所谓验证码，就是将一串随机产生的数字或符号，生成一幅图片，图片里加上一些干扰象素（防止OCR），由用户肉眼识别其中的验证码信息，输入表单提交网站验证，验证成功后才能使用某项功能。

我们最常见的验证码1，四位数字，随机的一数字字符串，最原始的验证码，验证作用几乎为零。

2，随机数字图片验证码。

图片上的字符比较中规中矩，有的可能加入一些随机干扰素，还有一些是随机字符颜色，验证作用比上一个好。

没有基本图形图像学知识的人，不可破！3，各种图片格式的随机数字+随机大写英文字母+随机干扰像素+随机位置。

4，汉字是注册目前最新的验证码，随机生成，打起来更难了,影响用户体验，所以，一般应用的比较少。

简单起见，我们这次说明的主要对象是第2种类型的，我们先看几种网上比较常见的这种验证码的图片.这四种样式，基本上能代表2中所提到的验证码类型，初步看起来第一个图片最容易破解，第二个次之，第三个更难,第四个最难。

真实情况那？其实这三种图片破解难度相同。

第一个图片，最容易，图片背景和数字都使用相同的颜色，字符规整，字符位置统一。

第二个图片，看似不容易，其实仔细研究会发现其规则，背景色和干扰素无论怎么变化，验证字符字符规整，颜色相同，所以排除干扰素非常容易，只要是非字符色素全部排除即可。

第三个图片，看似更复杂，处理上面提到背景色和干扰素一直变化外，验证字符的颜色也在变化，并且各个字符的颜色也各不相同。

看似无法突破这个验证码，本篇文章，就一这种类型验证码为例说明，第四个图片，同学们自己搞。

第四个图片，除了第三个图片上提到的特征外，又在文字上加了两条直线干扰率，看似困难其实，很容易去掉。

验证码识别技术论文

验证码识别技术论文验证码识别平台介绍1、验证码识别的需求对于打码，首先要了解你的需求是什么？打码赚钱是很多人需要的，无利不起早，利益这个并不是什么不好的东西，也是我们生存的需要。

但是对于打码市场有两种不一样的需求，一种是通过自己进行打码进行赚钱，还有一种打码是需要自动识别输入验证码。

现在的打码软件也分成两种，一种就是打码输入平台，一种是打码输出平台。

目前比较明显的就是人工打码的任务发放，和另外一种如答题吧打码平台的验证码自动输入。

2、验证码识别的目的打码的目的，根据上述的分析，就是打码的需求不一样，那么进行打码的目的也是不一样的。

一种是全人工的手动输入，主要就是各种打码平台对于各种验证码题源的获取，然后雇请网络上的人员进行验证码的人工输入，以达到各种平台对于验证码的自动解答。

另外一种的目的就是通过对于这种题源的解答的引用，加上国外验证码识别技术的应用，进行的验证码的自动解答。

3、验证码识别的要求人工打码的要求就是要求任务的领取与完成，这个的时间是比较的长，需要的成本也是比较大的。

而且必须是正确的才能够进行计费，还有就是也有任务也是有时间限定的。

另外的打码软件就是随时随地的自动识别，但是要求有第三方软件作为连接才能够进行操作。

4、验证码识别的结果人工的相对比较的智能，能够对于各种验证码进行识别，识别的正确率也是相当的大的，毕竟这个世界上最聪明的就是人类了。

但是另外一种的就是对于验证码的自动识别，也是人工打码资源的应用，识别的是有针对性的。

验证码识别平台有两种形式，一种是我们说熟知的进行任务发放的，人工打码，还有一种就是智能识别验证码的平台验证码识别平台平台正确率更高的验证码识别平台平台正确率是关系着很多使用者最直观的感受的，若正确率太低，还不如不使用此款软件。

在以往用户很难寻找到真正的准确率较高的验证码识别平台，但是在现在已有答题吧验证码识别平台为用户提供优质服务，正确率最高可达99.1%。

提供高速稳定的识别服务: 在中国顶级IDC机房拥有超过20台服务器来保证您的高速稳定。

验证码识别原理

验证码识别原理
验证码识别是一种计算机技术，旨在自动识别和解读验证码图片中的字符，以完成自动化的验证码验证过程。

验证码是一种用于区分机器和人类用户的技术手段，常见于各种注册、登录和数据访问等需要身份验证的网页或应用程序中。

验证码通常采用扭曲、干扰和变形等方式，使其对机器进行自动化识别变得困难。

验证码识别的基本原理是将验证码图片转化为计算机可读的数据形式，通常以字符序列的形式返回结果。

不同的验证码识别算法有不同的实现方式，但其基本步骤包括图像预处理、字符分割、特征提取和字符识别。

首先，图像预处理阶段是对验证码图片进行预处理，以便更好地提取图像中的字符。

这可能包括图像的灰度化、二值化、降噪和去除干扰等操作，以提高字符的可分辨性。

接下来，字符分割阶段将验证码图片中的字符分开，通常采用边界识别或投影法等技术，以找到字符之间的边界，并将其分割成单个字符的图像。

然后，特征提取阶段将每个字符的图像表示转化为计算机可以理解的特征向量。

常见的特征提取方法包括傅里叶描述子、形状上下文和人工神经网络等。

最后，字符识别阶段使用机器学习或深度学习算法将特征向量映射到对应的字符类别。

常用的字符识别算法包括支持向量机、
随机森林和卷积神经网络等。

总的来说，验证码识别是一个复杂的过程，其中涉及到图像处理、图像分析和模式识别等领域的知识。

不同的验证码识别算法在准确性和适应性上可能有所差异，因此选择合适的算法和参数对于验证码识别的效果非常重要。

高级验证码识别,如何识别高级的验证码

高级验证码识别，如何识别高级的验证码疯狂代码 / ĵ:http://YanZhengMa/Article3424.html验证码识别大致是三步曲，分割，去背景，提取特征码，但是对于一些高级的验证码识别，是需要一些特殊的手段的，了解一下验证码识别的技术同样对我们设计验证码还是很有帮助的下面谈一下高级的验证码识别技术一、验证码的基本知识1. 验证码的主要目的是强制人机交互来抵御机器自动化攻击的。

2. 大部分的验证码设计者并不得要领，不了解图像处理，机器视觉，模式识别，人工智能的基本概念。

3. 利用验证码，可以发财，当然要犯罪：比如招商银行密码只有6位，验证码形同虚设，计算机很快就能破解一个有钱的账户，很多帐户是可以网上交易的。

4. 也有设计的比较好的，比如Yahoo,Google,Microsoft,等。

而国内QQ的中文验证码虽然难，但算不上好。

二、人工智能，模式识别，机器视觉，图像处理的基本知识1)主要流程：比如我们要从一副图片中，识别出验证码；比如我们要从一副图片中，检测并识别出一张人脸。

大概有哪些步骤呢？1.图像采集：验证码呢，就直接通过HTTP抓HTML，然后分析出图片的url，然后下载保存就可以了。

如果是人脸检测识别，一般要通过视屏采集设备，采集回来，通过A/D转操作，存为数字图片或者视频频。

2.预处理：检测是正确的图像格式，转换到合适的格式，压缩，剪切出ROI，去除噪音，灰度化，转换色彩空间这些。

3.检测：车牌检测识别系统要先找到车牌的大概位置，人脸检测系统要找出图片中所有的人脸（包括疑似人脸）；验证码识别呢，主要是找出文字所在的主要区域。

4.前处理：人脸检测和识别，会对人脸在识别前作一些校正，比如面内面外的旋转，扭曲等。

我这里的验证码识别，“一般”要做文字的切割5.训练：通过各种模式识别，机器学习算法，来挑选和训练合适数量的训练集。

不是训练的样本越多越好。

过学习，泛化能力差的问题可能在这里出现。

验证码识别常用算法

验证码识别常用算法
验证码识别是一类复杂的计算机视觉任务，它通常用于识别用户输入的人类可读的文本或数字字符串，以确认用户的身份或进行其他保护性操作。

验证码识别的主要挑战之一是要求系统在较高的正确率下准确识别验证码，而同时又能抵御常见的攻击方法。

因此，有必要对验证码识别的常用算法进行介绍，以便设计出更加有效的验证码识别系统。

首先，需要介绍的是基于规则的验证码识别技术。

它的工作原理是，用户输入的验证码会根据其结构模式被识别出特定的规则。

比如，一个简单的验证码可能是由四个数字构成，系统会使用统一的规则将该验证码识别成四个数字形式的字符。

基于规则的验证码识别技术的主要缺点是，其能够识别出的验证码的类型太少，而且并不能有效地抵御攻击，如果验证码由攻击者知晓，然后可以通过算法将其破解，因此，基于规则的验证码识别不能有效地防止攻击。

其次，还有基于机器学习的验证码识别技术。

它的工作原理是使用机器学习算法学习历史数据，对输入的验证码进行分类和识别。

验证码识别算法分享

验证码识别算法分享随着互联网的发展，验证码（CAPTCHA）已成为许多网站和应用程序的常见安全措施之一。

验证码的目的是通过要求用户在登录或执行某些操作之前识别并输入验证码，以确保用户是真人而不是机器人。

在本文中，我将分享一些常见的验证码识别算法，以帮助读者更好地理解和应用这些算法。

一、图像预处理为了提高验证码识别的准确性和效率，首先需要对验证码图像进行预处理。

常见的预处理步骤包括图像灰度化、二值化、去噪和切割。

1. 图像灰度化将验证码图像转换为灰度图像可以降低图像的复杂性，减少后续计算的复杂度。

常用的灰度化算法包括平均值法、加权平均法和最大值法等。

2. 图像二值化在图像二值化过程中，将灰度图像中的像素值转化为二值（0或255）。

常用的二值化算法有全局阈值法、大津算法和自适应阈值法。

3. 图像去噪验证码图像中常常存在噪点，这些噪点可能会干扰验证码识别算法的准确性。

通过应用滤波器或形态学操作，可以有效地去除噪点。

4. 图像切割验证码通常由多个字符组成，因此需要将图像切割成单个字符进行识别。

一种常见的图像切割方法是使用连通区域分析（Connected Component Analysis）来找到字符的边界框。

二、特征提取在进行验证码识别之前，需要从切割后的字符图像中提取特征。

特征提取的目的是将字符的关键信息表示为一个向量或一组特征。

1. 形状特征字符的形状特征是最常见的特征类型之一。

常用的形状特征包括轮廓的周长、面积、宽度和高度等。

2. 纹理特征纹理特征可以描述字符像素的排列和分布情况。

常见的纹理特征包括灰度共生矩阵（GLCM）、小波变换和方向梯度直方图（HOG）等。

3. 统计特征统计特征可以通过计算字符像素的统计特性来描述字符的特征。

常见的统计特征包括均值、方差、能量和相关性等。

三、分类算法完成特征提取后，需要将提取到的特征用于分类器的训练和预测。

常用的分类算法包括支持向量机（SVM）、K近邻（KNN）、决策树和深度学习等。

验证码识别技术研究与应用

验证码识别技术研究与应用随着互联网技术的不断发展，验证码逐渐成为了一个保护网站或应用的重要手段。

很多网站都会在用户登录、注册、重置密码等操作时添加验证码。

验证码一般由数字、英文字母或汉字随机组合成，以防止机器人恶意攻击和大规模注册。

但是，由于验证码图像难以识别，人工识别成本过高，因此验证码识别技术成为了必须探索的课题之一。

一、验证码识别技术验证码识别技术是指通过计算机程序自动识别验证码。

通常，验证码识别技术可以分为两种方法：基于图像处理的验证码识别和基于模型的验证码识别。

基于图像处理的验证码识别是指对验证码图像进行预处理和特征提取，然后采用分类器进行识别。

基于模型的验证码识别是指采用机器学习的方法，通过模型训练来实现验证码的识别。

1. 基于图像处理的验证码识别基于图像处理的验证码识别一般包括以下几个步骤：1）去噪处理：为了清除验证码图像中的噪点，可以采用中值滤波、均值滤波等算法进行去噪。

2）验证码分割：由于验证码图像中的字符之间没有分隔符，需要对每个字符进行分割。

分割方法有垂直投影法、水平投影法、基于联通性的字符分割等。

3）验证码特征提取：为了将验证码图像转化为计算机可识别的数字，需要对验证码图像进行特征提取。

常用的特征提取方法有灰度矩、Zernike矩、Gabor滤波器等。

4）验证码分类：最后采用分类器对验证码进行分类，常用的分类器有KNN、SVM、随机森林等。

2. 基于模型的验证码识别基于模型的验证码识别通常采用机器学习的方法，主要包括以下几个步骤：1）数据采集：从互联网上采集大量的验证码图像数据。

2）特征提取：对采集到的验证码数据进行特征提取，常用的方法有HOG特征、SIFT特征等。

3）模型训练：对提取到的特征进行模型训练，采用SVM、随机森林等分类器进行分类模型的训练。

4）模型评估：对训练好的模型进行评估，以确定模型的精度和正确率。

5）应用部署：将训练好的模型应用于实际验证码的识别。

二、验证码识别技术的应用验证码识别技术在互联网领域的应用非常广泛，主要包括以下几个方面：1. 自动注册：很多网站为了防止恶意注册，设置了各种各样的验证码，但是验证码难以防范机器人注册。

验证码的识别与攻防

验证码的识别与攻防随着互联网的发展，验证码技术在网络安全中扮演着至关重要的角色。

验证码是一种通过图像、声音等方式向用户提出的一些需要用户进行识别和验证的信息，其目的是为了防止恶意程序或机器进行恶意攻击。

随着技术的发展，验证码的识别与攻防也变得越来越复杂。

本文将探讨验证码的识别与攻防的相关问题，以期对于相关领域的研究和技术发展提供一些启发和参考。

验证码的识别与攻防是网络安全领域中的重要问题，其意义在于保护网络和用户免受恶意攻击。

验证码可以有效防止恶意软件、网络爬虫等自动化程序对网络系统或用户账号进行攻击，可以有效保护用户的隐私信息和账号安全。

而验证码的识别与攻防则是为了提高验证码的安全性和防御能力，让其更好地发挥其防护作用。

二、验证码的常见形式验证码可以通过图像、声音、短信等方式呈现给用户，其常见形式有以下几种：1. 图像验证码：通过要求用户识别图像中的文字或图形来进行验证，通常包括字母、数字、汉字等。

2. 声音验证码：通过播放一段包含数字或字母的语音，要求用户进行识别和验证。

3. 短信验证码：通过向用户手机发送一段包含数字或字母的短信验证码，要求用户进行输入验证。

4. 滑块验证码：要求用户通过滑动滑块来进行验证，以防止机器人攻击。

以上形式中，图像验证码和声音验证码是最常见的形式，也是最容易被攻击的形式，因此在识别与攻防中需要重点关注。

三、验证码的识别方法验证码的识别方法包括传统的基于机器学习的方法和最新的深度学习方法。

1. 传统的基于机器学习的方法：传统的验证码识别方法主要包括特征提取和分类器识别，其中特征提取是对验证码图像进行预处理并提取出特征，分类器识别是使用机器学习算法对提取的特征进行识别。

常用的机器学习算法包括SVM、KNN、随机森林等。

2. 最新的深度学习方法：深度学习方法在验证码识别中取得了很大的进展，其主要包括卷积神经网络（CNN）、循环神经网络（RNN）等。

这些方法能够自动学习和提取图像的特征，并能够进行端到端的验证码识别。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

—186— 高效的验证码识别技术与验证码分类思想文晓阳，高能，夏鲁宁，荆继武(中国科学院研究生院信息安全国家重点实验室，北京 100049)摘要：验证码图片是论坛类网站用以阻止自动化程序恶意行为的重要人机区分技术，其设计和实用安全性直接涉及到互联网的正常使用。

为研究国内验证码实用安全性，设计实现一种验证码识别算法模型，对国内的论坛验证码类型进行了实验和分析。

实验结果表明，实用中的验证码识别率通常在50%以上，某些甚至达到100%，难以起到对自动化程序的阻碍作用。

从实用角度将验证码分为4类，发现最佳的一类基本是空白的，表明验证码实用技术还应做较大改进。

关键词：验证码；自动识别；Internet 安全Efficient CAPTCHA Recognition Technologyand CAPTCHA Classification IdeaWEN Xiao-yang, GAO Neng, XIA Lu-ning, JING Ji-wu(State Key Laboratory of Information Security, Graduate University of Chinese Academy of Sciences, Beijing 100049)【Abstract 】CAPTCHA image is the major technique used by forums to tell computers and humans apart, so that its security is of importance in internet usage. To learn about domestic CAPTCHA images, this paper proposes and implements a model of CAPTCHA image recognition algorithm,and tests almost all image types used in domestic forums. Experiment results indicate that a large part of CAPTCHA images have a recognition rate above 50%, and some with 100%, both of which can hardly block automatic machines. In terms of its practicality, this paper further classifies them into four categories, only to find the optimal category is blank, which means CAPTCHA image technology needs great enhancements. 【Key words 】CAPTCHA; automatic recognition; Internet security计算机工程Computer Engineering 第35卷第8期Vol.35 No.8 2009年4月April 2009·安全技术·文章编号：1000—3428(2009)08—0186—03文献标识码：A中图分类号：TP3091 概述1.1 验证码使用现状验证码是一种进行人机区分的方法，由于技术简单，易实施，传输数据小，因此被各网站特别是论坛性质的网站广泛使用来防止自动化程序(如论坛自动灌水机)进行大批量的恶意行为。

此类自动化程序较为流行，所以，在国内排名前100名的论坛[1]中有超过60%的论坛在注册、登录或发帖部分采用验证码技术[2]。

验证码的另一个主要应用场所是电子邮件类网站，用来辅助预防和阻止垃圾邮件群发。

总体来说，国外在验证码技术的应用场所与应用程度和国内基本相似。

1.2 国内外研究现状验证码在互联网中的使用已经非常普遍，验证码实际也成为了网站和网民交互的一个特别的方面。

鉴于这2类原因，国内外都有学者对验证码的设计和识别进行研究。

一种基于外部轮廓特征的数字验证码识别方法[3]主要在单个数字图像的处理分析上进行了相应研究，对单个数字图像外部轮廓上、下、左、右4个方向进行特征计算来进行识别。

此外，一种基于加权模板匹配算法的形变数字验证码识别系统，运用统计学方法，也可以达到较好效果[4]。

文献[5]对基于验证码破解的HTTP 攻击原理与防范进行了一定研究。

卡耐基梅隆大学也有研究小组对验证码进行研究，包括验证码的设计和验证码的识别2个方面。

1.3 验证码图片特点验证码图片具有诸多特点，使得验证码识别方法与一般图像例如照片、视频截图等的识别方法有所不同。

识别算法设计应注意到验证码有2个方面的特点：即图片的格式方面和图片的内容方面。

在图片格式方面，验证码图片分辨率都较低，图高一般在20像素左右，图宽一般在50像素~100像素之间。

该特点有时会造成相邻字符间距过窄从而难以切分。

此外分辨率较小意味着待识别字符本身信息量不大，对匹配算法造成影响。

在图片内容方面，验证码通常被加入各种干扰因素。

主要包括：各种背景干扰，噪点像素，字体形变和累叠，字符位置随机及个数不定，反色等情况。

这些干扰正是为了降低自动识别算法的识别效率，但也应注意到干扰因素对正常用户的网络使用体验的影响，这2方面都将在后文详细阐述。

2 自动识别算法模型2.1 基本框架验证码识别算法流程可分为明显的3大阶段：前期预处理阶段，中期切分阶段以及后期分析阶段。

其中，后期分析阶段包括模板库建立和识别2种模式。

图1展示了包括3大阶段的验证码识别算法，同时可看到在后期分析阶段中包括模板库建立和识别计算2个相对独立的处理方式。

前期预处理阶段在尽可能完整地保留每个字符体的像素信息下，尽可能多地去除图片中的大量干扰像素信息。

本质是一个去噪过程，可以在彩色图片阶段进行彩色去噪，在二值转换阶段进行灰度去噪，在黑白图片阶段进行黑白去噪。

基金项目：信息产业部电子发展基金资助项目“互联网内容发布与管理系统”作者简介：文晓阳(1983－)，男，硕士，主研方向：信息安全；高能，讲师；夏鲁宁，博士后；荆继武，教授、博士生导师收稿日期：2008-10-20 E-mail ：wenxiaoyang@前期预处理阶段后期分析阶段图1 识别算法流程本文采用的彩色去噪算法可看作一种滤波计算。

当处理像素点(X,Y)时，计算该像素点及其周围的8个像素点(如该点在边缘或者顶角，此个数分别为5个和3个)的平均R, G, B 值。

然后分别计算这9个点到平均值的欧氏距离。

再从算的9个欧氏距离值中选出最小的。

例如该最小距离所对应的像素点坐标为(X’,Y’)，那么用(X’,Y’)的RGB值替代(X,Y)的RGB 值，此时像素点(X,Y)完成彩色去噪运算，跳到下一个像素点重复上述步骤，直到遍历验证码整图的所有像素点。

二值转换是算法必经的一步，同时也可以利用二值转换进行去噪。

二值转换是指把彩色图片转换成黑白二值图片，即像素点的表示从RGB三色表示转变为单比特的0或1二值表示。

首先利用公式0.30.590.11Grey red green blue=×+×+×算出每个像素的灰度值Grey，然后设定或计算一个灰度阈值GreyThreshold。

当某点的灰度值小于灰度阈值时，将该点设为1，表示黑色；反之则设为0，表示白色。

灰度阈值的设定非常重要，假设噪点的灰度值在150~250之间，而字符主体像素点的灰度值在50~100之间，则易知将灰度阈值设为100~150之间，二值化后噪点即可去除(噪点像素点被设为0，白色)。

黑白去噪对彩色和二值去噪后残留的噪点进行处理。

当处理点(X,Y)时，若该点像素值为0，则跳过；为1时，进行去噪分析，统计该点周围8个点(如该点在边缘或顶角，此分别为5个和3个)中白色点的个数为M，然后设定黑白去噪阈值N，当M不小于N时，则认为(X,Y)为噪点，对其像素值赋值为0完成去噪。

例如某黑色点周围有8个点，设N为8，则统计后所得M为0到7时不处理，M为8时认定其为噪点(易知该点为一个孤立黑点，常见的噪点形式)，则给(X,Y)赋值0。

中期切分阶段对前期预处理后的图片进行切割处理，定位和分离出整幅图片中每个字符主体部分。

假设某图片长为50，设为X轴，高为10，设为Y轴。

则X轴每个坐标点对应该点Y轴上的10个点。

对X轴每个坐标点计算其Y轴对应10点中黑点个数，一般会得到如图2的情况，波谷波峰波谷的一次转换则对应于一个字符。

可设定一个切割阈值E，图2情况可设E为2，黑点数大于E的X轴坐标标记为含字符区域，显然可得5个区域，对应于图中5个字符。

根据这些区域边界定位切割即可，见图3效果示例。

Y轴上利用相同的处理方式可进一步得到紧密包裹住单个字符主体的更小的图片区域。

12345605 10 15 20 25 30 35 40 45 50XY图2 X轴坐标点各自对应黑点数统计示例图3 X轴切割效果示例得到的比特串将被存入模板库的相应位置。

如图4所示，若处理的是论坛U的验证码，则把该比特串写入：/Modes/U/3. txt。

Modes文件夹为模板库的集合，文件夹U就是论坛U的验证码模板库，存放着若干记录着特征比特串的txt文件。

图4 3×5矩阵转比特串示例在后期分析阶段，首先需对切分阶段分离出来的单个字符数据进行特征表示，此后的计算步骤以特征作为运算基本单元。

选用比特串作为特征表示方式，主要因为前文提到验证码低分辨率特点(本身信息简单)及识别计算的高速要求。

切分后覆盖每个字符的区域大小不同。

如图3中的字符3长宽可能为5和6而字符8可能为6和8，则需进行标准化运算。

采用双线性插值算法[6]把切分得到的字符区域插值到固定的长宽。

另有研究表明，长宽皆为26是一个最佳的比例[7]。

标准化计算后会得到26×26的数据结构，每个元素为0或者1，把矩阵元素按序看成比特串(图4)，即为字符的特征表示。

模板库的大小直接影响到识别速度，识别时间和样本数量负相关，样本量并非越多越好。

因此，选择合适的样本量非常重要。

可找到一个值T_mode，它是使得识别率达到或接近最高时的所需最少建库样本图片的个数。

大量实验发现T_mode一般在50左右。

样本量大于该值后，识别率增长一个单位需要更多新增样本的投入，从而造成识别时间较大降低。

对自动化程序来说，识别率增长带来的优势不及识别速度减慢带来的劣势。

图5给出某常见验证码(例：)的建库样本数和识别率(识别135幅验证码)之间的关系，其他验证码也具有明显的类似关系。