字符扭曲粘连验证码识别技术研究

合集下载

《数字图像分析与处理》教学案例库之验证码识别算法研究与应用

《数字图像分析与处理》教学案例库之验证码识别算法研究与应用作者：刘海英陈鹏举郭俊美邓立霞孙涛赵阳来源：《高教学刊》2020年第27期摘要：随着计算机网络技术及验证码技术的快速发展，出现了更多复杂的验证码生成办法，如基于动态图像的验证码系统。

本案例针对给定系统的验证码为研究对象，提出一种具有针对性的策略算法，对比于其它识别算法，本研究算法的识别速度、精确均占有一定优势，具有一定的理论和实际意义。

关键词：数字图像处理;验证码;识别中图分类号：G640 文献标志码：A 文章编号：2096-000X（2020）27-0087-03Abstract： With the continuous development of computer network technology and verification code technology， more complicated verification code generation methods have appeared， such as a verification image system based on dynamic images. This case proposes another targeted strategy for the verification code of a given system. Compared with other recognition algorithms， the recognition speed and accuracy of this research algorithm have certain advantages and have certain theoretical and practical significance.Keywords： digital image processing; verification code; recognition隨着计算机和网络技术的发展，网络安全逐渐成为了人们关注的问题，验证码的重要性也日益凸显。

旋转验证码识别思路

旋转验证码识别思路旋转验证码是一种常见的验证码形式，它通过旋转、扭曲、变形等方式来增加识别难度，从而有效地防止机器人暴力破解。

但对于人类来说，旋转验证码也带来了识别的难度，特别是对于老年人、视力差的人或者使用手机等小屏幕的用户来说，更是一种挑战。

针对这种情况，我们可以采用以下思路来进行旋转验证码的识别。

第一步：预处理。

旋转验证码的基本形式是一张图片，我们需要将其转换成二值图像，即黑白图像。

可以使用OpenCV等图像处理库来实现。

此外，还可以采用图像增强技术来提高图片质量，如直方图均衡化、滤波等。

第二步：分割字符。

旋转验证码通常由多个字符组成，因此我们需要将其分割成单个字符。

可以采用基于连通区域的分割方法，利用连通区域的特点将字符分离出来。

同时，还可以采用形态学处理等技术来优化字符的边缘，提高分割的准确度。

第三步：旋转校正。

由于旋转验证码是存在旋转的，因此需要对每个字符进行旋转校正。

可以采用霍夫变换等方法来检测旋转角度，然后对字符进行旋转变换。

此外，还可以采用仿射变换等技术来进一步校正字符形状。

第四步：特征提取。

针对每个字符，我们需要提取其特征，以便后续识别。

可以采用基于形状、纹理、边缘等特征的方法，将其转换成一组特征向量。

此外，还可以采用深度学习等技术来自动提取特征，提高识别准确度。

第五步：分类识别。

最后，将每个字符的特征向量输入到分类器中进行识别。

可以采用传统的机器学习算法，如SVM、KNN等，也可以采用深度学习技术，如卷积神经网络等。

通过对每个字符进行分类识别，最终可以得到整个旋转验证码的识别结果。

总之，旋转验证码的识别是一项具有挑战性的任务，需要采用多种图像处理、特征提取和分类识别技术相结合的方法，才能取得较好的识别效果。

逼疯你的验证码，为什么越来越复杂？

通识32逼疯你的验证码，为什么越来越复杂？/斯嘉这天，准备考研许久的你，踌躇满志地打开了考研报名网站。

然而，还没来得及一展才学，你就被卡在了网站登录的验证码上。

重叠在一起的字体，布满马赛克的背景，让你输了几次验证码都没有输对。

你屡败屡战，但验证码上出现的“骉叕犇羴”，又瞬间让你怀疑自己的学识水平。

逼疯你的验证码，为什么变得越来越复杂？折磨人的验证码这个究竟是o还是0？是1还是l？每一次输验证码时，你都会忍不住发出这样的疑问。

它那扭曲的形状，粘连在一起的字符，雪花状的背景，常让你陷入自己是不是眼瞎的怀疑。

然而，这种字符验证码，还只是日常的基础题，高难度的题目，往往出现在春节这样的特殊时刻。

登入12306时要选择的图片验证码，就曾是每个在春节抢过火车票的人的噩梦。

你要在一堆高糊的图片中，挑选出各种“犹抱琵琶半遮面”的物体。

有时运气不好，碰上排风机、发电机等超出生活常识之外的东西，你就只能被困在一次又一次的选择错误中，眼睁睁看着车票越来越少。

有些验证码更是不满足只考你的眼力，还要测一下你的智商。

在购票网站抢演唱会门票时，不仅要懂点文学典故，读过四大名著，末了，还要附带让你算一道数学题。

屏幕上的每一个验证码，似乎都在提醒你：没点文化，就别跟人学着追星了吧。

美国斯坦福大学的研究指出，验证码已经过难。

研究者们搜集了8500个多种形式的验证码让受试者辨认，发现他们在判断验证码时，平均要花9.8秒，且同时让三个人辨别同一个验证码，三人间的一致率只有71%。

如果是听声音辨识的验证码，准确率会更低，只有31.2%。

验证码疯狂内卷，而你只想砸鼠标。

验证码的进化，也是被逼无奈其实，验证码也不是一开始就这么复杂。

在验证码被发明前，许多免费的邮箱网站常遭受恶性外挂软件的攻击。

例如在2000年时，雅虎邮箱中曾有大量用机器注册的马甲账号，他们会给用户发大量的垃圾、诈骗邮件。

为了解决这个问题，程序开发人员试图找到一种登录验证方式，能判断出正在操作的究竟是人还是机器。

两种文本类型验证码字符分割提取方法

两种文本类型验证码字符分割提取方法杨玉东;李莉;高云富;曲晓威;林琳;杨茜;白鹏辉;王瑜【摘要】作为区分人机操作的一种有效方法,验证码图片被广泛使用.通过对验证码图片识别技术的研究,可以及时发现和改善验证码漏洞.识别混合字符型文本类型验证码的关键是提取验证码图像中的单个字符.介绍验证码识别的一般过程,给出基于颜色提取单个字符和基于支持向量机分割为单个字符的两种单个字符提取方法,通过实例给出了详细步骤.【期刊名称】《北华大学学报（自然科学版）》【年(卷),期】2019(020)001【总页数】4页(P137-140)【关键词】文本验证码;字符分割;字符提取;字符识别;支持向量机【作者】杨玉东;李莉;高云富;曲晓威;林琳;杨茜;白鹏辉;王瑜【作者单位】长春理工大学计算机科学技术学院,吉林长春 130022;长春市万易科技有限公司工程研究中心,吉林长春 130012;长春理工大学计算机科学技术学院,吉林长春 130022;长春理工大学计算机科学技术学院,吉林长春 130022;长春市万易科技有限公司工程研究中心,吉林长春 130012;吉林省通联信用服务有限公司,吉林长春 130012;长春市万易科技有限公司工程研究中心,吉林长春 130012;长春理工大学计算机科学技术学院,吉林长春 130022;长春理工大学计算机科学技术学院,吉林长春 130022【正文语种】中文【中图分类】TP311.1验证码源于图灵测试，是区分人和机器的一种有效方法[1].由于技术简单，产生的验证码图片随机性强，且能在一定程度上阻止网络上的恶意行为，已被广泛应用于互联网.由于种类增多、图像分辨率增加、图像干扰(噪声)增强都给验证码识别增加了难度.文本类型验证码的文本内容通常是数字和英文字母的随机组合，而单个字符很容易利用机器学习方法识别，所以分割并提取图像中的单个字符成为识别此类验证码的关键[2].许多学者提出了一些字符切割方法，但这些方法大多是针对一种类型或特定类型的验证码，在处理不同种类验证码图像时有一定的局限性.本文提出两种文本字符验证码字符分割方法，并通过实例给出详细步骤.1 验证码识别过程可分割验证码的识别过程主要分为图像预处理、字符分割与规范化以及训练模型与识别.验证码识别流程见图1.图1 验证码识别流程Fig.1 Recognition process of verification code本文在字符识别过程中使用支持向量机(SVM)方法，它是监督学习的一种有力计算工具[3].这种方法需要对一些已分类的字符样本进行训练来获得一个模型，然后用模型对未分类的字符样本进行预测或分类.通过调整训练样本量及模型参数，单个字符的识别率可以达到90%以上.图像预处理与字符处理过程中的每个步骤都会产生一定的误差，这些误差会影响字符分割的成功率，进而导致整体识别率降低.因此，有效处理验证码图像并从中提取或分割字符，是文本类型验证码识别的关键，本文给出两种字符分割方法.2 基于颜色提取字符的方法这种方法适用于验证码图片中的单个字符颜色随机，而在同一字符中的像素色彩又有差异的情况.以某网站的验证码图像为例，介绍这种分割方法.图2为jpg格式的验证码图像，分辨率为200×60，RGB模式.字符颜色、位置是随机的，字符有旋转并且部分字符粘连严重甚至交错、重叠.传统的切割方法(如竖直投影方法、CFS 分割算法[4]、滴水算法[5]、基于字符宽度的分割算法[6]以及改进的投影分割算法[7])都不能达到很好的字符分割效果.图2 原始验证码图像Fig.2 Images of primitive verification codes1)图像去背景.字符颜色的随机性在给识别过程带来一定难度的同时，也提供了一定量的信息.考虑适当改变图像预处理和字符切割顺序，利用字符颜色的区别来提取字符.首先在RGB模式下去除背景、噪点和干扰线，保留图像的RGB色彩，得到的图像见图3.图3 去除背景色及干扰线的图像Fig.3 Removal of background color and line interference images2)图像滤波.虽然图像中每个字符的颜色在视觉上是相似的，但实际像素值是有差别的.通过迭代的方法，可以区别不同字符间的颜色并减小同一字符中像素的色彩差异.定义一种5×5的滤波模板，其当前像素(x，y)的输出值为其中：RGB(i， j)为当前像素(x，y)周围5×5范围内的像素(i，j)的像素值；wij是一个二值变量，如果满足以下任意一条：ⅰ)像素(i， j)位置超出图像范围；ⅱ)(i，j)=(x，y)；ⅲ)RGB(i， j)与RGB(x，y)欧氏距离大于某个值(包括(i， j)的像素值为白色)都有wij=0，否则wij=1.表1 部分验证码图像的分割结果及识别结果Tab.1 Segmentation and recognition results of partial verification codes image去噪后的图像字符分割结果调整后的字符识别结果利用上述模板不断对图片进行过滤，直到前后两次过滤得到完全相同的图像或者同一字符中像素值的“差值”小于期望值.3)图像切割.通过寻找色彩相近像素的方法，找出在一定范围内属于同一字符所有的像素点，重新生成一张空白图片.将这些像素点写入空白图片，完成1次“切割”.4)字符识别.字符分割结束后对字符图像进行二值化、规范化，得到最终的字符样本.部分分割结果以及识别结果见表1.5)实验结果分析.对2 000个验证码图像进行预处理、分割、规范化，抽取有效字符样本进行训练，然后对1 000个未用于训练的验证码图像进行预测.结果显示：字符分割成功率为89.8%，单个字符识别率为88.8%，整体识别率为62.7%，每个验证码图像识别平均用时1.21 s.3 基于支持向量机(SVM)的分割方法验证码中字符的竖直切割可以理解为在给定某字符左侧(或右侧)边界的条件下确定右侧(或左侧)边界，等价于在给定某字符左侧(或右侧)边界的条件下确定字符宽度.根据这一想法，可以将字符宽度分为有限个类，在给定某一条切割线条件下，通过SVM方法识别字符宽度，从而确定下一条切割线.图4中的验证码图片为jpg格式，分辨率为223×50，RGB模式.图片颜色单一，干扰线粗细程度不一，字符粘连且图片中间部分字符比较模糊.图4 原始验证码图像Fig.4 Image of primitive verification code1)图像锐化.对图像进行预处理，通过图像锐化的方法使图像变得更模糊，见图5. 图5 经过锐化的验证码图像Fig.5 Image of sharpened verification codes2)图像二值化.将锐化后的图像转变为灰度图，选择合理的二值化阈值对图像进行二值化，使图像中间模糊区域变清晰.二值化阈值选取120时，很容易去除干扰线和噪点，但字符不够清晰；选取80时，字符更为清晰，但在去除干扰线的过程中会去掉部分字符.一种合理的做法是在阈值为120的二值化图像中找到干扰线和噪点所对应的像素，在阈值为80的二值化图像中去掉这些像素.去噪后的图像见图6，虽然图像左侧的部分干扰线没有清理干净，但这不影响后续工作.图6 去噪后的二值化图像Fig.6 Denoising binary image3)字符切割.此验证码的字符宽度在15个像素到37个像素之间，且字符的横向位置不固定.如果采用传统的切割方法，字符切割成功率不超过70%，这将影响最终的识别率；而基于SVM的切割方法，可以显著提高字符切割的成功率.由于图像右侧的干扰线清理得很干净，因此从图像右侧开始切割.首先通过图像的竖直积分投影找到图像右侧的第1条切割线，见图7，然后需要一些有标签样本来训练切割模型.图7 第1条切割线的选取Fig.7 Selection of the first cutting line将字符宽度(15～37)分为23个类.在当前切割线左端的40个像素距离内选取特征向量.特征向量的构成为每一列黑色像素之和以及每一列黑色像素的纵坐标最小值.在给定当前切割线的条件下，通过模型识别字符宽度可以找到下一条切割线的横向位置.4)实验结果分析.用1 500个图片作为样本集训练切割模型，4 000个样本训练字符识别模型，将1 000个未训练图片作为测试集进行验证码图像识别.结果显示：字符切割成功率为92.3%，单个字符识别率为95.9%，整体识别率为84.5%，识别每个验证码图像平均用时62 ms.部分分割结果及识别结果见表2.4 小结本文介绍了可分割文本类型验证码识别的基本流程.针对不同图像，提出两种字符分割方法，通过实例给出了具体步骤.基于颜色提取字符的方法是通过改变图像预处理和字符切割的顺序，利用字符颜色的区别来提取字符；基于支持向量机的字符分割方法是在不同阈值下去除噪点和干扰线，达到更好的去噪效果.两种方法都实现了对特定类混合型文本字符验证码的分割与识别，与传统切割方法相比，具有较高的分割成功率(传统切割方法成功率为70.0%)，识别结果可用.但是，基于颜色提取字符的方法在计算过程中涉及迭代算法，识别的平均用时过长；基于SVM的切割方法需要训练模型，在构造训练样本时，需要花费一定的时间.另外，分割过程中产生的部分残损字符图像和非字符图像会降低字符识别率.这些问题有待于进一步研究.【相关文献】[1] Von Ahn L，Blum M，Langford J.Telling humans and computers apart automatically[J].Communications of the ACM，2004，47(2):56-60.[2] Chellapilla K，Larson K，Simard P Y，et al.Building segmentation based human-friendly human interaction proofs (HIPs)[J].HIP，2005，3517:1-26.[3] Haykin S.神经网络与机器学习[M].北京:机械工业出版社，2011.[4] Yan J，El Ahmad A S.Alow-cost attack on a Microsoft CAPTCHA[C]//Proceedings of the 15th ACM conference on computer and communications security，ACM，2008:543-554.[5] 李兴国，高炜.基于滴水算法的验证码中粘连字符分割方法[J].计算机工程与应用，2014，50(1):163-166.[6] 柳红刚.字符扭曲粘连验证码识别技术研究[D].西安:西安电子科技大学，2012.[7] 唐海涛.自组织增量神经网络的验证码识别模型与算法[D].广州：广东工业大学，2016.。

开题报告-验证码识别技术研究与实现

学生姓名
张安龙
学号
班级
所属院系专业
指导教师1
职称
所在
部门
物联网技术学院
指导教师2
职称
所在
部门
毕业设计
（论文）题目
验证码识别技术研究与实现
题目类型
工程设计（项目）■
论文类□
作品设计类□
其他□
1、选题简介、意义
选题的介
随着互联网技术的快速发展和应用，网络在给人们提供丰富资源和极大便利的同时，伴随而来的就是互联网系统的安全性问题。验证码的出现正是加强web系统安全的产物。验证码，最早作为卡内基梅隆大学的一个科研项目，Yahoo!是CAPTCHA的第一个用户。
5 可分割验证码的识别
5.1数字图像预处理技术
5.2常用的字符分割算法
5.3猫扑网站验证码的识别
5.4西祠胡同网站验证码的识别
6 涯验证码的识别
7 总结
致谢
参考文献
指导教师意见：
签字：
2019年3月2日
院（系）审批意见：
签章：
2019年3月5日
二、课题综述（课题研究，主要研究的内容，要解决的问题，预期目标，研究步骤、方法及措施等）
1.课题研究
验证码识别技术研究与实现
2、研究内容
研究验证码识别技术,可以及时发现和改善验证码的漏洞,在增强网络安全性、防止恶意机器程序攻击方面有着重要意义。
2.预期目标
找出现在验证码的不足，为以后改善验证码提供理论基础。
3.研究步骤
1、阐述了课题的背景及研究意义，介绍了验证码识别在国内外的发展状况
2、重点介绍了用于字符识别的BP神经网络、卷积神经网络和形状上下文算法，给出了它们的推导过程。

一种彩色旋转变形验证码的识别方法

一种彩色旋转变形验证码的识别方法高建清【摘要】Aiming at the color rotation deformation CAPTCHA, a character segmentation method which combines the method of connected regions and color space was proposed, and a multi-class support vector machine was used to recognize. Firstly, the CAPTCHA image was grayscale, binarization and removing noise points. Then, the character was segmented by the connected region method, and the color space method with HSI model was used to further segment the overlapping char-acters, normalized processing after segmentation. At last, the recognition experiment was conducted by support vector ma-chine. The experimental results show that the support vector machine is fast and does not require a large number of training samples, has a high recognition rate for the rotation and deformation characteristics CAPTCHA, and also show this character segmentation method is more effective than other methods.%针对彩色旋转变形验证码提出了一种连通区域法和颜色空间法相结合的字符分割方法，并采用多分类支持向量机进行识别。

数字验证码识别的设计与实现-毕业论文

---文档均为word文档，下载后可直接编辑使用亦可打印---摘要]数字验证码在安全方面起着十分大的用处，因此在很多网站都可以看到数字验证码的使用。

如今互联网的发展相当快速，紧随着我们也就需要思考安全问题，隐私的泄露会或重或轻的影响用户，而数字验证码作为互联网安全的常用的屏障，可以让互联网生态环境更加健康便利且很好的保护用户隐私。

目前，在网站上中相对常用的是由数字、字母组成的数字验证码。

本文针对粘连且存在干扰噪声的数字验证码图像识别性能欠佳的情况，通过比较各种识别数字验证码的方法，最终选择使用KNN算法作为数字验证码字符识别方法，本课题对有粘连扭曲情况的数字验证码的识别进行设计和分析，过程主要是以下三步：预处理、匹配识别、分析识别率。

图片预处理过程采用了灰度化、二值化、降噪和分割，在分割图片阶段，可能出现检测出四、三、二和一个字符的情况，分别采用不同的方法进行处理，再采用Python工具进行单字符匹配，最后通过KNN算法来识别匹配数字验证码，得到了高达94.4%的识别率，这说明采用该算法能很好的识别粘连扭曲的数字验证码图片。

[关键词]验证码识别；KNN算法；验证码匹配；PythonDesign and Implementation of Digital AuthenticationCode RecognitionStudent: Li Xinyu,College of Electronic InformationInstructor: Wang Yuanmei,College of Electronic Information [Abstract]Digital Authentication Code (DAC) plays a very important role in security, so it can be used in many websites.With the rapid development of the Internet, we also need to think about security issues. The leak of privacy will affect users more or less. Digital Authentication Code, as a common barrier to Internet security, can make the Internet ecological environment healthier, more convenient and better protect user privacy.At present, the relatively common digital verification code on websites is composed of numbers and letters.In view of the poor performance of image recognition of digital verification codes with glue and interference noise, this paper chooses KNN algorithm as the character recognition method of digital verification codes by comparing various methods of identifying digital verification codes. This topic designs and analyzes the recognition of digital verification codes with glue distortion. The process mainly consists of three steps:preprocessing,Match recognition, analyze recognition rate.Picture preprocessing process uses grayscale, binarization, noise reduction and segmentation. In the phase of image segmentation, four, three, two and one characters may be detected. Different methods are used to process them, then single character matching is performed with Python tools. Finally, matching number verification codes are recognized by KNN algorithm, and the recognition rate is up to 94.4%.This demonstrates that the algorithm can recognize the distorted digital authentication code picture very well.[Keywords]Verification code identification；KNN recognition；Verification Code Matching；Python第一章绪论1.1 研究目的及意义当前，随着互联网技术的不断创新研发，我国科技技术飞速发展，各类新兴产品应运而生，在不断丰富人们生活的同时，提高了人们生活质量与生活水平。

基于卷积神经网络的验证码识别

2020年软件2020, V ol. 41, No. 4作者简介: 李世成(1994–)，男，研究生，主要研究方向：智能信息处理技术；通讯作者: 东野长磊(1978–)，男，讲师，主要研究方向：计算机视觉。

基于卷积神经网络的验证码识别李世成，东野长磊*（山东科技大学计算机科学与工程学院，山东青岛 266590）摘要: 验证码识别与设计是目前人工智能领域的挑战性问题，验证码图片内容识别通过强制人机交互来抵御机器自动化攻击的，验证码是否能被批量识别可以用来衡量验证码设计的优劣。

目前已经有相对成熟的算法解决这类问题，但是仍然存在天花板有待突破。

首先本文对5000张验证码的样本集进行图片预处理，对验证码图片去噪点和切割操作。

然后利用添加了注意力模块的卷积神经网络训练样本集，并对另外5000张样本进行预测，测试集的准确率可以达到97.9%。

关键词: 验证码；二值化；卷积神经网络；CBAM中图分类号: TP183 文献标识码: A DOI ：10.3969/j.issn.1003-6970.2020.04.037本文著录格式：李世成，东野长磊. 基于卷积神经网络的验证码识别[J]. 软件，2020，41（04）：173 177Verification Code Recognition Based on Convolutional Neural NetworkLI Shi-cheng, DONG YE Chang-lei *(School of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590, Shandong, China )【Abstract 】: Captcha identification and design are currently challenging issues in the field of artificial intelligence. Captcha image content recognition resists automated machine attacks by forcing human-computer interaction. Whether captchas can be identified in batches can be used to measure the pros and cons of captcha design. At pre-sent, there are relatively mature algorithms to solve such problems, but there are still ceilings to be broken. Firstly, this paper pre-processes 5000 sample samples of captcha, and denoises and cuts the captcha pictures. Then using the convolutional neural network training sample set with the attention module added, and predicting another 5000 samples, the accuracy of the test set can reach 97.9%.【Key words 】: Verification code; Binarization; Convolutional neural network; CBAM0 引言验证码（CAPTCHA ）是一种区分用户是计算机还是人的公共全自动程序。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

目
录
第一章绪论 ..................................................................................................................... 1 1.1 研究背景 ................................................................................................................. 1 1.1.1 验证码概念 ....................................................................................................... 1 1.1.2 验证码分类 ....................................................................................................... 2 1.1.3 验证码识别 ....................................................................................................... 5 1.2 论文章节安排 ......................................................................................................... 7 第二章验证码识别国内外研究现状 ............................................................................. 9 2.1 验证码识别现状 ..................................................................................................... 9 2.2 验证码识别技术 ................................................................................................... 10 2.2.1 基于模板库匹配的方法 ................................................................................. 10 2.2.2 基于神经网络学习方法 ................................................................................. 11 2.2.3 基于形状上下文方法 ..................................................................................... 15 2.3 本章小结 ............................................................................................................... 16 第三章论文涉及验证码特征 ....................................................................................... 17 3.1 雅虎验证码特征 ............................................................................................................................................................................ 19 3.3 RECAPTCHA 验证码特征 .................................................................................... 20 3.4 本章小结 ............................................................................................................... 21 第四章验证码识别 ....................................................................................................... 23 4.1 雅虎验证码识别 ................................................................................................... 23 4.1.1 图片预处理 ..................................................................................................... 24 4.1.2 首尾切除 ......................................................................................................... 26 4.1.3 曲线拟合 ......................................................................................................... 28 4.1.4 闭环检测 ......................................................................................................... 31 4.1.5 基于四线谱的投影识别 ................................................................................. 33 4.1.6 均分 .......................................................................................................................................................................................... 37 4.3 RECAPTCHA 验证码识别 .................................................................................... 39 4.4 本章小结 ............................................................................................................... 42
Abstract
CAPTCHA is the standard technology to tell computer and human apart in the field of security, The most common scheme is based on the text of letters and numbers. The principle of connecting adjacent characters provides a high security for the CATPCHA. The typicalas a good reliability to resist the character segmentation and recognition. In this paper, we identifications some typical schemes by utilizing the characteristics of these CAPTCHAs. Early studies break the CAPTCHA by separating the original string into pieces one by one and recognizing them using the technology of OCR. In this paper, the recognized character will be removed from the original processing, projection technology, closed- loop detecting, four- line spectrum and curve fitting is used in the recognition process. The success split rate of Yahoo CAPTCHA is 78% and the recognition rate is 54.7%. The the recognition rate of reCAPTCHA is 17%. As the ideal CAPTCHA recognition rate should be less than 0.01% by the computer, the segmentation and recognition in this paper is successful. Keywords: CAPTCHA Recognition. Human Interactive Proof Segmentation