使用tesseract-ocr破解验证码详解

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

首先下载tesseract-ocr安装包,

下载完成后双击tesseract-ocr-setup-3.01-1.exe安装程序进行安装,安装过程中注意不要安装到默认的安装目录C:\Program Files下,请安装到D盘或其他盘符,切记安装路径中最好不要出现空格和中文。

然后一路next即可。安装完成后打开dos命令行窗口,输入tesseract,然后回车

如果你看到如下输入,就表明tesseract-ocr安装成功咯!

然后去网上随便下载一张验证码图片,你们图方便就使用我贴的这张来测试吧验证码示例图:

然后命令行输入

tesseract 1.jpg result -l eng

Tesseract后面1.jpg从当前目录下的1.jpg里提取验证码字符

result表示将提取出来的结果存放到当前目录的result.txt文件中,

-l(小写字母L): eng表示英文字符集,在eng英文字符集状态下,只能提取英文字符,不能识别中文,如果需要识别中文,那么就需要把下载下来的chi_sim_traineddata压缩包解压,将得到的一个chi_sim.traineddata中文训练文件copy到tesseract-ocr安装目录下的tessdata 文件夹里:

刚才输入tesseract 1.jpg result -l eng验证码破解命令后,破解后得到的验证码字符结果就保存在当前目录的result.txt中,当前目录就是C盘,所以你会在C盘根目录下看到自动生成的一个result.txt,用文本编辑器打开它,你会看到如下内容:

下面来测试一下提取中文汉字,随便找一段中文内容截图,并另存为jpg图片;

假定图片取名为2.jpg,然后命令行输入:

tesseract 2.jpg result –l chi_sim

Chi_sim表示使用中文字符集,chi是china缩写,sim是simple的缩写,连一起就表示简体中文字符集,你懂的。

下面是我截的一段中文文字,图片文字太小看不清楚,请用鼠标滚轮放大。

破解后得到的内容:

匹配准确率我就不去统计了,我觉得还凑合吧!

在命令行敲命令是不是觉得很不爽,能不能用Java代码来调用dos命令来实现验证码破解呢,答案当然是可以的,下面贴一些我测试调用写的代码:

如果不愿意自己照图一个一个敲想要源码的请联系我。

相关文档
最新文档