字符识别工具入门

2014-02-28
  • 846
  • 0
        在软件开发工作中,有时会遇到网站要求输入验证码的情况。有复杂的验证码,是通过程序难以识别的,目前只能调用打码团队的服务来解决。但对于验证码字符可以穷举的情况下是可以通过字符识别工具(简称OCR) 自动识别的。请注意,本文仅针对于那些验证码字符可以穷举的情况 。
        首先介绍一款大名鼎鼎的图形识别软件Tesseract, 该软件出自HP实验室,现在已经开源。项目地址https://code.google.com/p/tesseract-ocr/
        这款开源软件针对不同的语言设计了不同的字库,也可以自己训练字库。假如你要识别的仅是26个字母或者数字,那么恭喜你,很简单的训练就可以实现你的要求。
        训练的步骤分为三步:1、首先使用指定的语言包进行识别;2、对识别结果进行人工修正;3、生成新的修正后的语言包文件。训练好字库之后,就可以用指定的字库来识别你的图片了。只要训练的足够完善,识别率几乎是100%。
        在程序中调用Tesseract进行图形识别,可以通过接口调用。也可以通过CMD命令行调用。我本人认为通过CMD调用比较简单。