首先介绍一款大名鼎鼎的图形识别软件Tesseract, 该软件出自HP实验室,现在已经开源。项目地址https://code.google.com/p/tesseract-ocr/
这款开源软件针对不同的语言设计了不同的字库,也可以自己训练字库。假如你要识别的仅是26个字母或者数字,那么恭喜你,很简单的训练就可以实现你的要求。
训练的步骤分为三步:1、首先使用指定的语言包进行识别;2、对识别结果进行人工修正;3、生成新的修正后的语言包文件。训练好字库之后,就可以用指定的字库来识别你的图片了。只要训练的足够完善,识别率几乎是100%。
在程序中调用Tesseract进行图形识别,可以通过接口调用。也可以通过CMD命令行调用。我本人认为通过CMD调用比较简单。
