tesserocr的安装 tesserocr的安装

在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用OCR来识别。
1. OCR
OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则的字符，这些字符确实是由字符稍加扭曲变换得到的内容。
例如，对于如图1-22和图1-23所示的验证码，我们可以使用OCR技术来将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。

文章图片
图1-22 验证码

文章图片
图1-23 验证码
tesserocr是Python的一个OCR识别库，但其实是对tesseract做的一层Python API封装，所以它的核心是tesseract。因此，在安装tesserocr之前，我们需要先安装tesseract。
2. 相关链接
tesserocr GitHub：https://github.com/sirfz/tesserocr
tesserocr PyPI：https://pypi.python.org/pypi/tesserocr
tesseract下载地址：http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub：https://github.com/tesseract-ocr/tesseract
tesseract语言包：https://github.com/tesseract-ocr/tessdata
tesseract文档：https://github.com/tesseract-ocr/tesseract/wiki/Documentation
3. Windows下的安装
在Windows下，首先需要下载tesseract，它为tesserocr提供了支持。
进入下载页面，可以看到有各种.exe文件的下载列表，这里可以选择下载3.0版本。图1-24所示为3.05版本。

文章图片
图1-24 下载页面
其中文件名中带有dev的为开发版本，不带dev的为稳定版本，可以选择下载不带dev的版本，例如可以选择下载tesseract-ocr-setup-3.05.01.exe。
下载完成后双击，此时会出现如图1-25所示的页面。

文章图片
图1-25 安装页面
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包，这样OCR便可以识别多国语言。然后一路点击Next按钮即可。
接下来，再安装tesserocr即可，此时直接使用pip安装：
pip3 install tesserocr pillow
4. Linux下的安装
对于Linux来说，不同系统已经有了不同的发行包了，它可能叫作tesseract-ocr或者tesseract，直接用对应的命令安装即可。
Ubuntu、Debian和Deepin
在Ubuntu、Debian和Deepin系统下，安装命令如下：
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
CentOS、Red Hat
在CentOS和Red Hat系统下，安装命令如下：
yum install -y tesseract
在不同发行版本运行如上命令，即可完成tesseract的安装。
安装完成后，便可以调用tesseract命令了。
接着，我们查看一下其支持的语言：
tesseract --list-langs
运行结果示例：
List of available languages (3):engosdequ
结果显示它只支持几种语言，如果想要安装多国语言，还需要安装语言包，官方叫作tessdata（其下载链接为：https://github.com/tesseract-ocr/tessdata）。
利用Git命令将其下载下来并迁移到相关目录即可，不同版本的迁移命令如下所示。
在Ubuntu、Debian和Deepin系统下的迁移命令如下：
git clone https://github.com/tesseract-ocr/tessdata.gitsudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
在CentOS和Red Hat系统下的迁移命令如下：
git clone https://github.com/tesseract-ocr/tessdata.gitsudo mv tessdata/* /usr/share/tesseract/tessdata
这样就可以将下载下来的语言包全部安装了。
这时我们重新运行列出所有语言的命令：
tesseract --list-langs
结果如下：
List of available languages (107):aframharaasmazeaze_cyrlbelbenbodbosbulcatcebceschi_simchi_tra...
可以发现，这里列出的语言就多了很多，比如chi_sim就代表简体中文，这就证明语言包安装成功了。
接下来再安装tesserocr即可，这里直接使用pip安装：
pip3 install tesserocr pillow
5. Mac下的安装
在Mac下，我们首先使用Homebrew安装ImageMagick和tesseract库：
brew install imagemagick brew install tesseract --all-languages
接下来再安装tesserocr即可：
pip3 install tesserocr pillow
这样我们便完成了tesserocr的安装。
6. 验证安装
接下来，我们可以使用tesseract和tesserocr来分别进行测试。
下面我们以如图1-26所示的图片为样例进行测试。

文章图片
图1-26 测试样例
【tesserocr的安装】该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png，可以直接保存或下载。
首先用命令行进行测试，将图片下载下来并保存为image.png，然后用tesseract命令测试：
tesseract image.png result -l eng && cat result.txt
运行结果如下：
Tesseract Open Source OCR Engine v3.05.01 with LeptonicaPython3WebSpider
这里我们调用了tesseract命令，其中第一个参数为图片名称，第二个参数result为结果保存的目标文件名称，-l指定使用的语言包，在此使用英文（eng）。然后，再用cat命令将结果输出。
运行结果便是图片的识别结果：Python3WebSpider。可以看到，这时已经成功将图片文字转为电子文本了。
然后还可以利用Python代码来测试，这里就需要借助于tesserocr库了，测试代码如下：
import tesserocrfrom PIL import Imageimage = Image.open('image.png')print(tesserocr.image_to_text(image))
我们首先利用Image读取了图片文件，然后调用了tesserocr的image_to_text()方法，再将其识别结果输出。
运行结果如下：
Python3WebSpider
另外，我们还可以直接调用file_to_text()方法，这可以达到同样的效果：
import tesserocrprint(tesserocr.file_to_text('image.png'))
运行结果：
Python3WebSpider
如果成功输出结果，则证明tesseract和tesserocr都已经安装成功。

tesserocr的安装

推荐阅读

vb.net操作硬件 vbnet implements

今日淘汰鸡全国价格今日鸡蛋价格

小宅vr眼镜好用吗小宅魔镜头盔使用说明

毕业季家长的感言美句家长对老师的感言简短

洛神花怎么养护洛神花怎么养能开花

鸿蒙3安全流畅，鸿蒙系统安全程度

2022三九天时间表三九天2021时间表图

暗杀动作手机游戏，暗杀系列游戏大全

ospf路由表分析,OSPF路由表的作用

植发3000个毛囊面积图植发三千个毛囊单位有多少面积

美股怎么选美股怎么选股

世界word安卓,如何使用安卓用手机打印pdf?

关于重阳节的诗词重阳节有哪些诗词

红豆薏米芡实茶哪些人不能喝

香辣帝王蟹的做法帝王蟹做法

万像素|荣耀X30 MAX，不只有大！

想减肥的人少吃鸡翅这些高热量食物减肥期间不要碰

郭德纲的麒麟剧社有发展前途吗？能不能最后收编主流京剧界？

传统的汽配公司在干什么汽配公司属于什么行业

桌游黑暗之魂好玩吗黑暗之魂游戏介绍和攻略