Selenium&Pytesseract模拟登录+验证码识别 Selenium&Pytesseract模拟登录+验证

https://www.py3study.com/Article/details/id/351.html
验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的.
验证码识别，即图片识别，很多人都有误区，觉得这是爬虫方面的知识，其实是不对的.
验证码识别涉及到的知识：人工智能，模式识别，机器视觉，图像处理.
主要流程：
1 图像采集：就直接通过HTTP抓HTML，然后分析出图片的url，然后下载保存就可以了
2 预处理：检测是正确的图像格式，转换到合适的格式，压缩，剪切出ROI，去除噪音，灰度化，转换色彩空间这些
3 检测：验证码识别呢，主要是找出文字所在的主要区域
4 前处理：验证码识别，“一般”要做文字的切割
5 训练：通过各种模式识别，机器学习算法，来挑选和训练合适数量的训练集
6 识别：输入待识别的处理后的图片，转换成分类器需要的输入格式，然后通过输出的类和置信度，来判断大概可能是哪个字母
Pytesseract--验证码识别
1 简介
Python-tesseract是一款用于光学字符识别（OCR）的python工具，即从图片中识别出其中嵌入的文字。Python-tesseract是对Google Tesseract-OCR的一层封装。它也同时可以单独作为对tesseract引擎的调用脚本，支持使用PIL库（Python Imaging Library）读取的各种图片文件类型，包括jpeg、png、gif、bmp、tiff和其他格式，。作为脚本使用它将打印出识别出的文字而非写入到文件。所以安装pytesseract前要先安装PIL和tesseract-orc这俩依赖库
2 安装
**PIL安装 **Python平台的图像处理标准库****

pip3 install pillow

pytesseract安装，文字识别库

pip3 install pytesseract

tesseract-ocr安装,识别引擎
windows:
https://digi.bib.uni-mannheim.de/tesseract/
下载
tesseract-ocr-setup-3.05.02 或者 tesseract-ocr-setup-4.0.0-alpha
linux:
github上面下载对应版本
https://github.com/tesseract-ocr/tesseract
【Selenium&Pytesseract模拟登录+验证码识别】遇到问题及解决:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
解决方法:(我是win环境)
找到tesseract-ocr安装目录,复制路径如: C:\Program Files (x86)\Tesseract-OCR\tesseract.exe
找到pytesseract.py文件，修改tesseract_cmd的路径，如下:

文章图片
blob.png 环境安装完后，分析目标网站：
华中科技大学 http://www.hust-snde.com/cms/
需求，每天登陆一次保持活跃度
可以看到这个登陆是需要输入验证码的

文章图片
blob.png
下面将利用Selenium&Pytesseract模拟登陆+验证码识别
完整代码如下:

#!/usr/bin/env python
coding: utf-8 import time
from selenium import webdriver
from PIL import Image
import pytesseract
class LoginSchool(object):
def init(self, username, password, url):
self.username = username
self.password = password
self.url = url
self.browser = self.getbrowser()
self.login_school(self.browser)

def getbrowser(self): chrome_options = webdriver.ChromeOptions() # 去除警告 chrome_options.add_argument('disable-infobars') # 无头模式 # chrome_options.set_headless() browser = webdriver.Chrome(options=chrome_options, executable_path=r'D:\chromedriver_2.41\chromedriver.exe') return browserdef login_school(self, browser): browser.get(self.url) time.sleep(3) # 打开目标网站,并截取完整的图片 browser.get_screenshot_as_file('login.png') # 找到输入账号的input，并输入账号 browser.find_element_by_id("loginId").send_keys(self.username) # 找到输入密码的input,并输入密码 browser.find_element_by_id("passwd").send_keys(self.password) # 找到验证码img标签,切图 img_code = browser.find_element_by_xpath("//div[@class='logif']//img[@id='imgCode']") time.sleep(3) # 算出验证码的四个点，即验证码四个角的坐标地址 left = img_code.location['x'] top = img_code.location['y'] right = img_code.location['x'] + img_code.size['width'] bottom = img_code.location['y'] + img_code.size['height'] print("验证码坐标::", left, top, right, bottom) # 利用python的PIL图片处理库，利用坐标，切出验证码的图 im = Image.open('login.png') im = im.crop((left, top, right, bottom)) im.save('code.png') # 调用图片识别的函数，得到验证码 code = self.img_to_str() # 找到验证码的input,并输入验证码 browser.find_element_by_id("authCode").send_keys(code) # 点击登录按钮 browser.find_element_by_xpath("//div[@class='loga']/a[text()=' 登　录']").click() time.sleep(2) try: msg = browser.find_element_by_xpath("//div[@class='user_name']").text if msg: print('登陆成功') print(msg) except Exception as e: print('登陆失败:{}'.format(e)) finally: time.sleep(1) browser.quit()def img_to_str(self): # 打开切出的验证码code.png img = Image.open('code.png') # 利用pytesseract识别出验证码 # -psm 8 为识别模式 # -c tessedit_char_whitelist=1234567890的意思是识别纯数字(0-9) code = pytesseract.image_to_string(img, config='-psm 8 -c tessedit_char_whitelist=1234567890') print('验证码识别:{}'.format(code)) return code

if name == 'main':
username = '账号'
password = '密码'
url = 'http://www.hust-snde.com/center
/left_hydl.jsp?url=www.hust-snde.com:80/sso/login_centerLogin.action'
st = LoginSchool(username=username, password=password, url=url)