亦余心之所善兮,虽九死其犹未悔。这篇文章主要讲述#私藏项目实操分享#Python模拟登录,selenium模块,Python识别图形验证码实现自动登录相关的知识,希望能为你提供帮助。
前言利用python识别图形验证码,实现自动登陆。废话不多说。
让我们愉快地开始吧~
开发工具Python版本: 3.6.4
相关模块:
re模块;
numpy模块;
pytesseract模块;
selenium模块;
以及一些Python自带的模块。
环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可。
1.灰度处理 把彩色验证码图片转为灰色的图片
文章图片
import cv2image = cv2.imread(1.jpeg, 0)
cv2.imwrite(1.jpg, image)
2.二值化处理 将图片处理为只有黑白两色的图片,这里发现干扰线没有了,这就意味着我们只需要处理干扰点即可。
文章图片
import cv2image = cv2.imread(1.jpeg, 0)
ret, image = cv2.threshold(image, 100, 255, 1)
height, width = image.shape
new_image = image[0:height, 0:150]
cv2.imwrite(1.jpg, new_image)
3.降噪处理 去除小黑点,也就是孤立的黑色像素点。
文章图片
点降噪原理就是检测黑色点相邻的8个点,判断8个点的颜色情况。如果全是白点,那么就认为这个点是白色的,做黑点变白点处理。如⑤点处,以田字格来看,相邻共有8个区域。
【#私藏项目实操分享#Python模拟登录,selenium模块,Python识别图形验证码实现自动登录】
文章图片
①②③点坐标如下图,同理可知④⑤⑥⑦⑧⑨点坐标情况
文章图片
降噪代码
import cv2
import numpy as np
from PIL import Imagedef inverse_color(image, col_range):
# 读取图片,0意味着图片变为灰度图
image = cv2.imread(image, 0)
# 图片二值化,100为设置阀值,255为最大阀值,1为阀值类型,当前点值大于阀值,设置为0,否则设置为255。ret是return value缩写,代表当前的阀值
ret, image = cv2.threshold(image, 110, 255, 1)
# 图片的高度和宽度
height, width = image.shape
# 图片反色处理,原因:上面的处理只能生成白字黑底的图片,而我们需要的是黑字白底的图片
img2 = image.copy()
for i in range(height):
for j in range(width):
img2[i, j] = (255 - image[i, j])
img = np.array(img2)
# 对处理后的图片做截取
height, width = img.shape
new_image = img[0:height, col_range[0]:col_range[1]]
cv2.imwrite(handle_one.png, new_image)
image = Image.open(handle_one.png)
return imagedef clear_noise(img):
# 图片降噪处理
x, y = img.width, img.height
for i in range(x):
for j in range(y):
if sum_9_region(img, i, j) <
2:
# 改变像素点颜色,白色
img.putpixel((i, j), 255)
img = np.array(img)
cv2.imwrite(handle_two.png, img)
img = Image.open(handle_two.png)
return imgdef sum_9_region(img, x, y):
"""
田字格
"""
# 获取当前像素点的颜色值
cur_pixel = img.getpixel((x, y))
width = img.width
height = img.heightif cur_pixel == 255:# 如果当前点为白色区域,则不统计邻域值
return 10if y == 0:# 第一行
if x == 0:# 左上顶点,4邻域
# 中心点旁边3个点
sum_1 = cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
return 4 - sum_1 / 255
elif x == width - 1:# 右上顶点
sum_2 = cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1))
return 4 - sum_2 / 255
else:# 最上非顶点,6邻域
sum_3 = img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
return 6 - sum_3 / 255elif y == height - 1:# 最下面一行
if x == 0:# 左下顶点
# 中心点旁边3个点
sum_4 = cur_pixel + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y - 1)) + img.getpixel((x, y - 1))
return 4 - sum_4 / 255
elif x == width - 1:# 右下顶点
sum_5 = cur_pixel + img.getpixel((x, y - 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y - 1))
return 4 - sum_5 / 255
else:# 最下非顶点,6邻域
sum_6 = cur_pixel + img.getpixel((x - 1, y)) + img.getpixel((x + 1, y)) + img.getpixel((x, y - 1)) + img.getpixel((x - 1, y - 1)) + img.getpixel((x + 1, y - 1))
return 6 - sum_6 / 255else:# y不在边界
if x == 0:# 左边非顶点
sum_7 = img.getpixel((x, y - 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y - 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
return 6 - sum_7 / 255
elif x == width - 1:# 右边非顶点
sum_8 = img.getpixel((x, y - 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x - 1, y - 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1))
return 6 - sum_8 / 255
else:# 具备9领域条件的
sum_9 = img.getpixel((x - 1, y - 1)) + img.getpixel((x - 1, y)) + img.getpixel((x - 1, y + 1)) + img.getpixel((x, y - 1)) + cur_pixel + img.getpixel((x, y + 1)) + img.getpixel((x + 1, y - 1)) + img.getpixel((x + 1, y)) + img.getpixel((x + 1, y + 1))
return 9 - sum_9 / 255def main():
img = 1.jpeg
img = inverse_color(img, (0, 160))
clear_noise(img)if __name__ == __main__:
main()
解决最大的问题后,接下来就是实现自动登陆。首先使用selenium自动点击登陆按钮。
文章图片
截图进行处理,最后成功获取验证码。
这里为什么是截图呢,原因是验证码图片一直在变化。比如说我现在复制这个8863验证码的图片链接,在新的标签页打开,会发现验证码改变了,不是8863,而是另外一张验证码图片。那么我们通过获取当前页面的验证码链接,从而来获取验证码图片,这种方法肯定是不可行的。
通过查阅相关资料,知道了带cookies访问验证码链接页面,能够成功解决这个问题。不过由于相关的库没导入成功,也就放弃了。等下回做验证码机器学习的时候,再给予解决。
文章图片
登陆成功
文章图片
推荐阅读
- 重重封锁,让你一条数据都拿不到《死磕MySQL系列 十三》
- #yyds干货盘点# 硬核!!教你如何通过脚本自动部署虚拟机并安装操作系统
- #yyds干货盘点#读配置讲原理看面试真题,我只能帮你到这了。。。
- 开源app 控制ESP8266,通过mqtt,app inventor开发
- Flutter 专题47 图解新的状态管理 Provider#yyds干货盘点#
- Linux之locate命令
- #yyds干货盘点#算法开启小码农双链表血脉
- #yyds干货盘点# springboot实现文件上传
- #私藏项目实操分享# 如何解决 Angular custom library module 在 ng build 时无法被识别的错误