爬虫小技巧|pyinstaller打包selenium+企业微信群发参数调配

目录
1.selenium的等待与打包常见错误
2.调用print中的内容和比较数据
3.企业微信群发与webhook参数配置
4.总结

1.selenium的等待与打包常见错误 在爬一些接口加密的动态数据时,有时候的需求就是那么一两个时效性的数据,费劲心思解密整理显得有些笨拙,做无头浏览拿出数据在有些时候也是非常实用的手段,这里分享一些自己经历过的问题和大家分享。
【爬虫小技巧|pyinstaller打包selenium+企业微信群发参数调配】显性等待和隐形等待是最为常见的等待手段,隐性等待页面完全加载,显性检查元素加载是否完成,个人习惯的显性的书写格式:

wait = WebDriverWait(web, 30, 2) wait.until(EC.presence_of_element_located((By.XPATH, '**'))) wait.until(EC.presence_of_element_located((By.XPATH, '**'))) text = web.find_element_by_xpath('**').text time = web.find_element_by_xpath('**').text

使用xpath或者id定位都可,以每2s做一次检测,30s没到抛出异常,拿到想要的文本或者其他内容。
遇到的证书问题,监测问题,等一些稀奇古怪却又不时出现的问题,可以试一试我的参数配置。
opt = Options() opt.add_argument("--headless") opt.add_argument("--disable-gpu") opt.add_argument('--ignore-certificate-errors') opt.add_argument('-ignore -ssl-errors') opt.add_experimental_option('excludeSwitches', ['enable - logging']) web = Chrome(options=opt, executable_path='**')# 路径下是chrome的驱动位置 web.get('**')

用pyinstaller打包时出现的问题大多数都是参数配置类型,还有出现C:\Program‘ 不是内部或外部命令的这个问题,可以写成下面这个形式(和 Program Files (x86) 挂钩的都先加个引号准没错),推荐用-D打包,很好用。(具体的参数讲解见文末)
os.system(r'C:/"Program Files (x86)"/Google/Chrome/Application/chromedriver.exe')

pyinstaller -D xxx.py



2.调用print中的内容和比较数据 当我们遇到循环时出来的小数据差错,有时候需要print里的内容,可以将其加入文件后再用参数调取。(也就是将print的内容保存到文件)
print(y, end='', file=f)

而当我们遇到一些类似新闻等数据时带有时间和文本的,可以返回两个值,x = getContent() x[0]用于输出 x[1] 与上一条数据比较重复,这样在大工作量采用并发编程时,可以避免太多变量混淆。


3.企业微信群发与webhook参数配置 将新闻播报、天气预报等时效性的数据,想在手机群里就能天天实时获取,可以用企业微信自带的接口进行接入,或者用一些自动化的库实现群发,这里简单讲一下企业微信内部群webhook的实用性。
爬虫小技巧|pyinstaller打包selenium+企业微信群发参数调配
文章图片

添加后复制webhook参数 :
爬虫小技巧|pyinstaller打包selenium+企业微信群发参数调配
文章图片


配置到pycharm中
url = '**'# 机器人的webhook地址 headers = {'Content-type': 'application/json'} data = https://www.it610.com/article/{"msgtype": "text", "text": { "content": x,# x为要发送的文字 "mentioned_list": ["@all"]# 可指定人 }# 更多用途可查询企业微信官方} resp = requests.post(url, headers=headers, json=data) print(datetime.now().strftime("%Y-%m-%d %H:%M:%S"),resp.text) resp.close()

可以群发的不止文本,还有图片、图文、指定任务,发送时间、频率等都可以通过post请求将data数据传入实现。
针对外部群没有接口的情况,可以使用其他库利用算法运算(感兴趣可以私信我一起交流 )
4.总结 在途中的自己真正碰到了一些问题,想到了一些小技巧,也许无意中的小错误就会让我苦想好几天,希望自己可以在你们的编程路上发挥锦薄之力。
欢迎看到这篇的大家提出宝贵意见,一起交流学习。

爬虫小技巧|pyinstaller打包selenium+企业微信群发参数调配
文章图片


Python(七)并发编程-实践1 (进程,线程,协程)
企业微信机器人—入手
pyinstaller参数介绍以及总结




    推荐阅读