Python爬虫教程(三)
文章图片
一、处理cookie,实战登录17K小说网
????部分网站需要登录才能获取所需数据,如此例我们要获取小说网站书架数据,需要进行登录得到属于此账号信息。
文章图片
????1.会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。
????2.使用浏览器开发工具,找到登录所需网址。
文章图片
????3.使用session获取所要内容。
????
文章图片
文章图片
????4.获取cookie。
??????
文章图片
文章图片
????5.获取页面数据,使用session保持登录状态。
文章图片
文章图片
????6.第二种获取方式。
文章图片
文章图片
????我们可以看到直接使用requests无法进入登录状态的,但是我们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。
文章图片
文章图片
文章图片
二、requests处理防盗链,获取梨视频视频。
????选择梨视频中任意视频,使用浏览器开发工具可以看到其视频链接,但是我们无法在页面源代码中找到视频下载链接
文章图片
????刷新页面,可以在开发者工具中得到Request URL请求网址及srcUrl的网址。
文章图片
文章图片
文章图片
????输入浏览器中,会出现报错,我们将正确的视频网址与此网址进行对比,可看到其前后均相同,只有中间部分不同。
文章图片
????找到不同位置的来源,将两个界面进行对比。
文章图片
????下面进行视频的爬取。
????1.拿到contID
??????
文章图片
????2.获取videoStatus返回json
文章图片
文章图片
????出现文章已经下线的提升,可内容是出现在浏览器中的,我们将处理防盗链的问题,防盗链主要为溯源,找到本次请求的上一级链接。
文章图片
文章图片
文章图片
????筛选内容,获取json。
???????
文章图片
????3.对获取网址进行内容修改替换。
?????
文章图片
文章图片
????4.下载视频。
??????
文章图片
三、综合训练,爬取网易云音乐评论信息
【Python爬虫教程(三)】????1.使用开发者工具找到所需内容位置。
文章图片
????2.发现其数据为加密形式,按照其请求运行过程找到加密的位置。
????
文章图片
????
文章图片
????3.找到未加密的参数
文章图片
文章图片
????4.参考网易的逻辑找到其加密的逻辑,可发现需要params,encSecKey两个参数。
文章图片
文章图片
????5.对应上述逻辑,找到d,e,f,g分别对应内容。
文章图片
文章图片
文章图片
????6.下面进行评论的爬取。
文章图片
文章图片
文章图片
????????
文章图片
????7.运行获得结果,得到网易云音乐歌曲评论信息。
文章图片
推荐阅读
- 2.6|2.6 Photoshop操作步骤的撤消和重做 [Ps教程]
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- 漫画初学者如何学习漫画背景的透视画法(这篇教程请收藏好了!)
- Python基础|Python基础 - 练习1
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Python(pathlib模块)
- python青少年编程比赛_第十一届蓝桥杯大赛青少年创意编程组比赛细则