Python爬虫教程(三)

Python爬虫教程(三)
文章图片

一、处理cookie,实战登录17K小说网 ????部分网站需要登录才能获取所需数据,如此例我们要获取小说网站书架数据,需要进行登录得到属于此账号信息。
Python爬虫教程(三)
文章图片

????1.会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。
????2.使用浏览器开发工具,找到登录所需网址。
Python爬虫教程(三)
文章图片

????3.使用session获取所要内容。
????Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????4.获取cookie。
??????Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????5.获取页面数据,使用session保持登录状态。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????6.第二种获取方式。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????我们可以看到直接使用requests无法进入登录状态的,但是我们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

二、requests处理防盗链,获取梨视频视频。 ????选择梨视频中任意视频,使用浏览器开发工具可以看到其视频链接,但是我们无法在页面源代码中找到视频下载链接
Python爬虫教程(三)
文章图片

????刷新页面,可以在开发者工具中得到Request URL请求网址及srcUrl的网址。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????输入浏览器中,会出现报错,我们将正确的视频网址与此网址进行对比,可看到其前后均相同,只有中间部分不同。
Python爬虫教程(三)
文章图片

????找到不同位置的来源,将两个界面进行对比。
Python爬虫教程(三)
文章图片

????下面进行视频的爬取。
????1.拿到contID
??????Python爬虫教程(三)
文章图片

????2.获取videoStatus返回json
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????出现文章已经下线的提升,可内容是出现在浏览器中的,我们将处理防盗链的问题,防盗链主要为溯源,找到本次请求的上一级链接。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????筛选内容,获取json。
???????Python爬虫教程(三)
文章图片

????3.对获取网址进行内容修改替换。
?????Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????4.下载视频。
??????Python爬虫教程(三)
文章图片

三、综合训练,爬取网易云音乐评论信息 【Python爬虫教程(三)】????1.使用开发者工具找到所需内容位置。
Python爬虫教程(三)
文章图片

????2.发现其数据为加密形式,按照其请求运行过程找到加密的位置。
????Python爬虫教程(三)
文章图片

????Python爬虫教程(三)
文章图片

????3.找到未加密的参数
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????4.参考网易的逻辑找到其加密的逻辑,可发现需要params,encSecKey两个参数。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????5.对应上述逻辑,找到d,e,f,g分别对应内容。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????6.下面进行评论的爬取。
Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

Python爬虫教程(三)
文章图片

????????Python爬虫教程(三)
文章图片

????7.运行获得结果,得到网易云音乐歌曲评论信息。
Python爬虫教程(三)
文章图片

    推荐阅读