使用Python爬虫爬取小红书完全过程数据库

通过charles抓包对小程序进行分析
我们打开小红书小程序，随意搜索一个关键词
你可以发现列表中的数据已经被我们抓到了mitmproxy中提供这样的方法给我们，我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性
这不正是我们想要的吗？
我们直接截取"authorization"和"x-sign" 这两个参数
然后往headers里填入
整个就完成了。
以上是我们整个的爬取思路，下面给大家讲解一下代码怎么写
其实代码写起来并不难
首先，我们必须截取到搜索api的流，这样我们才能够对其进行获取信息
if 'https://www.xiaohongshu.com/f...' in flow.request.url:
我们通过判断flow的request里面是否存在搜索api的url
来确定我们需要抓取的请求
authorization=re.findall("authorization',.?'(.?)')",str(flow.request.headers))[0]
x_sign=re.findall("x-sign',.?'(.?)')",str(flow.request.headers))[0]
url=flow.request.url
v:ping0206guo
【使用Python爬虫爬取小红书完全过程】编辑于 2022-03-24 11:11

使用Python爬虫爬取小红书完全过程

推荐阅读

社保需要交多少年才可以领养老金?养老金是怎么算的

人造棉是棉绸吗

教你如何开挂，教你如何自己做挂不用担心被抓

老竹大方茶的产地及品质特征介绍

八小时工作制最早出现在哪个国家

故事里的人——石神与石泓

家里的小猫得了猫藓,医生照了一下说很严重开了八百多块钱药,请问这个花费正常吗,以后还要花多少钱？

锦鲤花养殖注意事项锦鲤水花养殖注意事项

抖音朋友圈射箭穿心表白图制作教程

外用药能否治疗早泄早泄的外用药

佳能5d拍摄技巧佳能5ds拍体育

让龙猫亲近自己的方法有吗

重庆被起诉了但是实在没有钱还怎么办

科目4多少分才算合格

笔记|多线程基础

用户|为什么iQOO Z3能不让用户做“取舍”？

FGO情人节三期高难本怎么打 2019女帝情人节高难本攻略

一辈子闺蜜经典句子有哪些

大金空调制冷外机不工作怎么办,一般情况就放置在这个位置

如何搭建直播电商平台，如何做好电商直播平台