通过charles抓包对小程序进行分析
我们打开小红书小程序,随意搜索一个关键词
你可以发现列表中的数据已经被我们抓到了mitmproxy中提供这样的方法给我们,我们可以通过request对象截取到request headers中的url、cookies、host、method、port、scheme等属性
这不正是我们想要的吗?
我们直接截取"authorization"和"x-sign" 这两个参数
然后往headers里填入
整个就完成了。
以上是我们整个的爬取思路,下面给大家讲解一下代码怎么写
其实代码写起来并不难
首先,我们必须截取到搜索api的流,这样我们才能够对其进行获取信息
if 'https://www.xiaohongshu.com/f...' in flow.request.url:
我们通过判断flow的request里面是否存在搜索api的url
来确定我们需要抓取的请求
authorization=re.findall("authorization',.?'(.?)')",str(flow.request.headers))[0]
x_sign=re.findall("x-sign',.?'(.?)')",str(flow.request.headers))[0]
url=flow.request.url
v:ping0206guo
【使用Python爬虫爬取小红书完全过程】编辑于 2022-03-24 11:11
推荐阅读
- 面试系列|阿里面试官偷偷给我的软件测试工程师面试题,拿offer率老高了
- 数据库|【分享】—如何学习软件测试
- 数据库|在(快来pick你最喜爱的团队!)
- 数据库|比SQL还好用,又一门国产数据库语言诞生了
- 数据库|硬刚一周,3W字总结,一年的经验告诉你如何准备校招!
- MySQL|醒醒,这么详细地MySQL升级版增删改查还不看看()
- MySQL|MySQL数据库的基本操作以及数据类型
- MySQL|MySQL进行中(一)
- MySQL|MySQL——事务管理