puppeteer爬取house365租房数据
很简单, 就是用css选择器扒
1. puppeteer安装依赖
1. 新建项目
$ mkdir house365
$ cd house365
$ npm init
$ npm install puppeteer --save
2. 安装上的相关问题
- 网络问题
使用淘宝镜像
$ npm config set registry https://registry.npm.taobao.org
$ npm config set disturl https://npm.taobao.org/dist
$ npm config set puppeteer_download_host https://npm.taobao.org/mirrors
- windows下node-gyp相关问题
$ npm install -g node-gyp
$ npm install --global --production windows-build-tools
2. 观察
- 观察要爬的页面, 最简单的列表型, 我们爬每个的链接
文章图片
- 【puppeteer爬取house365租房数据】看分页, 第二页开始一一对应
文章图片
image.png - 输入一个比较大的数字, 看看总页数
文章图片
image.png - 观察内容页, 这些都用选择器选就是了
文章图片
image.png
4.结果
文章图片
image.png
文章图片
image.png
推荐阅读
- 使用协程爬取网页,计算网页数据大小
- Python实战计划学习笔记(9)为大规模爬取准备
- 爬取网易云音乐
- 爬虫:爬取猫眼电影榜单top100
- python爬取网上图片
- 【python笔记】使用python的pyquery简单爬取数据demo
- 使用puppeteer提取网页中的视频地址
- 不会Python爬虫(教你一个通用爬虫思路轻松爬取网页数据)
- 网易云歌词爬取(java)
- 爬虫(阿里小说网所有小说的内容爬取并保存到本地文件)