男儿欲遂平生志,五经勤向窗前读。这篇文章主要讲述「无代码」高效的爬取网页数据神器相关的知识,希望能为你提供帮助。
神器介绍工作中,我们有时需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?需要获取某个网站中的数据作为素材,比如一些热点排名。但是不会写代码或觉得写代码爬取太麻烦,那有没有什么高效的工具能帮助我们解决这个问题呢?
神器介绍web scraper 是 Chrome 浏览器的插件,能够通过图像界面的方式帮助我们抓取网页上的数据。
这是一款免费的 Chrome 浏览器扩展,只要建立sitemap即可抓取相应的数据,无需写代码即可抓取95%以上的网站数据(比如博客列表,知乎回答,微博评论等)
文章图片
(下载链接:国内, 国外)
文章图片
使用教程以 B 站的排行榜为例,我们需要抓取排行榜的数据。(地址:https://www.bilibili.com/v/popular/rank/all)
文章图片
1.首先我们已经安装好 web scraper 插件,通过 F12 打开开发工具,找到插件页面。
文章图片
2.可以看到多了个 web scraper 标签,下面有
sitemaps
,sitemap
,create new sitemap
,点击 create
新建一个爬虫抓取任务。name 随意填一个,url 填入网页访问地址即可。文章图片
文章图片
3.然后点击add new selector 添加新的选择器,给id起个名,type为 element ,点击 select 选中需要爬取的页面元素,可以看到网页标红了。
然后再选择第二条,可以看到下面的内容都选中了,点击 done selecting 就好了。
文章图片
【「无代码」高效的爬取网页数据神器】
文章图片
文章图片
接着点击 element preview 预览下可以看到页面元素都抓取到了,还要选中Multiple 。然后保存选择器。
文章图片
4.然后通过以上方式新建选择器,将排名,标题,播放量,评论量,简介图,链接等数据抓取。点击 selector graph 可以看到抓取的选择器关系图。
文章图片
文章图片
5.然后选择器都建好后点击 scrape 开始抓取数据,等待抓取完成,刷新数据预览。
文章图片
文章图片
文章图片
6.最后可导出 CSV 文件,用excel查看抓取数据。
文章图片
文章图片
总结最后,附上我的抓取脚本,导入即可爬取数据。
{"_id":"bilibili","startUrl":["https://www.bilibili.com/v/popular/rank/all"],"selectors":[{"id":"bilibili_rank","parentSelectors":["_root"],"type":"SelectorElement","selector":"li.rank-item","multiple":true,"delay":0},{"id":"-排名","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":" div.num","multiple":true,"delay":0,"regex":""},{"id":"-标题","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""},{"id":"播放量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":".detail >
span:nth-of-type(1)","multiple":false,"delay":0,"regex":""},{"id":"评论量","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"span:nth-of-type(2)","multiple":false,"delay":0,"regex":""},{"id":"简介图","parentSelectors":["bilibili_rank"],"type":"SelectorImage","selector":"img","multiple":false,"delay":0},{"id":"-链接","parentSelectors":["bilibili_rank"],"type":"SelectorText","selector":"a.title","multiple":false,"delay":0,"regex":""}]}
推荐阅读
- C++类和对象--运算符重载
- Spring Cloud Alibaba入门九:Nocas配置中心(入门)
- Spring功能介绍SpringMVC集成Java Bean Validation实现参数检验功
- 2021年巨热门的Python爬虫框架大推荐
- 分布式软总线让阿里巴巴商家玩转多设备直播
- LINUX学习第四天
- Virtualbox 接入华三网络模拟器HCL网络环境设置
- DNS
- Ansible Service模块手册