分布式|Scrapy高级爬虫学习教程

2021-11-01

【分布式|Scrapy高级爬虫学习教程】
Scrapy高级爬虫

一、基于CrawlSpider全站数据爬取（阳光问政数据爬取）
- 1、需求：爬取sun网站中的编号，新闻标题，新闻内容，标号。
- 2、全站数据爬取的方式：
  - (1) 基于Spider的手动请求
  - (2) 基于CrawlSpider的使用
- 3、项目实操
二、分布式爬虫
- 概念：我们需要搭建一个分布式机群，让其对一组资源进行联合爬取。
- 作用：提升爬取数据的作用。
- 如何实现分布式呢？
  - 安装一个`scrapy-redis`组件
  - 那为什么原生的scrapy是不可以实现分布式爬取
  - scrapy-redis组件的作用：
  - 实现流程

推荐阅读

上一篇：vscode快捷键(陆续更新)

下一篇：我的宠物是千年女鬼|我的宠物是千年女鬼 22.小师姐VS颜如玉