分布式|Scrapy高级爬虫学习教程

【分布式|Scrapy高级爬虫学习教程】
Scrapy高级爬虫

  • 一、基于CrawlSpider全站数据爬取(阳光问政数据爬取)
    • 1、需求:爬取sun网站中的编号,新闻标题,新闻内容,标号。
    • 2、全站数据爬取的方式:
      • (1) 基于Spider的手动请求
      • (2) 基于CrawlSpider的使用
    • 3、项目实操
  • 二、分布式爬虫
    • 概念:我们需要搭建一个分布式机群,让其对一组资源进行联合爬取。
    • 作用:提升爬取数据的作用。
    • 如何实现分布式呢?
      • 安装一个`scrapy-redis`组件
      • 那为什么原生的scrapy是不可以实现分布式爬取
      • scrapy-redis组件的作用:
      • 实现流程

    推荐阅读