第六章|第六章 Scrapy框架(一) 2020-03-03
一、Scrapy框架– Scrapy介绍及其安装
【第六章|第六章 Scrapy框架(一) 2020-03-03】
本章目标
1、理解Scrapy架构。
2、学会Spider爬虫的编写。
3、学会CrawlSpider爬虫编写。
4、学会中间件的编写。
5、学会pipeline保存数据。
6、学会将Scrapy结合selenium一起使用。
7、学会在Scrapy中使用IP代理。
Scrapy框架介绍
写一个爬虫,需要做很多事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。
安装Scrapy框架
1、安装:通过pip install scrapy即可安装。
2、Scrapy官方文档:http://doc.scrapy.org/en/latest
3、Scrapy中文文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html
注意:
1、在ubuntu上安装scrapy之前,需要先安装以下依赖:
sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1-dev libffi-dev libssl-dev, 然后再通过pip install scrapy安装。
2、如果在windows系统下,提示这个错误ModuleNotFoundError:No
module named ‘win32api’, 那么使用以下命令可以解决:pip install pypiwin32。
3、如果安装的时候提示twisted安装有问题,那么可以先到这个网站下载twisted的whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/,下载完成后,再使用pip install xxx.whl安装。
上一篇文章 第五章 爬虫进阶(四十四) 2020-03-02 地址:
https://www.jianshu.com/p/5387149d02c3
下一篇文章 第六章 Scrapy框架(二) 2020-03-04 地址:
https://www.jianshu.com/p/d113e26e4223
以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。
推荐阅读
- 宽容谁
- 一个人的旅行,三亚
- 第6.2章(设置属性)
- 布丽吉特,人生绝对的赢家
- 家乡的那条小河
- 讲述,美丽聪明的海欧!
- PMSJ寻平面设计师之现代(Hyundai)
- 野营记-第五章|野营记-第五章 讨伐梦魇兽
- 夜游宫|夜游宫 心语
- 增长黑客的海盗法则