Python爬虫----初窥Scrapy
【Python爬虫----初窥Scrapy】为什么要学习scrapy,简单来说就是让爬虫更快更强.
安装命令
sudo pip3 install scrapy
在开始爬取之前,必须创建一个新的Scrapy项目。
scrapy startproject 项目名称
新建爬虫文件
scrapy genspider jobbole jobbole.com
然后在创建的爬虫文件jobbole.py中就可以发起请求,并提取想要的数据,将start_urls(设置起始url)的值修改为需要爬取的第一个url
start_urls = ("http://blog.jobbole.com/all-posts/",)
在items.py文件中添加字段(Item 定义结构化数据字段,用来保存爬取到的数据,有点像Python中的dict,但是提供了一些额外的保护减少错误)
class JobboleItem(scrapy.Item):# define the fields for your item here like:
#标题
title = scrapy.Field()
#创建时间
create_date = scrapy.Field()
在setting.py中启用一个Item Pipeline组件,当Item在Spider中被收集之后,它将会被传递到Item Pipeline,所以我们只需在pipeline文件中设置文件写入本地的格式和地址即可
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Python(pathlib模块)
- python青少年编程比赛_第十一届蓝桥杯大赛青少年创意编程组比赛细则
- Python数据分析(一)(Matplotlib使用)
- 爬虫数据处理HTML转义字符