Scrapy工作流程图 【python|Python爬虫框架Scrapy工作流程】
文章图片
具体流程步骤:
- 爬虫(spiders)将需要发送请求的url(request)交给引擎(engin);
- 引擎(engine)将request对象交给调度器(scheduler);
- 调度器(scheduler)经过(排队、入队等)处理后,重新把request对象交给引擎(engine);
- 引擎将request对象交给下载器(downloader),中间可能会经过中间件(downloaderMiddlewares);
- downloader向internet发送请求, 并接受下载响应(response);
- 下载器将响应response返回给engine;
- 引擎将其交给爬虫spiders,中间可能经过中间件(spiderMiddlewares);
- spiders处理响应response,提取数据(接着爬取的url或者item)返还给引擎(engine);
- 提取的数据交给ItemPipeline保存(本地或数据库); 提取的url交给调度器重复同样流程.
推荐阅读
- 工具|我最终选择VS Code
- Python基础|使用Python求解数独
- python|Python 强大的信号库 blinker 入门教程
- Python|玩游戏怎么能没有皮肤,Python一键采集王某耀游戏所有皮肤,这波就很舒服
- Python|自从学会了用python解析视频,都不用去找下载按钮在哪了,是真的方便
- python|Python和Ruby两大语言全方位对比
- Python|表弟打把王者的时间,我就用python写了个自动玩贪吃蛇的程序
- 数学建模|2022数学建模美赛B题详细思路获取
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)