Scrapy1.4.0之抓取58同城房源详解（一） Scrapy1.4.0之抓取58同城房源详解

目标：抓取房源name、price、url
我们采用Scrapy框架，并用Pyquery解析
废话不多说，先上结果、步骤与代码：

文章图片
步骤：
进入工作目录后，建立一个爬虫工程：在命令行输入 scrapy startproject City_58
使用cd City_58进入项目目录
在工程中产生一个scrapy爬虫：在命令行输入scrapy genspider City_58_test 58.com

文章图片

文章图片
访问58同城网站，打开开发者工具，查看elements
查找含有目标信息的元素，提取目标网页的url，填入新建的Scrapy项目中Spider文件下的start_url中，并编写Spider
编写Items（用于定义需要爬取的字段）和Pipeline（处理Item）两个文件，以及修改setting文件（启动管道），创建main文件
运行main文件，启动Scrapy爬虫
代码如下：
Citems.py：定义我们所要爬取的信息的相关属性，此例中需要爬取的是name、price、url

文章图片
City_58_test.py：主要是用于定义请求链接，并使用pyquery选取目标元素

文章图片
pipeline.py：当item数据被city58_test爬虫爬取好并返回给引擎以后，引擎会把item交给City58Pipeline这个管道处理。这个pipeline文件负责打开关闭文件，并写入文件

文章图片
settings.py：开启City58Pipeline管道与robots协议
main.py：运行爬虫

文章图片
各文件详情：
items.py
【Scrapy1.4.0之抓取58同城房源详解（一）】Items
Item使用简单的class定义语法以及Field对象来声明
Item 对象是种简单的容器，保存了爬取到得数据
City_58_test.py
这个一个基本的scrapy的spider的model，首先我们要导入Scrapy.spiders中的Spider类，以及items.py中我们刚刚定义好的 City58Item
接着创建我们自己的爬虫类City58TestSpider并继承Spider类(父与子的关系)（其他爬虫类的使用可以去参考官方文档）
name
定义spider名字的(string)。spider的名字定义了Scrapy如何定位(并初始化)spider，name是spider最重要的属性，所以其必须是唯一的。（区别于City_58）
allowed_domains
可选。包含了spider允许爬取的域名(domain)列表(list)。当 OffsiteMiddleware 启用时，域名不在列表中的URL不会被跟进
start_urls
URL列表。当没有制定特定的URL时，spider将从该列表中开始进行爬取。因此，第一个被获取到的页面的URL将是该列表之一。后续的URL将会从获取到的数据中提取。
parse(response)
parse 负责处理response并返回处理的数据以及跟进的UR
pipeline.py
添加__init__方法，管道事件第一次执行时，创建58.csv文件，并打开
修改process_item方法，将City58TestSpider中获得的item数据存到demo.json文件中
添加colse_spider方法，管道事件结束时，关闭文件
settings.py
取消ITEM_PIPELINES的的注释，该项定义了管道的优先级，数值越小优先级越高
修改ROBOTSTXT_OBEY为false，避免某些网站禁止爬虫导致不能爬取数据
main.py
这文件需自己创建
City_58_Test乃爬虫名（区别项目名与爬虫名）
总结：
刚学习scrapy，不用太纠结于细节，最好先明白各文件之间的逻辑
这里用到很多类与函数的语法，不明白处，可先看上篇文章哦
Pyquery也是一个易学且强大的解析神器，直接pip install pyquery安装

文章图片
近来课程设计与毕业设计的准备花费了很多时间，很久没有更新，还望大家谅解
有不清楚的地方，大家可以留言，点赞，我看到了，会第一时间回复你
本系列文章同步跟新于微信公众号：工科男雷先生。知乎：雷之

Scrapy1.4.0之抓取58同城房源详解（一）

推荐阅读

孩子游泳需要注意哪些问题？

北海道12月下雪了吗

丰田86算跑车吗86属于两门4座硬顶跑车丰田86算跑车吗

晚上经常睡眠不好该怎么办

适合发朋友圈的爱情说说语录

用CDR绘制彩蛋简笔画的方法

哪款销售管理软件,能对每一个订单的发货情况进行查询？

教育过程的基本矛盾是什么

高铁发车后可以退票吗，高铁发车后可以退票吗人不在车站

沙石镇时光智能日历如何获得

以写景开头叙事的亲情中考满分作文

结婚戒指的戴法有区别吗？婚戒戴法

粉底液分层了还可以用吗

西游记95回内容概括西游记60回概括

rw渡劫亚瑟带队友击败xq,其亚瑟出装铭文曝光,居然是“暴击冷却”路线,值得推荐吗？

大众途观和翼虎到底哪个好昂科威和翼虎哪个好

理想之城收视率怎么样

黄体酮|女性缺乏黄体酮，竟然有这么多危害！身体会给出哪些暗示？

休闲山庄怎么玩不了游戏，休闲山庄需要什么手续

海绵是如何进食的