使用selenium爬取网页，如何在scrapy|使用selenium爬取网页，如何在scrapy shell中调试响应使用selenium爬取网页，如何在

scrapy shell 使用方法
一般为了检查 Spider 的解析过程，我们会进入 scrapy shell，执行一些代码测试解析逻辑有没有问题，比如看 CSS 选择器有没有写错。进入 shell 的方法如下：

$ scrapy shell example.com 2018-09-12 12:25:17 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023 2018-09-12 12:25:17 [scrapy.core.engine] INFO: Spider opened 2018-09-12 12:25:17 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None) [s] Available Scrapy objects: [s]scrapyscrapy module (contains scrapy.Request, scrapy.Selector, etc) [s]crawler [s]item{} [s]request [s]response<200 http://example.com> [s]settings [s]spider [s] Useful shortcuts: [s]fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed) [s]fetch(req)Fetch a scrapy.Request and update local objects [s]shelp()Shell help (print this help) [s]view(response)View response in a browser In [1]: print(response) <200 http://example.com>

在 shell 中，提供了好几个变量，最常用的就是 response ，它表示 HTTP 请求收到的响应。我们可以这样测试：

In [7]: response.css('body div h1::text').extract_first()

问题
但是，如果我们的响应是通过 selenium 在浏览器渲染后返回的呢？这时我们直接进入 scrapy shell 是得不到浏览器渲染后的 response 的，得到的是 HTTP 请求后的 response，没有执行 JS 脚本。
比如，我们爬取淘宝商品列表页：

$ scrapy shell https://s.taobao.com/search?q=%E5%B0%8F%E7%B1%B38&s=44

进入 scrapy shell

In [6]: xpath = '//div[@id="mainsrp-itemlist"]//div[@class="items"][1]//div[contains(@class, "item")]'In [7]: response.xpath(xpath) Out[7]: []

直接进入 scrapy shell，响应中的 HTML 没有商品列表节点。
解决办法
Google 搜 scrapy shell selenium 没有找到合适的答案，在官方文档找到答案，我们可以在 spider 进入 scapy shell，当 response 传送给 spider 时，已经由 SeleniumDownloaderMiddlerware(自己写的中间件)渲染好，这时就商品列表已经在 response 的 HTML 中了，所以我们就可以测试 CSS 选择器了。

# -*- coding: utf-8 -*- from scrapy import Spider, Request from scrapytaobao.items import ProductItemclass TaobaoSpider(Spider): name = 'taobao' allowed_domains = ['www.taobao.com'] base_url = 'https://s.taobao.com/search'def start_requests(self): ...def parse(self, response): from scrapy.shell import inspect_response inspect_response(response, self)

在 spider 解析方法中调用 inspect_response()，传入 response 和 spider 实例。然后我们运行爬虫。

$ scrapy crawl taobao 2018-09-12 12:27:48 [selenium.webdriver.remote.remote_connection] DEBUG: Finished Request 2018-09-12 12:27:48 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None) [s] Available Scrapy objects: [s]scrapyscrapy module (contains scrapy.Request, scrapy.Selector, etc) [s]crawler [s]item{} [s]request [s]response<200 https://s.taobao.com/search?q=%E9%AD%85%E6%97%8F&s=0> [s]settings [s]spider [s] Useful shortcuts: [s]shelp()Shell help (print this help) [s]view(response)View response in a browser In [1]:

当 scrapy 执行到请求回调方法时(parse)，就会进入 scrapy shell ，我们检查一下 response 的 HTML 中是否真的包含 JS 渲染的商品列表：

In [1]:xpath = '//div[@id="mainsrp-itemlist"]//div[@class="items"][1]//div[contains(@class, "item")]'In [2]: response.xpath(xpath) Out[2]: [



 
 【使用selenium爬取网页，如何在scrapy|使用selenium爬取网页，如何在scrapy shell中调试响应】可以看到我们已经获取到商品列表了，解决了在 scrapy shell 中调试浏览器渲染的响应问题。



		  	

    
    




    
    
    


推荐阅读

           
                  
              
                  【伦理】焕女?人生（22） 
                
                   
                
              
            

                  
              
                  服务器突然消失了怎么办？ 找不到了服务器怎么办 
                
                   
                
              
            

                  
              
                  饥荒中文版下载 
                
                   
                
              
            

                  
              
                  每日小故事之“苏武牧羊” 苏武牧羊的故事 
                
                   
                
              
            

                  
              
                  山竹能多吃吗 
                
                   
                
              
            

                  
              
                  手机打开谷歌浏览器一下就闪退解决方法 
                
                   
                
              
            

                  
              
                  三国24名将排名，刘备死前说赵云不可重用 
                
                   
                
              
            

                  
              
                  如何用snapseed给图片添加动态效果 用snapseed给图片添加动态效果的方法 
                
                   
                
              
            

                  
              
                  癌症|《柳叶刀》社论｜癌症照护远不止癌症治疗！ 
                
                   
                
              
            

                  
              
                  关于阳光高考网怎么注册登录 
                
                   
                
              
            

                  
              
                  石家庄|深夜通报！继续居家7天！石家庄“火眼”建成，每日最高可检测100万人份 
                
                   
                
              
            

                  
              
                  三棱的治病疗方有哪些 
                
                   
                
              
            

                  
              
                  月黑风高是什么意思，月黑风高是什么意思解释 
                
                   
                
              
            

                  
              
                  吉利汽车博越上坡辅助功能如何使用 吉利博越爬坡有没辅助功能 
                
                   
                
              
            

                  
              
                  经常脚趾抽筋：按摩腿部和脚部 最快的方法：掰脚趾 
                
                   
                
              
            

                  
              
                  小寒大寒哪个冷 小寒是不是三九 
                
                   
                
              
            

                  
              
                  林内壁挂炉不供热怎么回事 
                
                   
                
              
            

                  
              
                  00后可以做什么工作 00后无资金如何创业 
                
                   
                
              
            

                  
              
                  默认网关是什么，win7默认网关不可用的修复方法 
                
                   
                
              
            

                  
              
                  男士们最希望自己在生日的时候收到什么礼物呢？ 
                
                   
                
              
            

          

由浅入深理解AOP 
 【译】20个更有效地使用谷歌搜索的技巧 
 mybatisplus如何在xml的连表查询中使用queryWrapper 
 MybatisPlus|MybatisPlus LambdaQueryWrapper使用int默认值的坑及解决 
 MybatisPlus使用queryWrapper如何实现复杂查询 
 iOS中的Block 
 Linux下面如何查看tomcat已经使用多少线程 
 使用composer自动加载类文件 
 android|android studio中ndk的使用 
 使用协程爬取网页，计算网页数据大小