一个不错的图片网站的图片抓取--selenium|一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】

title: stocksnap 一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
date: 2016-09-18 10:59:28
tags:
参考:原文1# 参考:原文2# 1、原文1采用了scrapy方法,本文改编用selenium方法,并参考原文2首次采用模拟右键来保存图片。
2、网站分析:
首先发现鼠标拖动到图片底部区域,主页又不断加载新的图片,可判断是异步的。另单独查看2个图的xpath,发现总体格式一致,编号部分有差异:

/html/body/div[4]/div[3]/div[2]/div/div[1]/a/img/html/body/div[4]/div[3]/div[2]/div/div[11]/a/img

这样我们就得到了在firefox下统一的xpath为,注意是删除div[i]部分,留下2个斜杠:
/html/body/div[4]/div[3]/div[2]/div//a/img

此时,可能觉得为啥要删除,而不是用正则式.*代替?测试那样的结果是Nan,也就是说xpath的格式和re格式不能混搭。
【一个不错的图片网站的图片抓取--selenium|一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】】而每个jpg地址在src属性中,所以如果想查阅批量的图片地址,则:
/html/body/div[4]/div[3]/div[2]/div//a/img/@src

一个不错的图片网站的图片抓取--selenium|一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
文章图片
3、既然这么爽的得到了图片地址,剩下就是批量下载保存了:
这一次,先测试了用firefox模拟人工右键保存的方法,代码如下,保存那块还没整明白,也就是自动到出现图片保存的界面,根本原因是selenium无法操作操作系统级的对话框:
索性快速人工点保存,30个图的保存位置都是重复的,依次得到30个图:
一个不错的图片网站的图片抓取--selenium|一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
文章图片
4、随机打开一个图,如下,可见测试ok:

一个不错的图片网站的图片抓取--selenium|一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
文章图片
5、代码:
# -*- coding: utf-8 -*- # python 3.5.2 # Author:vansnowpea # stocksnap 一个不错的图片网站的图片,右键保存抓取from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keysprint('Please wait...Firefox loading...') print('---------------------------------')url = "https://stocksnap.io/"# 用浏览器实现访问 driver = webdriver.Firefox() driver.maximize_window() driver.get(url)# 得到总的jpgs的路径集合 xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"# set profile fp = webdriver.FirefoxProfile() fp.set_preference('browser.download.folderList', 2) fp.set_preference('browser.download.manager.showWhenStarting', False) fp.set_preference('browser.download.dir', './yourfolder/') fp.set_preference('browser.helperApps.neverAsk.saveToDisk', 'image/jpeg')# 保存图片,人工批量点保存,selenium无法操作操作系统级的对话框 for element in driver.find_elements_by_xpath(xpath): img_url = element.get_attribute('src') img_desc = element.get_attribute('data-desc')action = ActionChains(driver).move_to_element(element) action.context_click(element) action.send_keys(Keys.ARROW_DOWN) action.send_keys('v') action.perform()print('Well done! all pictures downloaded.') print('---------------------------------')# driver.close()

6、如果图片数量少,人工保存下也无妨,但数量大肯定不行,所以还是用常规的自动写入数据保存的方式。另外此网站是通过ajax异步加载,当鼠标放到首页30个图的下方,也就是浏览器底部区域,他又会自动加载新的图片出来。而通过新的第一层代码的模拟鼠标下移,可以得到更多的图片。千万要注意的是,在python 3中,对数dict的关键词查找是in,比如:if n in previous:而在python 2 中是has_key,比如:if previous.has_key(n):对应代码为:
# python 3.5.2 from selenium import webdriver import time import urllib# 爬取页面地址 url = "https://stocksnap.io/"# 目标元素的xpath xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"# 启动Firefox浏览器 driver = webdriver.Firefox()# 最大化窗口,因为每一次爬取只能看到视窗内的图片 driver.maximize_window()# 记录下载过的图片地址,避免重复下载 img_url_dic = {}# 浏览器打开爬取页面 driver.get(url)# 模拟滚动窗口以浏览下载更多图片 pos = 0 m = 0 # 图片编号 for i in range(10): pos += i*500 # 每次下滚500 js = "document.documentElement.scrollTop=%d" % pos driver.execute_script(js) time.sleep(1)for element in driver.find_elements_by_xpath(xpath): img_url = element.get_attribute('src') # 保存图片到指定路径 if img_url != None and not img_url in img_url_dic:img_url_dic[img_url] = '' m += 1 ext = img_url.split('.')[-1] filename = str(m) + '.' + ext #保存图片数据 data = https://www.it610.com/article/urllib.request.urlopen(img_url).read() f = open('./van/' + filename, 'wb') f.write(data) f.close() driver.close()

7、结果展示:相对第一个方法,获取了更多的图片:

一个不错的图片网站的图片抓取--selenium|一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
文章图片

    推荐阅读