python爬虫
目前该代码只是实现了当前页面所有出现的url中的图片爬去,并没有做第几页的爬取。但是天狗网页实在是太慢了。。建议大家换个网页 爬取吧 !话不多说直接看代码
# -*- coding:utf-8 -*-import urllib,re
import osdef ID():
#这里打开天狗网页源代码
html = urllib.urlopen("http://tnfs.tngou.net/")
html = html.read()
#利用正则来匹配到想要的内容并且返回
req = re.compile(r'href="http://www.tngou.net/tnfs/show/(.*?)"')
urllist = re.findall(req,html)
return urllistdef get_img(id):
#组合url
url = 'http://www.tngou.net/tnfs/show/'+id
html = urllib.urlopen(url).read()
#匹配
img = re.compile(r'src="https://www.it610.com/article/(.*?).jpg"')
img_url = re.findall(img,html)#文件判断
filename = (r'G:\\xxoo\\%s' %id)
if os.path.exists(filename):
message = 'OK, the "%s" file exists.'
else:
os.mkdir(r'G:\\xxoo\\%s' %id)
print message % filenamex = 0
for i in img_url:
print i
x +=1
try:
urllib.urlretrieve(i+'.jpg','G:\\xxoo\\%s\\%s.jpg' %(id,x))
except Exception,e:
print efor id in ID():
print id
print type(id)
get_img(id)
运行结果:
文章图片
Paste_Image.png
文章图片
Paste_Image.png
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Python(pathlib模块)
- python青少年编程比赛_第十一届蓝桥杯大赛青少年创意编程组比赛细则
- Python数据分析(一)(Matplotlib使用)
- 爬虫数据处理HTML转义字符