鸟与虫(二)代码敲累了(来个段子)

  • 哈罗又见面了,我就是那个菜鸟。
  • 这次我看着知乎大佬爬嗅事百科的案例,自己爬了下挖段子网,来分享一下。
  • 代码敲累了?爬几个段子了一下,段子五分钟代码两小时。
''' 根据知乎大神代码作者:高佳乐''' import re##导入re库 import requests##导入requests import time##导入time #from bs4 import BeautifulSoup##导入bs4 ##定义一个去空格的类 class Tool():##定义一个类,这个类是去除空格 def replace(self,html):##方法,有两个参数 html = re.sub(re.compile('
|
','',html))##html=re.sub是替换函数,re.compile是换成正则表达式。 return htmlclass Spider(object):##定义一个类,名字叫爬虫的类 ##初始化方法 def __init__(self):##初始化 self.url = 'http://www.waduanzi.com/'##他的url是首页,因为后边的都是首页加数字了 self.tool = Tool()##他的tool是清理后空格##定义一个发送请求的方法 def Request(self,getUrl):##定义request方法,参数是geturl html = requests.get(getUrl)##html是请求参数的地址 html_text = html.text##html_text是html的text后 return html_text##返回他的text格式##定义一个获取准确字节的方法 def Obtain(self,obtain):##定义Obtain方法,有两个参数 html_text = self.Request(obtain)##html_text是他的参数,用上个方法返回来的text ##下边是定义一个正则表达式可以这么说了,好吧我承认,我不熟练,这个表达式我配了一阵,我看着谷歌配成功的,别的浏览器属性会跑。 regular = re.compile('.*?(.*?).*?item-detail.*?item-title.*?item-content">(.*?).*?item-toolbar.*?fleft.*?(.*?).*?fleft.*?(.*?).*?',re.S) itmes = re.findall(regular,html_text)##items 获取到findall所有符合到的,不过格式是一个列表,每项是元组 number = 1##number=1就是计数器 for itme in itmes:##因为是列表,要用什么,对遍历 print('第%d个\n楼主:%s\n正文:%s\n点赞:%s\n踩:%s'%(number,itme[0],itme[1],itme[2],itme[3]))##输出格式是这样额 print()##这个是换行输出 number+=1##计数器就要+1 return itmes##返回那个集合##保存文件 def save(self,data,name):##定义save方法两个参数 filName = 'page'+name+'.txt'##定义一个名字 f = open(filName,'wb')##f = 定义的名字和能读写模式 f.write(data.encode('utf-8'))##写入data的utf8模式 f.close()##关闭文件,随开随关才是好孩子##操作打开保存 def onesave(self,url,save):##定义一个方法,就是打开后保存 html = self.Obtain(url)##html是运用上一个方法获取列表 self.save(str(html),str(save))##保存(str(html),str(save))第一个str是转换成字符串,第二个也是因为第二个要+连接的##第几页 def page(self,star,end):##定义第几页的方法,两个参数,开始和结束 if star == 1:##如果输入的1 print('正在读取第1页')##正在读取第一页 self.onesave(self.url,star)##就是打开保存第一页,url是初始化的首页 print('第一页获取结束')##第一页获取结束 number = 2##然后number=2是要计数,因为第一页已经开始的所以从第二个 for i in range(number,end+1):##然后循环,从第二个开始,到end+1结束,为什么,因为for取头不取尾 print('正在读取%s页'%i)##正在读取i page = self.url+'/page/'+str(i)##page是页数,因为在网页得知几页几页是,主页+/page/几页的 self.onesave(page,i)##然后打开保存 print('%s页结束'%i)##输出结束 time.sleep(2)##等待时间,爬虫嘛,要有礼貌的爬 number+=1##计数器 if number == end+1:##上边循环完了判断,计数器是不是=end+1了。不出意外就会 print('加载结束')##加载结束 return False##返回False elif star>1:##如果开始是大于一的 number = star##就让计数器=输入的 for i in range(star,end+1):##循环从输入的和结束+1循环 print("正在读取%s页"%i)##正在读取 page = self.url+'/page/'+str(i)##就是获取网址的 self.onesave(page,i)##打开,保存 print('%s读取结束'%i)##读取结束 time.sleep(2)##礼貌,要礼貌,论爬虫的素养 number+=1##计数器不+1还有什么意义 if number == end+1:##循环结束了等于end+1 print('加载已结束')##循环结束 return False##返回Falseduqu = Spider()##实例化 duqu.page(star=(int(input('请输入你要获取的开始'))),end=int(input('请输入结束页数')))##实例的page获取的开始,结束

  • 我怕缩进出问题我就复制粘贴了我的代码。就是这么懒,打我啊。
  • 【鸟与虫(二)代码敲累了(来个段子)】代码完成是这样子滴。

    鸟与虫(二)代码敲累了(来个段子)
    文章图片
    搜狗截图20180527151549.png
  • 好了我的代码就是这些。我类也是刚刚学的,所以就用了类
  • 可能是我总是试一试,网站好像emmm,把我拦截了,我没有用代理,不太熟就没做。
  • 爬虫嘛,要礼貌,礼貌。
好了又该下次见了,等我学了新知识,做下一个案例,砸门,下一次见,拜拜。!

    推荐阅读