python爬虫urllib中的异常模块处理
目录
- urllib中的异常处理
- url的组成部分
- URLError
- HTTPError
- 简介
- Urllib.error 模块
- 异常处理
urllib中的异常处理 在我们写爬虫程序时,若出现url中的错误,那么我们就无法爬取我们想要的内容,对此,我们引入了urllib中的异常处理。
url的组成部分 URL由6个部分组成:eg:
https://www.baidu.com/s?wd=易烊千玺
- 协议(http/https)
- 主机(www.baidu.com)
- 端口号(80/443)
- 路径(s)
- 参数(wd=易烊千玺)
- 锚点
http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)
URLError
通常来说,URLError报错通常为url地址中主机部分的错误:
实例:
url = 'https://www.baidu.com1/'
运行结果:
urllib.error.URLError:【python爬虫urllib中的异常模块处理】
HTTPError
这个异常的通常是url地址中参数或是路径的错误。
实例:
url = 'https://www.jianshu.com/p/3388cf148dba1'
运行结果:
urllib.error.HTTPError: HTTP Error 404: Not Found
简介
- HTTPError类是URLError类的子类
- 导入的包urllib.error.HTTPError/urllib.error.URLError
- http错误:http错误是针对浏览器无法连接到服务器而增加的出来的错误提示,引导并告诉浏览者该页是出了什么问题。
- 通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更健壮,可以通过try -except进行捕获异常。
Urllib.error 模块 urllib.error 模块为 urllib.request 所引发的异常定义了异常类,基础异常类是 URLError。
urllib.error 包含了两个方法,URLError 和 HTTPError。
URLError 是 OSError 的一个子类,用于处理程序在遇到问题时会引发此异常(或其派生的异常)。
HTTPError 是 URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候,包含的属性 code 为 HTTP 的状态码, reason 为引发异常的原因,headers 为导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。
异常处理 用try except语句块捕获并处理异常,其基本语法结构如下所示:
try:可能产生异常的代码块
except [ (Error1, Error2, … ) [as e] ]:处理异常的代码块1
except [ (Error3, Error4, … ) [as e] ]:处理异常的代码块2
except [Exception]:处理其它异常
实例:
原url= ‘https://www.jianshu.com/p/3388cf148dba’源码:
import urllib.requestimport urllib.errorurl = 'https://www.jianshu.com1/p/3388cf148dba'# url的组成 eg:https://www.baidu.com/s?wd=易烊千玺# 1.协议(http/https) 2.主机(www.baidu.com) 3.端口号(80/443) 4.路径(s) 5.参数(wd=易烊千玺) 6.锚点#常见的端口号# http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'}try:request = urllib.request.Request(url = url,headers = headers)response = urllib.request.urlopen(request)content = response.read().decode('utf8')print(content)except urllib.error.HTTPError:print('HTTP异常,请稍后!')except urllib.error.URLError:print('URL异常,请稍后!')
1.URLError
url = ‘https://www.jianshu.com1/p/3388cf148dba’运行结果:
文章图片
2.HTTPError
url = ‘https://www.jianshu.com/p/3388cf148dba111’运行结果:
文章图片
由于HTTPRError是URLError的子类,所以需先写httperror的异常处理,否则一律认为是URLError的异常。urllib的异常处理就写到这啦,希望大家都不会出现异常,更多关于python爬虫urllib异常处理的资料请关注脚本之家其它相关文章!
推荐阅读
- Python技能树共建之python|Python技能树共建之python urllib 模块
- 基于python的口罩识别
- 二叉树的建立和遍历C&python实现
- python-海洋数据处理|python 将垂直速度从压力坐标系转为高度坐标系(pa/s转为m/s)
- python-海洋数据处理|python 基于metpy计算位涡平流项(水平)
- pandas基础|Python基础之Scipy
- Python数据分析--Numpy常用函数介绍(2)
- 用 Python 做“贪吃蛇”,在线吃不饱
- 程序员|手把手教你使用 Python 制作贪吃蛇游戏
- c++|Python 什么时候会被取代()