Python抓取网页内容乱码
【Python抓取网页内容乱码】在抓取Runoob网站的时候发现用python2的urllib读取的数据会存在乱码的情况,但是别的网页没有问题,在审查html的之后发现其编码的确是UTF-8无误,所以怀疑可能是由于网络发包走的是gzip,需要经过解压之类的处理,解决代码如下
#python3
import requests
r=requests.get("http://www.runoob.com/mongodb/mongodb-tutorial.html")
print(r.encoding)
print(r.text)
#python2
import gzip
import StringIO
import urllib2ur1='http://www.runoob.com/mongodb/mongodb-tutorial.html'
reponse=urllib2.urlopen(ur1)
r=reponse.read()
data = https://www.it610.com/article/StringIO.StringIO(r)
gzipper = gzip.GzipFile(fileobj=data)
html = gzipper.read()
print html
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- 使用协程爬取网页,计算网页数据大小
- Python(pathlib模块)
- python青少年编程比赛_第十一届蓝桥杯大赛青少年创意编程组比赛细则
- Python数据分析(一)(Matplotlib使用)