数据挖掘|python抓取中文网页显示乱码问题
问题:使用python抓取中文网页,print时中文显示乱码
抓取代码:
import urllib2,urllib,cookielib,threading
import os
import re
url = 'http://www.dugukeji.com/' #抓取的url
req = urllib2.Request(url)
response = urllib2.urlopen(req).read()
print response
【数据挖掘|python抓取中文网页显示乱码问题】
研究得知源网页为GBK(gb2312)编码,而python打印为utf8编码,所以需要做一下编码转换
import urllib2,urllib,cookielib,threading
import os
import re
url = 'http://www.dugukeji.com/'
req = urllib2.Request(url)
response = urllib2.urlopen(req).read()
response = unicode(response,'GBK').encode('UTF-8')
print response
unicode函数即把GBK编码的网页转换为unicode,再用encode编码成UTF-8输出即可
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Python(pathlib模块)
- python青少年编程比赛_第十一届蓝桥杯大赛青少年创意编程组比赛细则
- Python数据分析(一)(Matplotlib使用)
- Python|Python 9.20