数据挖掘|python抓取中文网页显示乱码问题 python|ubuntu

问题：使用python抓取中文网页，print时中文显示乱码
抓取代码：
import urllib2,urllib,cookielib,threading
import os
import re
url = 'http://www.dugukeji.com/' #抓取的url
req = urllib2.Request(url)
response = urllib2.urlopen(req).read()
print response

【数据挖掘|python抓取中文网页显示乱码问题】

研究得知源网页为GBK（gb2312）编码，而python打印为utf8编码，所以需要做一下编码转换
import urllib2,urllib,cookielib,threading
import os
import re

url = 'http://www.dugukeji.com/'
req = urllib2.Request(url)
response = urllib2.urlopen(req).read()
response = unicode(response,'GBK').encode('UTF-8')
print response

unicode函数即把GBK编码的网页转换为unicode，再用encode编码成UTF-8输出即可

数据挖掘|python抓取中文网页显示乱码问题

推荐阅读

如何查询电脑上安装的.net版本，查看电脑net版本

男人常吃海参会有什么效果男人备孕吃海参有什么好处

榴莲和虾一起吃会有什么反应

《偷偷藏不住》段嘉许真实身世如何《偷偷藏不住》段嘉许简介

有限公司董事忠实义务是什么，公司董事的忠实义务

不能开机充电的机友们注意啦！！！

追尾要处罚什么责任

使用寿命|苹果手机电池可以充多少次？看完它的执行标准，你就知道了

藏青盐可以长期吃吗

洋葱裤是什么意思

岁月可期不负流年啥意思流年不负岁月可期的意思

卤水点豆腐一物降一物什么意思卤水点豆腐一物降一物的含义

大道至简是什么意思？

预算15W落地,轿车有哪些合适的？

苹果14序列号查询产地，通过苹果手机序号能查出是在哪个城市买的吗

西藏大学录取分数线2022考研是多少分西藏大学录取分数线2022

怎样制作手工鞭炮

unixodbc|unixODBC使用经验分享

奈奈生是什么梗奈奈生是什么意思

ADAMoracle预言机如何保证传输信息的可靠性