py爬取的html中文乱码
今天从美剧天堂爬取网页时,中文出现乱码,从网站代码看是Charest=gb2312,所以对爬取的html进行处理。
【py爬取的html中文乱码】html = unicode(html, "gb2312").encode("utf8")可得到正常的中文编码。
推荐阅读
- django-前后端交互
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- 2018-09-03(李克富视角点评训练营81/90)|2018-09-03(李克富视角点评训练营81/90) 那只蛙从“井”爬出来又进入了“隧道”
- 使用协程爬取网页,计算网页数据大小
- 爬虫数据处理HTML转义字符
- HTML基础--基本概念--跟着李南江学编程
- 2018-12-05爬虫
- 3.css浮动
- 还在工作中摸爬滚打的你所需要具备的时间管理方法
- Python实战计划学习笔记(9)为大规模爬取准备