python|Python爬虫之无法获取网页源码的解决方案详解

2022-03-18 Python 爬虫

目录
【python|Python爬虫之无法获取网页源码的解决方案详解】1 引子
2 解决方案

1 引子对某网页数据爬取时，
文章图片
键中
文章图片
显示网页源码与鼠标右键
文章图片
查看网页源代码显示的网页源码不同。

文章图片
图1： F12 键中 Elements 显示的网页源码
文章图片
图2：鼠标右键 -> 查看网页源代码显示的网页源码因此，在使用如下代码获取网页源码时实际上获取的是图
文章图片
所示的网页源码：

content = requests.get(url).content.decode('utf-8') print(content)

然而我们想要获得是图

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片
所示的网页源码，那么这个想法怎么实现呢？
2 解决方案既然无法通过

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片
库来直接获取到我们想要的网页源码，那么我们就采用

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片
和

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片
方法直接获取我们想要的网页源码。
基于此，直接右击鼠标找到

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片
，复制可供复制的整篇源码。

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片

粘贴到本地，并将文件以

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片
后缀命名。

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片

之后就好办了，比如我这里运用

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片
库即可获取到我们想获得的网页源码。

soup = BeautifulSoup(open('new.html', encoding='utf-8'), "html.parser") print(soup)

python|Python爬虫之无法获取网页源码的解决方案详解

文章图片

END

推荐阅读

上一篇：hive|hive3.0惊天大bug发现，grouping()函数只能小写，大写直接报错，hive不是不区分大小写吗.

下一篇：transformer|利用swin-transformer训练自己的数据集