目录
【python|Python爬虫之无法获取网页源码的解决方案详解】1 引子
2 解决方案
1 引子 对某网页数据爬取时,
文章图片
键中
文章图片
显示网页源码与鼠标右键
文章图片
查看网页源代码显示的网页源码不同。
文章图片
图1: F12 键中 Elements 显示的网页源码
文章图片
图2:鼠标右键 -> 查看网页源代码显示的网页源码 因此,在使用如下代码获取网页源码时实际上获取的是图
文章图片
所示的网页源码:
content = requests.get(url).content.decode('utf-8')
print(content)
然而我们想要获得是图
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/b58b4cadd7564217825e28aae2cad781.gif)
文章图片
所示的网页源码,那么这个想法怎么实现呢?
2 解决方案 既然无法通过
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/ddb8e25d18e44b9b8581c8e061e56cf2.gif)
文章图片
库来直接获取到我们想要的网页源码,那么我们就采用
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/ab2b28b9f85446c4a84772be4a4c5c13.gif)
文章图片
和
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/a6178d2c7add4b2aaa41b8b634d182f2.gif)
文章图片
方法直接获取我们想要的网页源码。
基于此,直接右击鼠标找到
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/f82104ec9ff6460ba889ffeda33f326c.gif)
文章图片
,复制可供复制的整篇源码。
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/9ccdb40b684045e08ca6f50a8f9a8760.jpg)
文章图片
粘贴到本地,并将文件以
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/c78fbb33c6b44cf4b05893288ee7b3ff.gif)
文章图片
后缀命名。
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/3ffbb92ac68a4098800ce417b1891e58.jpg)
文章图片
之后就好办了,比如我这里运用
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/2b7e35fde7a74546a38c5aa39f3c727b.gif)
文章图片
库即可获取到我们想获得的网页源码。
soup = BeautifulSoup(open('new.html', encoding='utf-8'), "html.parser")
print(soup)
![python|Python爬虫之无法获取网页源码的解决方案详解](https://img.it610.com/image/info8/4545e55993794c13b3426155cea69b32.jpg)
文章图片
END
推荐阅读
- linux|ROS话题通信章节总结
- java|在具有CSS形状的弯曲图像周围包裹文本
- python|pvs-stdio ue4_云中的PVS-Studio(Azure DevOps)
- 该怎么用pyqt5来实现数据的增、删、改、查功能...
- 【Python 技巧】itertools.permutations()
- 【Python 技巧】Lambda 函数
- 【Python 技巧】何时使用 __repr__ 与 __str__()
- 【JS 逆向百例】拉勾网爬虫,traceparent、__lg_stoken__、X-S-HEADER 等参数分析
- java|湖南工程师用中文编写操作系统,还发明了甲、乙、丙语言(??)