【python|python 爬虫(正则表达式 re 与网页解析包 Beautifulsoup)】断断续续接触 python 爬虫一年多,确实挺有趣的。对于很多常规的网页抓取,发现技术难度也不是特别高。准备将一些使用心得,总结写一下,供以后自己查阅以及知识传播。
由于网页(html)类似于 txt 一样的文本文档,因此爬虫其实就是从网页里找到想要的文本信息,爬虫的实质就是解析网页。
解析网页一般有三种方式:
- 利用 python 的一些字符串处理函数,例如:split, partition 等
- 利用正则表达式,相对比较复杂,有时间慢慢总结
- 利用 Beautifulsoup 包,比较适合抓网页中不同的 class 内容,但我发现对于 js 文件的抓取,使用正则表达式较多,Beautifulsoup 包基本用不到
推荐阅读
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- Python|Win10下 Python开发环境搭建(PyCharm + Anaconda) && 环境变量配置 && 常用工具安装配置
- Python绘制小红花
- Pytorch学习|sklearn-SVM 模型保存、交叉验证与网格搜索
- OpenCV|OpenCV-Python实战(18)——深度学习简介与入门示例
- python|8. 文件系统——文件的删除、移动、复制过程以及链接文件
- 爬虫|若想拿下爬虫大单,怎能不会逆向爬虫,价值过万的逆向爬虫教程限时分享
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍
- java|微软认真聆听了开源 .NET 开发社区的炮轰( 通过CLI 支持 Hot Reload 功能)