python简单爬虫--get方式详解
目录
- 环境准备
- 进行爬虫
- 参考
- 总结
环境准备 安装第三方库
pip install requestspip install bs4pip install lxml
进行爬虫 1.获取网页数据。
import requestsfrom bs4 import BeautifulSoupurl = "https://cn.bing.com/search?q=爬虫CSDN&qs=n&form=QBRE&sp=-1&pq=爬虫csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/"response = requests.get(self.url)
2.解析网页数据
soup = BeautifulSoup(response.text, 'lxml')
3.选取目标数据。此处key 依据源代码目标标题的位置确定。首先进入开发者模式,后查看目标在html中的位置,右击选择“复制selector”,见下图。
文章图片
key = "#b_results > li > div.b_title > h2 > a"soup.select(key)
4.清洗数据
result = {}for i, item in enumerate(data):result.update({f'title_{i}': item.get_text(),f'url_{i}': item.get('href')}) print(result)
参考 链接:https://www.jb51.net/article/152560.htm
【python简单爬虫--get方式详解】
总结 本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 科学养胃,别被忽悠,其实真的很简单
- 逻辑回归的理解与python示例
- opencv|opencv C++模板匹配的简单实现
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- 松软可口易消化,无需烤箱超简单,新手麻麻也能轻松成功~
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Python(pathlib模块)