python爬虫基础篇(1)
背景:
首先提出两个问题,为什么要介绍爬虫呢?为什么使用python进行爬虫呢?在进行问题分析的时候,寻找解决方案的时候,第一步就是数据采集,数据分析。有些数据可以从数据库直接获取,有时候从数据库获取不是很方便(没有权限),另一种方式就是从利用爬虫从网页获取。
定义:
向网站发起请求,获取资源后分析并提取有用数据的程序
流程:爬虫一共分为4步骤:
- 获取url 发起request请求
- 获取服务器的response,
- 解析数据
- 【python爬虫基础篇(1)】数据存储
文章图片
爬虫流程.png
1,浏览器提交请求--->下载网页代码--->解析成页面(常用的方式)
2,模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中(用到第三方框架,例如:selenium)
根据request的请求方式可以分为
1,get请求,不需要表单
2,post请求,需要表单
根据获取的数据不同可以分为
1,静态抓取
2,动态抓取
Request请求
- url:就是你知道的那个url
- header:
-- User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户host;
-- cookies:cookie用来保存登录信息
爬虫一定要加上请求头,否则很容被识别出来,403禁止访问
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Python(pathlib模块)
- python青少年编程比赛_第十一届蓝桥杯大赛青少年创意编程组比赛细则
- Java|Java基础——数组
- Python数据分析(一)(Matplotlib使用)