HTTP协议中常用的请求方法: 【python|21天python分布式爬虫--爬虫前奏3】在HTTP协议中,定义了八种请求方法,而其中两种常见的请求方法,分别是get请求和post请求
- get请求:一般情况下,只从服务器获取数据下来,并不会对服务器次元产生任何影响的时候会使用get请求
- post请求:向服务器发送数据(登录)、上产文件等会对木武器资源产生影响的时候会使用post请求。
要注意有的网站和服务器为了反爬虫机制,会不按常理出牌,有可能一个应该使用get的方法的请求改成post请求,这个要看情况而定
- User-Agent :浏览器名称。在请求网页的时候,服务器可以通过这个参数知道请求是从哪种服务器发出的。而如果我们是通过爬虫发出儿都请求,那么我们的user-agent就是python,而这对于那些有反爬虫机制的网站来说,可以轻易的判断出这个请求是爬虫,因此我们需要经常设置这个值为一些浏览器的值,来伪装我们的爬虫
- Referer:表示当前这个请求是从哪一个url过来的,一般也可以用来做反爬虫机制。如果不是从指定页面过来的,就不做相关相应
- Cookie:由于http协议是无状态的。因此就用Cookie来做标识。一般想要做登录后才能访问的网站,那么就需要发送Cookie
301:永久重定向。
302:临时重定向。
400:请求的url在 服务器上找不到。换句话说就是url错误
403:服务器拒绝访问,权限不够
500:服务器内部错误,可能服务器内部出错误了
推荐阅读
- python|python爬虫--爬虫前奏
- python|python 推理引擎_【Rust日报】 2019-05-12(Snip开源神经网络推理引擎Tract)
- java|【Rust日报】2022-03-21 Firefox 现在约 10% 的代码为 Rust
- python|【Rust日报】2022-03-22 fluent-uri(一个快速、简单和严格的URI解析器)
- c++|【Rust日报】2022-03-23 RustSBI软件发布v0.2.2版本
- java|【Rust日报】2022-01-28 Rust 编程,2022 年的展望
- java|【Rust日报】2021-12-19 Foundry(以太坊应用程序开发工具包)
- 嵌入式|【Rust 日报】2021-11-21 The RustFest Global - Rust in Arts
- 嵌入式|【Rust日报】2021-11-14 一个开源的基于Rust和Flutter的Notion替代产品