python|21天python分布式爬虫--爬虫前奏3

2022-03-28 Python http

HTTP协议中常用的请求方法： 【python|21天python分布式爬虫--爬虫前奏3】在HTTP协议中，定义了八种请求方法，而其中两种常见的请求方法，分别是get请求和post请求

get请求:一般情况下，只从服务器获取数据下来，并不会对服务器次元产生任何影响的时候会使用get请求
post请求：向服务器发送数据（登录）、上产文件等会对木武器资源产生影响的时候会使用post请求。
要注意有的网站和服务器为了反爬虫机制，会不按常理出牌，有可能一个应该使用get的方法的请求改成post请求，这个要看情况而定

常见的请求头在http协议中，向服务器中发送一个请求，数据分为三部分，第一个是把数据放在url中，第二个是把数据放在body中（在post请求中），第三个是把数据放在head中，下面介绍些请求头的参数：

User-Agent ：浏览器名称。在请求网页的时候，服务器可以通过这个参数知道请求是从哪种服务器发出的。而如果我们是通过爬虫发出儿都请求，那么我们的user-agent就是python，而这对于那些有反爬虫机制的网站来说，可以轻易的判断出这个请求是爬虫，因此我们需要经常设置这个值为一些浏览器的值，来伪装我们的爬虫
Referer:表示当前这个请求是从哪一个url过来的，一般也可以用来做反爬虫机制。如果不是从指定页面过来的，就不做相关相应
Cookie：由于http协议是无状态的。因此就用Cookie来做标识。一般想要做登录后才能访问的网站，那么就需要发送Cookie

常见的响应状态码： 200：请求正常，服务器正常的返回数据
301：永久重定向。
302：临时重定向。
400：请求的url在服务器上找不到。换句话说就是url错误
403：服务器拒绝访问，权限不够
500：服务器内部错误，可能服务器内部出错误了

推荐阅读

上一篇：c++堆排序和堆

下一篇：python爬虫常见报错_Python爬虫系列之什么是爬虫