python|21天python分布式爬虫--爬虫前奏3

HTTP协议中常用的请求方法: 【python|21天python分布式爬虫--爬虫前奏3】在HTTP协议中,定义了八种请求方法,而其中两种常见的请求方法,分别是get请求和post请求

  1. get请求:一般情况下,只从服务器获取数据下来,并不会对服务器次元产生任何影响的时候会使用get请求
  2. post请求:向服务器发送数据(登录)、上产文件等会对木武器资源产生影响的时候会使用post请求。
    要注意有的网站和服务器为了反爬虫机制,会不按常理出牌,有可能一个应该使用get的方法的请求改成post请求,这个要看情况而定
常见的请求头 在http协议中,向服务器中发送一个请求,数据分为三部分,第一个是把数据放在url中,第二个是把数据放在body中(在post请求中),第三个是把数据放在head中,下面介绍些请求头的参数:
  1. User-Agent :浏览器名称。在请求网页的时候,服务器可以通过这个参数知道请求是从哪种服务器发出的。而如果我们是通过爬虫发出儿都请求,那么我们的user-agent就是python,而这对于那些有反爬虫机制的网站来说,可以轻易的判断出这个请求是爬虫,因此我们需要经常设置这个值为一些浏览器的值,来伪装我们的爬虫
  2. Referer:表示当前这个请求是从哪一个url过来的,一般也可以用来做反爬虫机制。如果不是从指定页面过来的,就不做相关相应
  3. Cookie:由于http协议是无状态的。因此就用Cookie来做标识。一般想要做登录后才能访问的网站,那么就需要发送Cookie
常见的响应状态码: 200:请求正常,服务器正常的返回数据
301:永久重定向。
302:临时重定向。
400:请求的url在 服务器上找不到。换句话说就是url错误
403:服务器拒绝访问,权限不够
500:服务器内部错误,可能服务器内部出错误了

    推荐阅读