男儿欲遂平生志,六经勤向窗前读。这篇文章主要讲述简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题相关的知识,希望能为你提供帮助。
这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Nginx限制蜘蛛频繁抓取相关知识感兴趣的朋友一起看看吧 |
limit_req_zone
语法: limit_req_zone $variable zone=name:size rate=rate;
默认值: none
配置段: http
设置一块共享内存限制域的参数,它可以用来保存键值的状态。 它特别保存了当前超出请求的数量。 键的值就是指定的变量(空值不会被计算)。
这里键值使用客户端的agent, 使用$http_user_agent变量。 如果限制域的存储空间耗尽了,对于后续所有请求,服务器都会返回 503 (Service Temporarily Unavailable)错误。
请求频率可以设置为每秒几次(r/s)。如果请求的频率不到每秒一次, 你可以设置每分钟几次(r/m)。比如每秒半次就是30r/m。
全局配置nginx.conf
limit_req_zone $ning_spider zone=ning_spider:10m rate=200r/m;
某个server中
if ($http_user_agent ~* "baiduspider|Googlebot")
set $ning_spider $http_user_agent;
limit_req zone=ning_spider burst=5 nodelay;
参数说明:
指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。
指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。
指令limit_req 中的nodelay 表示当已经达到burst值时,再来新请求时,直接返回503IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$ning_spider赋值。这样就做到了只对百度蜘蛛进行限制了。
测试,速率达不上可以同时开多个以下??脚本??测试
[root@localhost ~]# cat test.sh
#! /bin/bash
sum=0;
for i in 1..1000
do
((sum = sum + i))
curl -I -A "Baiduspider" http://www.hezongtianxia.com
curl -I -A "Sogou web spider" http://www.hezongtianxia.com
done
echo $sum
tailf /home/wwwlog/access.log|grep 503
到此这篇关于使用Nginx限制百度蜘蛛频繁抓取 的文章就介绍到这了。
【简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题】本文地址:??https://www.linuxprobe.com/nginx-linux-teacher.html??
推荐阅读
- 总结查看系统负载的几种命令和top命令的指标
- C#中的Hashtable和Dictionary有什么区别()
- Go和Python编程语言之间有什么区别()
- C,C++,Java中的for和do-while循环之间的区别
- 洪水填充和边界填充算法之间有什么区别()
- 固定分区和可变分区之间的区别
- 第一角度投影和第三角度投影之间的区别
- 数字和模拟系统之间有什么区别()
- SQL中的DELETE和DROP之间的区别