Python-如何通过免费代理搭建自己的IP池?


Python程序员有绝大多数都是从写爬虫开始的 。在接触爬虫一段时间大家通常会遇到一个相同的问题----IP不够用了!

Python-如何通过免费代理搭建自己的IP池?

文章插图
大多数网站为了防止爬虫拖库 。防止DDos攻击会对单IP的访问做频率做出限制 。甚至会将大量访问的IP列入黑名单 。影响我们爬虫的持续稳定进行 。
目前市面上有很多免费的代理平台(当然收费的更多) 。
Python-如何通过免费代理搭建自己的IP池?

文章插图
我们搭建自己的代理IP池的原理很简单 。就是定时爬取这些网站的代理IP资源 。并进行质量检查 。剔除掉质量较差的代理IP 。
我相信问这个问题的同学已经对python爬虫有了很多了解 。爬取这样的网站肯定不在话下 。然而已经有很多开源的项目可以供大家直接来用了 。
今天隆重推荐的是IPProxyPool项目
Python-如何通过免费代理搭建自己的IP池?

文章插图
使用它 。你可以在半小时内拥有属于你自己的代理IP池 。这些IP实时更新 。并且保证质量 。
安装数据库
首先需要安装数据库 。IPProxyPool支持Mysql和MongoDB两种形式的数据存储 。
mysql配置如下:
Python-如何通过免费代理搭建自己的IP池?

文章插图
MongoDB配置如下:
Python-如何通过免费代理搭建自己的IP池?

文章插图
安装所需模块
1.安装sqlite数据库(一般系统内置): apt-get install sqlite3
2.安装requests,chardet,web.py,gevent psutil: pip install requests chardet web.py sqlalchemy gevent psutil
3.安装lxml: apt-get install python-lxml
使用
1. 下载项目源码 。git clone ……
2. 启动程序python IPProxy
到此你自己的IP资源池已搭建完毕了 。是不是很简单呢 。
项目通过HTTP提供服务 。默认服务端口地址为8000
我们可以使用下面的方式查询代理IP资源啦!
Python-如何通过免费代理搭建自己的IP池?

文章插图
大家快去试试看吧 。使用过程中有任何问题欢迎一块留言讨论!
其他观点:
这个得自己塔了 。看到已经有人长篇大论的描述了 。我就锦上添花一把 。分享一个自己在用的接口
【Python-如何通过免费代理搭建自己的IP池?】hxxp://47.52.171.214/pull/getfreeip/

    推荐阅读