Java 爬虫工具/开源API对比 BigData&Cloud

注：基于网上收集到的信息，未经代码试验过。
【Java 爬虫工具/开源API对比】

名称	分类	优点	缺点	Git 评价
Apache Nutch	搜索引擎	分布式（依赖hadoop），为搜索引擎设计	重量级，用于精抽取会低效，Nutch插件调试困难	老大级
Spiderman	爬虫	微内核+插件式架构，重配置（无需写代码），多线程	用户太少	star 525 \| fork 326
webmagic	爬虫	使用了HttpClient，支持多线程抓取，分布式抓取	JS动态加载要使用如PhantomJS、Selenium,用户太少	荐，star 406 \| fork 225
WebCollector 2	爬虫	可用于分页及AJAX的遍历策略，集成selenium从而支持JS，支持多代理随机切换	用户太少	荐，star 29 \| fork 32
Crawljax	爬虫	支持Ajax	树回溯性能问题	star 222 \| fork 123
OWASP AJAX Crawling Tool	爬虫	支持Ajax(用到Selenium)	?	-
jsoup	HTML解析器	HTML解析器	-	老大级
HttpComponents(即原HttpClient)	网络工具包	实现了所有 HTTP 的方法（GET,POST,PUT,HEAD 等）,支持代理	-	老大级
Htmlunit	网络工具包	支持JS，JUnit 的扩展测试框架，将返回文档模拟成 HTML	-	老大级
selenium2(WebClient)	网络工具包	辅助动态爬虫(集成Htmlunit、phantomjs)	-	-
phantomjs	服务器端JS	辅助动态爬虫，JS WebKit，无需浏览器Web测试，页面访问自动化	-	star 14210 \| fork 2695

Java 爬虫工具/开源API对比