java知乎爬虫代码 java爬虫源码

java工程师一般用python做什么 知乎#做网站后台
Python在网站后台这边有大量的成熟的框架,如django,flask,bottle,tornado,我曾经用过flask和django搭建了的两个网站已经上线
#写网络爬虫
Python写爬虫非常简单,库很健全
以下是我写的一些爬虫教程和心得
#科学计算
Python有三大神器:numpy,scipy,matplotlib,其中numpy很多底层使用C语言实现的,所以速度很快,我曾经用它参加各种数学建模大赛,完全可以替代r语言和MATLAB
以下是我写的科学计算简单教程
#数据挖掘,机器学习
Python
的机器学习包很多,或者自己可以试着实现机器学习算法,因为Python的类似伪代码的语法,很容易快速实现自己的想法,另外主流的机器学习算法都有成熟
的包,加上谷歌开源的TensorFlow,常用的机器学习包:scikit-learn,pattern,jieba , pybrain等等
#数据科学
最近spark,Hadoop都开了Python的接口,所以使用Python做大数据的mapreduce也非常简单,加上py对数据库支持都很好,或者类似sqlalchemy的orm也非常强大好用
以及剩下的码算法,玩玩树莓派什么的我就不多说了,
py的强大其实在于他能迅速的实现想法
scrapy爬知乎问题 , 每次爬到240000多以后就结束了 , 什么原因发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector其按照我经验随便扯淡:面说爬虫基本3类:1.布式爬虫:Nutch
2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector
3. 非JAVA单机爬虫:scrapy
第类:布式爬虫
爬虫使用布式主要解决两问题:
1)海量URL管理
2)网速
现比较流行布式爬虫ApacheNutch于数用户说Nutch几类爬虫选择理由:
1)Nutch搜索引擎设计爬虫数用户需要做精准数据爬?。ň槿 。┡莱鍺utch运行套流程三二搜索引擎设计精抽取没太意义说用Nutch做数据抽取浪费间必要计算且试图通Nutch进行二发使适用于精抽取业务基本要破坏Nutch框架Nutch改面目全非修改Nutch能力真自重新写布式爬虫框架
2)Nutch依赖hadoop运行hadoop本身消耗间集群机器数量较少爬取速度反单机爬虫快
3)Nutch虽套插件机制且作亮点宣传看些源Nutch插件提供精抽取功能发Nutch插件都知道Nutch插件系统蹩脚利用反射机制加载调用插件使程序编写调试都变异困难更别说面发套复杂精抽取系统且Nutch并没精抽取提供相应插件挂载点Nutch插件五六挂载点五六挂载点都搜索引擎服务并没精抽取提供挂载点数Nutch精抽取插件都挂载页面解析(parser)挂载点挂载点其实解析链接(续爬取提供URL)及搜索引擎提供些易抽取网页信息(网页meta信息、text文本)
4)用Nutch进行爬虫二发爬虫编写调试所需间往往单机爬虫所需十倍间止解Nutch源码习本高何况要让团队都读懂Nutch源码调试程现除程序本身外各种问题(hadoop问题、hbase问题)
5)说Nutch2gora持久化数据avro文件、hbase、mysql等其实理解错说持久化数据指URL信息(URL管理所需要数据)存放avro、hbase、mysql并要抽取结构化数据其实数说URL信息存哪所谓
6)Nutch2版本目前并适合发官现稳定Nutch版本nutch2.2.1版本绑定gora-0.3想用hbase配合nutch(数用nutch2用hbase)能使用0.90版本左右hbase相应要hadoop版本降hadoop 0.2左右且nutch2官教程比较误导作用Nutch2教程两别Nutch1.xNutch2.xNutch2.x写支持hbase 0.94实际Nutch2.x意思Nutch2.3前、Nutch2.2.1版本版本官SVN断更新且非稳定(直修改)
所要做搜索引擎尽量要选择Nutch作爬虫些团队喜欢跟风非要选择Nutch发精抽取爬虫其实冲着Nutch名气(Nutch作者Doug Cutting)结往往项目延期完

推荐阅读