python爬虫怎么学,python爬虫小白提问

1,python爬虫小白提问请求头里加上下面就是请求头里 Accept-Language 不同值时的差别
2 , 想用python做网络爬虫看什么书或教材比较好1. 爬虫入门:http://www.zhihu.com/question/20899988 2. py3爬虫 http://blog.jobbole.com/77821/【python爬虫怎么学,python爬虫小白提问】
3,如何学习Python爬虫其实网络爬虫就是模拟浏览器获取web页面的内容的过程,然后解析页面获取内容的过程 。首先要熟悉web页面的结构,就是要有前端的基?。灰欢ㄒ? ,但是一定要了解 。然后熟悉python基础语法,相关库函数(比如beautifulSoup),以及相关框架比如pyspider等 。建议刚开始不要使用框架 , 自己从零开始写,这样你能理解爬虫整个过程 。推荐书籍:python网络数据采集 这本书,比较基础 。你需要学习:1.基本的爬虫工作原理2.基本的http抓取工具,scrapy3.bloom filter: bloom filters by example4.如果需要大规模网页抓取,你需要学习分布式爬虫的概念 。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好 。最简单的实现是python-rq 。5.rq和scrapy的结合:darkrho/scrapy-redis · github6.后续处理,网页析取(grangier/python-goose · github),存储(mongodb)
4,如何入门 Python 爬虫“入门”是良好的动机,但是可能作用缓慢 。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习 。另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,那么这个图一定不是一个有向无环图 。因为学习A的经验可以帮助你学习B 。因此,你不需要学习怎么样“入门”,因为这样的“入门”点根本不存在!你需要学习的是怎么样做一个比较大的东西 , 在这个过程中,你会很快地学会需要学会的东西的 。当然,你可以争论说需要先懂python,不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习python :D看到前面很多答案都讲的“术”——用什么软件怎么爬,那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现 。先长话短说summarize一下:你需要学习基本的爬虫工作原理基本的http抓取工具 , scrapyBloom Filter: Bloom Filters by Example如果需要大规模网页抓取,你需要学习分布式爬虫的概念 。其实没那么玄乎 , 你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好 。最简单的实现是python-rq:https://github.com/nvie/rqrq和Scrapy的结合:darkrho/scrapy-redis · GitHub后续处理 , 网页析取(grangier/python-goose · GitHub),存储(Mongodb)从爬虫必要的几个基本需求来讲:1.抓取py的urllib不一定去用,但是要学,如果还没用过的话 。比较好的替代品有requests等第三方更人性化、成熟的库,如果pyer不了解各种库,那就白学了 。抓取最基本就是拉网页回来 。如果深入做下去 , 会发现要面对不同的网页要求,比如有认证的 , 不同文件格式、编码处理,各种奇怪的url合规化处理、重复抓取问题、cookies跟随问题、多线程多进程抓取、多节点抓取、抓取调度、资源压缩等一系列问题 。所以第一步就是拉网页回来 , 慢慢会发现各种问题待优化 。2.存储抓回来一般会用一定策略存下来,而不是直接分析 , 个人觉得更好的架构应该是把分析和抓取分离,更加松散,每个环节出了问题能够隔离另外一个环节可能出现的问题 , 好排查也好更新发布 。那么存文件系统、sqlornosql数据库、内存数据库,如何去存就是这个环节的重点 。可以选择存文件系统开始 , 然后以一定规则命名 。3.分析对网页进行文本分析,提取链接也好,提取正文也好 , 总之看的需求,但是一定要做的就是分析链接了 。可以用认为最快最优的办法 , 比如正则表达式 。然后将分析后的结果应用与其他环节:)4.展示要是做了一堆事情,一点展示输出都没有,如何展现价值 。所以找到好的展示组件,去show出肌肉也是关键 。如果为了做个站去写爬虫,抑或要分析某个东西的数据,都不要忘了这个环节,更好地把结果展示出来给别人感受 。

    推荐阅读