python爬取网页详细教程,如何用 Python 爬取需要登录的网站

1 , 如何用 Python 爬取需要登录的网站post获取COOKIE,然后带着COOKIE去爬【python爬取网页详细教程,如何用 Python 爬取需要登录的网站】
2 , 如何用 python 爬取简单网页推荐:《pyspider 爬虫教程(二):ajax 和 http》——足兆叉虫由于 ajax 实际上也是通过 http 传输数据的,所以我们可以通过 chrome developer tools 找到真实的请求,直接发起真实请求的抓取就可以获得数据了 。ajax 一般是通过 xmlhttprequest 对象接口发送请求的 , xmlhttprequest 一般被缩写为 xhr 。
3,Python提取网页标签内容用beautifulsoup这个插件我这里:【教程】抓取网并提取网页中所需要的信息 之 python版有代码和注释 。不过 , 看这个之前,你最好参考:【整理】关于抓取网页 , 分析网页内容,模拟登陆网站的逻辑/流程和注意事项去了解网站抓取相关的逻辑,然后再参考:【教程】手把手教你如何利用工具(ie9的f12)去分析模拟登陆网站(百度首页)的内部逻辑过程去抓取你所要处理的网站的内在执行逻辑 。(此处不给贴地址,请自己用google搜索帖子标题,即可找到帖子地址)
4,如何用Python抓取动态页面信息Spynner的简单使用 Spynner的功能十分强大,但是由于本人能力有限,就介绍一下如何显示网页的源码吧 。#! /usr/bin/python #-*-coding: utf-8 -*- import spynner browser = spynner.Browser() #创建一个浏览器对象 browser.hide() #打开浏览器...python抓取动态和静态页面基本是一样的 。区别有些动态页面是有对请求头有限制(如cookie\user agent)或者是ip限制等 。如果你要抓的动态页面没有这些限制,那么完全可以用抓静态页面一样的方法下面,比如下面的:import urllib2url = "xxxxxx"print urllib2.urlopen(url).read()5,如何入门 Python 爬虫“入门”是良好的动机,但是可能作用缓慢 。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习 。另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话 , 那么这个图一定不是一个有向无环图 。因为学习A的经验可以帮助你学习B 。因此,你不需要学习怎么样“入门”,因为这样的“入门”点根本不存在!你需要学习的是怎么样做一个比较大的东西,在这个过程中 , 你会很快地学会需要学会的东西的 。当然,你可以争论说需要先懂python , 不然怎么学会python做爬虫呢?但是事实上,你完全可以在做这个爬虫的过程中学习python :D看到前面很多答案都讲的“术”——用什么软件怎么爬,那我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现 。先长话短说summarize一下:你需要学习基本的爬虫工作原理基本的http抓取工具,scrapyBloom Filter: Bloom Filters by Example如果需要大规模网页抓?。?你需要学习分布式爬虫的概念 。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好 。最简单的实现是python-rq:https://github.com/nvie/rqrq和Scrapy的结合:darkrho/scrapy-redis · GitHub后续处理 , 网页析取(grangier/python-goose · GitHub),存储(Mongodb)从爬虫必要的几个基本需求来讲:1.抓取py的urllib不一定去用,但是要学,如果还没用过的话 。比较好的替代品有requests等第三方更人性化、成熟的库,如果pyer不了解各种库,那就白学了 。抓取最基本就是拉网页回来 。如果深入做下去,会发现要面对不同的网页要求,比如有认证的,不同文件格式、编码处理 , 各种奇怪的url合规化处理、重复抓取问题、cookies跟随问题、多线程多进程抓取、多节点抓取、抓取调度、资源压缩等一系列问题 。所以第一步就是拉网页回来,慢慢会发现各种问题待优化 。2.存储抓回来一般会用一定策略存下来,而不是直接分析 , 个人觉得更好的架构应该是把分析和抓取分离,更加松散 , 每个环节出了问题能够隔离另外一个环节可能出现的问题 , 好排查也好更新发布 。那么存文件系统、sqlornosql数据库、内存数据库,如何去存就是这个环节的重点 。可以选择存文件系统开始 , 然后以一定规则命名 。3.分析对网页进行文本分析,提取链接也好 , 提取正文也好,总之看的需求,但是一定要做的就是分析链接了 。可以用认为最快最优的办法,比如正则表达式 。然后将分析后的结果应用与其他环节:)4.展示要是做了一堆事情,一点展示输出都没有 , 如何展现价值 。所以找到好的展示组件,去show出肌肉也是关键 。如果为了做个站去写爬虫 , 抑或要分析某个东西的数据,都不要忘了这个环节,更好地把结果展示出来给别人感受 。

    推荐阅读