MOOC_Python网络爬虫与信息提取课程笔记(一)

1.网络爬虫的requests库:

import requests r=requests.get("http://www.baidu.com") r.status_code#返回状态编码

结果返回为200,表示连接成功,404则表示连接失败
import requests r=requests.get("http://www.baidu.com") r.status_code r.encoding='utf-8'#相映的编码形式 r.text#打印网页内容

requests库的7个主要用法:

image.png request.get(url,params=None,**kwargs)
url为抓取页面的url链接
params为url中的额外参数,字典或字节流的格式,可选
**kwargs:12个控制方位的参数
response对象的属性:

image.png 两种编码的区别:

MOOC_Python网络爬虫与信息提取课程笔记(一)
文章图片
image.png
encoding方法只分析头部内容,而apparent_encoding方法根据内容分析编码的格式,所以apparent_encoding方法更加准确
requests库的异常:

MOOC_Python网络爬虫与信息提取课程笔记(一)
文章图片
image.png 爬取网页的通用代码框架:

MOOC_Python网络爬虫与信息提取课程笔记(一)
文章图片
image.png
这里使用了raise_for——status方法获得抓取网页的状态,如果错误则触发异常
HTTP协议:超文本传输协议的格式:

image.png eg:htttp://220.181.111.188/duty 指的是IP地址220.181.111.188的主机上的duty这样的一个文件夹下的资源

MOOC_Python网络爬虫与信息提取课程笔记(一)
文章图片
image.png
requests库中的request方法:
reequest实际上是requests库的唯一方法,其他的都是利用request方法封装的方法

image.png 利用params参数可以在url中增加参数

image.png data参数

image.png json参数

image.png headers参数

image.png files参数:可以向特定url传输文件

MOOC_Python网络爬虫与信息提取课程笔记(一)
文章图片
image.png timeout参数:

image.png proxies参数:

image.png 【MOOC_Python网络爬虫与信息提取课程笔记(一)】其他参数:

image.png
image.png

    推荐阅读