MOOC_Python网络爬虫与信息提取课程笔记（一） MOOC_Python网络爬虫与信息提取课

1.网络爬虫的requests库：

import requests r=requests.get("http://www.baidu.com") r.status_code#返回状态编码

结果返回为200，表示连接成功，404则表示连接失败

import requests r=requests.get("http://www.baidu.com") r.status_code r.encoding='utf-8'#相映的编码形式 r.text#打印网页内容

requests库的7个主要用法：

image.png request.get(url,params=None,**kwargs)
url为抓取页面的url链接
params为url中的额外参数，字典或字节流的格式，可选
**kwargs:12个控制方位的参数
response对象的属性：

image.png 两种编码的区别：

文章图片
image.png
encoding方法只分析头部内容，而apparent_encoding方法根据内容分析编码的格式，所以apparent_encoding方法更加准确
requests库的异常：

文章图片
image.png 爬取网页的通用代码框架：

文章图片
image.png
这里使用了raise_for——status方法获得抓取网页的状态，如果错误则触发异常
HTTP协议：超文本传输协议的格式：

image.png eg:htttp://220.181.111.188/duty 指的是IP地址220.181.111.188的主机上的duty这样的一个文件夹下的资源

文章图片
image.png
requests库中的request方法：
reequest实际上是requests库的唯一方法，其他的都是利用request方法封装的方法

image.png 利用params参数可以在url中增加参数

image.png data参数

image.png json参数

image.png headers参数

image.png files参数：可以向特定url传输文件