深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)

?
?

活动地址:CSDN21天学习挑战赛
目录

一,爬虫君子协议
二,爬虫流程
三,技术介绍
1.HTML与CSS
1.1 HTML
1.2 CSS基础
2.URL
3.HTTP与HTTPS
3.1 请求方式
3.2常见请求头
3.3 常见请求状态码
4.Chrome浏览器分析网站
5.Session与Cookie
6.Ajax请求

一,爬虫君子协议 robots.txt 协议:规定了网站中哪些数据可以爬取
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

二,爬虫流程深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

三,技术介绍 1.HTML与CSS 1.1 HTML
全称‘超文本标记语言’,无逻辑结构,采用标记方式进行网页构建,使用<>将标记括起来
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片


深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

HTML标签——
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

1.2 CSS基础
·层叠样式表
·控制HTML页面的样式和布局
·使用{}将样式定义括起来
css选择器:
·元素选择器:根据元素名称来选择HTML元素
p{ text-align:center; color:red; }

·id选择器:使用HTML元素的id属性来选择唯一特定元素
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

#para1 { text-align:center; color:red; }

·类选择器:选择有特定class属性的HTML元素
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片


2.URL Uriform Resourse Locator的简写,统一资源定位符。其由以下部分组成——
·协议类型。如:https
·主机名称/域名。如:baike.baidu.com
·端口号
·查找路径。如:865?
·查询参数(为865?后的所有内容),采用键值对形式,多个键值对用&隔开
·锚点,前端用来做面定位。现在一些前后端分离项目,也用于做导航
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

3.HTTP与HTTPS 深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

3.1 请求方式
http协议规定了浏览器与服务器进行数据交互的过程中必须选择一种交互方式。在http协议中定义了八种请求方式,常见的有get与post。
GET请求:只从服务器获取数据,并不会对服务器资源产生任何影响时用get请求
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

post请求:向服务器发送数据(登录),上传文件等,会对服务器资源产生影响的时候用post请求。请求参数在 Form Data 中
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

3.2常见请求头
http协议中,向服务器发送一个请求,数据分为三部分:
·把数据放在url中
·把数据放在body中(post请求时)
·把数据放在head中
常见请求头参数——
【深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)】深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

3.3 常见请求状态码
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

4.Chrome浏览器分析网站 深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

5.Session与Cookie Session与Cookie是用于保持HTTP长时间连接状态的技术
深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片

Cookie:由服务器生成后发送给客户端(通常为浏览器),Cookie总是保存在客户端
Cookie基本原理:
·创建Cookie
·设置存储Cookie
·发送Cookie
·读取Cookie
6.Ajax请求 深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)
文章图片


    推荐阅读