?
?
活动地址:CSDN21天学习挑战赛目录
一,爬虫君子协议
二,爬虫流程
三,技术介绍
1.HTML与CSS
1.1 HTML
1.2 CSS基础
2.URL
3.HTTP与HTTPS
3.1 请求方式
3.2常见请求头
3.3 常见请求状态码
4.Chrome浏览器分析网站
5.Session与Cookie
6.Ajax请求
一,爬虫君子协议 robots.txt 协议:规定了网站中哪些数据可以爬取
文章图片
二,爬虫流程
文章图片
三,技术介绍 1.HTML与CSS 1.1 HTML
全称‘超文本标记语言’,无逻辑结构,采用标记方式进行网页构建,使用<>将标记括起来
文章图片
文章图片
HTML标签——
文章图片
1.2 CSS基础
·层叠样式表
·控制HTML页面的样式和布局
·使用{}将样式定义括起来
css选择器:
·元素选择器:根据元素名称来选择HTML元素
p{
text-align:center;
color:red;
}
·id选择器:使用HTML元素的id属性来选择唯一特定元素
文章图片
#para1 {
text-align:center;
color:red;
}
·类选择器:选择有特定class属性的HTML元素
文章图片
文章图片
2.URL Uriform Resourse Locator的简写,统一资源定位符。其由以下部分组成——
·协议类型。如:https
·主机名称/域名。如:baike.baidu.com
·端口号
·查找路径。如:865?
·查询参数(为865?后的所有内容),采用键值对形式,多个键值对用&隔开
·锚点,前端用来做面定位。现在一些前后端分离项目,也用于做导航
文章图片
3.HTTP与HTTPS
文章图片
3.1 请求方式
http协议规定了浏览器与服务器进行数据交互的过程中必须选择一种交互方式。在http协议中定义了八种请求方式,常见的有get与post。
GET请求:只从服务器获取数据,并不会对服务器资源产生任何影响时用get请求
文章图片
post请求:向服务器发送数据(登录),上传文件等,会对服务器资源产生影响的时候用post请求。请求参数在 Form Data 中
文章图片
3.2常见请求头
http协议中,向服务器发送一个请求,数据分为三部分:
·把数据放在url中
·把数据放在body中(post请求时)
·把数据放在head中
常见请求头参数——
【深度学习|Python21天学习挑战赛Day(11)·爬虫入门知识(应用)】
文章图片
3.3 常见请求状态码
文章图片
4.Chrome浏览器分析网站
文章图片
5.Session与Cookie Session与Cookie是用于保持HTTP长时间连接状态的技术
文章图片
Cookie:由服务器生成后发送给客户端(通常为浏览器),Cookie总是保存在客户端
Cookie基本原理:
·创建Cookie
·设置存储Cookie
·发送Cookie
·读取Cookie
6.Ajax请求
文章图片
推荐阅读
- python合集|【Pygame实战】再次祭出舍不得分享的学习小技巧,用游戏玩出英文能力(O基础也能轻松get)
- python|python爬虫利器之scrapy的基本教程
- opencv|OpenCV---阈值与平滑处理 图像阈值
- python|6.3 阈值处理-- Otsu 处理
- 嵌入式硬件|OpenMV激光打靶
- 深度学习|yolov5之魔化修改
- python|python训练一个简单的感知机用于手写数据集识别
- #|人工智能——DBSCAN密度聚类(Python)
- pytorch|【pytorch笔记】(五)自定义损失函数、学习率衰减、模型微调