python爬虫教程（一） python爬虫教程（一）

文章图片

????Python版本：python3.6
????使用工具：pycharm
一、第一个爬虫程序 ????获得网址源代码。如下图获取百度页面源代码。

文章图片

文章图片

???????????????
文章图片

二、Web请求过程 ????1. 服务器渲染：在服务器中直接把数据和html整合在一起，返回给浏览器。（在页面源代码中能看到数据）
????2. 客户端渲染：第一次请求只要一个html骨架，第二次请求拿到数据，进行数据展示。（在页面源代码中，看不到数据）
三、requests入门 ????1. 获取搜狗引擎搜索周杰伦页面源代码。
??????
文章图片

文章图片

????2. 出现报错，网页存在反爬，处理反扒。

文章图片

文章图片

【python爬虫教程（一）】
文章图片

????3. 修改代码，使其更加灵活获取不同搜索内容对应不同页面源代码。

文章图片

文章图片

文章图片

????4．当请求方式为POST时，以百度翻译为例获取页面源代码。
????
文章图片

文章图片

????5. 当想要爬取数据与网页框架不在一起时。以豆瓣电影排行榜为例。需先找到所需爬取数据位置。

文章图片

????将其参数变量进行封装，补充网址参数，其参数信息位置及代码如下：

文章图片

文章图片

文章图片

????注意：使用完爬虫程序后，关闭爬虫程序。
????如上示例需使用resp.close()关闭爬虫程序。
四、数据解析 ????本文中将介绍三种解析方式：re解析、bs4解析、xpath解析。
????1、re解析：Regular Expression，正则表达式，一种使用表达式的方式对字符串进行匹配的语法规则。
????优点：速度快、效率高、准确性高
????缺点：上手难度较高
????语法：使用元字符进行排列组合用来匹配字符串（元字符是具有固定含义的特殊符号），常用元字符：
????. 匹配除换行符以外的任意字符 ?? a|b 匹配字符a或b
????\w 匹配字母或数字或下划线 ?????\W 匹配非字母或数字或下划线
????\s 匹配任意空白符 ??????????????\S 匹配非空白符
????\d 匹配数字 ??????????????????? \D 匹配非数字
????[…] 匹配字符组中的字符 ?????????[^…] 匹配除字符组中的所有字符
????^ 匹配字符串的开始 ???????????? $ 匹配字符串的结束
????量词：控制元字符出现的次数
????* 重复零次或多次
????+ 重复一次或多次
????？重复零次或一次
????{n} 重复n次
????{n,} 重复n次或更多次
????{n,m} 重复n到m次
????（1）re模块使用，findall() 匹配字符串中所有的符合正则的内容

文章图片

文章图片

????（2）finditer()匹配字符串中所有的内容，返回迭代器

文章图片

文章图片

????从迭代器中拿出内容需要.group()

文章图片

文章图片

????（3）search，找到一个结果就返回，返回的结果是match对象，拿数据需使用.group()

文章图片

文章图片

????（4）match，从头开始匹配

文章图片

文章图片

????当选取数据开始即为所需数据时，可输出结果。
??????
文章图片

文章图片

????（5）预加载正则表达式，可重复使用
?
文章图片

文章图片

????（6）正则中内容单独提取。我们将想要提取内容部分定义组(?P<分组名字>正则)，然后使用.group()提取某个组的内容。（re.S：让.能够匹配换行符）

文章图片

文章图片

????2. 实战爬取豆瓣Top250电影信息。
????（1）使用requests，拿到页面源代码。

文章图片

文章图片

????（2）使用re，解析数据

文章图片

????设定爬取以上四个数据，电影名字、年份、评分、评价人数，在页面源代码中找到所需内容位置（红色框），并找到内容定位方法及位置（白色框）

文章图片

????解析数据：其中.strip()去掉年份前面空格。

文章图片

文章图片

????将获取到文件保存为文件。导入csv，将内容存入字典，同理year需单独处理。

文章图片

????输出文件data.csv内容
????????????
文章图片

????3. 实战爬取电影天堂下载链接，目标爬取2021必看热片信息。

文章图片

????（1）获取页面源代码
????????????
文章图片

文章图片

如上输出结果中存在乱码问题，我们默认使用的字符集为utf-8，可看到其网站的字符集为gb2312，需要指定使用字符集解决乱码问题。
??????????
文章图片

文章图片

????（2）定位到2021必看热片，在页面源代码中找到所需位置。

文章图片

文章图片

文章图片

????（3）从2021必看热片中提取到子页面的链接地址

文章图片

????
文章图片

文章图片

????得到的子页面链接不完整，缺少域名，需要进行一个链接的拼接。

文章图片

文章图片

????得到了完整的子页面链接，将子页面链接保存起来。

文章图片

????提取子页面内容，输出得到片名及下载链接。

文章图片

文章图片

python爬虫教程（一）

推荐阅读

盐水加白醋泡脚的好处舒服每一晚

床单起球是质量问题吗

马上消费金融额度是多少

上环后图片避孕环是什么样子图片

SpringBoot配置并使用Redis缓存服务

1秒钟等于几毫秒一秒等于多少毫秒多少微秒

罗汉松有哪些品种如何区分

中年之殇

电脑里编程的软件有哪些，目前计算机编程的常用软件有什么

网易怒斥暴雪:离婚不离身暴雪是不是网易的

cfree里面怎么一步一步分析结果

山东良法领导干部知识竞赛题目是什么？领导干部知识题库大全

95和98的暗语是什么意思 98是什么

vxlan 格式分析

如何在手机上连接黑魂2服务器？黑魂2服务器怎么用手机

医生竟会对孕检女子做出这事，女子怀孕去医院检查

崩坏3新版本新增内容汇总 3.4版本相关调整内容前瞻

中国民俗的“鬼节”有哪些？中元节和清明节有什么区分？

张裕干红葡萄酒口感怎么样张裕特选级干红葡萄酒怎么样

看财报|苏酒老二今世缘百亿冲刺第一战：7%的省外营收如何撬动全国化市场？｜看财报