第5课|第5课实例二（爬取电影）第5课实例二：爬取电影

一、爬取前的准备工作 1. 选择一个网站：https://www.douban.com
2. 在进行爬取之前，我们先去看看它的robots协议。
协议网址：https://www.douban.com/robots.txt
3. 进入首页 https://movie.douban.com/top250?start=0&filter= ，打开检查工具，在Elements里查看这个网页，是什么结构。
点击开发者工具左上角的小箭头，选中“肖申克的救赎”，这样就定位了电影名的所在位置，审查元素中显示：标签内的文本，class属性；推荐语和评分也是如此，，；序号：，标签内的文本，class属性；推荐语；链接是标签里href的值。最后，它们最小共同父级标签，是

。
4. 我们再换个电影验证下找的规律是否正确。
5. check后，我们再看一共10页，每页的url有什么相关呢？
第1页：https://movie.douban.com/top250?start=0&filter=
第3页：https://movie.douban.com/top250?start=50&filter=
第7页：https://movie.douban.com/top250?start=150&filter=
发现只有start后面是有变化，规律就是第N页，start=(N-1)*25
6. 基于以上分析，我们有两种写爬虫的思路。
思路一：先爬取最小共同父级标签

，然后针对每一个父级标签，提取里面的序号/电影名/评分/推荐语/链接。
【第5课|第5课实例二（爬取电影）】思路二：分别提取所有的序号/所有的电影名/所有的评分/所有的推荐语/所有的链接，然后再按顺序一一对应起来。
二、代码实现过程（思路一） import requests# 引用requests库
from bs4 import BeautifulSoup# 引用BeautifulSoup库
res_films=requests.get('https://movie.douban.com/')# 获取数据
bs_films=BeautifulSoup(res_films.text,'html.parser')# 解析数据
fil_title=bs_films.find_all(class_='title')
fil_num=bs_films.find_all(class_="")
list_all=[]# 创建一个空列表，用于存储信息
for x in range(len(fil_num)):
list_films=[fil_num[x].text[18:-14],fil_title[x].find('a')['href']]
list_all.append(list_films)
print(list_all)

推荐阅读

五味

激光能去除肥胖纹吗视频激光能去除肥胖纹吗

原味烤肉制作方法原味烤肉的制作方法

房间里面有老鼠怎么办

有没有好点收益高的副业项目？

年收入是指纯收入，年收入是什么意思

松下洗衣机烘干为什么出水,首先原因要搞清

读地图分析,如何读地图获取信息

3d|2千档高质价比手机推荐：骁龙870+三星屏+65W，真我真牛

刑事自诉案件的范围是什么

生理盐水洗鼻子可以预防新冠肺炎吗

胚芽燕麦粥

辰辉的寓意

健康工作远离疼痛现在要坐好

被子晒多久比较好

头孢料酒会有反应吗

鹌鹑鸟怎么养鹌鹑鸟如何饲养

人成长分为哪些阶段

如何鉴别建兰国魂真假如何鉴别建兰国魂真假

回归模型结果分析方法,ABC态度模型分析方法和运用

第6.2章（设置属性）

2018-02-06第三天|2018-02-06第三天不能再了，反思到位就差改变

第三节|第三节快乐和幸福（12）

EffectiveObjective-C2.0|EffectiveObjective-C2.0 笔记 - 第二部分

android第三方框架（五）ButterKnife

开学第一天（下）

野营记-第五章|野营记-第五章讨伐梦魇兽

2018年11月19日|2018年11月19日星期一亲子日记第144篇

第326天

跌跌撞撞奔向你|跌跌撞撞奔向你第四章（你补英语，我补物理）

第5课|第5课 实例二（爬取电影）

推荐阅读

第5课|第5课实例二（爬取电影）