Python|【21天Python进阶学习挑战赛】[day18-19]爬虫解析器BeautifulSoup4 Python|python

?
?

活动地址：CSDN21天学习挑战赛

学习日记学习知识点 1、BeautifulSoup4库介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。

Python|【21天Python进阶学习挑战赛】[day18-19]爬虫解析器BeautifulSoup4

文章图片
BeautifulSoup4将网页转换为一颗DOM树 2、安装

输入对应的pip命令：pip install beautifulsoup4

3、导包

form bs4 import BeautifulSoup

4、解析库
BeautifulSoup在解析时实际上依赖解析器，它除了支持Python标准库中的HTML解析器外，还支持一些第三方解析器(比如lxml)。最常使用的解析器是lxml HTML解析器，其次是html5lib。

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(html,’html.parser’)	Python的内置标准库、执行速度适中、文档容错能力强	Python 2.7.3及Python3.2.2之前的版本文档容错能力差
lxml HTML解析库	BeautifulSoup(html,’lxml’)	速度快、文档容错能力强	需要安装C语言库
lxml XML解析库	BeautifulSoup(html,‘xml')	速度快、唯一支持XML的解析器	需要安装C语言库
htm5lib解析库	BeautifulSoup(html,’htm5llib’)	最好的容错性、以浏览器的方式解析文档、生成HTMLS格式的文档	速度慢、不依赖外部扩展

5、实践
5.1 基础操作

读取HTML字符串

from bs4 import BeautifulSouphtml = '''Hello Foo Bar Jay Foo 百度官网 Bar ''' # 创建对象 soup = BeautifulSoup(html, 'lxml')

读取HTML文件

from bs4 import BeautifulSoupsoup = BeautifulSoup(open('index.html'),'lxml')

基本方法

from bs4 import BeautifulSouphtml = '''Hello Foo Bar Jay Foo 百度官网 Bar ''' # 创建对象 soup = BeautifulSoup(html, 'lxml')# 缩进格式 print(soup.prettify())# 获取title标签的所有内容 print(soup.title)# 获取title标签的名称 print(soup.title.name)# 获取title标签的文本内容 print(soup.title.string)# 获取head标签的所有内容 print(soup.head)# 获取第一个div标签中的所有内容 print(soup.div)# 获取第一个div标签的id的值 print(soup.div["id"])# 获取第一个a标签中的所有内容 print(soup.a)# 获取所有的a标签中的所有内容 print(soup.find_all("a"))# 获取id="u1" print(soup.find(id="u1"))# 获取所有的a标签，并遍历打印a标签中的href的值 for item in soup.find_all("a"): print(item.get("href"))# 获取所有的a标签，并遍历打印a标签的文本值 for item in soup.find_all("a"): print(item.get_text())

5.2 对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment。

# 1.Tag通俗点讲就是HTML中的一个个标签 soup = BeautifulSoup('Extremely bold','lxml') tag = soup.b print(tag) print(type(tag))# 输出结果 Extremely bold # 2.name属性 print(tag.name) # 输出结果：b # 如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档: tag.name = "b1" print(tag) # 输出结果：Extremely bold# 3.Attributes属性 # 取clas属性 print(tag['class'])# 直接”点”取属性, 比如: .attrs : print(tag.attrs)# 4.tag 的属性可以被添加、修改和删除 # 添加 id 属性 tag['id'] = 1# 修改 class 属性 tag['class'] = 'tl1'# 删除 class 属性 del tag['class']

NavigableString：用.string获取标签内部的文字

print(soup.b.string)print(type(soup.b.string))

BeautifulSoup：表示的是一个文档的内容，可以获取它的类型，名称，以及属性

print(type(soup.name)) # print(soup.name) # [document]print(soup.attrs) # 文档本身的属性为空

Comment：是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号

print(soup.b)print(soup.b.string)print(type(soup.b.string))

5.3 搜索文档树

find_all(name, attrs, recursive, text, **kwargs)

name 参数：name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉

# 匹配字符串：查找与字符串完整匹配的内容,用于查找文档中所有的标签 a_list = soup.find_all("a") print(a_list)# 匹配正则表达式：如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容 # 返回所有表示和标签 for tag in soup.find_all(re.compile("^b")): print(tag.name)# 匹配列表：如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回 # 返回所有所有标签和标签: soup.find_all(["p", "a"])

kwargs参数

soup.find_all(id='link2')

text参数：通过 text 参数可以搜搜文档中的字符串内容，与 name 参数的可选值一样, text 参数接受字符串、正则表达式、列表

# 匹配字符串 soup.find_all(text="a")# 匹配正则 soup.find_all(text=re.compile("^b"))# 匹配列表 soup.find_all(text=["p", "a"])

5.4 css选择器
我们在使用BeautifulSoup解析库时，经常会结合CSS选择器来提取数据。

根据标签名查找：比如写一个 li 就会选择所有li 标签, 不过我们一般不用，因为我们都是精确到标签再提取数据的

from bs4 import BeautifulSouphtml = '''Hello Foo Bar Jay Foo 百度官网 Bar ''' # 创建对象 soup = BeautifulSoup(html, 'lxml')# 1. 根据标签名查找：查找li标签 print(soup.select("li"))# 输出结果 [Foo , Bar , Jay , Foo , Bar ]

根据类名class查找。.1ine, 即一个点加line，这个表达式选的是class= "line "的所有标签，".”代表class

print(soup.select(".panel_body"))# 输出结果 Foo Bar ]

根据id查找。#box,即一个#和box表示选取id-”box "的所有标签，“#”代表id

print(soup.select("#list-1"))# 输出结果 [ Foo Bar Jay ]

根据属性的名字查找。class属性和id属性较为特殊，故单独拿出来定义一个". "和“”来表示他们。

# 比如：input[ name=“username”]这个表达式查找name= "username "的标签，此处注意和xpath语法的区别 print(soup.select('ul[ name="element"]'))# 输出结果 [ Foo Bar Jay ]

学习遇到的问题暂无
学习的收获了解到了使用BeautifulSoup4库。
实操 【Python|【21天Python进阶学习挑战赛】[day18-19]爬虫解析器BeautifulSoup4】暂无

推荐阅读

金毛幼犬为什么爱咬东西

菌类和鸡蛋能一起吃吗

骑士精神2长矛怎么玩骑士精神2在哪里玩

父母如何应对青春期叛逆的孩子

编程培训学校，软件编程培训学校哪个最好呀

鸿蒙生态|华为余承东称：鸿蒙生态已成

作为貌美的穷人家女性是种怎样的体验（|作为貌美的穷人家女性是种怎样的体验？观1979版电影《德伯家的苔丝》）

盘龙七的功效与作用

水果能减肥，是不是吃的越多减肥效果越好？

宝宝名字大全2023属兔男孩宝宝名字

最佳瘦身食物排行榜最佳瘦身食物

go语言断言用法 go语言类型断言

利物浦在今夏转会大手笔引援,排名英超首位,你认为新赛季利物浦会取得什么样的成绩？

趣|趣|姐姐秒变“金句王”（190330）

宫保鸡丁炒多久

打新冠疫苗反应大怎么办打新冠疫苗反应强烈是不是身体不健康

爱普生l3153废墨盒

金史密斯学院申请要求有哪些？金史密斯的梦想

快捷指令，求机算机常用快捷指令键

世界上生产咖啡最多的国家在哪里？巴西咖啡做法

python|python numpy库作用_python数据分析之numpy库

开发|python数据分析之Numpy

python数据分析|【python数据分析】numpy创建数组

python|OpenCV中图像形态学操作

大数据——机器学习|机器学习之用解析解求解多元线性回归模型

机器学习|吴恩达机器学习作业一（利用多元线性回归模型实现房价预测（python实现））

机器学习|多元线性回归模型

Python|Python网络编程—TCP客户端和服务器

python|Python实现一个简单的HTTP服务器(GET/POST)