Python解析库lxml与xpath用法总结本文主要围绕以xpath和lxml库进行展开:
一、xpath 概念、xpath节点、xpath语法、xpath轴、xpath运算符
二、lxml的安装、lxml的使用、lxml案例
一、xpath
1.xpath概念
XPath 是一门在 XML 文档中查找信息的语言 。XPath 使用路径表达式在 XML 文档中进行导航。XPath 包含一个标准函数库。XPath 是 XSLT 中的主要元素。XPath 是一个 W3C 标准。
2.xpath节点
xpath有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点 。
节点关系:父、子、兄弟、先辈、后辈 。
3.xpath语法
xpath语法在W3c网站上有详细的介绍python库函数总结,这里截取部分知识python库函数总结,供大家学习 。
XPath 使用路径表达式在 XML 文档中选取节点 。节点是通过沿着路径或者 step 来选取的 。下面列出了最有用的路径表达式:
在下面的表格中python库函数总结,我们已列出了一些路径表达式以及表达式的结果:
谓语用来查找某个特定的节点或者包含某个指定的值的节点 。
谓语被嵌在方括号中 。
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
XPath 通配符可用来选取未知的 XML 元素 。
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
通过在路径表达式中使用"|"运算符,您可以选取若干个路径 。
在下面的表格中,我们列出了一些路径表达式 , 以及这些表达式的结果:
4.xpath 轴
轴可定义相对于当前节点的节点集 。
5.xpath运算符
下面列出了可用在 XPath 表达式中的运算符:
好了,xpath的内容就这么多了 。接下来我们要介绍一个神器lxml,他的速度很快,曾经一直是我使用beautifulsoup时最钟爱的解析器,没有之一 , 因为他的速度的确比其他的html.parser 和html5lib快了许多 。
二、lxml
1.lxml安装
lxml 是一个xpath格式解析模块,安装很方便,直接pip install lxml 或者easy_install lxml即可 。
2.lxml 使用
lxml提供了两种解析网页的方式 , 一种是你解析自己写的离线网页时,另一种 则是解析线上网页 。
导入包:
1.解析离线网页:
2.解析在线网页:
那么我们怎么获取这些标签和标签对应的属性值了,很简单,首先获取标签只需你这样做:
然后我们可以,比方说,你要获取a标签内的文本和它的属性href所对应的值,有两种方法,
1.表达式内获取
2.表达式外获取
这样就完成了获取,怎么样 , 是不是很简单了,哈哈哈 。
下面再来lxml的解析规则:
3.lxml案例
为了偷懒 , 我决定还是采用urllib那篇文章的代码 , 哈哈哈,机智如我 。
太全了!Python3常用内置函数总结数学相关
abs(a) : 求取绝对值 。abs(-1)
max(list) : 求取list最大值 。max([1,2,3])
min(list) : 求取list最小值 。min([1,2,3])
sum(list) : 求取list元素的和 。sum([1,2,3])6
sorted(list) : 排序,返回排序后的list 。
len(list) : list长度,len([1,2,3])
divmod(a,b): 获取商和余数 。divmod(5,2)(2,1)
pow(a,b) : 获取乘方数 。pow(2,3)8
round(a,b) : 获取指定位数的小数 。a代表浮点数,b代表要保留的位数 。round(3.1415926,2)3.14
range(a[,b]) : 生成一个a到b的数组,左闭右开 。range(1,10)[1,2,3,4,5,6,7,8,9]
类型转换
int(str) : 转换为int型 。int('1')1
float(int/str) : 将int型或字符型转换为浮点型 。float('1')1.0
str(int) : 转换为字符型 。str(1)'1'
推荐阅读
- 怎么查看手机的内存,怎么查看手机的内存容量
- python中item方法,python items方法
- 命令行linux安装教程,命令行安装linux系统
- 包含vbnetgc的词条
- oracle表共用空间,oracle 用户 表空间 表 之间的关系
- 益智几何游戏,益智几何游戏教案
- 作品推广直播素材,推广直播软文怎么写
- 两个java代码调用 java两个类调用
- 婚礼公众号简介范文怎么写,关于婚庆的公众号推文