网页函数python 网页函数画图

使用python简单封装selenium常用函数 年前走查脚本代码时 , 发现大家对selenium功能都在重复造轮子 , 而且容易出现一些常见低级bug 。于是在闲暇之余,封装一些常用的selenium功能 。
在某些网页中,存在多个frame嵌套 。而selenium提供的find_element函数只能在当前frame中查找,不能切换到其他frame中,需要从最上级frame中逐步切换(当然也可以指定xpath的绝对路径,但是一般没人这么做) 。在我们写代码过程中,需要明确知道当前frame位置和需要寻找元素的frame位置 。在frame切换过程中 , 容易因为疏忽导致frame切换错误导致元素无法找到的bug 。
页面中分布的frame , 可以理解为树状结构 。因此我们可以采用递归的方式,沿着某条搜索路线frame节点,依次对树中每个节点均做一次访问 。
我们以163网址上的登录框为例:点击登录按钮,弹出登录iframe页面 。输入框位置在iframe中,因此我们不能使用xpath获取元素位置,需要进入iframe中,然后获取元素 。
手动切换ifame可能会产生bug,因此需要一套自动切换和检索frame的机制 。具体代码如下:
需要注意的是:如果页面中多个frame中,存在相同的xpath元素 。还是需要指定frame的路径,否则会返回搜索到的第一个元素 。
强制等待
直接调用系统time.sleep函数,不管页面加载情况一定会等待指定的时间,即使元素已被加载。
1.如果设置的时间较长,会浪费时间
2.如果设置的时间较短 , 元素可能没有加载 。
页面中某元素如果未能立即加载,隐式等待告诉WebDriver需等待一定的时间,然后去查找元素 。默认不等待 , 隐式等待作用于整个WebDriver周期,只需设置一次即可 。
1.在上文的find_element函数中,采用递归方式在所有frame寻找元素 。若采用隐式等待,则在每个frame中都需要等待设定的时间 , 耗时非常长 。
2.某些页面我们想要的元素已经加载完毕 , 但是部分其他资源未加载 。隐式等待必须等待所有元素加载完毕 , 增加额外等待时间 。
显示等待一般作用于某一个元素,在设定的时间范围内,默认每间隔0.5秒查找元素 。返回被加载的元素 , 若超过设定的时间范围未能查找则报错 。显示等待作为selenium常用的等待机制,我们来看下他的源码和机制 。
driver 注释中解释为WebDriver实例,但是代码中并未有相关检测,因此可以传入任何对象
但是__repr__函数中使用到session_id属性 , 如果需要显示属性或者转为str对象,最好在driver对象中添加session_id属性
在until函数中,我们可以看到driver对象传入method函数 。在计时结束前 , 在不断循环执行method函数 , 如果method函数有正常返回值则退出循环,否则报TimeoutException错误 。
可以采用装饰器对隐式等待进行封装,这样代码更加精简
同样的,采用装饰器对其他常用的函数进行封装,例如强制等待、点击、输入文本等 。
装饰器虽然很方便,但也会产生一些麻烦 。例如在find_element函数递归调用过程中 , 理应只要执行一次装饰器函数 。但因为装饰器已经装饰完毕,导致每次递归都会执行 。例如强制等待的sleep函数,如果递归次数越多等待时间越长 。
解除装饰器一般有两种做法:一是约定参数,当递归第二次调用时则不生效 。例如
这种方式实现简单 , 容易理解 。但是增加了参数限制,在fun函数中就不能使用first_sleep参数 。
二是采用装饰器采用wrapped实现,通过访问wrapped属性获得原始函数 。例如

推荐阅读