lxml解析网页速度比BeautifulSoup快
我的代码:
# -*- coding: utf-8 -*-
import requests
from time import ctime
from lxml import etree
from bs4 import BeautifulSoupurl = 'http://www.cnblogs.com/descusr/archive/2012/06/20/2557075.html'
tries = 300
web_data = https://www.it610.com/article/requests.get(url).text# step 1
print('lxml start at:', ctime())
while tries > 0:
lxml_page = etree.HTML(web_data)
tries = tries - 1
print('lxml done at:', ctime())# step 2
print('soup start at:', ctime())
while tries > 0:
soup_page = BeautifulSoup(web_data, 'lxml')
tries = tries - 1
print('soup done at:', ctime())
我是分步运行的:先注释掉step2,运行step1;之后注释掉1,运行2。新手轻拍
运行结果: 【lxml解析网页速度比BeautifulSoup快】解析一个博客页面300次,Beautiful用了约8秒,lxml用了约1秒
文章图片
BeautifulSoup.png
文章图片
lxml.png
推荐阅读
- 使用协程爬取网页,计算网页数据大小
- Quartz|Quartz 源码解析(四) —— QuartzScheduler和Listener事件监听
- web网页模板|如此优秀的JS轮播图,写完老师都沉默了
- Java内存泄漏分析系列之二(jstack生成的Thread|Java内存泄漏分析系列之二:jstack生成的Thread Dump日志结构解析)
- [源码解析]|[源码解析] NVIDIA HugeCTR,GPU版本参数服务器---(3)
- Android系统启动之init.rc文件解析过程
- 小程序有哪些低成本获客手段——案例解析
- Spring源码解析_属性赋值
- Android下的IO库-Okio源码解析(一)|Android下的IO库-Okio源码解析(一) 入门
- 08_JVM学习笔记_类命名空间解析