python爬虫常用函数 python爬虫常用语句( 二 ) _方法

import retext = 'today is 2020-03-05'print(re.sub('-', '', text)) #'today is 20200305'print(re.sub('-', '', text, 1)) #'today is 202003-05'print(re.sub('(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', text)) #'today is 03/05/2020'
re.sub的一个变形方法是re.subn，区别是返回一个2元素的元组，其中第一个元素为替换结果，第二个为替换次数
import retext = 'today is 2020-03-05'print(re.subn('-', '', text)) #('today is 20200305', 2)
分割：split
还可以调用正则表达式实现字符串的特定分割，相当于.split()方法的一个加强版，实现特定模式的分割，返回一个切割后的结果列表
import retext = 'today is a re test, what do you mind?'print(re.split(',', text)) #['today is a re test', ' what do you mind?']04 总结
python中的re模块提供了正则表达式的常用方法，每种方法都包括类方法调用(如re.match)或模式串的实例调用(pattern.match)2种形式
常用的匹配函数：match/fullmatch
常用的搜索函数：search/findall/finditer
常用的替换函数：sub/subn
常用的切割函数：split
还有其他很多方法，但不是很常用，具体可参考官方文档
另外，python还有第三方正则表达式库regex可供选择
到此这篇关于一文秒懂python正则表达式常用函数的文章就介绍到这了，希望大家以后多多支持！
如何入门 Python 爬虫现在之所以有这么多的小伙伴热衷于爬虫技术，无外乎是因为爬虫可以帮我们做很多事情，比如搜索引擎、采集数据、广告过滤等，以Python为例，Python爬虫可以用于数据分析，在数据抓取方面发挥巨大的作用。
但是这并不意味着单纯掌握一门Python语言，就对爬虫技术触类旁通，要学习的知识和规范还有喜很多，包括但不仅限于HTML 知识、HTTP/HTTPS 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用等。而且涉及到大规模爬虫，还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存，甚至还包括机器学习的应用，大规模的系统背后都是靠很多技术来支撑的。
零基础如何学爬虫技术？对于迷茫的初学者来说，爬虫技术起步学习阶段，最重要的就是明确学习路径，找准学习方法，唯有如此，在良好的学习习惯督促下，后期的系统学习才会事半功倍，游刃有余。
用Python写爬虫，首先需要会Python，把基础语法搞懂，知道怎么使用函数、类和常用的数据结构如list、dict中的常用方法就算基本入门。作为入门爬虫来说，需要了解 HTTP协议的基本原理，虽然 HTTP 规范用一本书都写不完，但深入的内容可以放以后慢慢去看，理论与实践相结合后期学习才会越来越轻松。关于爬虫学习的具体步骤，我大概罗列了以下几大部分，大家可以参考：
网络爬虫基础知识:
爬虫的定义
爬虫的作用
Http协议
基本抓包工具(Fiddler)使用
Python模块实现爬虫：
urllib3、requests、lxml、bs4 模块大体作用讲解
使用requests模块 get 方式获取静态页面数据
使用requests模块 post 方式获取静态页面数据
使用requests模块获取 ajax 动态页面数据
使用requests模块模拟登录网站
使用Tesseract进行验证码识别
Scrapy框架与Scrapy-Redis：
Scrapy 爬虫框架大体说明
Scrapy spider 类
Scrapy item 及 pipeline
Scrapy CrawlSpider 类
通过Scrapy-Redis 实现分布式爬虫
借助自动化测试工具和浏览器爬取数据：
Selenium + PhantomJS 说明及简单实例
Selenium + PhantomJS 实现网站登录
Selenium + PhantomJS 实现动态页面数据爬取

python爬虫常用函数 python爬虫常用语句( 二 )

推荐阅读

月季花怎么能长更多花苞呢月季花怎么能长更多花苞

中介有义务先查贷款吗

东风580值得入手吗东风580口碑评价

什么时候直播的人最多了，什么时候直播的人最多了呢

脚臭|天天洗脚，脚还是臭烘烘，用好这5招，摆脱脚臭的尴尬！

去美国什么东西不能带如何去美国?，去美国的费用

教你克服恐惧症的五大招术

宫颈癌晚期|1个月3次月经，18岁女孩查出宫颈癌晚期，5个原因难脱干系

idea有手机版吗，itoos有手机版吗

redis事务实现原理 redis事务和集群

美的空调显示48是什么意思美的空调不制冷总显示24

小孩发烧物理降温擦拭哪些部位小孩发烧物理降温

中西医|河南省中西医结合髋关节中心联盟成立，聚焦骨健康共话关节问题

奥迪rs6为什么叫最强买菜车奥迪rs6为什么叫买菜车

我国刑法中串通投标罪的刑事量刑标准是什么

ct|X光、CT、B超、MRI，还在傻傻分不清吗？其实它们不一样

吃剩下的海鲜怎么保存剩海鲜的保存方法

英雄联盟客户端调窗口大小英雄联盟客户端怎么设置窗口大小

redis适合存储大文件吗 Redis适合存储

大汉废后之娇未成殇阿娇皇后