本文概述
- 从字符串中提取数值
- 有关使用正则表达式在Python中清除字符串的概述视频。
- 模式匹配
从字符串中提取数值从字符串中提取数字是一项常见的任务, 尤其是在处理非结构化数据或日志文件时。
假设你输入以下字符串:” 该配方需要6个草莓和2个香蕉” 。
当比较草莓和香蕉的比例时, 从该字符串中提取6和2以保存以备后用将是有用的。
使用正则表达式提取多个数字(准确地说是多个模式匹配)时, 可以使用re.findall()函数。 Dan没有在视频中讨论此问题, 但使用起来很简单:你将一个模式和一个字符串传递给re.findall(), 它将返回匹配项列表。
使用说明
- 汇入。
- 编写一个模式, 该模式将在以下字符串中找到所有数字:”
食谱要求10个草莓和1个香蕉”
。去做这个:
- 使用re.findall()函数并向其传递两个参数:模式, 后跟字符串。
- \ d是查找数字所需的模式。此后应加上一个+, 以便将上一个元素匹配一次或多次。这样可以确保将10视为一个数字, 而不是1和0。
- 打印匹配项以确认你的正则表达式找到值10和1。
有关使用正则表达式在Python中清除字符串的概述视频。模式匹配在本练习中, 你将继续练习正则表达式技能。对于每个提供的字符串, 你的工作是编写适当的模式以使其匹配。
使用说明
- 编写匹配的模式:
- 格式为xxx-xxx-xxxx的电话号码。你已经在上一个练习中做到了这一点。
- 格式字符串:美元符号, 任意位数, 小数点后两位。
- 使用\ $匹配美元符号, 使用\ d *匹配任意数量的数字\。匹配小数点, \ d {x}匹配x个数字。
- 大写字母, 后跟任意数量的字母数字字符。
- 使用[A-Z]匹配任何大写字母, 后跟\ w *匹配任意数量的字母数字字符。
推荐阅读
- R中的因子级别
- 深入研究不平衡数据
- 使用R进行权变分析
- 使用Python的潜在语义分析
- R中的子集数据集
- R中的Bootstrap数据分析
- 机器学习黑色星期五数据集分析
- R中的ggplot的分面
- OVERLAPPED 结构