正则表达式提取|正则表达式提取 git 提交记录中的新增代码行
原文:https://lwebapp.com/zh/post/r...
需求
最近有小伙伴提了个需求,想用正则表达式从一段 git 提交记录中提取出具体更新了哪些代码,简单来说就是 commit diff 展示的代码,需要把 代码前面带 +
和 -
的行剥离出来。
我们从 RichX 项目复制出来一段提交记录,稍作修改用于演示。
+ import { Plugin } from "..";
- CONST SUM = NUM_A + NUM_B;
+ CONST SUM_ALL = NUM_A + NUM_B;
export const DEFAULT_RICH_TEXT = {
-text: "Simple Rich Text Demo",
+config: "Simple Rich Text Demo",
setting: [],
};
export type ObjectKV = {
[key: string]: V;
};
+ export interface IPlugins {
+[key: string]: Plugin;
+ }
我们把需求转换下,就是正则匹配多行文本中以
+
和 -
开头的行。解法一 思路:
- 首先匹配
+
开头的字符:\+.*
- 然后带上
-
:(\+|\-).*
- 因为多行文本之间是有换行符分割的,所以
+
开头的单行文本的前面一个字符,就是上一行最后的换行符\n
,同样的,这一行的结尾也是换行符。所以我们利用正则断言,将两个换行符匹配目标文本的首尾即可:(?<=\n)(\+|\-).*(?=\n)
- 最后还要考虑两个特殊情况,整个文本的首尾位置。首位没有上一行所以匹配不到换行符
\n
,只能匹配开头^
,结尾后面也可能没有换行符,用$
代替:(?<=^|\n)(\+|\-).*(?=\n|$)
const content = `+ import { Plugin } from "..";
- CONST SUM = NUM_A + NUM_B;
+ CONST SUM_ALL = NUM_A + NUM_B;
export const DEFAULT_RICH_TEXT = {
-text: "Simple Rich Text Demo",
+config: "Simple Rich Text Demo",
setting: [],
};
export type ObjectKV = {
[key: string]: V;
};
+ export interface IPlugins {
+[key: string]: Plugin;
+ }`content.match(/(?<=^|\n)(\+|\-).*(?=\n|$)/g)// 输出数组
// 0: "+ import { Plugin } from \"..\";
"
// 1: "- CONST SUM = NUM_A + NUM_B;
"
// 2: "+ CONST SUM_ALL = NUM_A + NUM_B;
"
// 3: "-text: \"Simple Rich Text Demo\","
// 4: "+config: \"Simple Rich Text Demo\","
// 5: "+ export interface IPlugins {"
// 6: "+[key: string]: Plugin;
"
// 7: "+ }"
解法二 【正则表达式提取|正则表达式提取 git 提交记录中的新增代码行】思路:
上面的方案要自己匹配换行符,有点麻烦。我们可以省去自己判断换行符的步骤,直接匹配每一行的首尾,再使用正则表达式标志
m
启用多行匹配模式:/^(\+|\-).*$/gm
。代码:
const content = `+ import { Plugin } from "..";
- CONST SUM = NUM_A + NUM_B;
+ CONST SUM_ALL = NUM_A + NUM_B;
export const DEFAULT_RICH_TEXT = {
-text: "Simple Rich Text Demo",
+config: "Simple Rich Text Demo",
setting: [],
};
export type ObjectKV = {
[key: string]: V;
};
+ export interface IPlugins {
+[key: string]: Plugin;
+ }`content.match(/^(\+|\-).*$/gm)// 输出数组
// 0: "+ import { Plugin } from \"..\";
"
// 1: "- CONST SUM = NUM_A + NUM_B;
"
// 2: "+ CONST SUM_ALL = NUM_A + NUM_B;
"
// 3: "-text: \"Simple Rich Text Demo\","
// 4: "+config: \"Simple Rich Text Demo\","
// 5: "+ export interface IPlugins {"
// 6: "+[key: string]: Plugin;
"
// 7: "+ }"
总结 以上就是和小伙伴一起探讨出的一点写正则表达式的经验,主要学习了断言和多行匹配标志。这里的案例还比较简单,后续有更深入使用案例再和大家分享,欢迎关注我们的更新 #regex。
参考
- 正则匹配多行文本
- js正则格式化日期时间自动补0
- MDN 正则断言
- 编写一个函数,将除最后四个字符之外的所有字符都改为’#’
推荐阅读
- SQLite的表达式
- js正则匹配多行文本 提取 git 提交记录
- Java正则表达式
- Python Pandas如何使用.loc[]提取行(代码示例)
- 栈应用(如何实现后缀表达式(代码实现))
- 若何提取视频中的音频
- Android Studio 引入Lambda表达式
- JS正则表达式 – JavaScript高级教程
- 在Android Studio中使用lambda表达式
- Scala如何使用正则表达式(代码实例)