如何用正则表达式批量替换md文件中的frontmatter？

kimpvp · 2023 年9 月 12 日 09:16

背景

我在win上用Obsidian，Obsdian以前的多行标签的写法是"- #Done"
我需要用Obsidian的插件make.md中的Smart Sapce功能，但是make.md并不识别标签格式"- #Done"，只识别- Done

我的解决思路

等make.md支持该格式。（但是这个很无语，明明OB它自己能支持，dataview插件也能支持）
找方法批量修改，也就是用正则表达式，将"- #Done"变成- Done

求方法

根据以下帖子，我用dnGrep来正则替换，并不成功（搜索都搜索不到），请问是哪里有问题？
我已经尝试过新建.txt文件，可以搜索出来。
也尝试过将.md文件，删除只剩下匹配项，搜索不出来。难道是不支持.md文件吗？

Aquamarine · 2023 年9 月 12 日 10:17

没找到合适的样本，感觉这个替换用文本也行啊。

或者去项目页面提一下看开发者能不能改进。

Y_z · 2023 年9 月 12 日 10:23

多个文本文件替换，我习惯用vscode直接打开文本所在目录后，选择全局替换

将"- #Done" 变成- Done直接选择大小写、全字匹配就行吧？

替换前记得先备份或者先替换单个文件看看效果

kimpvp · 2023 年9 月 12 日 10:35

标签有上百个了，所以才需要用正则表达式。

kimpvp · 2023 年9 月 12 日 10:36

我有上百个标签，上百个md文件，所以只能是正则表达式

VIctoryRoad · 2023 年9 月 12 日 10:38

可以用 busybox-w32，写一个 unix shell 脚本，配合 sed 进行替换。

首先安装 busybox-w32，可以参考我之前的一个帖子：

busybox-w32：在Windows上使用常用UNIX命令行工具

发现频道

软件名称 busybox-w32 应用平台 Windows 一句简介 busybox-w32 可以在 Windows 系统上运行常用的 UNIX 命令行工具。官方网站 https://frippery.org/busybox/ 应用简介 busybox-w32 是一个包含了常用 UNIX 命令行工具的软件。该应用的使用方法是：下载 busybox.exe，复制其到 C:\Windows\ 目录下。在命令行中执行 busybox 命令来运行相应的命令行工具。如运行 busybox uname -a 查看系统信息。也可以使用 busybox ash 来进入 UNIX Shell，然后直接在 shell 中运行命令。或者使用 busybox ash xxx.sh 来运行脚本。该软件的应用场景有：使用 busybox sed 结合脚本来批量处理文本文件。不过处理完成后最好用 unix2dos 来转换换行符，以便 Windows 系统读取。使用 busybox yes > yes.txt 快速创建大文件填充磁盘。 ……

脚本可以这么写：

#!/bin/sh

for FILE in *.md
do
    sed -i 's/"- #Done"/- Done/g' $FILE
done

将上述代码保存为 test.sh，放在存放 md 文档的文件夹中。

然后，到存放 md 文档的文件夹中，命令行下执行：

busybox ash test.sh

解释一下代码中的内容：sed 的基本语法是

sed -i 's/待匹配的正则表达式/替换目标/g' 要处理的文件

它可以将文件中的 待匹配正则表达式 替换为 替换目标 字符串。

参考资料：

Aquamarine · 2023 年9 月 12 日 10:39

你上百个文件都是只需要将"- #Done" 变成- Done？

Y_z · 2023 年9 月 12 日 10:45

你提供几个文件的文本内容看下，全字匹配和替换数量没关系的，正则的话要看了文本内容才能写

kimpvp · 2023 年9 月 12 日 10:58

非也，好多不同的标签

kimpvp · 2023 年9 月 12 日 11:01

如下，因为每个笔记是通过模版生成的，所以结构是差不多的

---
Created-time: <% tp.date.now() %>
tags:
  - "#Undo"
aliases: 
Link: 
Summary: 
Remark: 
---

Y_z · 2023 年9 月 12 日 11:11

意思是去掉标签名前的#吗？

替换前：

替换后：

这样的效果？

dog · 2023 年9 月 12 日 11:11

用dnGrep实操了一下，原样复刻你的操作，可以实现替换修改obstain 的 md文件

dog · 2023 年9 月 12 日 11:17

你写的正则表达式不能匹配这种
匹配的目标是

 "- #Undo"

注意引号的位置。。。

kimpvp · 2023 年9 月 12 日 11:48

感谢指正。应该是这个问题，明天再试一理

dms · 2023 年9 月 12 日 12:16

如果严谨的话，这个问题大概不容易一步到位。

楼主问题不完善，我先想当然补充一下：

要确认内容在 Front Matter 之中；
要确认在 tags 字段之中；
多个标签，大概如下：

---
Created-time: <% tp.date.now() %>
tags:
  - "#Undo"
  - "#otherTag"
aliases: 
Link: 
Summary: 
Remark: 
---

这种最好用脚本去控制逐步缩小范围替换，这样不容易出错，程序也容易写。

现在假定无需验证处于 Front Matter 之中，或者说可以确保正文没有类似内容，那么可以尝试用正则 (?<=^tags:\n) - "#(.*?)" 去匹配第一个标签，解释如下：

第一个括号是零宽正向后行断言(zero-width positive lookbehind assertion)，就是说查找的结果前面必须有什么；
- 必须是 tags: 开头，然后换行（这里根据具体情况控制前后空白是否需要匹配）
后面就是正常的标签匹配，然后标签的内容在第一个捕获组中

但是这样只解决了第一个标签，比较尴尬。所以改成：(?<=^tags:\n(?:\s+- [^#]+\n)?) - "#(.*?)"

这里只是改变了前面的断言内容，解读如下：

依然是某一行从 tags: 开头，然后换行
(?:) 这是一个匿名捕获组，即不会计入替换时的 $1
- 内容是 - tagName 这样形式的一行
- 后面的 ? 表示 0 到多次，同时非贪婪匹配，即匹配尽可能少的次数

这个正则就可以一直匹配到第一个 - "#tagName" 格式的标签了，如此，只需要重复替换直到没有匹配即可。

tiger · 2023 年9 月 12 日 13:13

有一个扩展是自动添加最近编辑时间的，它会自动转换 tag 标签到正确的格式，然后它的设置界面里有一个按钮可以批量更新，缺点就是会添加 created: 与 updated: 这两个属性。

Y_z · 2023 年9 月 12 日 14:49

这样确实严谨许多，正则要是能指定字符来缩小查找范围，但不匹配指定字符，在这种情况下就舒服多了

同文件多标签，如果不要求匹配 tags 且确定其他位置没有这种格式标签的话，像楼主这样直接捕获也行 - "(.*?\1)" → - "($1)"

请问是哪款插件，我目前用的是 templater ，它的 tp.file.last_modified_date（修改时间）判定很奇怪，明明刚修改过文档内容，时间却没有立即更新，过段时间看它的修改时间又变了

zyscu_1 · 2023 年9 月 12 日 23:13

我改过。用的emeditor。但是注意：一定要备份！备份！

leeyaunlong · 2023 年9 月 13 日 02:45

用awk多好. sed 难度实际很大.

tiger · 2023 年9 月 13 日 11:34

插件名是 update time on edit

话题		回复	浏览量
如何用正则表达式实现文档指定部分的文本替换？问题求助 windows , 文本处理	16	3336	2022 年6 月 2 日
有那种可以批量对文件夹中的所有文件做批量的正则表达式替换的工具问题求助 windows	14	1893	2023 年5 月 21 日
求推荐一款能按照对换表进行批量替换的文本替换软件问题求助 windows	18	3539	2023 年2 月 13 日
如何批量在指定符号后加空格问题求助文本处理	6	2270	2021 年12 月 4 日
找重命名工具，替换多个字符串，最好支持正则表达式问题求助	23	3131	2022 年12 月 11 日

如何用正则表达式批量替换md文件中的frontmatter？

背景

我的解决思路

求方法

相关话题