有没有方法可以查找部分同名的文件?

例如有以下文件:

《A》鲁迅.azw3
《B》鲁迅.azw3
《C》老舍.azw3
《D》老舍.azw3

期望:

  1. 自动查找文件名中包含“鲁迅”的文件并列出、包含“老舍”的文件并列出
  2. 忽略扩展名

补充说明:

我其实是想整理下本地的电子书库,比如把鲁迅的著作放在一起,把老舍的著作放在一起。但我不能用everything手动一个个的查找,效率太低。最好是有个类似重复文件查找的工具,比如两个文件的文件名有5个(个数可以自定义)连续字相同,那就把这两个文件列出来。

或许用“Excel+文件名列表”也可以,但不知道怎么实现,所以来求助大家。

说实话有点没看懂,因为貌似任何一个文件管理工具都能做到你说的这个效果。

或者说类似everything这样的搜索工具也行啊

和上面老哥的看法一样,只要是有文件查找功能的文件管理工具都能实现你说的目的。

你是想找系统内所有同名文档或者文档名接近的文件?
或许有重复文件查找的工具可以提供类似功能吧

文件名读取器 + excel + 正则表达式

天下无敌

windows搜索都行 :rofl: 不用正则 用简单的通配符就好

这种搜索 *鲁迅.azw3 就能列出《A》鲁迅.azw3《B》鲁迅.azw3 就是速度相对于其他软件会慢点

我之前没表达清楚,特地补充了说明。其实是想找重复文件查找工具,可以调节匹配度的那种。

是的。但我试了几款重复文件查找工具都实现不了。

如果是这样的要求,就确实有点意思了。

不想手动就只有写脚本了,如果需求太特殊,就只能自己动手

如果固定是这样的命名格式的话,非常简单。
用重命名软件,进行一次正则重命名,变成这样:
鲁迅《A》.azw3
鲁迅《B》.azw3
老舍《C》.azw3
老舍《D》.azw3

如果格式很随意的话
比如:
老舍写的A
B老舍著
C老舍
Dby鲁迅
鲁迅合集

恐怕只能依赖calibre 这样的书籍管理软件,并且向天祈求作者信息是被写入书籍源文件的。

1 Like

是的,文件名不是统一的格式。calibre可以按作者筛选,但是同系列的书就不行了。

有种模糊的感觉,能完美解决你这个问题的,可能需要上无监督机器学习的聚类分析了。 :crazy_face:

或者有一种退一步的折中解决方案,也就是不完全全自动的解决方案:
1、你先手工列出需要分类/搜索的主题词,例如上图中的“猎魔人”、“两晋演绎”、“两岸新编”等等;
2、使用专用工具根据你列出来的list去自动对图书进行分类整理。
我觉得这是一个比较容易达到的目标,否则完全全自动那种的,对AI和机器学习算法要求还是挺高的感觉。

你干嘛不直接按照你这堆书的书籍分类号来排序啊,这不是一目了然。。。。。。
同系列的书籍肯定索书号是近似的(只有尾巴的几个编码区别)。

另外在加上calibre 的按作者名分类,

两种方案打个配合就完了。

1 Like

同系列的书,ASIN 其实也没啥规律

或许可以实现,但目前来说对我行不通。太多太杂,手工列出关键词是很庞大的工作量了。

额,有没有可能译文的书比较特例,因为翻译的是各个领域的书,所以需要分在不同的大类下面

像《富爸爸系列》即便都属于财商教育,分册和合集的ASIN码也没啥规律

如果我说的这个折中方式不可行的话,那么大概您的问题应该暂时是没有现成的解决方案(工具)了。

和几个同事简单探讨了一下,完全满足您的要求的解决方案是,通过对所有文件名进行分词和词频统计,或者直接计算文本相似度,再用聚类算法进行自动分类…

难度较大,需要专业搞ai或者机器学习的同学来帮你了。