检查重复文件的两个我常用工具

我想找一种那种不是自己提供关键字而是自行递归模糊查找名字关键字的,这种估计消耗资源过大没人做吧。

Duplicate Cleaner Pro 这个最好用,也一直在用的,选择 后删除 很重要

1 Like

Duplicate Cleaner Pro还有个强大的地方在于它能查找重复文件夹,而同类软件多数是查找重复文件,不具备查找重复文件夹功能。有些较大的文件夹,比如拍摄的视频,体积有几十G、几百G,这地方复制了一份忘了,那地方又复制了一份,用查找重复文件夹的方法给硬盘腾出空间是最快速有效的。

1 Like

推荐一个查找重复图片的免费软件,只能在 windows 下使用,如果有需要的可以试一下。Awesome Duplicate Photo Finder - Find and Remove Duplicate or Similar Images

以前用 windows 系统的时候经常用,识别出的图片带相似度,当时试过很多软件都没有这个识别率高,用了很多年,后来换了 mac 后就再也找不到类似的了。
在 mac 也买了一个查处相似文件的软件,用起来感觉很不稳定,有时候能找到有时候找不到,如果有人在 mac 下有好用的也可以推荐一下,谢谢。

多媒体这个看来duplicate cleaner pro比较强
但是注意容差率,千万删的时候要小心,这个缩略图大小不可调,有时候放大了才发现其实不一样。
最好能有按视频时间长度容差的选项,那个会更准确。

而且过滤似乎有那么点反直觉。
我发的那两个,都有很好的1点,就是可以在过滤后,只动过滤后的显示出来的那些文件组。

这个我试过一次,觉得它查找相似视频的能力很差,这方面更推荐vdf

1 Like

我用过三个,主要是用来找相似视频的,我顺手实测过一次,就找到相似视频的数量来说,VDF和video comparer差不多,就是后者用时长很多,czkawka比那两个差很远,才一半不到

czkawka我记得是使用FFmpeg逐帧使用hash比较相似的,速度慢是预期的,这个不是主要功能。

我今天用这个软件清理了微信pc版文件. 用的硬链接的办法.

效果不错. 不影响微信文件打开. 而且软件速度也很快. 操作逻辑也比较合理.

2 Likes

正在用这个工具做图片查重,速度也挺快的,能调整识别的精确度,我试用了两个gui。Czkawka的gui支持中文界面,可以鼠标移动到文件显示预览图,但是界面本身就有很多bug;Krokiet的gui就完成度比较高而且易用了很多,区别是不支持中文,并且不能移动到文件上就显示预览图,需要点击文件名显示预览。各有优劣吧,我现在用的是Krokiet的版本,没有太复杂的操作足够用了

可惜大版升级要重新买,好在价格不贵。

如果你用的是 Czkawka-GUI ,可以尝试在软件安装目录下的 share\themes\WhiteSur-dark\gtk-4.0\gtk.css 添加以下内容:

@import url("resource:///org/gnome/theme/gtk.css");
* { -gtk-dpi: 200; }

以上来自 Czkawka 的 GitHub Issue,我直接抄的作业,如果不适合你的屏幕可以把 200 相应调大调小到满意为止

Digital volcano的DuplicateCleaner4.1.2比较好用,操作很简单,新版花里胡哨的,界面退化操作繁琐

值得注意的是这个玩意儿4.x会忽略带有繁体中文和日文的文件名,5.x似乎已经修复了

如果不需要5.X新增的针对视频的几种扫描模式,可以停留在4.X版本

1 Like

老老实实算hash不是个好算法,有其他办法可以简化过程节约大量时间

比如先在文件内几个随机位置取样少量数据做对比,就可以迅速排除掉大量不同文件。

最后再对剩下的那些多次取样仍然一致的文件做hash就OK了

只是这类软件太小众,作者对数据的理解不太行,还有优化空间

你是不是只看了他的评论就来评论了,而从来没实际用过这些去重软件?
你说的这种方案就是不少视频去重软件的默认的方案。
老老实实算完整hash只是其中一种可选的方案…

一直在用,我指的是作者应该在通用文件比较中优先使用数据抽样比较而不是直接上hash,与视频不视频没什么关系,视频去重复有需求吗?想不到有什么应用的场合。。。

目前要160,还是略贵
个人感觉100以内的话比较合适,毕竟这并非常用的功能

所以你要么没用过,要么你把自己曾经改了的设置当成了默认的设置了。
通用文件比较默认是byte-to-byte,是比较的文件大小的字节数。
抽样的前序步骤就是先获取文件大小,决定抽样位置。
这时候已经获取文件的byte了,你的方案还额外多了抽样,算抽样的hash

如果byte-to-byte不一样的文件,肯定是不同的文件,只对体积一样的两个文件,对比hash,整体计算量会比你的方案更小。

会,比如去BT下载带入的广告,保留同一个电影的最优版本,去除同一首音乐的不同版本。

1 Like

刚去测了下4.x和5.x,我这里5.x默认是md5
但是用一个6GB分卷的压缩包测试秒过,所以感觉在md5之前是有做抽样或者byte-to-byte比较的,或者在md5的过程中可以抽取中间值做比较?

之前我的判断确实是错的,当时是因为感觉速度不够快以为瓶颈在hash上,看来并不是

抽样肯定是在比较文件精确大小之后进行,不过有个特例就是复制或者分段下载异常中断/错误只复制了一部分的文件,可能很大一部分是相同的,但是大小不一样,只做抽样也有概率miss。所以最精确的还是应该把抽样单独作为一个选项,并且管道的方式来组合各种对比方式,适应对精确性的需求,但是对于普通用户有点过于复杂了。

视频被注入广告的场景,个人觉得还是在文件名上增加tag然后用everything搜索tag手动解决更方便些,如果视频太多,还有不同码率的版本,那么用计算的方法对比一定是很慢而且不准确的

everything作者说要开发dupe: 功能来搜索文件名部分match的文件,好像还没有实现。。。