求能够对多个TXT文本内容进行比对并去重的软件

Test2022 · 2022 年9 月 19 日 00:54

求能够对多个TXT文本内容进行比对并去重的软件，文件数量较多
在百度上面搜索了，发现：https://blog.csdn.net/zhengzizhi/article/details/72615021
咨询了作者，软件居然3500。。。

解决方案使用EmEditor，并设置足够大的虚拟缓存即可

xiaokonglong · 2022 年9 月 19 日 01:03

说的不够详细啊.

如果只是简单的比较去重, Beyond Compare 就足够了.

Test2022 · 2022 年9 月 19 日 01:42

文件数量较多

Kyun · 2022 年9 月 19 日 03:15

按行或者按文件這個自己寫也可以吧。

dangerace · 2022 年9 月 19 日 03:19

你可以详细说说，最好举个例子，然后帮你想办法，或者给你个解决方案。

xml123 · 2022 年9 月 19 日 03:29

数据没大到机器吃不消的程度就合并、排序(sort)、去重(uniq)就行了，都是Linux自带的命令

fads_ldsf · 2022 年9 月 19 日 03:34

这个我比较有发言权

基本的方法：
进入cygwin环境安装好gawk 软件包
cat ./dir/*.txt | awk ‘{if(a[$0]!=1){print};a[$0]=1;}’ >去重后的文本.txt

这个是最快速的方法。
如果你只想用perl语言

cat ./dir/*.txt | perl -ne ‘{unless(exists $a{$_}){print $_};$a{$_}=1;}’ >去重后的文本.txt

上面只是去重复，

如果想要输出结果加上排序

cat ./dir/*.txt | sort|uniq >去重后的文本.txt

Test2022 · 2022 年9 月 19 日 09:07

请问有win10下面能用的软件吗，大概几十个G。。。

fads_ldsf · 2022 年9 月 19 日 09:11

这个涉及到哈希运算的技术问题了。

1GB的文本，可能需要4GB以上的内存。

这么大的文件如果你要去重复，只有分治策略。

具体方法是分别对 a b c …z开头的行分别去重复

如果实在过大，按照 aa ab ac a1 a2 … zz分类

haitao · 2022 年9 月 19 日 10:13

每行一个邮箱账号？
那重新导入数据库，一个distinct就解决了

fads_ldsf · 2022 年9 月 19 日 10:21

据我所知，mysql数据量破百万后，性能会急速下降
内存哈希法是最快速。

不知道128GB内存+redis+(python /perl)是不是最快的方案

haitao · 2022 年9 月 19 日 10:23

sqlite都能支持千万。
几亿的那些，可以采用分区表。mssql2005在64G内存的服务器，分100个区，对付10亿不是问题

kli2018 · 2022 年9 月 19 日 12:02

EmEditor

dangerace · 2022 年9 月 19 日 14:45

说不定这是一个好选择，去官网看了看，支持的大文件体积惊人！

话题		回复	浏览量
用 EmEditor 看小说也不错讨论分享 windows	5	352	2024 年12 月 30 日
对比两个txt文件的相关工具问题求助 windows	16	916	2024 年1 月 25 日
EmEditor 最近的免费版本扩增了部分专业版的功能（v21.2.0开始）讨论分享 windows , 文本编辑器	7	2840	2022 年1 月 17 日
求一个文本处理工具，批量添加尾内容问题求助 windows	7	850	2023 年8 月 18 日
像EmEdito那样能录制脚本的文本编辑器，还有什么？问题求助 windows	23	3036	2023 年2 月 5 日