求助,什么工具适合对一个大文件夹中的文件内容搜索?

我的场景是这样的,对一个大文件夹(大约10个G,一两万个PDF文件),进行文件内容搜索。我想了下,效率最高的应该是平时对这个文件夹建索引,然后文件更新了,这个索引就更新。但我不知道哪个工具合适。目前已知的:

  • textseek,好用,但是似乎不能对特定文件夹建立索引并更新?所有每次检索要很久,太慢了
  • anytxt,这个好像是对全盘文件建立索引,但是这样往往会占用很多资源,会有一个巨大的缓存文件,而我只需要检索特定的文件。而且每次后台运行很卡
    其他的工具我没有尝试过,求推荐符合我应用场景的工具,感谢!!!

FileLocator

2 个赞

SeekFast可以,DtSearch也可以,还有很多。。。

这个怎么对特定文件夹建立索引啊?
我找到了
https://help.mythicsoft.com/filelocatorpro/cn/index.html?gettingstarted.htm

这两个哪个更好呢?感觉资源不是很好找

其实挺好找的,只是这地儿不兴讲这个。。。 :rofl:

1 个赞

OpenSearcher 优点开源软件,不过我电脑上他有奇怪的问题,我只能在下载后成功启动一次,只要我重启电脑就无法使用了,想要恢复使用只能,删除它,重启电脑,重新安装(复制)然后用,直到我关机重启过。

SeekFast 挺好用,缺点不便宜。

DtSearch Desktop 性能还不错,但是价格实在太贵了249刀,买不起。

Likasoft Archivarius 3000。。貌似停更了但还能用。

X1 Search 几万个文件后之前会卡现在版本不知道解决没。价格应该是1年79刀。

我自己是选了 FileLocator Pro 买断主版本只要69刀,次要升级可以一直升,从21年到24年了还没升级主版本呢,还是2022版。

咋说呢:就是好用的全文检索软件都要钱,开源/免费的如果文件不太多也还不错,但一旦需求较高就不太行了

你可以看下之前坛子里的讨论帖:

PS:其实Windows自己的索引对PDF的索引效果也不错
不过需要改一下注册表让索引全速运行

1 个赞

太感谢了,我用楼上的方案解决了!还是感谢大哥!

感谢指路,我现在也用的filelocator,完美符合我的场景,我之前不知道有真这个功能,刚刚搜了下才看到教程,自己摸索了下就搞定了,太完美了!其实我在想,如果这些文档要能结合AI做个AI文档搜索的话就无敌了,因为有些内容,我感觉技术上做增量不是那么难,就是如果不借助本地模型部署的话,成本可能比较高

AI检索可以试试开源项目《 Langchain-Chatchat》,跑索引向量时肯定是需要本地模型跑,聊天可以用在线API,现在国内大模型的价格很低的,不用太担心价格。

DocFetcher 免费版就够用了

试过的,非常卡,被file locator吊打了,当然我估计数据小的话,应该挺好用

感谢,我稍微探索了下,发现Langchain-Chatchat这类工具都是建立缩尾的本地知识库,按知识库的内容进行回答,但这种情况,适用于大量的本地PDF嘛?感觉有点疑惑,似乎这个只能适用于整理好的那种知识性材料