在笔记本电脑上索引所有英文版本的维基百科

由于 JVector 库的最新进展(将成为即将发布的 3.0 版本的一部分),在笔记本电脑上对整个英语维基百科进行索引已成为现实。

这篇文章详细介绍了如何做到这一点。

注意,这是因为早前 Cohere 发布了一个包含所有维基百科的数据集,通过多语言 v3 模型对其进行分块并嵌入到向量中。

自己计算如此多的嵌入将花费大约 5000 美元。

以及需要:

  1. Linux / macOS,不支持 Windows
  2. 数据集大约有 180GB 可用空间,完整索引有 90GB 可用空间。
  3. 在构建期间有足够的 RAM 来运行具有 36GB 堆空间的 JVM(约 28GB 用于索引,8GB 用于 GC 余量)。
  4. 在构建索引之前禁用交换。 Linux 会积极尝试缓存正在构建的索引,以至于交换出 JVM 堆的部分内容,这显然会适得其反。 在我的测试中,启用交换的构建速度几乎是关闭交换时的两倍。

没懂,到底是禁用交换好还是启用交换好?

在这之前就已经有一个 app 能笔记本电脑上进行在线索引
https://apps.microsoft.com/detail/9wzdncrfhwm4