由于 JVector 库的最新进展(将成为即将发布的 3.0 版本的一部分),在笔记本电脑上对整个英语维基百科进行索引已成为现实。
这篇文章详细介绍了如何做到这一点。
注意,这是因为早前 Cohere 发布了一个包含所有维基百科的数据集,通过多语言 v3 模型对其进行分块并嵌入到向量中。
自己计算如此多的嵌入将花费大约 5000 美元。
以及需要:
- Linux / macOS,不支持 Windows
- 数据集大约有 180GB 可用空间,完整索引有 90GB 可用空间。
- 在构建期间有足够的 RAM 来运行具有 36GB 堆空间的 JVM(约 28GB 用于索引,8GB 用于 GC 余量)。
- 在构建索引之前禁用交换。 Linux 会积极尝试缓存正在构建的索引,以至于交换出 JVM 堆的部分内容,这显然会适得其反。 在我的测试中,启用交换的构建速度几乎是关闭交换时的两倍。