自托管 Llama-3 8B-Instruct 大语言模型与 ChatGPT 的成本对比

作者:Sid Premkumar


摘要:假设你的模型 100% 利用率,使用 EKS 自我托管 Llama-3 8B-Instruct 模型每处理 1 百万个 tokens 的成本大约是 17 美元,而 ChatGPT 处理相同任务的成本仅为 1 美元。如果选择自我托管硬件,成本可以降至每 1 百万个 tokens 低于 0.01 美元,但需要约 5.5 年才能收回成本。

硬件选择

背景:所有测试均在 EKS 集群上运行。每个测试节点仅运行系统必需的 pods(如 prometheus、 nvidia-daemon 等)。

作者首先尝试在单个 Nvidia Tesla T4 GPU 上运行 AWS 的 g4dn.2xlarge 实例,但无论是 8B 参数还是 70B 参数的 Llama-3 模型都无法顺利运行。出于性能考虑,作者决定切换到配置更高的 g4dn.16xlarge 实例。

初始实施

作者尝试从 hugging face 上复制和粘贴 Llama-3 的代码,最终成功将响应时间降低到 10 秒以内。初步估算使用 g5dn.12xlarge 实例每月成本为 $3.912/小时。不过,作者在 token 计算上遇到了困难,最终使用了 llama-tokenizer-js 进行大致估算。

然而,经过对 ChatGPT 3.5 的价格 ($0.5/ 百万输入 token 和 $1.5/ 百万输出 token) 对比发现,Llama-3 模型成本仍然远高于 ChatGPT ($167.17/ 百万个 tokens)。

识别问题

作者意识到问题所在,并尝试使用 vLLM 来代替 hugging face 库进行 API 服务器托管。这显著改善了结果,查询时间减少到了 2044 毫秒。

但即使这样,Llama-3 的成本仍然高于 ChatGPT,每天大约损失 $17。

非传统方法

为了降低成本,作者提出了自我托管硬件的可能性。假设配置 4 个 NVidia Tesla T4 的硬件,初始成本大约为 $3,800,月维护费约为 $100。这种情况下,每 1 百万个 tokens 的成本显著下降。

最终计算出,假设使用 ChatGPT 生成 157,075,200 tokens 的费用为 $157,075,而自我托管的情况下,每月开销为 $100,约 5.5 年可以收回成本。这种方法有管理和扩展硬件的挑战,但在理论上可以大幅度降低成本。

请注意,这些假设基于 100% 的模型利用率,实际使用情况会有所不同。

最近想直接买colab的计算时长,不知道怎么样

不考虑技术问题,仅仅从经济原理来说,集中的大规模生产肯定是有成本优势的。
这个问题上优势应该更明显,因为大集群的利用率会高好几倍。

2 个赞

规模效应下还是直接调用API更划算,除非本身就是使用量巨大,就和云服务器一样,在你业务量小的时候云服务器肯定更划算。但是当你服务到了一定的量级肯定是托管服务器–>租机柜–>租机房–>自建机房这样肯定更划算。
大模型也是一个样子,只有充分使用才能降低成本,个人服务之类的很难提升利用率。上面最少也得5.5年才能收回成本,五年差不多就是更换升级硬件的时候了。