自托管 Llama-3 8B-Instruct 大语言模型与 ChatGPT 的成本对比

Qingwa · 2024 年6 月 18 日 02:42

作者：Sid Premkumar

摘要：假设你的模型 100% 利用率，使用 EKS 自我托管 Llama-3 8B-Instruct 模型每处理 1 百万个 tokens 的成本大约是 17 美元，而 ChatGPT 处理相同任务的成本仅为 1 美元。如果选择自我托管硬件，成本可以降至每 1 百万个 tokens 低于 0.01 美元，但需要约 5.5 年才能收回成本。

硬件选择

背景：所有测试均在 EKS 集群上运行。每个测试节点仅运行系统必需的 pods（如 prometheus、 nvidia-daemon 等）。

作者首先尝试在单个 Nvidia Tesla T4 GPU 上运行 AWS 的 g4dn.2xlarge 实例，但无论是 8B 参数还是 70B 参数的 Llama-3 模型都无法顺利运行。出于性能考虑，作者决定切换到配置更高的 g4dn.16xlarge 实例。

初始实施

作者尝试从 hugging face 上复制和粘贴 Llama-3 的代码，最终成功将响应时间降低到 10 秒以内。初步估算使用 g5dn.12xlarge 实例每月成本为 $3.912/小时。不过，作者在 token 计算上遇到了困难，最终使用了 llama-tokenizer-js 进行大致估算。

然而，经过对 ChatGPT 3.5 的价格 ($0.5/ 百万输入 token 和 $1.5/ 百万输出 token) 对比发现，Llama-3 模型成本仍然远高于 ChatGPT ($167.17/ 百万个 tokens)。

识别问题

作者意识到问题所在，并尝试使用 vLLM 来代替 hugging face 库进行 API 服务器托管。这显著改善了结果，查询时间减少到了 2044 毫秒。

但即使这样，Llama-3 的成本仍然高于 ChatGPT，每天大约损失 $17。

非传统方法

为了降低成本，作者提出了自我托管硬件的可能性。假设配置 4 个 NVidia Tesla T4 的硬件，初始成本大约为 $3,800，月维护费约为 $100。这种情况下，每 1 百万个 tokens 的成本显著下降。

最终计算出，假设使用 ChatGPT 生成 157,075,200 tokens 的费用为 $157,075，而自我托管的情况下，每月开销为 $100，约 5.5 年可以收回成本。这种方法有管理和扩展硬件的挑战，但在理论上可以大幅度降低成本。

请注意，这些假设基于 100% 的模型利用率，实际使用情况会有所不同。

skystar · 2024 年6 月 18 日 06:31

最近想直接买colab的计算时长，不知道怎么样

Baiyssy · 2024 年6 月 19 日 04:07

不考虑技术问题，仅仅从经济原理来说，集中的大规模生产肯定是有成本优势的。
这个问题上优势应该更明显，因为大集群的利用率会高好几倍。

kako · 2024 年6 月 20 日 09:32

规模效应下还是直接调用API更划算，除非本身就是使用量巨大，就和云服务器一样，在你业务量小的时候云服务器肯定更划算。但是当你服务到了一定的量级肯定是托管服务器–>租机柜–>租机房–>自建机房这样肯定更划算。
大模型也是一个样子，只有充分使用才能降低成本，个人服务之类的很难提升利用率。上面最少也得5.5年才能收回成本，五年差不多就是更换升级硬件的时候了。

话题		回复	浏览量
坛子里有没有试过在本地跑大语言模型的朋友？讨论分享 ai	14	1257	2024 年6 月 16 日
完全没想到现在运行本地大模型只需要两行命令[ollama] 青蛙的分享 ollama	28	640	2026 年4 月 16 日
Tokencost - 一个估算 400 多个 LLMs Token 成本的工具青蛙的应用	0	190	2024 年6 月 18 日
目前可用的 DeepSeek-R1 模型 API 服务商青蛙的分享 deepseek	11	1173	2025 年2 月 16 日
请问怎样搭建一个本地的类似ChatGPT的服务，将自定义的知识库输入，以获得专业问答的效果？问题求助	16	1938	2024 年3 月 5 日

自托管 Llama-3 8B-Instruct 大语言模型与 ChatGPT 的成本对比

硬件选择

初始实施

识别问题

非传统方法

相关话题