用游戏电脑 RTX 4080 + Tesla V100 实现 32GB 显存运行大模型,成本降低9成

这个有点酷

这位老哥用自己的游戏电脑(RTX 4080 显卡),然后自己额外买了张 2017 年的 Tesla V100 16GB 显卡,配合额外买了的转接器,通过 llama.cpp 的张量分割技术在两个 GPU 上分割模型,实现了 32G 显存。



但最终的成本价格:

  • V100 约 £150
  • SXM2 转 PCIe 转接板约 £50
  • 合计约 £200

而一张 RTX 5090 价格超过 £2000。

运行 Qwen3.6-27B-MTP Q5_K_M 量化

容量约为 19GB。在两个 GPU 的支持下,整个模型都可以容纳在 VRAM 中,

推理速度 ~32 tok/s
迅速处理 ~133-160 tok/s

就,感觉有点酷啊


最终成果 / 200 英镑

  • 与我的游戏图形处理器同时运行的 16GB 数据中心图形处理器
  • 用于本地 LLM 推断的 VRAM 总容量为 32GB
  • 在 27B 参数模型上每秒 32 个标记
    *128k 标记上下文窗口
  • 图像输入的视觉支持
  • 完全在本地运行的模式,不需要云,不需要每个令牌的成本
1 个赞

但是,分割难折腾,而且不是所有模型都支持来着。

但是1/10价格啊,可以配10台

就怕你要用的模型分割了之后死活没法跑起来。如果确定用的模型能跑起来那就是极好的。

如果不关心生成速度的话,22g显存的2080ti不清楚可不可以。

看作者 Qwen3.6-27B 跑起来了。

可以的,现在限制主要就是模型塞不进显存里,导致无法运行。大一点都行。慢就慢点呗

  1. 如果是自己验证模型能不能分割之后跑起来还是挺贵的, 毕竟要自己搭硬件环境啊
  2. 不是一定要所有层都放显存的, 内存也能跑, 就是贼慢.
  3. 就算显存够, 也是要看显卡速度的, 我上周测过 GTX745 跑 MiniCPM5-1B, 全载入显存, 速度也只有10+tok/s (与此同时, 内存跑31B模型的速度大约是 5tok/s)

慢就慢点呗:sob:

他这里说了呀 Qwen3.6-27B 可以跑的嘛,整个系列应该也没问题。只不过是够折腾的。

是的, 所以我上面说了, 就是要有别人验证过配置可行. 就是非常好的方案. 如果要自己去验证就成本比较高(时间+钱)

我就是2080ti,非常非常慢,而且很费电。有那个功夫我还不如用别人的服务 :rofl:

V100的架构太老了,很多新模型的新格式是无法支持的(严格说是兼容不佳,比如现在流行的MoE),也就导致:

  • 要么新模型旧量化-慢但模型效果最佳
  • 要么老模型旧量化-快但模型效果不佳

而且买单张V100,还不如海鲜市场里花个3000多,整双 V100扩展柜。