用游戏电脑 RTX 4080 + Tesla V100 实现 32GB 显存运行大模型，成本降低9成

Qingwa · 2026 年6 月 1 日 07:19

这个有点酷

这位老哥用自己的游戏电脑（RTX 4080 显卡），然后自己额外买了张 2017 年的 Tesla V100 16GB 显卡，配合额外买了的转接器，通过 llama.cpp 的张量分割技术在两个 GPU 上分割模型，实现了 32G 显存。

但最终的成本价格：

而一张 RTX 5090 价格超过 £2000。

运行 Qwen3.6-27B-MTP Q5_K_M 量化

容量约为 19GB。在两个 GPU 的支持下，整个模型都可以容纳在 VRAM 中，

推理速度 ~32 tok/s
迅速处理 ~133-160 tok/s

就，感觉有点酷啊

TecNico · 2026 年6 月 1 日 07:20

但是，分割难折腾，而且不是所有模型都支持来着。

Qingwa · 2026 年6 月 1 日 07:21

但是1/10价格啊，可以配10台

TecNico · 2026 年6 月 1 日 07:22

就怕你要用的模型分割了之后死活没法跑起来。如果确定用的模型能跑起来那就是极好的。

xieyilin.main · 2026 年6 月 1 日 07:24

如果不关心生成速度的话，22g显存的2080ti不清楚可不可以。

Qingwa · 2026 年6 月 1 日 07:24

看作者 Qwen3.6-27B 跑起来了。

Qingwa · 2026 年6 月 1 日 07:24

可以的，现在限制主要就是模型塞不进显存里，导致无法运行。大一点都行。慢就慢点呗

TecNico · 2026 年6 月 1 日 07:28

如果是自己验证模型能不能分割之后跑起来还是挺贵的, 毕竟要自己搭硬件环境啊
不是一定要所有层都放显存的, 内存也能跑, 就是贼慢.
就算显存够, 也是要看显卡速度的, 我上周测过 GTX745 跑 MiniCPM5-1B, 全载入显存, 速度也只有10+tok/s (与此同时, 内存跑31B模型的速度大约是 5tok/s)

Qingwa · 2026 年6 月 1 日 07:29

慢就慢点呗

他这里说了呀 Qwen3.6-27B 可以跑的嘛，整个系列应该也没问题。只不过是够折腾的。

TecNico · 2026 年6 月 1 日 07:31

是的, 所以我上面说了, 就是要有别人验证过配置可行. 就是非常好的方案. 如果要自己去验证就成本比较高(时间+钱)

Fiend_FEARing · 2026 年6 月 1 日 07:43

我就是2080ti，非常非常慢，而且很费电。有那个功夫我还不如用别人的服务

tjsky · 2026 年6 月 1 日 08:58

V100的架构太老了，很多新模型的新格式是无法支持的（严格说是兼容不佳，比如现在流行的MoE），也就导致：

而且买单张V100，还不如海鲜市场里花个3000多，整双 V100扩展柜。

话题		回复	浏览量
坛子里有没有试过在本地跑大语言模型的朋友？讨论分享 ai	14	1302	2024 年6 月 16 日
用苹果 M5 Max 跑大模型真的省钱吗？有人算了一笔账青蛙的应用	7	496	2026 年5 月 25 日
完全没想到现在运行本地大模型只需要两行命令[ollama] 青蛙的分享 ollama	28	784	2026 年4 月 16 日
自托管 Llama-3 8B-Instruct 大语言模型与 ChatGPT 的成本对比青蛙的分享	3	424	2024 年6 月 20 日
用一张 4090D 显卡部署 DeepSeek-R1 671B？KTransformers 让它成为可能青蛙的分享	1	262	2025 年2 月 22 日