Qingwa
(青小蛙)
1
这个有点酷
这位老哥用自己的游戏电脑(RTX 4080 显卡),然后自己额外买了张 2017 年的 Tesla V100 16GB 显卡,配合额外买了的转接器,通过 llama.cpp 的张量分割技术在两个 GPU 上分割模型,实现了 32G 显存。
但最终的成本价格:
- V100 约 £150
- SXM2 转 PCIe 转接板约 £50
- 合计约 £200
而一张 RTX 5090 价格超过 £2000。
运行 Qwen3.6-27B-MTP Q5_K_M 量化
容量约为 19GB。在两个 GPU 的支持下,整个模型都可以容纳在 VRAM 中,
推理速度 ~32 tok/s
迅速处理 ~133-160 tok/s
就,感觉有点酷啊
最终成果 / 200 英镑
- 与我的游戏图形处理器同时运行的 16GB 数据中心图形处理器
- 用于本地 LLM 推断的 VRAM 总容量为 32GB
- 在 27B 参数模型上每秒 32 个标记
*128k 标记上下文窗口
- 图像输入的视觉支持
- 完全在本地运行的模式,不需要云,不需要每个令牌的成本
1 个赞
TecNico
(xianii)
4
就怕你要用的模型分割了之后死活没法跑起来。如果确定用的模型能跑起来那就是极好的。
如果不关心生成速度的话,22g显存的2080ti不清楚可不可以。
Qingwa
(青小蛙)
7
可以的,现在限制主要就是模型塞不进显存里,导致无法运行。大一点都行。慢就慢点呗
Qingwa
(青小蛙)
9
慢就慢点呗
他这里说了呀 Qwen3.6-27B 可以跑的嘛,整个系列应该也没问题。只不过是够折腾的。
TecNico
(xianii)
10
是的, 所以我上面说了, 就是要有别人验证过配置可行. 就是非常好的方案. 如果要自己去验证就成本比较高(时间+钱)
我就是2080ti,非常非常慢,而且很费电。有那个功夫我还不如用别人的服务 
tjsky
(去年夏天)
12
V100的架构太老了,很多新模型的新格式是无法支持的(严格说是兼容不佳,比如现在流行的MoE),也就导致:
- 要么新模型旧量化-慢但模型效果最佳
- 要么老模型旧量化-快但模型效果不佳
而且买单张V100,还不如海鲜市场里花个3000多,整双 V100扩展柜。