瞧我发现了什么用不起的软件:exo

项目 Ollama exo
本质 本地跑模型工具 多设备拼模型框架
运行方式 单机 多设备
难度 简单 很复杂
稳定性 低(实验)
性能 通常更慢
适合谁 所有人 折腾党

大概是你有好几台 Mac M5 Pro / M3 Ultra 以上设备,或者其他支持 RDMA 的设备。

然后就可以让几台设备,连在一起跑大模型了

這是算力共享方案嗎?
然後速度取決於傳輸速度這樣

就是组合硬件方案吧。一台机器不是内存不够么,多几台一起呗

那么问题来了: e 发音吗?

5 个赞

显存很难通过拼多设备来提升,桥接/交火的方案,在家用机领域不是很常见。而且,有钱买好几张显卡的应该也不差这点预算直接上计算卡。

而内存不足跑不起来大模型…….内存的速度挺慢的,DDR4的速度更慢,DDR5哪怕价格上天,速度还是很慢。把他们共享起来,再加上设备通信的延迟,我不认为0.1token/s的速度算得上好用。

至于把苹果设备连在一起,单个苹果主机自己就能跑30B的大模型了,为什么还要连起来。如果我真的需要200B的大模型,直接订阅GPT或者Gemini就行了,每个月也没多少钱

人家这个我觉得主要是针对有本地需求的人,4×MacMini就可以跑671B了,得益于thunderbolt接口,运行还是可以的
不过真有大算力需求那还是不太行

엑소

之前听一个老哥聊个这种操作,是公司需要微调一个模型,需求不算紧急,甚至租云服务训练都嫌不值。
最后采购了几台mac,组网微调完模型之后当作办公电脑发下去了,相当于除了电费和折腾外没有任何额外支出。