坛子里有没有试过在本地跑大语言模型的朋友？

future_93 · 2024 年4 月 2 日 06:22

准备自己整台新电脑，因为对于在本地架设大语言模型多少有些兴趣，但自己又预算有限，所以想要向有经验的坛友们请教一下，看看是咬牙加钱，还是老实放弃。
咬咬牙的话，可以上个13600+4060ti 16G的配置，根据我粗浅的研究，理论上来说这个配置是有可能跑13B大语言模型的，虽然想要自己训练/微调的话恐怕还是心有余而力不足。
如果决定老实点的话，就退回13400+4060 8G的经典配置，只是不知道这个配置有没有可能跑个4B模型玩玩？
除此之外，也想了解一下，本地大语言模型(4/13B)和几个比较主流的在线服务(比如GPT3.5/4,claude等)相比，在使用体验(内容和速度)上有什么区别？
还请各位不吝赐教，当然如果有入门文章之类的推荐的话也是极好的。

suliveevil · 2024 年4 月 2 日 06:24

不训练不微调，干脆把组电脑的预算都充会员得了。
Claude 3、ChatGPT4都挺好用。

本地大模型只有一个好处：不受censor。

Qingwa · 2024 年4 月 2 日 06:30

显存，显存。

至少24G起吧….

Debatrix · 2024 年4 月 2 日 08:49

16G的显存4B都不一定调的动。
正好在做CLIP的微调，发个图吧

说真的如果不是有什么非常明确而又特定或者高度隐私的需求（例如以特定作家的风格写H书），能用在线服务就用在线服务，花小钱省折腾

入门的话，可以看一下这俩

lilyhcn1 · 2024 年4 月 2 日 09:47

试过lma 7b，效果比不上3.5。就放弃了。

deanme · 2024 年4 月 2 日 10:36

无脑建议先试试租服务器

w568w · 2024 年4 月 3 日 08:55

跑 13B 参数量模型没啥问题，甚至可以跑 float16 的版本。微调不太够，至少 24GB 显存吧。

有点勉强，不过跑短文本是可以的。

速度上你的本地模型不会慢，和网络不稳定的 OpenAI、Anthropic 相比，速度甚至会快一点。

内容就要差得多了，目前开源模型和商用模型无论是功能性还是能力都还有一段距离，日用不想折腾建议还是老老实实用商用模型。有一些国内榜单可以参考：

apaqiu · 2024 年4 月 3 日 16:07

自己創作了四款弈棋遊戲，想做出高強的AI，可惜不太懂咋做。話說弈棋AI應該比語言AI要容易很多吧？

future_93 · 2024 年4 月 4 日 06:05

据我所知，棋类游戏的AI，大多是执行一定深度的穷举、并以此对可能的选择进行基于预置逻辑的评估，再从中取最优解。
而大语言模型，我的理解是，基于预学习得到的模型，计算特定情况下一个词语之后出现哪个词语的概率更大。
某种程度上来说，两者间的相似之处不多，而且通常情况下棋类游戏AI的复杂程度远低于大语言模型。
但换个角度来说，大语言模型的思路也是可以用在棋类AI上的，尤其是对于有大量可供参考范例的经典棋类游戏，也可以通过预学习大量战例的方式建立模型，从而允许AI直接通过当前棋局计算最优解，而不必对未来的每一种可能进行穷举。
说不定ALPHA GO之类的棋类AI就是这么干的？

wren · 2024 年6 月 12 日 06:01

本地跑的ollama,比较喜欢用llama3和geema.

tjsky · 2024 年6 月 12 日 07:02

推理的话，8G/10G现存基本可以跑到13B到16B在int4下的量级。

因为目前N卡驱动是支持内存显存融合的，只要放到内存的部分不超过一半（也就是占用显存大于实际物理显存2倍以内）的话。延长的推理时间，我感觉都是可以接受的。

比较粗略的推理时的模型显存需求量估算方法

FP16: 显存占用(GB) = 模型量级 x 2
Int4: 显存占用(GB) = 模型量级 x 0.75

（模型显存需求量-显卡可用物理显存）/ 显卡可用物理显存 X 3=比全显存运行需要延长的时间倍率。

比如，你有一个7B的模型，你实际显卡是个8G显存的，有1G给系统显示用了，可用显存是7G）（所以推理最好是插2张卡，显示用个便宜的亮机卡，另一张卡全用来跑运算）那么：

推理需要14GB左右的显存
7GB在物理显存内，7GB在内存
（14-7）/ 7 X 3 = 3 ；比全放显存内运行，这样运行需要3倍的推理时长。

tjsky · 2024 年6 月 12 日 07:31

微调的话

全参数微调：需要的显存基本是模型参量的20倍。
使用一些优化方案的话，可以稍微降低一些，到需要模型参量的16倍。
简单说就是：一个0.5B的FP16模型微调需要10GB显存、7B模型微调需要160GB
Freeze：大概是参量的4倍
LoRA：大概是参量的3倍
QLoRA：大概是LoRA的一半，也就是模型参量的1.5倍

然后是这样的，尽量能单卡满足显存的话，就单卡满足。
8GB+8GB双卡需要的时间比单卡16GB要慢不少，我没实际统计过，感觉上大概双卡会比单卡慢大约1.2~1.3倍吧，显卡越多增加的时间就越多。

webster · 2024 年6 月 14 日 06:26

我之前自己的电脑上尝试运行Mistral-7B模型，不懂是不是我的电脑配置（5800H处理器、3060显卡和16GB内存）有限，运行了几十分钟只输出了两个字。

baowenbei · 2024 年6 月 14 日 06:56

我来补充一个实例，一个小朋友教辅内容的排版，竟然也能触发天道神罚

Sullevy · 2024 年6 月 14 日 09:14

我试过，本地太吃性能了。所以本地还是最多跑一个 RAG，用来保存自己的素材，然后调用其他的API吧，这样可能效果更好。
当然能用 GPT-4o 就用，有的需要 Claude 或者 Gemini

ZeronoFreya · 2024 年6 月 16 日 05:37

我之前问html的video支持哪些格式，答案呼之欲出，立刻删除提示换个话题，笑死我了