坛子里有没有试过在本地跑大语言模型的朋友?

准备自己整台新电脑,因为对于在本地架设大语言模型多少有些兴趣,但自己又预算有限,所以想要向有经验的坛友们请教一下,看看是咬牙加钱,还是老实放弃。
咬咬牙的话,可以上个13600+4060ti 16G的配置,根据我粗浅的研究,理论上来说这个配置是有可能跑13B大语言模型的,虽然想要自己训练/微调的话恐怕还是心有余而力不足。
如果决定老实点的话,就退回13400+4060 8G的经典配置,只是不知道这个配置有没有可能跑个4B模型玩玩?
除此之外,也想了解一下,本地大语言模型(4/13B)和几个比较主流的在线服务(比如GPT3.5/4,claude等)相比,在使用体验(内容和速度)上有什么区别?
还请各位不吝赐教,当然如果有入门文章之类的推荐的话也是极好的。

不训练不微调,干脆把组电脑的预算都充会员得了。
Claude 3、ChatGPT4都挺好用。

本地大模型只有一个好处:不受censor。

1 个赞

显存,显存。

至少24G起吧….

1 个赞

16G的显存4B都不一定调的动。
正好在做CLIP的微调,发个图吧
图片


说真的如果不是有什么非常明确而又特定或者高度隐私的需求(例如以特定作家的风格写H书),能用在线服务就用在线服务,花小钱省折腾


入门的话,可以看一下这俩

3 个赞

试过lma 7b,效果比不上3.5。就放弃了。

1 个赞

无脑建议先试试租服务器

1 个赞

跑 13B 参数量模型没啥问题,甚至可以跑 float16 的版本。微调不太够,至少 24GB 显存吧。

有点勉强,不过跑短文本是可以的。

速度上你的本地模型不会慢,和网络不稳定的 OpenAI、Anthropic 相比,速度甚至会快一点。

内容就要差得多了,目前开源模型和商用模型无论是功能性还是能力都还有一段距离,日用不想折腾建议还是老老实实用商用模型。有一些国内榜单可以参考:

2 个赞

自己創作了四款弈棋遊戲,想做出高強的AI,可惜不太懂咋做。話說弈棋AI應該比語言AI要容易很多吧?

据我所知,棋类游戏的AI,大多是执行一定深度的穷举、并以此对可能的选择进行基于预置逻辑的评估,再从中取最优解。
而大语言模型,我的理解是,基于预学习得到的模型,计算特定情况下一个词语之后出现哪个词语的概率更大。
某种程度上来说,两者间的相似之处不多,而且通常情况下棋类游戏AI的复杂程度远低于大语言模型。
但换个角度来说,大语言模型的思路也是可以用在棋类AI上的,尤其是对于有大量可供参考范例的经典棋类游戏,也可以通过预学习大量战例的方式建立模型,从而允许AI直接通过当前棋局计算最优解,而不必对未来的每一种可能进行穷举。
说不定ALPHA GO之类的棋类AI就是这么干的?

本地跑的ollama,比较喜欢用llama3和geema.

1 个赞

推理的话,8G/10G现存基本可以跑到13B到16B在int4下的量级。

因为目前N卡驱动是支持内存显存融合的,只要放到内存的部分不超过一半(也就是占用显存大于实际物理显存2倍以内)的话。延长的推理时间,我感觉都是可以接受的。

比较粗略的推理时的模型显存需求量估算方法

FP16: 显存占用(GB) = 模型量级 x 2
Int4: 显存占用(GB) = 模型量级 x 0.75

(模型显存需求量-显卡可用物理显存)/ 显卡可用物理显存 X 3=比全显存运行需要延长的时间倍率。

比如,你有一个7B的模型,你实际显卡是个8G显存的,有1G给系统显示用了,可用显存是7G)(所以推理最好是插2张卡,显示用个便宜的亮机卡,另一张卡全用来跑运算)那么:

  • 推理需要14GB左右的显存
  • 7GB在物理显存内,7GB在内存
  • (14-7)/ 7 X 3 = 3 ;比全放显存内运行,这样运行需要3倍的推理时长。
1 个赞

微调的话

  • 全参数微调:需要的显存基本是模型参量的20倍。
    使用一些优化方案的话,可以稍微降低一些,到需要模型参量的16倍。
    简单说就是:一个0.5B的FP16模型微调需要10GB显存、7B模型微调需要160GB

  • Freeze:大概是参量的4倍

  • LoRA:大概是参量的3倍

  • QLoRA:大概是LoRA的一半,也就是模型参量的1.5倍

然后是这样的,尽量能单卡满足显存的话,就单卡满足。
8GB+8GB双卡需要的时间比单卡16GB要慢不少,我没实际统计过,感觉上大概双卡会比单卡慢大约1.2~1.3倍吧,显卡越多增加的时间就越多。

2 个赞

我之前自己的电脑上尝试运行Mistral-7B模型,不懂是不是我的电脑配置(5800H处理器、3060显卡和16GB内存)有限,运行了几十分钟只输出了两个字。



我来补充一个实例,一个小朋友教辅内容的排版,竟然也能触发天道神罚 :sweat_smile:

我试过,本地太吃性能了。所以本地还是最多跑一个 RAG,用来保存自己的素材,然后调用其他的API吧,这样可能效果更好。
当然能用 GPT-4o 就用,有的需要 Claude 或者 Gemini

我之前问html的video支持哪些格式,答案呼之欲出,立刻删除提示换个话题,笑死我了