完全没想到现在运行本地大模型只需要两行命令[ollama]

今天要测试一个AI工具,它可以调用本地模型,并且给了命令。

我一看,就两个…

ollama pull qwen3-vl:8b
ollama serve

这就好了,模型就下载、运行、启动成功了。可以提问了 :joy:

不光大模型发展快,现在本地模型也很快呀

1 个赞

啊这, 不是现在吧, 有可能去年就是这样了。

我没用过本地啊,今天第一次 上次的时候超级麻烦:joy:

现在所有h2.appinn的图片全部会自动改成h2cdn.appinn了

好像还可以通过参数搞成api调用的。 类似的工具还挺多的。

我用过ollama, 比较出名的还有LM studio 之类的。但是太久了加上最近没有用,我就不太清楚了。

如果是普通人的话,Ollama和LM Studio这俩差不多。另外,LM Studio所提供的模型数量远远超过Ollama……但是如果你只向尝试一些特别著名的模型的话,Ollama大概率也是提供的

不过如果是开发的话,LM Studio提供的功能比Ollama全很多

@Qingwa Ollama部署本地模型确实还是挺方便的,问题在于硬件……

@Niceb @Colin5887 如果想要部署RAG,也就是小团队知识库,模型用Ollama或LM Studio,哪个更合适?

现在本地部署的大模型算力还行吗,去年部署的又慢回答也差

lmstudio直接点点点

部署取决于你的RAG系统支持什么API,如果这个没搞清楚,那么,哪个都不合适

而且,你把三个东西混在一起了

  • 部署RAG需要的是一套RAG软件,Ollama或者LM Studio原生不带RAG(虽然你可以通过MCP/SKILL/Tool来支持)
  • 模型是一大堆的参数,模型不是Ollama或者LM Studio
  • Ollama和LM Studio只是用来跑模型的本地运行环境

所以,我会说,“Ollama模型”或“LM Studio模型”不适合跑RAG……..

这个在去年 Deepseek 开源流行期就很火啦!

A卡的话估计是用llama.cpp vulkan版好点,lm studio的原理就是llama.cpp vulkan,也是一个指令就行了

感谢提醒。
Ollama或者LM Studio我是用来跑本地模型的,也就是RAG的后端。
暂时RAG用的是AnythingLLM。

不是古早一直都是要用命令行的吗……

我常用LM Studio,有gui好过ollama这种终端交互,既可本地开放API服务,也能在线下载模型,调节各种模型参数也方便。最重要是底层推理支持vulkan,我是较老的AMD显卡,只能用vulkan加速,而ollama只支持N卡cuda和较新AMD卡rocm加速。

我试了一下LM Studio,确实界面比ollama要好很多,但是它界面没做完善,至少简体中文翻译只做了一半,当然它也说了是Beta。
话说回来,这两个对我来说只是后台承载本地大模型的。我主要还是看它对前端RAG的支撑效果。

你不做开发,这两个对你差别不大

但是如果做开发的话

  • 英语本身肯定不是问题,要不然怎么写代码
  • LM Studio有完整的log,对开发来说太友好了
  • LM Studio的API是OpenAI兼容版本,Ollama是特有的API,用起来非常不舒服
  • LM Studio提供的模型数量多很多,可选范围也多很多

但是,如果只是为了RAG,所有这些都没区别

1 个赞

嵌入模型用的什么?

ollama也有GUI的,虽然比较简陋,但毕竟也是官方出品。

昨晚刚下载了qwen3.5,在3060显卡上,如果是0.8b,推理速度飞快,瞬间就能完成。当然0.8b参数量太小,智商堪忧,我最高试了试9b(下一个就是27b了,3060跑不动),关掉了推理过程后,响应速度还行。