今天要测试一个AI工具,它可以调用本地模型,并且给了命令。
我一看,就两个…
ollama pull qwen3-vl:8b
ollama serve
这就好了,模型就下载、运行、启动成功了。可以提问了 ![]()
不光大模型发展快,现在本地模型也很快呀
今天要测试一个AI工具,它可以调用本地模型,并且给了命令。
我一看,就两个…
ollama pull qwen3-vl:8b
ollama serve
这就好了,模型就下载、运行、启动成功了。可以提问了 ![]()
不光大模型发展快,现在本地模型也很快呀
啊这, 不是现在吧, 有可能去年就是这样了。
我没用过本地啊,今天第一次 上次的时候超级麻烦![]()
现在所有h2.appinn的图片全部会自动改成h2cdn.appinn了
好像还可以通过参数搞成api调用的。 类似的工具还挺多的。
我用过ollama, 比较出名的还有LM studio 之类的。但是太久了加上最近没有用,我就不太清楚了。
如果是普通人的话,Ollama和LM Studio这俩差不多。另外,LM Studio所提供的模型数量远远超过Ollama……但是如果你只向尝试一些特别著名的模型的话,Ollama大概率也是提供的
不过如果是开发的话,LM Studio提供的功能比Ollama全很多
@Qingwa Ollama部署本地模型确实还是挺方便的,问题在于硬件……
@Niceb @Colin5887 如果想要部署RAG,也就是小团队知识库,模型用Ollama或LM Studio,哪个更合适?
现在本地部署的大模型算力还行吗,去年部署的又慢回答也差
lmstudio直接点点点
部署取决于你的RAG系统支持什么API,如果这个没搞清楚,那么,哪个都不合适
而且,你把三个东西混在一起了
所以,我会说,“Ollama模型”或“LM Studio模型”不适合跑RAG……..
这个在去年 Deepseek 开源流行期就很火啦!
A卡的话估计是用llama.cpp vulkan版好点,lm studio的原理就是llama.cpp vulkan,也是一个指令就行了
感谢提醒。
Ollama或者LM Studio我是用来跑本地模型的,也就是RAG的后端。
暂时RAG用的是AnythingLLM。
不是古早一直都是要用命令行的吗……
我常用LM Studio,有gui好过ollama这种终端交互,既可本地开放API服务,也能在线下载模型,调节各种模型参数也方便。最重要是底层推理支持vulkan,我是较老的AMD显卡,只能用vulkan加速,而ollama只支持N卡cuda和较新AMD卡rocm加速。
我试了一下LM Studio,确实界面比ollama要好很多,但是它界面没做完善,至少简体中文翻译只做了一半,当然它也说了是Beta。
话说回来,这两个对我来说只是后台承载本地大模型的。我主要还是看它对前端RAG的支撑效果。
你不做开发,这两个对你差别不大
但是如果做开发的话
但是,如果只是为了RAG,所有这些都没区别
嵌入模型用的什么?
ollama也有GUI的,虽然比较简陋,但毕竟也是官方出品。
昨晚刚下载了qwen3.5,在3060显卡上,如果是0.8b,推理速度飞快,瞬间就能完成。当然0.8b参数量太小,智商堪忧,我最高试了试9b(下一个就是27b了,3060跑不动),关掉了推理过程后,响应速度还行。