大模型到底有多离谱

纯吐槽

3 个赞

哪家的,目前大多应该会有web_search/broswer之类的MCP工具吧

感觉也和模型的能力(钞能力)有关,如果真的能联网,那么贵一点的模型会好点吧

ChatGPT

是的,我今天也发现这种很无奈的地方了。如果模型本身没有能力,又没有调用工具,最后就可能发生很离谱的事情

概率性事件的结果无法体现出随机性

2 个赞

再补充几个模型的测试结果
在开发环境中,模型获得了日期,但是始终没能显示出时间。当然,如果直接问时间,模型有概率提示运行命令获取时间或者运行代码获取时间,但是无法做到直接回复——这需要后台调用代码或者命令才能做到。

随机数测试再次体现了惊人的确定性 —— 用事实证明模型确实不会摇骰子。用文艺一点的思想来说,大模型从混沌中寻求结果,从概率里查找答案,但是最终走向定性。



2 个赞

但是这种已读乱回的行为还真是好多人干得出来的事,就是那种应付应付得了的心态,某种程度上也算是更像人类的行为逻辑了。

Grok(和豆包?)的联网搜索是默认开启的,其他的都需要手动开启

情绪价值给满了 「你说得对」:joy:

网页版还是不行,最好是用agent,codex、claude code之类的

经常这样,我扔给大模型一个200多页的报告,然后让他根据报告回答问题,回答之后我要求他给出回答参考的原文段落,它告诉我对不起,原文中并没有 :downcast_face_with_sweat:

所以说,题词工程还是有用的,至少目前的LLM还真不是随便怎么表述都能解决问题的。

我给出参考链接或者参考文档的时候,一般都会在要求后面添加一句“请在回答的时候,同时给出信息在参考资料的位置”。后者在提出复杂问题的时候,会说一句“我们一步一步来”…….貌似后面这句话会暴露年龄


还有这个,我让AI算一下TWh和万亿千万时的转换,它给出的换算公式是对的,但下面几个值的换算,不知道为什么只有第一个是对的(除一千),后面几个都莫名其妙除了一万。

这种应该让龙虾明确调用浏览器功能才行吧