大模型到底有多离谱

Qingwa · 2026 年3 月 13 日 12:20

纯吐槽

jark006 · 2026 年3 月 13 日 14:19

哪家的，目前大多应该会有web_search/broswer之类的MCP工具吧

Marine8126 · 2026 年3 月 13 日 15:23

感觉也和模型的能力（钞能力）有关，如果真的能联网，那么贵一点的模型会好点吧

Qingwa · 2026 年3 月 13 日 16:16

ChatGPT

yazii · 2026 年3 月 13 日 17:05

是的，我今天也发现这种很无奈的地方了。如果模型本身没有能力，又没有调用工具，最后就可能发生很离谱的事情

概率性事件的结果无法体现出随机性

yazii · 2026 年3 月 13 日 17:20

再补充几个模型的测试结果
在开发环境中，模型获得了日期，但是始终没能显示出时间。当然，如果直接问时间，模型有概率提示运行命令获取时间或者运行代码获取时间，但是无法做到直接回复——这需要后台调用代码或者命令才能做到。

随机数测试再次体现了惊人的确定性 —— 用事实证明模型确实不会摇骰子。用文艺一点的思想来说，大模型从混沌中寻求结果，从概率里查找答案，但是最终走向定性。

wankkoree · 2026 年3 月 14 日 05:20

但是这种已读乱回的行为还真是好多人干得出来的事，就是那种应付应付得了的心态，某种程度上也算是更像人类的行为逻辑了。

PandaFiredoge · 2026 年3 月 14 日 10:17

Grok（和豆包？）的联网搜索是默认开启的，其他的都需要手动开启

clover · 2026 年3 月 14 日 12:58

情绪价值给满了「你说得对」

dunxuan · 2026 年3 月 15 日 08:07

网页版还是不行，最好是用agent，codex、claude code之类的

t35t · 2026 年3 月 16 日 00:49

经常这样，我扔给大模型一个200多页的报告，然后让他根据报告回答问题，回答之后我要求他给出回答参考的原文段落，它告诉我对不起，原文中并没有

Colin5887 · 2026 年3 月 16 日 02:09

所以说，题词工程还是有用的，至少目前的LLM还真不是随便怎么表述都能解决问题的。

我给出参考链接或者参考文档的时候，一般都会在要求后面添加一句“请在回答的时候，同时给出信息在参考资料的位置”。后者在提出复杂问题的时候，会说一句“我们一步一步来”…….貌似后面这句话会暴露年龄

t35t · 2026 年3 月 16 日 02:11

还有这个，我让AI算一下TWh和万亿千万时的转换，它给出的换算公式是对的，但下面几个值的换算，不知道为什么只有第一个是对的（除一千），后面几个都莫名其妙除了一万。

NeverWinterSwor · 2026 年3 月 16 日 12:01

这种应该让龙虾明确调用浏览器功能才行吧

话题		回复	浏览量
离谱的千问闲聊灌水	8	257	2026 年4 月 20 日
【吐槽】目前国产大模型的编程效果还是太差了…… 讨论分享 windows , python , ai	15	690	2025 年12 月 10 日
大半年后重测AI对于弱智吧段子的理解…… 闲聊灌水	15	572	2025 年4 月 29 日
如何证明 DeepSeek 是否为R1的满血版？讨论分享	17	1108	2025 年2 月 23 日
强的可怕：GPT 生成了一张抖音/小红书首页图片闲聊灌水	15	408	2026 年4 月 21 日