大半年后重测AI对于弱智吧段子的理解……

图一乐,这个测试完全不严谨,不要上纲上线


这个问题重新表述为“古人经常被封号,是不是因为他们喜欢开外挂”,部分AI可以正确回答。
但是,如果直接以“古人有那么多封号,是不是说明古人很爱开挂”的原文提问,全军覆没,包括GPT-5、Gemini 2.5 Pro、Claude Opus 4.1、Qwen3-235B-A22B-2507、Kimi K2、GLM-4.5、DeepSeek-R1-0528等等等等。貌似只有Grok 4能正确理解(不过思考用了3分半)


Claude 3.5 Sonnet 发布,超越自家的人工智能模型 Claude 3 Opus继续讨论:

  • 没想到官网版的DeepSeek居然无法正确理解这个问题
    图片.png

  • Qwen也不行……
    图片.png

  • Claude3.7(普通回答):
    图片.png

  • Claude3.7(推理回答):
    图片.png

  • Poe里这个由Fireworks AI运营的DeepSeek为什么会输出这些东西?这个Fireworks AI到底是什么来头?
    图片.png

  • 不过使用了DeepSeek模型的知乎直答能正确理解
    图片.png

  • 小艺不行,但小艺搜索到了弱智吧的原帖
    图片.png
    图片.png

  • 调用DeepSeek的腾讯元宝、阶跃AI、问小白、天工AI、纳米AI搜索也不行,不过值得一提的是纳米AI部分理解了问题(原话是“用户的问题实际是用现代网络梗调侃历史现象。古人“封号”的密集出现,容易让人联想到游戏账号频繁被封禁的场景。但这种类比仅限于语言幽默,二者内核完全不同:前者是正向激励制度,后者是破坏规则的惩罚机制。”)

  • GPT o3-mini也不行
    图片.png

  • 试了下Grok3的DeepSearch,第一次提问不仅崩溃了,而且还把“封号”理解成了“密封的编号”,什么破玩意……
    图片.png

  • 第二次提问Grok3,虽然思考过程里正确理解了这个问题,但是输出时崩溃了,而且它已经输出的内容里没能理解。
    图片.png
    图片.png

  • Grok3 Think,什么破玩意……
    图片.png

  • 智谱清言能正确回答,无论是不是Plus模型
    图片.png
    图片.png

  • 百度搜索里的DeepSeek,注意我画红圈的地方,果然锑度还是那个锑度
    图片.png
    还有一点, 我在无痕模式和登录账号的状态下分别测试了锑度,但是锑度输出的结果完全一样……不会是假模型吧

2 Likes

弱智吧原帖:

本次提问:

古人经常被封号,是不是因为他们喜欢开外挂?

加上提示之后,差点就正确理解了(请在新标签页中打开图片)
图片

这个测试就是我目前还不怎么使用ai的原因,无法预测输出结果的质量在哪一个梯度。

好比机翻。如果能知道机翻基本的水平、质量,此后看到机翻都有一个认知。但是ai水平实时在变化,前两天可能比我聪明,我全信了。后两天突然变笨,但我的想法却没有改变,我还是信了,结果就是我也变笨了。最恐怖的是我甚至不知道什么时候变笨的,之前哪些输出是可信,哪些是不可信。

1 Like

现在 AI 还没彻底搞定网络抽象/meme文化,这让我更加关注“抽象领域”,“嫉妒甜菜网友的菜花”。

不过这个度需要把握好,变成“梗小鬼”就不好了 :joy:

1 Like

我前几天测试腾讯元宝, 让它提供周边的餐馆信息.

才发现, 腾讯元宝的幻觉已经达到精神病的级别了.

某4.5和某X1能正确回答,但是最近那事大家也清楚,我不会推荐他家的任何东西。

可以试试看秘塔,感觉对于这种问题,RAG的性能影响比模型自身的性能影响更大。

1 Like

字字字字
图片.png

这种不需要展开的问题可以用简洁模式试试看。

Telegram上基于Grok-2-mini-08-13的Grok倒是回答对了。甚至还会调侃一把

_20250321112925.png

没回答对,没有正确解释两个“封号”的区别

Grok现在比之前有进步

图片.png

Qwen3-235B-A22B 深度思考 38,912 tokens 联网搜索
图片.png
居然搜索到这个帖子了:joy:

不开联网搜索的效果更好

图片.png

Gemini 2.5 Pro

图片.png