大半年后重测AI对于弱智吧段子的理解……

PandaFiredoge · 2025 年3 月 14 日 13:51

图一乐，这个测试完全不严谨，不要上纲上线

把这个问题重新表述为“古人经常被封号，是不是因为他们喜欢开外挂”，部分AI可以正确回答。
但是，如果直接以“古人有那么多封号，是不是说明古人很爱开挂”的原文提问，全军覆没，包括GPT-5、Gemini 2.5 Pro、Claude Opus 4.1、Qwen3-235B-A22B-2507、Kimi K2、GLM-4.5、DeepSeek-R1-0528等等等等。貌似只有Grok 4能正确理解（不过思考用了3分半）

从Claude 3.5 Sonnet 发布，超越自家的人工智能模型 Claude 3 Opus继续讨论：

没想到官网版的DeepSeek居然无法正确理解这个问题
Qwen也不行……
Claude3.7（普通回答）：
Claude3.7（推理回答）：
Poe里这个由Fireworks AI运营的DeepSeek为什么会输出这些东西？这个Fireworks AI到底是什么来头？
不过使用了DeepSeek模型的知乎直答能正确理解
小艺不行，但小艺搜索到了弱智吧的原帖
调用DeepSeek的腾讯元宝、阶跃AI、问小白、天工AI、纳米AI搜索也不行，不过值得一提的是纳米AI部分理解了问题（原话是“用户的问题实际是用现代网络梗调侃历史现象。古人“封号”的密集出现，容易让人联想到游戏账号频繁被封禁的场景。但这种类比仅限于语言幽默，二者内核完全不同：前者是正向激励制度，后者是破坏规则的惩罚机制。”）
GPT o3-mini也不行
试了下Grok3的DeepSearch，第一次提问不仅崩溃了，而且还把“封号”理解成了“密封的编号”，什么破玩意……
第二次提问Grok3，虽然思考过程里正确理解了这个问题，但是输出时崩溃了，而且它已经输出的内容里没能理解。
Grok3 Think，什么破玩意……
智谱清言能正确回答，无论是不是Plus模型
百度搜索里的DeepSeek，注意我画红圈的地方，果然锑度还是那个锑度

还有一点，我在无痕模式和登录账号的状态下分别测试了锑度，但是锑度输出的结果完全一样……不会是假模型吧

PandaFiredoge · 2025 年3 月 14 日 13:53

弱智吧原帖：

本次提问：

古人经常被封号，是不是因为他们喜欢开外挂？

PandaFiredoge · 2025 年3 月 14 日 14:05

加上提示之后，差点就正确理解了（请在新标签页中打开图片）

JoeCubber · 2025 年3 月 15 日 01:46

这个测试就是我目前还不怎么使用ai的原因，无法预测输出结果的质量在哪一个梯度。

好比机翻。如果能知道机翻基本的水平、质量，此后看到机翻都有一个认知。但是ai水平实时在变化，前两天可能比我聪明，我全信了。后两天突然变笨，但我的想法却没有改变，我还是信了，结果就是我也变笨了。最恐怖的是我甚至不知道什么时候变笨的，之前哪些输出是可信，哪些是不可信。

DavidJoy · 2025 年3 月 15 日 04:03

现在 AI 还没彻底搞定网络抽象/meme文化，这让我更加关注“抽象领域”，“嫉妒甜菜网友的菜花”。

不过这个度需要把握好，变成“梗小鬼”就不好了

xiaokonglong · 2025 年3 月 19 日 02:58

我前几天测试腾讯元宝, 让它提供周边的餐馆信息.

才发现, 腾讯元宝的幻觉已经达到精神病的级别了.

PandaFiredoge · 2025 年3 月 19 日 07:57

某4.5和某X1能正确回答，但是最近那事大家也清楚，我不会推荐他家的任何东西。

Semidio · 2025 年3 月 20 日 07:53

可以试试看秘塔，感觉对于这种问题，RAG的性能影响比模型自身的性能影响更大。

PandaFiredoge · 2025 年3 月 20 日 07:58

字字字字
图片.png

Semidio · 2025 年3 月 20 日 09:23

这种不需要展开的问题可以用简洁模式试试看。

tjsky · 2025 年3 月 21 日 03:30

Telegram上基于Grok-2-mini-08-13的Grok倒是回答对了。甚至还会调侃一把

PandaFiredoge · 2025 年3 月 21 日 04:09

没回答对，没有正确解释两个“封号”的区别

PandaFiredoge · 2025 年4 月 24 日 14:14

Grok现在比之前有进步

图片.png

PandaFiredoge · 2025 年4 月 29 日 13:06

Qwen3-235B-A22B 深度思考 38,912 tokens 联网搜索
图片.png
居然搜索到这个帖子了

PandaFiredoge · 2025 年4 月 29 日 13:09

不开联网搜索的效果更好

图片.png

PandaFiredoge · 2025 年4 月 29 日 13:10

Gemini 2.5 Pro

图片.png

话题		回复	浏览量
如何证明 DeepSeek 是否为R1的满血版？讨论分享	17	1151	2025 年2 月 23 日
DeepSeek-R1 发布，MIT 授权，性能对标 OpenAI o1 正式版青蛙的分享	32	2134	2025 年4 月 28 日
没人用Claude吗？讨论分享	29	2066	2024 年3 月 23 日
感觉GPT最近降智的过分闲聊灌水	8	325	2026 年4 月 3 日
我把这张图交给了 ChatGPT、元宝、豆包、Kimi、千问和 Gemini，结果有点...震惊。青蛙的分享	19	1541	2026 年1 月 3 日

大半年后重测AI对于弱智吧段子的理解……

图一乐，这个测试完全不严谨，不要上纲上线

相关话题