图一乐,这个测试完全不严谨,不要上纲上线
把这个问题重新表述为“古人经常被封号,是不是因为他们喜欢开外挂”,部分AI可以正确回答。
但是,如果直接以“古人有那么多封号,是不是说明古人很爱开挂”的原文提问,全军覆没,包括GPT-5、Gemini 2.5 Pro、Claude Opus 4.1、Qwen3-235B-A22B-2507、Kimi K2、GLM-4.5、DeepSeek-R1-0528等等等等。貌似只有Grok 4能正确理解(不过思考用了3分半)
从Claude 3.5 Sonnet 发布,超越自家的人工智能模型 Claude 3 Opus继续讨论:
-
没想到官网版的DeepSeek居然无法正确理解这个问题

-
Qwen也不行……

-
Claude3.7(普通回答):

-
Claude3.7(推理回答):

-
Poe里这个由Fireworks AI运营的DeepSeek为什么会输出这些东西?这个Fireworks AI到底是什么来头?

-
不过使用了DeepSeek模型的知乎直答能正确理解

-
小艺不行,但小艺搜索到了弱智吧的原帖


-
调用DeepSeek的腾讯元宝、阶跃AI、问小白、天工AI、纳米AI搜索也不行,不过值得一提的是纳米AI部分理解了问题(原话是“用户的问题实际是用现代网络梗调侃历史现象。古人“封号”的密集出现,容易让人联想到游戏账号频繁被封禁的场景。但这种类比仅限于语言幽默,二者内核完全不同:前者是正向激励制度,后者是破坏规则的惩罚机制。”)
-
GPT o3-mini也不行

-
试了下Grok3的DeepSearch,第一次提问不仅崩溃了,而且还把“封号”理解成了“密封的编号”,什么破玩意……

-
第二次提问Grok3,虽然思考过程里正确理解了这个问题,但是输出时崩溃了,而且它已经输出的内容里没能理解。


-
Grok3 Think,什么破玩意……

-
智谱清言能正确回答,无论是不是Plus模型


-
百度搜索里的DeepSeek,注意我画红圈的地方,果然锑度还是那个锑度

还有一点, 我在无痕模式和登录账号的状态下分别测试了锑度,但是锑度输出的结果完全一样……不会是假模型吧






