我把这张图交给了 ChatGPT、元宝、豆包、Kimi、千问和 Gemini,结果有点...震惊。

《电脑爱好者》杂志突然就没了?咋这么突然继续讨论:

就是这张图:

各大AI…只有 Gemini 完成了任务:

其他家的结果我放到网页了:

完全没想到,Gemini 这么能打。

GPT表示不服,虽然我们识别率不够,但是我们用时长啊。虽然题不会写,但是比翻卷的声音,我们就没怕过谁

这是还原出来的内容

还原文本(按四个公告框分别列出)
(左上)

注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)

(右上)

注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
【统一社会信用代码无法辨认】
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)

(左下)

注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
【统一社会信用代码无法辨认】
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)

(右下)

注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
【统一社会信用代码无法辨认】
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)
1 个赞

图片.png

部分模型(如Qwen3-Max、GLM-4.6V)能识别出“北京电脑爱好者杂志社”字样,但只有Gemini 3.0 Pro能正确识别统一社会信用代码。已关闭联网搜索防止作弊。


这张图不再是一个笑话了。

  • “只要你记得药名的两个字,我就能给你找到!”
  • “胶囊。”
1 个赞

最初买合订本还是邮政电汇买的,汇票都还在

1 个赞

C家:ChatGPT?Claude?
B家:一时想不起来是谁。
D家:豆包?DeepSeek?

图片里有元宝logo…

你这说得是有多隐晦,那露个图标又是为何? :sweat_smile:
另外两家呢?

因为出现名字就有可能被锤。

这里可是你的地盘 :joy:

1 个赞

gemini确实厉害的吓人,AGi时代可能真的要来了

一样的,没什么区别。

应该是gemini更强,因为gemini是真正的多模态,可以直接看懂图片里的内容,其他AI基本都是先用OCR把图片里的内容提取出来再去理解,不仅时间长,还可能没有注意到图片上的一些细节

理所当然不是啊,他们都是多模态啊。LLM处理图片输入,就是把图片分割成多个16*16的小图片,每一个作为一个Token,进行输入。凡是多模态的LLM,都是这么处理,虽然具体流程,分割,分辨率什么的可能有不同就是了

我就是做AI Agent开发的,用LLM对相机的图片进行处理,然后给出反馈什么的。我拍的东西连个字都没有,哪里有什么OCR

你这个ps是装了什么插件吗?

……这不是一张恶搞图片吗?

我当真了 :sweat_smile:

你家是真有地方啊,吼吼

试下发200页pdf(pdf每页都是图片)给各个LLM,然后让他们回答你提出的问题,这些问题答案就在这个pdf里。我测试过,提了100道题,chatgpt 只能答对大概60道左右,gemini全对了,而且标注了是在pdf哪里找到答案的,这才是多模态。chatgpt只能先把图片用OCR提取为文本再去理解,所以很耗时,而且不准确