从《电脑爱好者》杂志突然就没了?咋这么突然继续讨论:
就是这张图:
各大AI…只有 Gemini 完成了任务:
其他家的结果我放到网页了:
完全没想到,Gemini 这么能打。
GPT表示不服,虽然我们识别率不够,但是我们用时长啊。虽然题不会写,但是比翻卷的声音,我们就没怕过谁
这是还原出来的内容
还原文本(按四个公告框分别列出)
(左上)
注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)
(右上)
注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
【统一社会信用代码无法辨认】
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)
(左下)
注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
【统一社会信用代码无法辨认】
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)
(右下)
注销公告
【公司名称无法辨认】有限公司经股东(会)决议,拟向公司登记机关申请注销登记,清算组已成立。
【统一社会信用代码无法辨认】
请债权人自见报之日起 45日内 向本公司清算组申报债权。
特此公告。
(落款:清算组)
部分模型(如Qwen3-Max、GLM-4.6V)能识别出“北京电脑爱好者杂志社”字样,但只有Gemini 3.0 Pro能正确识别统一社会信用代码。已关闭联网搜索防止作弊。
这张图不再是一个笑话了。
最初买合订本还是邮政电汇买的,汇票都还在
C家:ChatGPT?Claude?
B家:一时想不起来是谁。
D家:豆包?DeepSeek?
图片里有元宝logo…
你这说得是有多隐晦,那露个图标又是为何? ![]()
另外两家呢?
因为出现名字就有可能被锤。
这里可是你的地盘 ![]()
gemini确实厉害的吓人,AGi时代可能真的要来了
一样的,没什么区别。
应该是gemini更强,因为gemini是真正的多模态,可以直接看懂图片里的内容,其他AI基本都是先用OCR把图片里的内容提取出来再去理解,不仅时间长,还可能没有注意到图片上的一些细节
理所当然不是啊,他们都是多模态啊。LLM处理图片输入,就是把图片分割成多个16*16的小图片,每一个作为一个Token,进行输入。凡是多模态的LLM,都是这么处理,虽然具体流程,分割,分辨率什么的可能有不同就是了
我就是做AI Agent开发的,用LLM对相机的图片进行处理,然后给出反馈什么的。我拍的东西连个字都没有,哪里有什么OCR
你这个ps是装了什么插件吗?
……这不是一张恶搞图片吗?
我当真了 ![]()
你家是真有地方啊,吼吼
试下发200页pdf(pdf每页都是图片)给各个LLM,然后让他们回答你提出的问题,这些问题答案就在这个pdf里。我测试过,提了100道题,chatgpt 只能答对大概60道左右,gemini全对了,而且标注了是在pdf哪里找到答案的,这才是多模态。chatgpt只能先把图片用OCR提取为文本再去理解,所以很耗时,而且不准确