我又来测试大模型了,这次数数

是这样的,这个页面是三所香港大学联合发布的公共图书馆,有50来本书,使用 CC-BY-NC-ND 4.0 授权

然后我就找大模型数了下具体数量,结果有点惨不忍睹。

1. ChatGPT

2. Perplexity

3. Gemini(:backhand_index_pointing_left: 唯一正确)

4. DeepSeek

5. 元宝(hunyuan)

6. 千文

7. 百度(文心4.5T)

1 个赞

Claude 4.5

所以正确答案是多少本?

1 个赞

我人肉数的只有 Gemini 和我一样,但我也不知道对不对。

1 个赞

每个回答都不一样啊

aistudio

为什么要数?直接在页面中搜索 “購買實體書”就可以了。

然后数据不准确,可能是因为抓取方式的不同。所以这点不太能够直观的去评判大模型的能力。

千文是什么?:doge: @Qingwa

我觉得哪怕千八百次的个例测试也是没意义的
挑几个顺眼的,平时都用就是了

Gemini还是不错