我又来测试大模型了,这次数数

是这样的,这个页面是三所香港大学联合发布的公共图书馆,有50来本书,使用 CC-BY-NC-ND 4.0 授权

然后我就找大模型数了下具体数量,结果有点惨不忍睹。

1. ChatGPT

2. Perplexity

3. Gemini(:backhand_index_pointing_left: 唯一正确)

4. DeepSeek

5. 元宝(hunyuan)

6. 千文

7. 百度(文心4.5T)

1 个赞

Claude 4.5

所以正确答案是多少本?

1 个赞

我人肉数的只有 Gemini 和我一样,但我也不知道对不对。

2 个赞

每个回答都不一样啊

1 个赞

aistudio

1 个赞

为什么要数?直接在页面中搜索 “購買實體書”就可以了。

然后数据不准确,可能是因为抓取方式的不同。所以这点不太能够直观的去评判大模型的能力。

千文是什么?:doge: @Qingwa

1 个赞

我觉得哪怕千八百次的个例测试也是没意义的
挑几个顺眼的,平时都用就是了

Gemini还是不错

54本,是瞧不起咱z-library吗

目前所有AI都只能在不太精确的文字领域堪堪一用,在需要精确的数字统计和分析领域,就是一坨屎。