智谱清言的数学逻辑推理能力有点弱啊

kat · 2024 年10 月 25 日 05:22

一个小学题目：

小明和爸爸、妈妈三个人分7个苹果，爸爸妈妈分得的数量必须相等。小明怎么分，可以让自己吃到最多苹果？

智谱清言居然没做对，有点出乎意料。：

我试了通义和DeepSeek，它们都能正确解答。

这道题其实不算难，智谱清言没答上来，让我很意外。

Fiend_FEARing · 2024 年10 月 25 日 05:34

这题chatgpt 4o第一次回答也答错：

我再试一次就变成：

切到4o mini，回答是这样：

Gemini Flash:

Gemini Pro:

结论就是：这些大模型的回答都不稳定，有时候答对有时候答错，使用大模型还是需要做检查，不是所有答案都完全采信。

tjsky · 2024 年10 月 25 日 06:31

在算法上AI模型本来就是在输出一个概率上最可能让你满意的字符排列，
而不是逻辑推理的结果。

kat · 2024 年10 月 25 日 06:57

没想到这个题 ChatGPT 4o 也不能一次搞定。最近主要用 DeepSeek、通义千问和智谱清言，基本的问答都没啥问题

Baiyssy · 2024 年10 月 26 日 06:45

不要问大模型任何你无法检验结果的问题。

Aquamarine · 2024 年10 月 28 日 03:21

能检验结果的问题最后就变成了我在训练它

kmoui · 2024 年10 月 28 日 06:08

智谱最强的glm-4-plus试一下。
首次答案，是爸妈0，小明7个。
然后补充一个条件，每个人不能为0和复数，就得到1+1+5了。

然后flash和air版模型都翻车，从给出的推理步骤来看，这两个轻量级模型思路大概是脑子不够。
网页版模型为了省钱估计给的都是轻量模型吧。

Semidio · 2024 年10 月 28 日 06:12

其实从回答结果来看，与其说是逻辑推理能力有点弱，不如说是对题干的逻辑抽象能力有点弱。

kat · 2024 年10 月 28 日 07:22

试了一下 glm-4-plus 确实强，是旗舰产品，价格会让钱包抗议，你用的是 API 吗？

kmoui · 2024 年10 月 28 日 07:38

用的 api，之前注册送一个月资源包。

Baiyssy · 2024 年10 月 28 日 09:25

安心啦，绝大多数人都还没有训练他的能力。

dangerace · 2024 年10 月 28 日 10:39

目前这些模型的核心都是统计并输出最可能出现的字符，说白了是一种“语言模型”。从本质上并不具备数理逻辑能力。不要用大模型来做精密计算。

Baiyssy · 2024 年10 月 29 日 07:44

我觉得LLM+程序代码应该是最有前景的方向，用LLM把题目翻译成程序代码，也就是把自然语言翻译成机器语言，然后数学部分就全部交给程序了。
这其实就是做应用题、搞科研的流程：列方程是语文题，解方程是数学题。
这样很大程度上能解决LLM不可靠的问题，因为程序运行还是比较可靠的。
现在看，Claude已经很接近这个完美的流程了。

moonlune · 2024 年10 月 29 日 12:39

智谱在做技术上的东西还是有差距的，无论是免费模型还是付费模型。

beyonca · 2024 年10 月 30 日 15:49

这题问的真蠢，既然是分配，以人性化的角度来看分配0个正常吗。1+1+5就是很合理的答案

话题		回复	浏览量
求一款安卓手机软件,未知来电会通过网络数据库进行识别后提示是xx单位的问题求助	6	896	2014 年11 月 7 日
GPT-4o mini 发布：OpenAI 最便宜的小型模型，比 GPT-3.5 便宜，比 GPT-4 优秀青蛙的应用	9	641	2024 年7 月 27 日
有什么好办法可以将新浪微博的问答移植过来? 闲聊灌水	5	840	2014 年5 月 4 日
AI聊天写作机器人-基于最新ChatGPT模型开发-无需翻墙发现频道	8	1723	2023 年6 月 2 日
有危险，不要怕--推荐一个软件叫“救我” 讨论分享	2	925	2014 年10 月 10 日

智谱清言的数学逻辑推理能力有点弱啊

相关话题