采用 MIT 授权,允许模型蒸馏。
在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
蒸馏小模型超越 OpenAI o1-mini
价格(如图)
Search/DeepThink 还需要手动开,
我发现几个小学生的题目,这一批很多推理模型都搞不来:
平面上有一个三角形,三边长度分别是6、8、10厘米。将它平移20厘米,它扫过的面积最大是多少?最小是多少?
十二生肖依次代表一个自然数:
鼠=1,牛=2,虎=3,兔=4,龙=5,蛇=6,马=7,羊=8,猴=9,鸡=10,狗=11,猪=12。
它们在3行x4列的方格中排好队等待新年礼物。
(1)代表奇数的动物挨着的都是代表偶数的动物,代表偶数的动物挨着的都是代表奇数的动物(两个小方格有公共边,就叫挨着);
(2)两种挨着的动物所代表的自然数不能是连续自然数;
(3)只存在于神话的属相刚好只挨着用于祭奠它的牛、羊、猪;
(4)没有腿的动物在第一行的最右侧,挨着最像人的动物;
(5)有翅膀的动物在第一行。
请在表格中填写对应的生肖。
今天用 deepseek 问它 1480 天前是什么日期,它居然以 2023.10.25 为基准往前推。还得告诉他今天是哪天,太傻了。
我觉得这就是当前AI的真实现状啊
它system prompt里面没包含 只能随便选个日期算啊
如果你们非要说一个 AI 怎么怎么不好,那都可以找到一大堆。然而有很多人已经使用 AI 的优势,创造出各种奇迹。
现在的 AI 基于统计学的相关性,很像各种文科的思维方式。所谓的有诗意。虽然缺乏逻辑性。但已经很适合拿来做一些营销推广的事情。编程的 token 模型比较简单,也很适合拿来搞软件开发。一个强大的程序员加上 AI 之后真是如虎添翼。但是反之,初级程序员使用的 AI 效果就不怎么样了。
拿来解题相比两年前进步已经很大了。不过我估计这个方向是死胡同。不能简单地累加相关性来获得逻辑性。
deepseek打开联网搜索,这个问题就不是问题了。
deepseek跟gemini差不多,回答都挺像。
早该压力压力 OpenAI 和 Claude 了,能早点把 OpenAI o1 和 Claude 3.6 价格打下来,对大家都是好事。
桌子上有5根蜡烛,吹灭1根,最后剩下几根蜡烛?
Deepseek 深度思考:1 根
智谱清言 Plus:5 根
通义:5 根
Deepseek 是对的
你。。。提到"点燃"它们了么?
如果题目如此, 那只有Deepseek是错的
所谓对标某某某的,其实就是做不到还假装比得上。
目前各种AI用下来,gpt4通杀其他所有AI,国内的AI甚至连gpt3.5都比不上。
不管国内外的, 孩子的小学题还没有能做出来的:
参考下题再设计一道题:
18÷3+2 = 16-2×4
要求: 在等号两边各有三个数字, 不重复的填入加减乘除四个符号, 使得等式成立.
Deepseek用了10k的字符, 差不多是穷举出来了一个.
9 ÷ 3 + 5 = 6 × 2 - 4
,两边结果均为 8。
你让我做这题,我好像也只能穷举,或者随便找几个碰运气
好像数学类的都不行。
为什么总有人觉得用几个问题就可以判断出这些模型之间的优劣呢?
它的推理过程显示,考虑到了这个问题