DeepSeek-R1 发布,MIT 授权,性能对标 OpenAI o1 正式版

:one: 采用 MIT 授权,允许模型蒸馏。
:two: 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
:three: 蒸馏小模型超越 OpenAI o1-mini
:four: 价格(如图) ​​​

Search/DeepThink 还需要手动开,

我发现几个小学生的题目,这一批很多推理模型都搞不来:

平面上有一个三角形,三边长度分别是6、8、10厘米。将它平移20厘米,它扫过的面积最大是多少?最小是多少?

十二生肖依次代表一个自然数:
鼠=1,牛=2,虎=3,兔=4,龙=5,蛇=6,马=7,羊=8,猴=9,鸡=10,狗=11,猪=12。
它们在3行x4列的方格中排好队等待新年礼物。
(1)代表奇数的动物挨着的都是代表偶数的动物,代表偶数的动物挨着的都是代表奇数的动物(两个小方格有公共边,就叫挨着);
(2)两种挨着的动物所代表的自然数不能是连续自然数;
(3)只存在于神话的属相刚好只挨着用于祭奠它的牛、羊、猪;
(4)没有腿的动物在第一行的最右侧,挨着最像人的动物;
(5)有翅膀的动物在第一行。
请在表格中填写对应的生肖。

今天用 deepseek 问它 1480 天前是什么日期,它居然以 2023.10.25 为基准往前推。还得告诉他今天是哪天,太傻了。

我觉得这就是当前AI的真实现状啊

它system prompt里面没包含 只能随便选个日期算啊:joy:

如果你们非要说一个 AI 怎么怎么不好,那都可以找到一大堆。然而有很多人已经使用 AI 的优势,创造出各种奇迹。

现在的 AI 基于统计学的相关性,很像各种文科的思维方式。所谓的有诗意。虽然缺乏逻辑性。但已经很适合拿来做一些营销推广的事情。编程的 token 模型比较简单,也很适合拿来搞软件开发。一个强大的程序员加上 AI 之后真是如虎添翼。但是反之,初级程序员使用的 AI 效果就不怎么样了。

拿来解题相比两年前进步已经很大了。不过我估计这个方向是死胡同。不能简单地累加相关性来获得逻辑性。

1 Like

deepseek打开联网搜索,这个问题就不是问题了。

deepseek跟gemini差不多,回答都挺像。

早该压力压力 OpenAI 和 Claude 了,能早点把 OpenAI o1 和 Claude 3.6 价格打下来,对大家都是好事。

桌子上有5根蜡烛,吹灭1根,最后剩下几根蜡烛?

Deepseek 深度思考:1 根
智谱清言 Plus:5 根
通义:5 根

Deepseek 是对的

让kimi翻译个字幕:

让deepseek翻译字幕:

让豆包翻译字幕:

他们不都是独立训练的么,怎么犯的蠢都一毛一样

另外:
文心一言直接拒绝回答;
chatgpt正确处理了;
通义千问正确处理了。

试了下所谓的R1,还是一样的犯蠢。

无限地输出“这样”,直到字数限制,点继续生成还是继续“这样”。

你。。。提到"点燃"它们了么?
如果题目如此, 那只有Deepseek是错的
:sweat_smile:

所谓对标某某某的,其实就是做不到还假装比得上。
目前各种AI用下来,gpt4通杀其他所有AI,国内的AI甚至连gpt3.5都比不上。

不管国内外的, 孩子的小学题还没有能做出来的:

参考下题再设计一道题: 
18÷3+2 = 16-2×4

要求: 在等号两边各有三个数字, 不重复的填入加减乘除四个符号, 使得等式成立.

Deepseek用了10k的字符, 差不多是穷举出来了一个.
9 ÷ 3 + 5 = 6 × 2 - 4,两边结果均为 8

没有思考和学习, 就是穷举.

你让我做这题,我好像也只能穷举,或者随便找几个碰运气

好像数学类的都不行。

为什么总有人觉得用几个问题就可以判断出这些模型之间的优劣呢?

2 Likes

它的推理过程显示,考虑到了这个问题

SP 2025 01 22 18 01 02