好文:Deepseek R1可能找到了超越人类的办法

我本想写一篇关于 DeepSeek R1 的科普文,但发现很多人仅仅把它理解为 OpenAI 的复制品,而忽略了它在论文中揭示的“惊人一跃”,所以,我决定重新写一篇,讲讲从 AlphaGo 到 ChatGPT,再到最近的 DeepSeek R1 底层原理的突破,以及为什么它对所谓的 AGI/ASI 很重要。作为一名普通的 AI 算法工程师,我可能无法做到非常深入,如有错误欢迎指出。

文章略长,但很浅显易懂(这很重要),推荐阅读。

我已经读给小朋友听了。

4 Likes

超越人类其实不是什么不可思议的事情
N年前还是小学生的我就已经承认自己败给计算器了
再大一点的时候我又败给了计算机(红警1vs7残酷人机我真打不过 :joy:


我对 DeepSeek 的理解是让人眼目一新的结构上的革新
以"性能"为纵轴,“智能"为横轴,它是纵轴上更上一层楼式的节点里程碑,而不是横轴上的
PS:纵横轴所对应的"性能”、"智能"用词不大准确,脑残词穷,大家估摸着理解吧


现在网上吹捧得让我已经有点腻歪了,国运级成果……
这词给袁老爷子还行,给 DS 安上,真不是高级黑?

7 Likes

模型结构是新的,而且训练成本是Llama的1/10,这一点已经很强了;不过网上讨论的应该是英伟达等公司股票跌了,以及被列入美国国家审查这几点。

有所突破,算是好消息。

DeepSeek R1-Zero 这部分是重点, 但是原文这里有些混乱, 作为AI底层逻辑的小白, 阅读此文收益良多. 但也有些问题.

简单的来说(非ai总结)

超越人类的重点: 找到一个方法可以让模型自我强化学习, 而不需要"人类反馈". 这样才能超越人类的智慧瓶颈.

openai正在这个方面发力, 但其闭源性让我们不知道其具体做法.
deepseek公布的细节中可以了解其R1的自我学习的方法:

  • 使用v3为基础
  • 用cot预训练
  • [本文的核心]在数学/代码两个数据集使用grpo进行不用人工参与的自学习
  • 得到r1-zero(比v3有显著提升)
  • 然后在r1-zero的基础上 , 二次微调, 得到适应普遍任务的r1.

核心解读grpo:

  • 考虑三个参数: 结果正确性, 逻辑连贯性, 格式正确性
  • 让模型产生多个答案, 包括有推理的 和 没有推理的
  • 然后按照这些结果的可验证性, 为三个参数打分
  • 最终超过品均分的答案被奖励, 低于均分的答案惩罚.

问题:

  • 为什么仅对数学/代码这两个数据集进行grpo, 最后能提升那些不可验证答案(比如写作)的数据的结果?
  • 似乎不用人类参与的学习, r1-zero是局限在有标准答案的数据, 那么是不是我可以理解为, 这样做出的大模型, "作对"是它的目标. 那么是不是可以理解为, 所谓的"超越人类"是指比人类做的更快, 准确率更高, 且能将解题步骤罗列出来对吗?

我比较关心小朋友多大?

1 Like

↑初三,没有专业知识,基本上能看懂,文章的简化应该是足够的

1 Like

15岁已经不是小朋友了,早一百年都当爸妈了。

以上偏离话题的各位帖子被删了。

歪楼的这也说明上面回答的都是真人,不是AI :joy:

问题我尝试做个回答。思考链这个东西的基础是逻辑,因为大多数高质量思考过程都内涵逻辑关系,所以即使是不可验证答案的思考过程,也可以提升。但是很多时候,逻辑并不完满或者超越逻辑的思考和行为就不在其中,比如“一天早晨,格里高尔·萨姆沙从不安的睡梦中醒来,发现自己躺在床上变成了一只巨大的甲虫。”这么扯的开头,如果ai不是读过的话,是写不出来的,因为正常的思维过程,这种肯定是要被打负分的。这个就好像要解决“仿生人做梦会梦到电子羊吗”这种哲学类的问题了。

附加说一点,同此类似,很多人类的知识突破是对以前固有知识的批判来实现突破的,比如黎曼几何就是欧氏几何平行线公设的否定而得来。我在测试学习deepseek的时候,发现对于9.9和9.11比较问题的反馈,发现一方面,它在缺少正确知识的前提下,很难获得正确的结论(1.5b版本直接告诉你0.9比0.11小),另一方面,在具有确定正确的知识下,恐怕根本无法实现突破。
一点小想法,也是瞎捉摸的。