好文：Deepseek R1可能找到了超越人类的办法

Qingwa · 2025 年1 月 31 日 16:41

我本想写一篇关于 DeepSeek R1 的科普文，但发现很多人仅仅把它理解为 OpenAI 的复制品，而忽略了它在论文中揭示的“惊人一跃”，所以，我决定重新写一篇，讲讲从 AlphaGo 到 ChatGPT，再到最近的 DeepSeek R1 底层原理的突破，以及为什么它对所谓的 AGI/ASI 很重要。作为一名普通的 AI 算法工程师，我可能无法做到非常深入，如有错误欢迎指出。

文章略长，但很浅显易懂（这很重要），推荐阅读。

我已经读给小朋友听了。

allor · 2025 年1 月 31 日 17:20

超越人类其实不是什么不可思议的事情
N年前还是小学生的我就已经承认自己败给计算器了
再大一点的时候我又败给了计算机（红警1vs7残酷人机我真打不过

我对 DeepSeek 的理解是让人眼目一新的结构上的革新
以"性能"为纵轴，“智能"为横轴，它是纵轴上更上一层楼式的节点里程碑，而不是横轴上的
PS：纵横轴所对应的"性能”、"智能"用词不大准确，脑残词穷，大家估摸着理解吧

现在网上吹捧得让我已经有点腻歪了，国运级成果……
这词给袁老爷子还行，给 DS 安上，真不是高级黑？

wffty · 2025 年2 月 1 日 02:48

模型结构是新的，而且训练成本是Llama的1/10，这一点已经很强了；不过网上讨论的应该是英伟达等公司股票跌了，以及被列入美国国家审查这几点。

biubiu · 2025 年2 月 1 日 04:31

有所突破，算是好消息。

sav3uluan · 2025 年2 月 2 日 10:13

DeepSeek R1-Zero 这部分是重点, 但是原文这里有些混乱, 作为AI底层逻辑的小白, 阅读此文收益良多. 但也有些问题.

简单的来说(非ai总结)

超越人类的重点: 找到一个方法可以让模型自我强化学习, 而不需要"人类反馈". 这样才能超越人类的智慧瓶颈.

openai正在这个方面发力, 但其闭源性让我们不知道其具体做法.
deepseek公布的细节中可以了解其R1的自我学习的方法:

使用v3为基础
用cot预训练
[本文的核心]在数学/代码两个数据集使用grpo进行不用人工参与的自学习
得到r1-zero(比v3有显著提升)
然后在r1-zero的基础上 , 二次微调, 得到适应普遍任务的r1.

核心解读grpo:

考虑三个参数: 结果正确性, 逻辑连贯性, 格式正确性
让模型产生多个答案, 包括有推理的和没有推理的
然后按照这些结果的可验证性, 为三个参数打分
最终超过品均分的答案被奖励, 低于均分的答案惩罚.

问题:

为什么仅对数学/代码这两个数据集进行grpo, 最后能提升那些不可验证答案(比如写作)的数据的结果?
似乎不用人类参与的学习, r1-zero是局限在有标准答案的数据, 那么是不是我可以理解为, 这样做出的大模型, "作对"是它的目标. 那么是不是可以理解为, 所谓的"超越人类"是指比人类做的更快, 准确率更高, 且能将解题步骤罗列出来对吗?

Baiyssy · 2025 年2 月 3 日 03:12

我比较关心小朋友多大？

3_5105 · 2025 年2 月 3 日 03:17

↑初三，没有专业知识，基本上能看懂，文章的简化应该是足够的

Baiyssy · 2025 年2 月 3 日 03:53

15岁已经不是小朋友了，早一百年都当爸妈了。

Qingwa · 2025 年2 月 5 日 09:47

以上偏离话题的各位帖子被删了。

J.q · 2025 年2 月 5 日 09:55

歪楼的这也说明上面回答的都是真人，不是AI

qinshou · 2025 年2 月 10 日 06:41

问题我尝试做个回答。思考链这个东西的基础是逻辑，因为大多数高质量思考过程都内涵逻辑关系，所以即使是不可验证答案的思考过程，也可以提升。但是很多时候，逻辑并不完满或者超越逻辑的思考和行为就不在其中，比如“一天早晨,格里高尔·萨姆沙从不安的睡梦中醒来,发现自己躺在床上变成了一只巨大的甲虫。”这么扯的开头，如果ai不是读过的话，是写不出来的，因为正常的思维过程，这种肯定是要被打负分的。这个就好像要解决“仿生人做梦会梦到电子羊吗”这种哲学类的问题了。

附加说一点，同此类似，很多人类的知识突破是对以前固有知识的批判来实现突破的，比如黎曼几何就是欧氏几何平行线公设的否定而得来。我在测试学习deepseek的时候，发现对于9.9和9.11比较问题的反馈，发现一方面，它在缺少正确知识的前提下，很难获得正确的结论（1.5b版本直接告诉你0.9比0.11小），另一方面，在具有确定正确的知识下，恐怕根本无法实现突破。
一点小想法，也是瞎捉摸的。

sav3uluan · 2025 年2 月 15 日 15:00

我做个阅读理解, 其中自问只是标记, 以后找到答案后再做补充:

qinshou:

思考链这个东西的基础是逻辑，(模型是否有逻辑?)

因为(模型的?)大多数高质量思考过程都内涵逻辑关系，
所以即使是不可验证答案的思考过程，也可以提升。
(恩… 输出的是逻辑关系, 和实际真的有逻辑关系有没有区别?)
(在不确定模型是否有逻辑的情况下, 同时也缺少"可验证">“不可验证"的依据的情况下, 如何得出"可以提升”? 这个是我原初的问题1, 但这里似乎直接当作了论据.)

但是很多时候，逻辑并不完满或者超越逻辑的思考和行为就不在其中，(不在什么其中? 逻辑? 还是可以提升的范畴?)

比如“一天早晨,格里高尔·萨姆沙从不安的睡梦中醒来,发现自己躺在床上变成了一只巨大的甲虫。”这么扯的开头，(扯的地方是?)

如果ai不是读过的话，是写不出来的，因为正常的思维过程，这种肯定是要被打负分的。(意思是ai, 我理解是模型, 是具备"正常思维"的?)

这个就好像要解决“仿生人做梦会梦到电子羊吗”这种哲学类的问题了。
(这个例子我不理解, 有空查询一下什么意思.)

附加说一点，同此类似，很多人类的知识突破是对以前固有知识的批判来实现突破的，
比如黎曼几何就是欧氏几何平行线公设的否定而得来。
(批判进行知识升级, 我理解和大模型的人工评分/r1-zero的自动评分类似)

我在测试学习deepseek的时候，发现对于9.9和9.11比较问题的反馈，
发现一方面，它在缺少正确知识的前提下，很难获得正确的结论，
另一方面，在具有确定正确的知识下，恐怕根本无法实现突破。
(模型的"知识"是可以在和人的互动中进行实时提升的吗?)
(9.9/9.11的比较中, 模型表达出其具有什么"正确的知识", 什么"不正确的知识"?)

话题		回复	浏览量
DeepSeek-R1 发布，MIT 授权，性能对标 OpenAI o1 正式版青蛙的分享	32	2098	2025 年4 月 28 日
泼凉水：我不配部署 DeepSeek R1 青蛙的应用	10	910	2025 年2 月 3 日
如何证明 DeepSeek 是否为R1的满血版？讨论分享	17	1134	2025 年2 月 23 日
DeepSeek V3.2 正式版发布：强化 Agent 能力，融入思考推理讨论分享	0	139	2025 年12 月 1 日
DeepSeek R1 模型完成“小”（超大）版本试升级讨论分享 ai , deepseek	1	288	2025 年5 月 30 日

好文：Deepseek R1可能找到了超越人类的办法

相关话题