我本想写一篇关于 DeepSeek R1 的科普文,但发现很多人仅仅把它理解为 OpenAI 的复制品,而忽略了它在论文中揭示的“惊人一跃”,所以,我决定重新写一篇,讲讲从 AlphaGo 到 ChatGPT,再到最近的 DeepSeek R1 底层原理的突破,以及为什么它对所谓的 AGI/ASI 很重要。作为一名普通的 AI 算法工程师,我可能无法做到非常深入,如有错误欢迎指出。
文章略长,但很浅显易懂(这很重要),推荐阅读。
我已经读给小朋友听了。
我本想写一篇关于 DeepSeek R1 的科普文,但发现很多人仅仅把它理解为 OpenAI 的复制品,而忽略了它在论文中揭示的“惊人一跃”,所以,我决定重新写一篇,讲讲从 AlphaGo 到 ChatGPT,再到最近的 DeepSeek R1 底层原理的突破,以及为什么它对所谓的 AGI/ASI 很重要。作为一名普通的 AI 算法工程师,我可能无法做到非常深入,如有错误欢迎指出。
文章略长,但很浅显易懂(这很重要),推荐阅读。
我已经读给小朋友听了。
超越人类其实不是什么不可思议的事情
N年前还是小学生的我就已经承认自己败给计算器了
再大一点的时候我又败给了计算机(红警1vs7残酷人机我真打不过
我对 DeepSeek 的理解是让人眼目一新的结构上的革新
以"性能"为纵轴,“智能"为横轴,它是纵轴上更上一层楼
式的节点里程碑,而不是横轴上的
PS:纵横轴所对应的"性能”、"智能"用词不大准确,脑残词穷,大家估摸着理解吧
现在网上吹捧得让我已经有点腻歪了,国运级成果……
这词给袁老爷子还行,给 DS 安上,真不是高级黑?
模型结构是新的,而且训练成本是Llama的1/10,这一点已经很强了;不过网上讨论的应该是英伟达等公司股票跌了,以及被列入美国国家审查这几点。
有所突破,算是好消息。
DeepSeek R1-Zero 这部分是重点, 但是原文这里有些混乱, 作为AI底层逻辑的小白, 阅读此文收益良多. 但也有些问题.
简单的来说(非ai总结)
超越人类的重点: 找到一个方法可以让模型自我强化学习, 而不需要"人类反馈". 这样才能超越人类的智慧瓶颈.
openai正在这个方面发力, 但其闭源性让我们不知道其具体做法.
deepseek公布的细节中可以了解其R1的自我学习的方法:
核心解读grpo:
问题:
我比较关心小朋友多大?
↑初三,没有专业知识,基本上能看懂,文章的简化应该是足够的
15岁已经不是小朋友了,早一百年都当爸妈了。
以上偏离话题的各位帖子被删了。
歪楼的这也说明上面回答的都是真人,不是AI
问题我尝试做个回答。思考链这个东西的基础是逻辑,因为大多数高质量思考过程都内涵逻辑关系,所以即使是不可验证答案的思考过程,也可以提升。但是很多时候,逻辑并不完满或者超越逻辑的思考和行为就不在其中,比如“一天早晨,格里高尔·萨姆沙从不安的睡梦中醒来,发现自己躺在床上变成了一只巨大的甲虫。”这么扯的开头,如果ai不是读过的话,是写不出来的,因为正常的思维过程,这种肯定是要被打负分的。这个就好像要解决“仿生人做梦会梦到电子羊吗”这种哲学类的问题了。
附加说一点,同此类似,很多人类的知识突破是对以前固有知识的批判来实现突破的,比如黎曼几何就是欧氏几何平行线公设的否定而得来。我在测试学习deepseek的时候,发现对于9.9和9.11比较问题的反馈,发现一方面,它在缺少正确知识的前提下,很难获得正确的结论(1.5b版本直接告诉你0.9比0.11小),另一方面,在具有确定正确的知识下,恐怕根本无法实现突破。
一点小想法,也是瞎捉摸的。