发现DeepSeek的思考过程更方便CV

用自己的代码同时让Gemini和DeepSeek进行分析,折磨几遍下来(服务器繁忙,请稍后再试)发现DeepSeek的思考过程应该是正文的思路去进行叙述的,用了很多连接词,看上去就是一大段,内容比较丰富,没那么条理清晰,不像只是对黑盒的一个解释或者大纲。但如果是正常的文本工作或者写作,倒的确更方便直接复制粘贴 :joy:

Gemini的推理过程是英文内容,截图已经用他本家服务机翻了

Gemini

DeepSeek

我对 GPT 的认识还停留在“猜下一个字大概率是什么”

这个“思考”或“推理”过程起到的是什么效果?是不是相当于根据用户的提示词(Prompts)先给自己生成二级提示词(这里各家生成的方式不同?),并列成任务清单,然后逐个输出回答?

“思考”是不是也消耗 Token?

标题的 “CV” 是什么的缩写?

ctrl C 和 ctrl V 复制粘贴
因为现在ai思考的过程等同于黑盒,这个推理过程类似于要求ai把自己的一部分分析逻辑输出

1 个赞

思考消耗Token,所有有些厂商缩减R1上下文的行为就会造成,一个问题,没思考完就停了,还扣你钱。点名批评硅基。

1 个赞

说实话,我没看懂楼主在说什么:dizzy_face:

deepseek的思考过程输出“浅色细体的小字”更符合正常文章的行文风格,更方便复制粘贴到文本创造相关的工作内容里去充当段落

现在也依然是这个模式。

  1. 实验证明模型用显式语言进行推理,性能更好;
  2. 方便观察和验证思考过程,通过增强学习优化思考。

认知科学角度的理解:

是,因为表观上来说,没有思考的模型是:

输入:
<|user|>请计算1+1=?。<|end|><|assistant|>
输出:
等于 2。<|end|>

有思考的模型是:

输入:
<|user|>请计算1+1=?。<|end|><|assistant|><think>
输出:
……思考过程</think> 等于 2。<|end|>

并没有改变逐个 token 生成的范式。think 内容也只是普通输出的一部分。

2 个赞

duang的一下就懂了