最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

原始链接在: 最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降 - 小众软件

DeepSeek V4 终于发布了,带来了 1M 上下文,代码能力明显提升,推理进入第一梯队,但知识类能力仍落后于头部闭源模型。


最重要的是:「DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始,1M(一百万)上下文将是 DeepSeek 所有官方服务的标配。

算力需求比 V3.2 降低 3~10 倍

右侧显示,单 token 计算量(FLOPs)对比:

  • V4-Pro 比 V3.2 降低 3.7 倍
  • V4-Flash 比 V3.2 降低 9.8 倍

也就是说,同样的显卡和显存,可以处理更多的请求了(利好大模型提供商)

与同行对比

指标 GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro DeepSeek V4 Pro-Max
MMLU-Pro 87.5 89.1 91.0 87.5
SimpleQA 45.3 46.2 75.6 57.9
GPQA Diamond 93.0 91.3 94.3 90.1
HLE 39.8 40.0 44.4 37.7
LiveCodeBench 88.8 91.7 93.5
Codeforces 3168 3052 3206
Apex Shortlist 78.1 85.9 89.1 90.2

另外,今天更新了 GPT-5.5,也是同一天啊,ChatGPT 中已经可用。

降价了吗?

降了,也没降:

模型 输入(缓存命中) 输入(未命中) 输出 上下文
V3.2 0.2 元 2 元 3 元 128K
V4 Flash 0.2 元 1 元 2 元 1M
V4 Pro 1 元 12 元 24 元 1M

V4 Flash 降价,V4 Pro 全面涨价。

值不值?

V4 Pro 比 V3.2 贵了这么多,值不值:

类别 指标 V3.2 V4-Pro 提升情况(Pro)
知识 MMLU-Pro 65.5 73.5 ↑ +8.0
知识 C-Eval 90.4 93.1 ↑ +2.7
知识 MultiLoKo 38.7 51.1 ↑↑ +12.4
事实问答 SimpleQA 28.3 55.2 ↑↑ +26.9
事实问答 FACTS 27.1 62.6 ↑↑ +35.5
推理 BBH 87.6 87.5
推理 HellaSwag 86.4 88.0 ↑ +1.6
推理 WinoGrande 78.9 81.5 ↑ +2.6
代码 HumanEval 62.8 76.8 ↑↑ +14.0
数学 MATH 60.5 64.5 ↑ +4.0
数学 GSM8K 91.1 92.6 ↑ +1.5
长上下文 LongBench-V2 40.2 51.5 ↑↑ +11.3

现在就能用啦

目前 DeepSeek 官网以及 API 都上线了 V4。


原文:https://www.appinn.com/deepseek-v4/

能自己部署吗?

应该是不能的,Flash 最低也要200GB内存往上了。

1 个赞

量化一下在AIMAX 395上也许有机会运行?

那价格是不是也该降降?(毕竟你都说算力需求降低了。

flash降了,但是pro挺贵啊

但flash算力不是降更多么,那价格咋只降了那么一丢丢。

为将来降价打好基础

已耗费的人脑算力也得计算成本的(再说内存价格也涨了

别的先不说,“DeepSeek-V4 开创了一种全新的注意力机制”,这个机制是不是叫做"TurboQuant"?

不怕他贵,就怕他不好用。

国内太需要好用的ai了。

能直接报销,贵点没关系,也不至于随时封号。