← 返回

DeepSeek V4: 百万token上下文,成本仅为Opus的1/21。开源差距再次缩小。

4 min · 2026年4月
最初发表于LinkedIn

DeepSeek今天发布了V4。和GPT-5.5同一天。这个时机不是巧合。

核心参数:1.6万亿参数,490亿激活(MoE),100万token上下文窗口,Apache 2.0许可证,权重在Hugging Face上。

真正重要的数字:每百万输出token $3.48。GPT-5.5要$30。Claude Opus 4.7要$75。DeepSeek V4比GPT-5.5便宜8.6倍,比Opus便宜21倍——性能接近。

但架构才是真正的故事。

V4引入了压缩稀疏注意力——一种混合机制,在完整百万token上下文下,将推理FLOPs降至V3.2的27%,KV缓存降至V3.2的10%。长上下文推理的内存减少了一个数量级。这是阻止开源模型服务百万上下文窗口的主要成本障碍。V4刚刚移除了它。

在Codeforces上,V4-Pro得分3,206——高于GPT-5.4的3,168。LiveCodeBench上93.5%——领先Kimi K2.6和Opus 4.6。

不足之处:长上下文检索仍然落后于Opus(MRCR 1M上83.5 vs 92.9)。SWE-Bench Pro落后于Kimi K2.6(55.4 vs 58.6)。

Flash变体同样有趣。2840亿参数,130亿激活。每百万输出token $0.28——几乎免费。

我一直在想的是:稀疏注意力突破使百万上下文在开源模型中首次具有经济可行性。上下文长度曾是只有前沿实验室才能负担的奢侈品。V4让它成为了商品基础设施。

SLM飞轮论点刚刚获得了新的基础层。在一个能以之前10%内存成本容纳百万token上下文的架构上微调领域专用模型。当基础变得更便宜时,复利就会更快。

Apache 2.0。权重在Hugging Face上。开源差距再次缩小。