DeepSeek API 静默换模型,V4 真的来了?

产品更新

DeepSeek 官方 API 近日被开发者发现正在灰度切换至新模型,输出风格与此前版本明显不同。结合 4 月初 V4 三模式灰度测试等信号,新一轮架构升级已箭在弦上。

DeepSeek 的 API 又偷偷换模型了。

过去几天,不少开发者在调用 DeepSeek 官方 API 时发现,模型的输出风格发生了明显变化——回答的语气、结构、甚至自我介绍的措辞,都和之前跑出来的结果对不上。有人一开始以为是自己的 prompt 出了问题,直到跑了一遍自我介绍的前端页面,才确认:这不是幻觉,DeepSeek 确实在后端悄悄换了东西。

这件事本身不算新鲜。DeepSeek 一直有"静默升级"的传统——不发公告、不改版本号,直接在线上灰度切换模型权重。但这次的动静,结合过去两个月的种种迹象来看,指向的可能不只是一次例行微调。

开发者最先闻到味道

最早的讨论出现在 Linux.do 社区。有用户贴出截图,对比了同一个自我介绍 prompt 在不同时间点的输出结果,风格差异肉眼可见。之前的 DeepSeek 回答偏克制、结构化,新版本则明显更"话多",语气更自然,角色扮演(RP)能力也有提升——这和此前社区里流传的"V4 对 RP 进行了专项优化"的说法吻合。

开发者对比 DeepSeek API 新旧模型输出风格差异的截图

但社区的反应并不是一边倒的兴奋。一条高赞回复写道:"狼来了太多,已经没有感觉了。"另一位用户更直接:"DS 的灰度,我怕都得灰个几年。"

这种疲惫感不难理解。从去年 V3.1、V3.2 到今年 2 月的百万 Token 上下文灰度测试,DeepSeek 的更新节奏一直是"小步快跑、静默迭代"。对于依赖 API 做产品的开发者来说,模型行为的不可预期本身就是一种负担——你不知道今天调出来的结果,明天还能不能复现。

这是 DeepSeek 需要认真对待的问题。灰度测试是工程上的合理策略,但对下游开发者的信息透明度,目前做得远远不够。

时间线拼图:V4 的轮廓越来越清晰

把过去两个多月的事件串起来看,这次 API 层面的变化大概率不是孤立事件。

2 月 11 日,DeepSeek App 向部分用户推送了 1.7.4 版本更新,最显著的变化是上下文长度从 128K 直接拉到 1M(百万 Token),知识库更新至 2025 年 5 月。IT之家、华尔街见闻等多家媒体跟进报道。当时 DeepSeek 自己在问答中的说法是,这"很可能不是 V4,极有可能是 V3 系列的最终进化形态,或是 V4 正式亮相前的终极灰度版"。

这个表述很 DeepSeek——既不承认也不否认,留足了回旋余地。

4 月 7 日,更大的信号来了。多位用户在 X 平台报告,DeepSeek 的聊天界面出现了全新的模式切换器,提供三个选项:

  • 快速模式(Fast Mode):默认选项,轻量级低延迟响应,文件上传仅做文本提取
  • 专家模式(Expert Mode):面向复杂推理任务
  • 视觉模式(Vision Mode):多模态处理

三个选项并排出现在对话界面顶部。这和 DeepSeek 以往"一个模型打天下"的产品形态完全不同,意味着底层很可能已经不是单一模型在服务,而是按任务类型做了模型路由。

4 月中下旬(也就是现在),API 层面的输出风格开始变化。

把这三个节点连起来:百万上下文 → 三模式界面 → API 模型切换。这不像是零散的小修小补,更像是一次系统性升级在分阶段落地。

V4 到底会带来什么?

关于 V4 的技术细节,目前最有参考价值的信息来自野村证券 2 月发布的一份研报。虽然券商报告的技术判断需要打折扣,但其中提到的两项核心技术值得关注:

mHC(流形约束超连接)

简单说,传统 Transformer 的层与层之间是"单行道"——信息从下往上逐层传递。mHC 的思路是在层之间建立更丰富的连接通道,让信息流动更灵活。但"连接多了"容易导致训练不稳定(梯度爆炸/消失),所以 mHC 加了严格的数学约束(流形约束),相当于给高速公路装上护栏。

这项技术的实际意义在于:它能在不大幅增加参数量的前提下提升模型的表达能力,同时改善训练稳定性。对于受限于国产芯片互联带宽的 DeepSeek 来说,这是一个"在有限硬件条件下榨取更多性能"的务实选择。

Engram(条件记忆架构)

这个更有意思。Engram 的核心思路是把模型中的"记忆"和"计算"拆开:

  • 静态知识(实体、固定表达、事实性信息)被存储在一个稀疏的内存表中,这个表可以放在便宜的 DRAM 里
  • GPU 的 HBM(高带宽内存)只负责动态计算——也就是真正需要"思考"的部分

打个比方:传统模型像是一个人把所有知识都装在脑子里,边回忆边思考;Engram 则像是给这个人配了一本随时可以翻阅的笔记本,脑子只负责推理。

这对 DeepSeek 的意义非常直接。在 HBM 供应受限(你懂的)的背景下,Engram 相当于用软件架构的创新来绕过硬件瓶颈。如果真能落地,推理成本还会进一步下降。

野村的报告还提到,内部测试显示 V4 在编程任务上的表现已经超越 Claude 和 GPT 同代模型,复杂任务处理能力对齐 Gemini 3 Pro 和 K2.5。这个说法目前无法独立验证,但考虑到 DeepSeek V3.2 Speciale 已经在数学竞赛中拿到过奥数金牌级别的成绩,V4 在特定任务上追平甚至超越闭源模型,并非不可想象。

三模式架构:产品逻辑的根本转变

比起底层技术,4 月初曝光的三模式切换可能对开发者的影响更直接。

过去,DeepSeek 的产品逻辑很简单——一个 deepseek-chat 端点,背后一个模型,所有任务都往里塞。这种"大一统"的方式对用户友好(不用选),但效率不高:你让一个全能模型去回答"今天天气怎么样",和让它去做多步数学推理,消耗的算力是不成比例的。

三模式的出现意味着 DeepSeek 开始做"模型路由":

  • 简单问答走快速模式,用轻量模型,响应快、成本低
  • 复杂推理走专家模式,调用完整的重型模型
  • 图片理解走视觉模式,启用多模态能力

这和 OpenAI 的 GPT-4o / o1 / o3 分层策略、Anthropic 的 Haiku / Sonnet / Opus 产品线,本质上是同一个方向:不同任务匹配不同规格的模型,在性能和成本之间找最优解。

对 API 开发者来说,关键问题是:这个模式切换未来会不会开放到 API 层?如果开放,端点和参数怎么设计?现有的 deepseek-chatdeepseek-reasoner 会不会被重新划分?

目前没有答案。但从 API 输出风格已经开始变化来看,后端的模型调度逻辑大概率已经在调整了。

竞争格局:DeepSeek 不再是唯一的"性价比之王"

一年前 V3/R1 发布时,DeepSeek 几乎是开源模型领域的唯一焦点。OpenRouter 的数据显示,当时 DeepSeek 占据了开源模型 Token 使用量的一半以上。

但到了 2026 年 4 月,局面已经完全不同:

  • Qwen3 系列在中文场景的表现持续提升,阿里通义千问 App 已经能以 Agent 形式执行多步骤任务
  • Llama 4 开源后迅速被社区适配,在英文场景的生态优势依然明显
  • GLM-5 系列在工具调用和 Agent 能力上走出了差异化路线
  • 闭源阵营里,Claude 4 SonnetGemini 3 ProGPT-5 都在过去半年内完成了代际更新

野村的报告用了一个准确的描述:市场从"一家独大"走向了"群雄割据"。

V4 面临的竞争压力远大于 V3 发布时。一年前,DeepSeek 的核心叙事是"开源模型也能打";现在,"开源模型能打"已经是共识,问题变成了"你比别的开源模型强在哪"。

从目前的信号来看,DeepSeek 的回答是:架构创新(mHC + Engram)带来的效率优势,以及更精细的产品分层(三模式)。这个答案够不够有说服力,要等 V4 正式发布、社区跑完 benchmark 之后才能判断。

对开发者意味着什么

如果你正在用 DeepSeek 的 API 做产品,有几件事值得注意:

短期内,注意输出一致性。 灰度期间模型行为可能不稳定,同一个 prompt 在不同时间点的输出可能有差异。如果你的应用对输出格式有严格要求(比如 JSON 结构化输出、特定的回答风格),建议增加输出校验逻辑,不要假设模型行为是恒定的。

关注 API 端点变化。 三模式如果开放到 API 层,现有的调用方式可能需要调整。建议在代码中把模型名称做成可配置项,不要硬编码。

成本可能进一步下降。 如果 Engram 架构真的能把静态知识卸载到 DRAM,推理成本还有下降空间。V3.2 时期 DeepSeek 的 API 定价已经是行业最低档,V4 有可能继续卷价格。对于用量大的开发者来说,这是实打实的利好。

多模型策略越来越重要。 不管 V4 最终表现如何,把所有鸡蛋放在一个模型里的风险越来越高。灰度期间的不确定性、不同模型在不同任务上的表现差异,都在推动开发者走向多模型架构。像 OpenAI Hub 这类支持一个 Key 调用多家模型的聚合服务,在这种背景下的价值会更明显——当 DeepSeek 在灰度、Claude 在维护、GPT 在抽风的时候,你至少还有 fallback 选项。

等靴子落地

回到最核心的问题:V4 到底什么时候正式发布?

从 2 月的百万上下文灰度,到 4 月的三模式测试,再到现在的 API 模型切换,DeepSeek 的节奏明显在加快。但"灰度"这个词在 DeepSeek 的语境里弹性很大——V3.2 从灰度到正式发布用了将近两个月,V3.1 更是灰度了很长时间才稳定下来。

社区里那句"DS 的灰度,我怕都得灰个几年"虽然是调侃,但确实反映了一个现实:DeepSeek 的发布节奏不像 OpenAI 或 Anthropic 那样有明确的时间表和发布会,更像是一个持续的、模糊的渐变过程。

对开发者来说,与其猜测发布日期,不如做好两手准备:一方面关注 DeepSeek 官方的 changelog 和 API 文档更新(虽然它们经常滞后于实际变化),另一方面确保自己的架构足够灵活,能快速适配新模型。

毕竟,在这个模型每隔几周就可能换一轮的时代,唯一确定的事情就是不确定性本身。


参考来源