DeepSeek API 一夜拉满百万Token,V4时代提前到来

产品更新

DeepSeek API 今日全量更新至 100 万 Token 上下文,知识库同步刷新至 2025 年 5 月,疑似 V4 Lite 正式上线,距离旗舰版 V4 发布仅一步之遥。

128K 到 1M,DeepSeek API 今天直接拉满了

4 月 22 日,大量开发者发现 DeepSeek 官方 API 的上下文窗口已从 128K tokens 直接升级到 100 万 tokens——与此前 App 端和网页端灰度测试的版本完全对齐。这不是小版本迭代,这是量级上的跨越。

结合此前曝光的信息,这个 API 版本大概率就是 DeepSeek V4 Lite,也就是 V4 系列面向 API 场景的轻量级变体。梁文锋此前说 V4 将在 4 月下旬发布,现在看来,Lite 版已经抢先落地了。

百万 Token 意味着什么

先说个直观的数字对比。

128K tokens 大约能处理一本 10 万字左右的中文书籍,对于日常对话、短文档分析来说够用了。但一旦涉及到真实的工程场景——比如把一整个代码仓库丢进去做 review、一次性分析几十份合同、或者让模型通读一部长篇小说再做摘要——128K 就捉襟见肘。

100 万 tokens 是什么概念?大约相当于 75 万个中文汉字,差不多是四本《三体》的体量。你可以把一个中型项目的全部源码、文档、测试用例一股脑塞进一个请求里,让模型在完整上下文中理解和推理,而不是靠 RAG 检索拼凑碎片化的信息。

这对几类开发者来说是实打实的利好:

  • 做长文档处理的:法律合同审查、财报分析、学术论文综述,不用再切片分段处理了
  • 做代码分析的:整个 repo 级别的代码理解、重构建议、安全审计,上下文终于够用了
  • 做 Agent 应用的:长对话历史不用频繁截断,Agent 的"记忆力"直接拉满
  • 做 RAG 的:当上下文窗口足够大,很多原本需要复杂检索管线的场景可以简化为直接塞进 prompt

当然,窗口大不等于用得好。业界一直有个共识:很多模型号称支持超长上下文,但在窗口后半段的信息检索和推理能力会明显衰减——所谓的"Lost in the Middle"问题。DeepSeek V4 Lite 在这方面表现如何,还需要社区更多的 benchmark 验证。但至少从今天开发者的初步反馈来看,长文本场景下的表现是可用的。

知识库更新到 2025 年 5 月:一个容易被忽略的重要变化

除了上下文窗口的升级,还有一个值得注意的变化:知识截止日期更新到了 2025 年 5 月

这意味着在不联网的情况下,模型可以准确回答 2025 年 4 月发生的事情。对于很多不方便接入联网搜索的部署场景来说,这个时效性相当够用了。

作为对比:

模型 知识截止日期 上下文窗口
DeepSeek V3.1 (旧) 2025 年 2 月 128K
DeepSeek V4 Lite (新) 2025 年 5 月 1M
GPT-4o 2024 年 10 月 128K
Claude 3.5 Sonnet 2025 年 4 月 200K
Gemini 2.5 Pro 2025 年 1 月 1M

在上下文窗口这个维度上,DeepSeek V4 Lite 已经追平了 Google Gemini 2.5 Pro 的 1M 水平,远超 OpenAI 和 Anthropic 当前的主力模型。知识库的时效性也处于第一梯队。

不过有一点需要明确:V4 Lite 目前仍然不支持图片输入,只支持文本和语音处理。虽然此前曝光的信息显示 V4 Lite 具备原生多模态能力(包括图文理解和 OCR),但至少在今天的 API 更新中,视觉能力还没有开放。这可能是分阶段上线的策略,也可能是在等旗舰版 V4 一起发布。

V4 Lite 的定位:不是缩水版,是快刀

从命名和已知信息来看,V4 Lite 在 V4 系列中的定位很清晰:低延迟、快响应、API 优先

这跟 OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3.5 Haiku 是同一个思路——不是所有场景都需要最强的推理能力,很多时候开发者要的是又快又便宜又够用。Lite 版就是干这个的。

从开发者今天的实际体验来看,V4 Lite 的响应速度确实比之前的 V3 系列有明显提升,尤其是在长文本输入的场景下,首 token 延迟(TTFT)的改善比较明显。这对于需要处理大量文本的生产环境来说很关键——你不会希望丢进去一本书,然后等 30 秒才开始出结果。

至于旗舰版 V4,根据梁文锋此前的表态,预计也会在 4 月下旬发布。综合此前的爆料,V4 旗舰版的参数规模达到 6710 亿,并且会是真正的原生多模态模型,支持图文理解、生图等能力。如果 Lite 版是开胃菜,那旗舰版才是正餐。

最近一个月,DeepSeek 动作密集得不像话

把时间线拉长一点看,DeepSeek 最近一个月的节奏非常快:

  • 4 月 8 日:上线专家模式,针对复杂问题提供更深度的推理
  • 4 月中旬:专家模式支持上传文件
  • 4 月中旬:App 端和网页端开始灰度测试百万 Token 上下文
  • 4 月 22 日(今天):API 全量更新到百万 Token,V4 Lite 落地
  • 4 月下旬(预计):V4 旗舰版正式发布

中间还穿插了一次连续三天的服务异常,网页和 API 都受到了影响。考虑到这段时间密集的模型切换和基础设施升级,出现稳定性波动倒也不意外。但对于依赖 DeepSeek API 做生产服务的开发者来说,这确实是个需要关注的风险点。

这也引出一个现实问题:单一 API 来源的可用性风险。当你的服务强依赖某一家模型提供商时,对方的任何故障都会直接传导到你的业务。这也是为什么越来越多的开发者开始采用多模型聚合方案——通过统一的 API 网关接入多家模型,既能在某家服务异常时快速切换,也方便在不同场景下选择性价比最优的模型。像 OpenAI Hub 这类聚合平台已经同步支持了 DeepSeek 最新的百万 Token 版本,对于需要同时调用 GPT、Claude、Gemini、DeepSeek 的开发者来说,不用分别管理多套 API Key 确实省心不少。

百万 Token 时代,开发范式会怎么变

当主流模型的上下文窗口都来到百万级别,一些原有的开发范式正在被重新审视。

RAG 的角色在变化。 过去上下文窗口只有 4K、8K 的时候,RAG(检索增强生成)几乎是处理长文档的唯一选择。你必须先把文档切片、向量化、存到数据库里,查询时再检索相关片段塞进 prompt。这套管线有效,但也引入了额外的复杂度和信息损失。

现在窗口到了 1M,很多场景可以直接把原始文档塞进去,省掉中间的检索环节。这不是说 RAG 没用了——当你的知识库有几十 GB 甚至更大时,全塞进上下文显然不现实,RAG 仍然是必要的。但对于中小规模的文档集,"暴力塞进去"反而可能比精心设计的 RAG 管线效果更好,因为模型能看到完整的上下文,不会因为检索不准而遗漏关键信息。

Agent 的能力上限在提高。 长上下文意味着 Agent 可以维持更长的对话历史和任务状态,不用频繁做记忆压缩或摘要。一个能"记住"过去几十轮交互细节的 Agent,在复杂任务的执行连贯性上会好很多。

成本结构需要重新算账。 百万 Token 的输入意味着单次请求的 token 消耗可能是之前的 8 倍甚至更多。虽然 DeepSeek 的定价一直比较激进,但当你真的开始往 API 里灌几十万 token 的时候,成本还是会快速累积。开发者需要在"塞更多上下文提升效果"和"控制 token 消耗降低成本"之间找到平衡点。

一个实用的建议:不要因为窗口大了就无脑把所有东西都塞进去。先评估你的场景真正需要多少上下文,再决定用多大的窗口。 很多时候,精心组织的 10 万 token 输入比随意堆砌的 100 万 token 输入效果更好。

竞争格局:百万 Token 正在成为标配

回头看整个行业,百万级上下文窗口正在从"差异化卖点"变成"基本配置":

  • Google Gemini 2.5 Pro 最早把 1M 窗口带到了 API 层面
  • DeepSeek V4 Lite 今天跟上了
  • Anthropic 虽然 Claude 目前还是 200K,但大概率也在推进更长的上下文支持
  • OpenAI 的 GPT 系列在这个维度上反而显得保守,128K 的窗口已经维持了相当一段时间

有意思的是,在这场上下文窗口的军备竞赛中,中国的模型厂商跑得并不慢。DeepSeek 用一个 Lite 版就追平了 Gemini 的窗口大小,而且考虑到 DeepSeek 一贯的定价策略,在性价比上很可能还有优势。

当然,上下文窗口只是模型能力的一个维度。推理质量、指令遵循、代码生成、多模态理解……这些才是决定一个模型能不能在生产环境中真正好用的关键因素。V4 Lite 在这些方面的表现,还需要更多时间和更系统的评测来验证。

写在最后

今天的 API 更新更像是 V4 正式发布前的一次预热。Lite 版先行,旗舰版随后,DeepSeek 的节奏很清晰。

对开发者来说,现在就可以开始在自己的场景里测试百万 Token 上下文的实际效果了。建议从你最痛的长文本场景入手——那些之前因为上下文不够而不得不做各种 workaround 的地方,现在可以试试直接用大窗口硬刚,看看效果和成本是否划算。

V4 旗舰版大概率就在这几天了。到时候再看完整的 benchmark 和定价,才能真正判断这一代 DeepSeek 的竞争力。


参考来源