DeepSeek API 升级百万Token上下文：V4 Lite落地，知识库更新至2025年5月

DeepSeek API 今日全量更新至 100 万 Token 上下文，知识库同步刷新至 2025 年 5 月，疑似 V4 Lite 正式上线，距离旗舰版 V4 发布仅一步之遥。

128K 到 1M，DeepSeek API 今天直接拉满了

4 月 22 日，大量开发者发现 DeepSeek 官方 API 的上下文窗口已从 128K tokens 直接升级到 100 万 tokens——与此前 App 端和网页端灰度测试的版本完全对齐。这不是小版本迭代，这是量级上的跨越。

结合此前曝光的信息，这个 API 版本大概率就是 DeepSeek V4 Lite，也就是 V4 系列面向 API 场景的轻量级变体。梁文锋此前说 V4 将在 4 月下旬发布，现在看来，Lite 版已经抢先落地了。

百万 Token 意味着什么

先说个直观的数字对比。

128K tokens 大约能处理一本 10 万字左右的中文书籍，对于日常对话、短文档分析来说够用了。但一旦涉及到真实的工程场景——比如把一整个代码仓库丢进去做 review、一次性分析几十份合同、或者让模型通读一部长篇小说再做摘要——128K 就捉襟见肘。

100 万 tokens 是什么概念？大约相当于 75 万个中文汉字，差不多是四本《三体》的体量。你可以把一个中型项目的全部源码、文档、测试用例一股脑塞进一个请求里，让模型在完整上下文中理解和推理，而不是靠 RAG 检索拼凑碎片化的信息。

这对几类开发者来说是实打实的利好：

做长文档处理的：法律合同审查、财报分析、学术论文综述，不用再切片分段处理了
做代码分析的：整个 repo 级别的代码理解、重构建议、安全审计，上下文终于够用了
做 Agent 应用的：长对话历史不用频繁截断，Agent 的"记忆力"直接拉满
做 RAG 的：当上下文窗口足够大，很多原本需要复杂检索管线的场景可以简化为直接塞进 prompt

当然，窗口大不等于用得好。业界一直有个共识：很多模型号称支持超长上下文，但在窗口后半段的信息检索和推理能力会明显衰减——所谓的"Lost in the Middle"问题。DeepSeek V4 Lite 在这方面表现如何，还需要社区更多的 benchmark 验证。但至少从今天开发者的初步反馈来看，长文本场景下的表现是可用的。

知识库更新到 2025 年 5 月：一个容易被忽略的重要变化

除了上下文窗口的升级，还有一个值得注意的变化：知识截止日期更新到了 2025 年 5 月。

这意味着在不联网的情况下，模型可以准确回答 2025 年 4 月发生的事情。对于很多不方便接入联网搜索的部署场景来说，这个时效性相当够用了。

作为对比：

| 模型 | 知识截止日期 | 上下文窗口 | |------|-------------|------------| | DeepSeek V3.1 (旧) | 2025 年 2 月 | 128K | | DeepSeek V4 Lite (新) | 2025 年 5 月 | 1M | | GPT-4o | 2024 年 10 月 | 128K | | Claude 3.5 Sonnet | 2025 年 4 月 | 200K | | Gemini 2.5 Pro | 2025 年 1 月 | 1M |

在上下文窗口这个维度上，DeepSeek V4 Lite 已经追平了 Google Gemini 2.5 Pro 的 1M 水平，远超 OpenAI 和 Anthropic 当前的主力模型。知识库的时效性也处于第一梯队。

不过有一点需要明确：V4 Lite 目前仍然不支持图片输入，只支持文本和语音处理。虽然此前曝光的信息显示 V4 Lite 具备原生多模态能力（包括图文理解和 OCR），但至少在今天的 API 更新中，视觉能力还没有开放。这可能是分阶段上线的策略，也可能是在等旗舰版 V4 一起发布。

V4 Lite 的定位：不是缩水版，是快刀

从命名和已知信息来看，V4 Lite 在 V4 系列中的定位很清晰：低延迟、快响应、API 优先。

这跟 OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3.5 Haiku 是同一个思路——不是所有场景都需要最强的推理能力，很多时候开发者要的是又快又便宜又够用。Lite 版就是干这个的。

从开发者今天的实际体验来看，V4 Lite 的响应速度确实比之前的 V3 系列有明显提升，尤其是在长文本输入的场景下，首 token 延迟（TTFT）的改善比较明显。这对于需要处理大量文本的生产环境来说很关键——你不会希望丢进去一本书，然后等 30 秒才开始出结果。

至于旗舰版 V4，根据梁文锋此前的表态，预计也会在 4 月下旬发布。综合此前的爆料，V4 旗舰版的参数规模达到 6710 亿，并且会是真正的原生多模态模型，支持图文理解、生图等能力。如果 Lite 版是开胃菜，那旗舰版才是正餐。

最近一个月，DeepSeek 动作密集得不像话

把时间线拉长一点看，DeepSeek 最近一个月的节奏非常快：

4 月 8 日：上线专家模式，针对复杂问题提供更深度的推理
4 月中旬：专家模式支持上传文件
4 月中旬：App 端和网页端开始灰度测试百万 Token 上下文
4 月 22 日（今天）：API 全量更新到百万 Token，V4 Lite 落地
4 月下旬（预计）：V4 旗舰版正式发布

中间还穿插了一次连续三天的服务异常，网页和 API 都受到了影响。考虑到这段时间密集的模型切换和基础设施升级，出现稳定性波动倒也不意外。但对于依赖 DeepSeek API 做生产服务的开发者来说，这确实是个需要关注的风险点。

这也引出一个现实问题：单一 API 来源的可用性风险。当你的服务强依赖某一家模型提供商时，对方的任何故障都会直接传导到你的业务。这也是为什么越来越多的开发者开始采用多模型聚合方案——通过统一的 API 网关接入多家模型，既能在某家服务异常时快速切换，也方便在不同场景下选择性价比最优的模型。像 OpenAI Hub 这类聚合平台已经同步支持了 DeepSeek 最新的百万 Token 版本，对于需要同时调用 GPT、Claude、Gemini、DeepSeek 的开发者来说，不用分别管理多套 API Key 确实省心不少。

百万 Token 时代，开发范式会怎么变

当主流模型的上下文窗口都来到百万级别，一些原有的开发范式正在被重新审视。

RAG 的角色在变化。 过去上下文窗口只有 4K、8K 的时候，RAG（检索增强生成）几乎是处理长文档的唯一选择。你必须先把文档切片、向量化、存到数据库里，查询时再检索相关片段塞进 prompt。这套管线有效，但也引入了额外的复杂度和信息损失。

现在窗口到了 1M，很多场景可以直接把原始文档塞进去，省掉中间的检索环节。这不是说 RAG 没用了——当你的知识库有几十 GB 甚至更大时，全塞进上下文显然不现实，RAG 仍然是必要的。但对于中小规模的文档集，"暴力塞进去"反而可能比精心设计的 RAG 管线效果更好，因为模型能看到完整的上下文，不会因为检索不准而遗漏关键信息。

Agent 的能力上限在提高。 长上下文意味着 Agent 可以维持更长的对话历史和任务状态，不用频繁做记忆压缩或摘要。一个能"记住"过去几十轮交互细节的 Agent，在复杂任务的执行连贯性上会好很多。

成本结构需要重新算账。 百万 Token 的输入意味着单次请求的 token 消耗可能是之前的 8 倍甚至更多。虽然 DeepSeek 的定价一直比较激进，但当你真的开始往 API 里灌几十万 token 的时候，成本还是会快速累积。开发者需要在"塞更多上下文提升效果"和"控制 token 消耗降低成本"之间找到平衡点。

一个实用的建议：不要因为窗口大了就无脑把所有东西都塞进去。先评估你的场景真正需要多少上下文，再决定用多大的窗口。 很多时候，精心组织的 10 万 token 输入比随意堆砌的 100 万 token 输入效果更好。

竞争格局：百万 Token 正在成为标配

回头看整个行业，百万级上下文窗口正在从"差异化卖点"变成"基本配置"：

Google Gemini 2.5 Pro 最早把 1M 窗口带到了 API 层面
DeepSeek V4 Lite 今天跟上了
Anthropic 虽然 Claude 目前还是 200K，但大概率也在推进更长的上下文支持
OpenAI 的 GPT 系列在这个维度上反而显得保守，128K 的窗口已经维持了相当一段时间

有意思的是，在这场上下文窗口的军备竞赛中，中国的模型厂商跑得并不慢。DeepSeek 用一个 Lite 版就追平了 Gemini 的窗口大小，而且考虑到 DeepSeek 一贯的定价策略，在性价比上很可能还有优势。

当然，上下文窗口只是模型能力的一个维度。推理质量、指令遵循、代码生成、多模态理解……这些才是决定一个模型能不能在生产环境中真正好用的关键因素。V4 Lite 在这些方面的表现，还需要更多时间和更系统的评测来验证。

写在最后

今天的 API 更新更像是 V4 正式发布前的一次预热。Lite 版先行，旗舰版随后，DeepSeek 的节奏很清晰。

对开发者来说，现在就可以开始在自己的场景里测试百万 Token 上下文的实际效果了。建议从你最痛的长文本场景入手——那些之前因为上下文不够而不得不做各种 workaround 的地方，现在可以试试直接用大窗口硬刚，看看效果和成本是否划算。

V4 旗舰版大概率就在这几天了。到时候再看完整的 benchmark 和定价，才能真正判断这一代 DeepSeek 的竞争力。

参考来源

IT之家：DeepSeek API 更新百万 Token 上下文，看齐 App 及网页版 — 本文核心信息来源，报道了 API 更新的第一手用户反馈
知乎：DeepSeek 悄悄测试新模型——百万 token 上下文、知识库更新 — 早期灰度测试阶段的详细分析
Reddit：DeepSeek 更新百万上下文窗口讨论 — 海外开发者社区的第一时间反馈

DeepSeek API 一夜拉满百万Token，V4时代提前到来

128K 到 1M，DeepSeek API 今天直接拉满了

百万 Token 意味着什么

知识库更新到 2025 年 5 月：一个容易被忽略的重要变化

V4 Lite 的定位：不是缩水版，是快刀

最近一个月，DeepSeek 动作密集得不像话

百万 Token 时代，开发范式会怎么变

竞争格局：百万 Token 正在成为标配

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们