DeepSeek 没有选择在某个发布会上搞大新闻,而是直接把 V4 的 API 开关拧开了。
2026 年 4 月 24 日,深度求索正式上线 DeepSeek V4 系列模型,包括 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 两个版本。没有预热、没有倒计时,API 端点直接可用。社区反应很快——Linux.do 上几个小时内涌出数十个讨论帖,有人感叹"大的终于来了",有人已经开始跑 benchmark。
这是 DeepSeek 自 V3 以来最大幅度的一次迭代。参数量从上一代的 6710 亿直接拉到 1.6 万亿(1.6T),上下文窗口扩展到 100 万 token,最大输出长度 384K token。这些数字放在一起,意味着你可以把一整个中型代码仓库塞进去,让它理解全局上下文后再动手改代码。
两个版本,两种定位
DeepSeek 这次的产品策略很清晰:Flash 走量,Pro 走质。
| 项目 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| 上下文长度 | 1M | 1M |
| 最大输出 | 384K | 384K |
| 思考模式 | 支持(默认开启) | 支持(默认开启) |
| JSON Output | ✅ | ✅ |
| Tool Calls | ✅ | ✅ |
| FIM 补全 | 仅非思考模式 | 仅非思考模式 |
| 输入价格(缓存命中) | 0.2 元/百万 tokens | 1 元/百万 tokens |
| 输入价格(缓存未命中) | 1 元/百万 tokens | 12 元/百万 tokens |
| 输出价格 | 2 元/百万 tokens | 24 元/百万 tokens |
Flash 版本的定价延续了 DeepSeek 一贯的"价格屠夫"风格——缓存命中后输入只要 0.2 元/百万 tokens,输出 2 元/百万 tokens。这个价格基本上是 GPT-4o 的几十分之一,拿来做日常开发辅助、批量文本处理,成本几乎可以忽略。
Pro 版本就贵多了。输入 12 元、输出 24 元(缓存未命中时),大概是 Flash 的 12 倍。但考虑到 1.6T 参数的推理成本,这个定价其实不算离谱。真正的问题是:Pro 比 Flash 好多少?值不值这个差价?
从社区早期反馈来看,Pro 在复杂推理和长链条代码生成上确实有肉眼可见的提升,但在日常对话和简单任务上,Flash 已经够用了。这跟 Claude 的 Haiku/Sonnet/Opus 分层逻辑类似——大多数场景用便宜的就行,关键时刻再上大的。
性能到底怎么样
先说官方自评的数据。DeepSeek 在技术报告中给出了一组跑分,覆盖编码、数学、推理、长文本等多个维度。几个关键数字:
- HumanEval 评分突破 90%,这是代码生成领域的核心 benchmark
- SWE-Bench 测试达到 84%,意味着在真实软件工程任务上有很强的表现
- 推理速度较 V3 提升约 2 倍
当然,官方跑分永远要打个折扣看。截至发稿,LMArena(原 Chatbot Arena)、ArtificialAnalysis、LiveBench 等第三方评测平台都还没有上线 V4 的数据。真正的硬仗要等社区大规模使用和盲测排名出来之后才能下定论。
但从已有的信息来判断,V4 至少在以下几个方面有实质性进步:
第一是长上下文能力。100 万 token 的窗口不是摆设——V3 的上下文是 128K,这次直接翻了近 8 倍。对于需要处理大型代码库、长文档分析、多轮复杂对话的场景,这是质的飞跃。之前你可能需要做 RAG 检索才能处理的内容,现在可以直接塞进上下文。
第二是编码能力。多家媒体引用的内部测试结果显示,V4 在编程任务上的表现可能超越 Claude 和 GPT 系列。注意是"可能"——没有第三方盲测验证之前,这个说法还需要保留一些怀疑。但 HumanEval 90%+ 的成绩确实说明了问题,这已经是目前公开模型中的第一梯队。
第三是多模态。V4 原生支持图文视频多模态输入,这是 V3 不具备的能力。虽然 API 层面目前主要开放的还是文本能力,但多模态的底座已经打好了。
架构上做了什么
DeepSeek V4 继续使用 MoE(Mixture of Experts)架构,但在此基础上引入了所谓的"Engram 记忆技术"。简单理解:MoE 让模型在推理时只激活一部分参数(所以 1.6T 参数不意味着每次推理都要跑 1.6T),而 Engram 机制则优化了模型在长上下文场景下的记忆和检索效率。
这解释了为什么 V4 能在参数量翻倍的同时,推理速度还能提升 2 倍——不是靠堆硬件硬算,而是架构层面的效率优化。
另一个值得注意的细节:DeepSeek V4 优先适配了华为昇腾等国产 AI 芯片,并且在发布前向国内硬件厂商开放了早期访问权限进行测试优化,但没有向英伟达和 AMD 提供预发布版本。这个选择背后的信号很明确——在当前的芯片出口管制环境下,DeepSeek 在主动降低对英伟达生态的依赖。
对开发者来说,这意味着如果你打算本地部署 V4,国产硬件的适配会比较顺畅。模型权重已经在 Hugging Face 上开放下载(deepseek-ai/DeepSeek-V4 Collection),但 1.6T 参数的本地部署门槛不低,普通开发者大概率还是走 API 更现实。
对开发者生态的影响
社区里已经有人在讨论一个很现实的问题:国内的各种 Token Plan 和 Code Plan 多久会接入 V4?
这个问题的背景是,国内有大量基于 API 的开发工具和服务——代码补全插件、AI 编程助手、自动化工作流平台——它们的底层模型选择直接影响用户体验和成本。V4 的上线意味着这些服务商多了一个很有竞争力的选项。
Flash 版本尤其值得关注。1 元/百万 tokens 的输入价格(缓存未命中),2 元/百万 tokens 的输出价格,加上 100 万的上下文窗口和不错的编码能力——这个性价比组合对于 Cursor、Continue、OpenCode 这类 AI 编程工具来说非常有吸引力。
有社区用户预测,OpenRouter 等海外聚合平台应该很快会上线 V4。国内的聚合平台同样在跟进——像 OpenAI Hub 这类支持 OpenAI 兼容格式的 API 聚合服务,接入新模型通常很快,开发者可以留意一下。
不过也有人泼冷水:1.6T 参数的模型,推理成本摆在那里。Pro 版本的定价已经说明了问题——要跑满血版 V4,算力开销不小。对于中小型 API 服务商来说,能不能扛住并发压力、能不能把成本控制住,是个实际挑战。
跟竞品比,V4 处在什么位置
把 V4 放到当前的大模型格局里看:
跟 Claude 3.5/4 系列比,V4 Pro 在编码任务上可能已经持平甚至略有优势(待第三方验证),但 Claude 在指令遵循和文本质量上的稳定性仍然是标杆。价格方面,V4 Flash 完胜,Pro 也比 Claude 便宜不少。
跟 GPT-4o/GPT-5 比,V4 的长上下文能力(100 万 vs GPT 系列的 128K-256K)是明显优势。在编码和推理上,V4 Pro 应该能跟 GPT-4o 打个有来有回,但跟 GPT-5 的差距还需要更多数据来判断。
跟国内竞品比——Qwen、Kimi、MiniMax、GLM——V4 的参数量和上下文长度都拉开了差距。有 YouTube 评测视频的标题直接写"全面吊打中国别的模型",虽然措辞夸张了点,但 V4 在国产模型中确实是目前的天花板。Kimi 之前以长上下文著称,但 V4 的 100 万窗口加上更大的参数量,直接把这个优势抹平了。
一个有意思的观察:V4 同时提供 OpenAI 格式和 Anthropic 格式的 API 端点。
# OpenAI 兼容格式
BASE_URL = \"https://api.deepseek.com\"
# Anthropic 兼容格式
BASE_URL = \"https://api.deepseek.com/anthropic\"
这意味着无论你的项目之前是对接 OpenAI 还是 Claude,迁移到 V4 的成本都很低。改个 base_url 和 model name 就行。这种兼容性策略很聪明——降低迁移门槛,就是在抢用户。
几个值得关注的细节
思考模式默认开启。V4 的两个版本都支持"思考"和"非思考"两种模式,默认是思考模式。这跟 DeepSeek R1 的思路一脉相承——让模型先想再答,提升复杂任务的准确率。如果你的场景对延迟敏感、任务又比较简单,记得手动关掉思考模式。
FIM(Fill-in-the-Middle)补全只在非思考模式下可用。这对代码补全场景有影响——如果你用 V4 做 IDE 内的代码补全,需要确保关闭思考模式,否则 FIM 接口不可用。
对话前缀续写功能处于 Beta 阶段。这个功能允许你指定一个前缀,让模型从这个前缀继续生成,对于需要精确控制输出格式的场景很有用。
最大输出 384K tokens。这个数字相当夸张——384K tokens 大约相当于一本 50 万字的书。在实际使用中,你很少会需要这么长的单次输出,但它给了模型足够的空间来处理超长推理链和大规模代码生成任务。
冷静看待
说了这么多优点,也得说说不确定性。
首先,官方跑分和实际使用体验之间永远有 gap。V4 的 HumanEval 90%+ 很亮眼,但 HumanEval 的题目相对简单,真实世界的编程任务要复杂得多。SWE-Bench 84% 更有参考价值,但也需要看具体是哪个子集。
其次,1.6T 参数的模型在推理时的稳定性和一致性还需要时间验证。参数量大不一定意味着每次输出都更好——有时候大模型反而更容易"想多了",在简单任务上过度推理。
第三,第三方评测平台(LMArena、LiveBench 等)都还没上线 V4。在这些平台的盲测排名出来之前,所有关于"超越 Claude""吊打 GPT"的说法都只能作为参考。
最后,价格虽然比海外模型便宜,但 Pro 版本的 12 元/百万 tokens 输入价格(缓存未命中)对于高频调用场景来说也不算便宜。好在缓存命中后降到 1 元,所以合理利用缓存策略很重要。
总结
DeepSeek V4 的上线,标志着国产大模型在参数规模、上下文长度、多模态能力上又往前迈了一大步。Flash 版本的极致性价比让它有潜力成为开发者的日常主力模型,Pro 版本则瞄准了对质量要求最高的专业场景。
对于开发者来说,现在就可以去 api.deepseek.com 申请 API Key 试用。如果你已经在用 OpenAI 兼容格式的工具链,迁移成本几乎为零。
但别急着下结论说它是"最强模型"。等第三方盲测数据出来,等社区大规模使用一两周之后,再做判断也不迟。毕竟,跑分是跑分,好不好用,手感说了算。
参考来源:
- Linux.do - DeepSeek V4 上线讨论 — 社区第一时间讨论帖,包含早期使用反馈
- Linux.do - DeepSeek V4 价格与规格汇总 — 详细的定价对比和 Token Plan 讨论
- Linux.do - 关于 DeepSeek V4 你想知道的一切 — 官方技术报告和模型卡汇总
- 知乎 - DeepSeek V4 要来了:万亿参数与百万上下文 — 发布前的技术分析与预测
- Hugging Face - DeepSeek V4 模型集合 — 官方模型权重下载页面