DeepSeek V4 正式上线：1.6T 参数、100 万上下文，API 定价与性能全解析

DeepSeek V4 系列正式开放 API，1.6 万亿参数、100 万上下文窗口、原生多模态，Flash 和 Pro 双版本定价分化明显，编码与推理能力直逼 Claude 和 GPT 前沿水平。

DeepSeek 没有选择在某个发布会上搞大新闻，而是直接把 V4 的 API 开关拧开了。

2026 年 4 月 24 日，深度求索正式上线 DeepSeek V4 系列模型，包括 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 两个版本。没有预热、没有倒计时，API 端点直接可用。社区反应很快——Linux.do 上几个小时内涌出数十个讨论帖，有人感叹"大的终于来了"，有人已经开始跑 benchmark。

这是 DeepSeek 自 V3 以来最大幅度的一次迭代。参数量从上一代的 6710 亿直接拉到 1.6 万亿（1.6T），上下文窗口扩展到 100 万 token，最大输出长度 384K token。这些数字放在一起，意味着你可以把一整个中型代码仓库塞进去，让它理解全局上下文后再动手改代码。

两个版本，两种定位

DeepSeek 这次的产品策略很清晰：Flash 走量，Pro 走质。

| 项目 | DeepSeek-V4-Flash | DeepSeek-V4-Pro | |---|---|---| | 上下文长度 | 1M | 1M | | 最大输出 | 384K | 384K | | 思考模式 | 支持（默认开启） | 支持（默认开启） | | JSON Output | ✅ | ✅ | | Tool Calls | ✅ | ✅ | | FIM 补全 | 仅非思考模式 | 仅非思考模式 | | 输入价格（缓存命中） | 0.2 元/百万 tokens | 1 元/百万 tokens | | 输入价格（缓存未命中） | 1 元/百万 tokens | 12 元/百万 tokens | | 输出价格 | 2 元/百万 tokens | 24 元/百万 tokens |

Flash 版本的定价延续了 DeepSeek 一贯的"价格屠夫"风格——缓存命中后输入只要 0.2 元/百万 tokens，输出 2 元/百万 tokens。这个价格基本上是 GPT-4o 的几十分之一，拿来做日常开发辅助、批量文本处理，成本几乎可以忽略。

Pro 版本就贵多了。输入 12 元、输出 24 元（缓存未命中时），大概是 Flash 的 12 倍。但考虑到 1.6T 参数的推理成本，这个定价其实不算离谱。真正的问题是：Pro 比 Flash 好多少？值不值这个差价？

从社区早期反馈来看，Pro 在复杂推理和长链条代码生成上确实有肉眼可见的提升，但在日常对话和简单任务上，Flash 已经够用了。这跟 Claude 的 Haiku/Sonnet/Opus 分层逻辑类似——大多数场景用便宜的就行，关键时刻再上大的。

性能到底怎么样

先说官方自评的数据。DeepSeek 在技术报告中给出了一组跑分，覆盖编码、数学、推理、长文本等多个维度。几个关键数字：

HumanEval 评分突破 90%，这是代码生成领域的核心 benchmark
SWE-Bench 测试达到 84%，意味着在真实软件工程任务上有很强的表现
推理速度较 V3 提升约 2 倍

当然，官方跑分永远要打个折扣看。截至发稿，LMArena（原 Chatbot Arena）、ArtificialAnalysis、LiveBench 等第三方评测平台都还没有上线 V4 的数据。真正的硬仗要等社区大规模使用和盲测排名出来之后才能下定论。

但从已有的信息来判断，V4 至少在以下几个方面有实质性进步：

第一是长上下文能力。100 万 token 的窗口不是摆设——V3 的上下文是 128K，这次直接翻了近 8 倍。对于需要处理大型代码库、长文档分析、多轮复杂对话的场景，这是质的飞跃。之前你可能需要做 RAG 检索才能处理的内容，现在可以直接塞进上下文。

第二是编码能力。多家媒体引用的内部测试结果显示，V4 在编程任务上的表现可能超越 Claude 和 GPT 系列。注意是"可能"——没有第三方盲测验证之前，这个说法还需要保留一些怀疑。但 HumanEval 90%+ 的成绩确实说明了问题，这已经是目前公开模型中的第一梯队。

第三是多模态。V4 原生支持图文视频多模态输入，这是 V3 不具备的能力。虽然 API 层面目前主要开放的还是文本能力，但多模态的底座已经打好了。

架构上做了什么

DeepSeek V4 继续使用 MoE（Mixture of Experts）架构，但在此基础上引入了所谓的"Engram 记忆技术"。简单理解：MoE 让模型在推理时只激活一部分参数（所以 1.6T 参数不意味着每次推理都要跑 1.6T），而 Engram 机制则优化了模型在长上下文场景下的记忆和检索效率。

这解释了为什么 V4 能在参数量翻倍的同时，推理速度还能提升 2 倍——不是靠堆硬件硬算，而是架构层面的效率优化。

另一个值得注意的细节：DeepSeek V4 优先适配了华为昇腾等国产 AI 芯片，并且在发布前向国内硬件厂商开放了早期访问权限进行测试优化，但没有向英伟达和 AMD 提供预发布版本。这个选择背后的信号很明确——在当前的芯片出口管制环境下，DeepSeek 在主动降低对英伟达生态的依赖。

对开发者来说，这意味着如果你打算本地部署 V4，国产硬件的适配会比较顺畅。模型权重已经在 Hugging Face 上开放下载（deepseek-ai/DeepSeek-V4 Collection），但 1.6T 参数的本地部署门槛不低，普通开发者大概率还是走 API 更现实。

对开发者生态的影响

社区里已经有人在讨论一个很现实的问题：国内的各种 Token Plan 和 Code Plan 多久会接入 V4？

这个问题的背景是，国内有大量基于 API 的开发工具和服务——代码补全插件、AI 编程助手、自动化工作流平台——它们的底层模型选择直接影响用户体验和成本。V4 的上线意味着这些服务商多了一个很有竞争力的选项。

Flash 版本尤其值得关注。1 元/百万 tokens 的输入价格（缓存未命中），2 元/百万 tokens 的输出价格，加上 100 万的上下文窗口和不错的编码能力——这个性价比组合对于 Cursor、Continue、OpenCode 这类 AI 编程工具来说非常有吸引力。

有社区用户预测，OpenRouter 等海外聚合平台应该很快会上线 V4。国内的聚合平台同样在跟进——像 OpenAI Hub 这类支持 OpenAI 兼容格式的 API 聚合服务，接入新模型通常很快，开发者可以留意一下。

不过也有人泼冷水：1.6T 参数的模型，推理成本摆在那里。Pro 版本的定价已经说明了问题——要跑满血版 V4，算力开销不小。对于中小型 API 服务商来说，能不能扛住并发压力、能不能把成本控制住，是个实际挑战。

跟竞品比，V4 处在什么位置

把 V4 放到当前的大模型格局里看：

跟 Claude 3.5/4 系列比，V4 Pro 在编码任务上可能已经持平甚至略有优势（待第三方验证），但 Claude 在指令遵循和文本质量上的稳定性仍然是标杆。价格方面，V4 Flash 完胜，Pro 也比 Claude 便宜不少。

跟 GPT-4o/GPT-5 比，V4 的长上下文能力（100 万 vs GPT 系列的 128K-256K）是明显优势。在编码和推理上，V4 Pro 应该能跟 GPT-4o 打个有来有回，但跟 GPT-5 的差距还需要更多数据来判断。

跟国内竞品比——Qwen、Kimi、MiniMax、GLM——V4 的参数量和上下文长度都拉开了差距。有 YouTube 评测视频的标题直接写"全面吊打中国别的模型"，虽然措辞夸张了点，但 V4 在国产模型中确实是目前的天花板。Kimi 之前以长上下文著称，但 V4 的 100 万窗口加上更大的参数量，直接把这个优势抹平了。

一个有意思的观察：V4 同时提供 OpenAI 格式和 Anthropic 格式的 API 端点。

# OpenAI 兼容格式
BASE_URL = \"https://api.deepseek.com\"

# Anthropic 兼容格式
BASE_URL = \"https://api.deepseek.com/anthropic\"

这意味着无论你的项目之前是对接 OpenAI 还是 Claude，迁移到 V4 的成本都很低。改个 base_url 和 model name 就行。这种兼容性策略很聪明——降低迁移门槛，就是在抢用户。

几个值得关注的细节

思考模式默认开启。V4 的两个版本都支持"思考"和"非思考"两种模式，默认是思考模式。这跟 DeepSeek R1 的思路一脉相承——让模型先想再答，提升复杂任务的准确率。如果你的场景对延迟敏感、任务又比较简单，记得手动关掉思考模式。

FIM（Fill-in-the-Middle）补全只在非思考模式下可用。这对代码补全场景有影响——如果你用 V4 做 IDE 内的代码补全，需要确保关闭思考模式，否则 FIM 接口不可用。

对话前缀续写功能处于 Beta 阶段。这个功能允许你指定一个前缀，让模型从这个前缀继续生成，对于需要精确控制输出格式的场景很有用。

最大输出 384K tokens。这个数字相当夸张——384K tokens 大约相当于一本 50 万字的书。在实际使用中，你很少会需要这么长的单次输出，但它给了模型足够的空间来处理超长推理链和大规模代码生成任务。

冷静看待

说了这么多优点，也得说说不确定性。

首先，官方跑分和实际使用体验之间永远有 gap。V4 的 HumanEval 90%+ 很亮眼，但 HumanEval 的题目相对简单，真实世界的编程任务要复杂得多。SWE-Bench 84% 更有参考价值，但也需要看具体是哪个子集。

其次，1.6T 参数的模型在推理时的稳定性和一致性还需要时间验证。参数量大不一定意味着每次输出都更好——有时候大模型反而更容易"想多了"，在简单任务上过度推理。

第三，第三方评测平台（LMArena、LiveBench 等）都还没上线 V4。在这些平台的盲测排名出来之前，所有关于"超越 Claude""吊打 GPT"的说法都只能作为参考。

最后，价格虽然比海外模型便宜，但 Pro 版本的 12 元/百万 tokens 输入价格（缓存未命中）对于高频调用场景来说也不算便宜。好在缓存命中后降到 1 元，所以合理利用缓存策略很重要。

总结

DeepSeek V4 的上线，标志着国产大模型在参数规模、上下文长度、多模态能力上又往前迈了一大步。Flash 版本的极致性价比让它有潜力成为开发者的日常主力模型，Pro 版本则瞄准了对质量要求最高的专业场景。

对于开发者来说，现在就可以去 api.deepseek.com 申请 API Key 试用。如果你已经在用 OpenAI 兼容格式的工具链，迁移成本几乎为零。

但别急着下结论说它是"最强模型"。等第三方盲测数据出来，等社区大规模使用一两周之后，再做判断也不迟。毕竟，跑分是跑分，好不好用，手感说了算。

参考来源：

Linux.do - DeepSeek V4 上线讨论 — 社区第一时间讨论帖，包含早期使用反馈
Linux.do - DeepSeek V4 价格与规格汇总 — 详细的定价对比和 Token Plan 讨论
Linux.do - 关于 DeepSeek V4 你想知道的一切 — 官方技术报告和模型卡汇总
知乎 - DeepSeek V4 要来了：万亿参数与百万上下文 — 发布前的技术分析与预测
Hugging Face - DeepSeek V4 模型集合 — 官方模型权重下载页面

DeepSeek V4 正式上线，国产大模型的新天花板

两个版本，两种定位

性能到底怎么样

架构上做了什么

对开发者生态的影响

跟竞品比，V4 处在什么位置

几个值得关注的细节

冷静看待

总结

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们