腾讯云下调 DeepSeek-V4 系列 API 价格最高降幅 97.5%

腾讯云智能体开发平台 6 月 3 日零点起下调 DeepSeek-V4 系列价格，V4-Pro 推理输入输出降 75%，缓存命中价降 97.5% 至每千 token 0.000025 元，与官网持平。这是 DeepSeek 永久降价潮在云厂商渠道的延续。

跟进 DeepSeek 永久降价，腾讯云这次是被动反应

腾讯云今天发了个公告：6 月 3 日零点起，智能体开发平台上的 DeepSeek-V4 系列模型 API 价格全面下调，最高降幅 97.5%。本次只调价格，模型服务能力不变。

时间点很值得玩味。DeepSeek 官方在 5 月 22 日宣布把 V4-Pro 从限时 2.5 折优惠改成永久 1/4 定价，5 月 31 日正式生效。腾讯云隔了不到三天就跟上，把自家平台的接入价拉到和官网持平。说白了，不跟价不行——开发者完全可以直接去 DeepSeek 官方 API 调，云厂商作为中间渠道，价格上不能比源头还贵。

腾讯云智能体开发平台 DeepSeek-V4 系列降价公告示意

具体降了多少：把数字摊开看

这次调价主要集中在 V4-Pro，V4-Flash 只动了缓存命中那一档。完整对比如下：

DeepSeek-V4-Pro（单位：元 / 千 tokens）

分类	调整前	调整后	降幅
推理输入	0.012	0.003	75%
推理输出	0.024	0.006	75%
缓存命中	0.001	0.000025	97.5%

DeepSeek-V4-Flash（单位：元 / 千 tokens）

分类	调整前	调整后	降幅
缓存命中	0.0002	0.00002	90%

换算成行业更常用的「百万 token」口径，V4-Pro 缓存命中价格落到 0.025 元 / 百万 tokens，输入 3 元、输出 6 元；V4-Flash 缓存命中 0.02 元 / 百万 tokens。

这是个什么概念？港媒此前算过一笔账，OpenAI GPT-5.5 模型的缓存输入价格约合 3.4 元 / 百万 tokens，是 V4-Pro 缓存价的 136 倍。Anthropic Claude Opus 4.7 完成一组测试的成本，按 DeepSeek 自己披露的数据，是 V4-Pro 的约 40 倍。

缓存命中：理解这次降价的关键变量

看到「97.5%」这个数字，很多人第一反应是「白给了」。但真要享受到这个价格，前提是缓存命中。

缓存命中机制简单讲，就是大模型在处理重复或相似前缀的请求时，可以直接复用之前计算过的 KV Cache，不用从头重算。开发者实际场景里——比如 Agent 反复带着同一份 system prompt 调用、RAG 把同一组文档塞进上下文、代码助手反复读同一个项目——前缀重叠是常态，命中率往往很高。这也是 DeepSeek 这几轮降价都把火力压在缓存命中那一档的原因：它知道开发者实际用起来，大部分 token 都会落到这一档。

反过来，缓存未命中的价格其实没那么夸张。V4-Pro 推理输入 3 元 / 百万 tokens，跟 Kimi-K2.6 的 1.1 元、智谱 GLM-5.1 的 1.3–2 元相比，并不算极致便宜。真正的撒手锏是缓存命中之后两个数量级的价差。

小米上周宣布 MiMo 大模型 API 降 99% 时，定价逻辑也是一模一样的：缓存命中 0.025 元 / 百万 tokens，未命中 3 元 / 百万 tokens。这套打法已经被验证可行，正在被复制。

为什么腾讯云会跟，而且跟得这么快

要理解这件事，得放到 2026 年上半年这个大背景里看。

年初以来 AI 行业其实在涨价。HBM 涨了五倍多，高端 GPU 一卡难求，推理需求又在飙。AWS、Azure 都涨过价，国内三家云厂商也都涨过——腾讯混元的输入价最高涨幅曾到 463%，智谱在几个月内连续三次调价。整个行业是有共识的：算力越来越贵，API 服务理应越来越贵。

DeepSeek 反着来，把 V4-Pro 直接锁死在原价 1/4 永久执行。这一下把所有跟着涨价的厂商架住了。腾讯云在自己的混元上涨价，没问题；但在自己平台上代理 DeepSeek-V4，价格不能比 DeepSeek 官方还高，否则开发者直接绕过去。这就是聚合渠道的尴尬：定价权不在自己手里。

所以这次「调整」对腾讯云来说，与其说是主动让利，不如说是平价跟进。本次调整后，腾讯云智能体开发平台上 V4 系列的价格基本与 DeepSeek 官网持平。

DeepSeek-V4 系列在不同平台的定价对比图

顺带回顾下 V4 是什么样的模型

DeepSeek-V4 系列发布于 2026 年 4 月 24 日，包含两个版本：

V4-Pro：总参数 1.6 万亿，激活参数 490 亿，对标高性能任务
V4-Flash：总参数 2840 亿，激活参数 130 亿，定位低成本高吞吐

两款都是 MoE 架构，原生支持 100 万 token 上下文。能力方面，技术报告披露 V4-Pro 的 Agentic Coding 体验优于 Claude Sonnet 4.5，数学、STEM、竞赛代码超过所有公开开源模型，世界知识仅次于 Gemini-3.1-Pro。整体智能指数和顶级闭源仍有差距，但性价比上的代差太大了。

OpenRouter 5 月底的数据里，V4-Flash 登顶全球调用榜，这是 DeepSeek 系列首次拿到全球第一，V4-Pro 也连续多日维持在前列。

算力侧的伏笔：昇腾 950 还没批量到货

更值得关注的是 DeepSeek 在 V4 发布时埋的伏笔。

DeepSeek 在定价说明里明确写了：「受限于高端算力，目前 Pro 版服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 价格会大幅下调。」

这是个不寻常的表述——一家模型公司把未来的降价节奏，直接绑在某一类国产芯片集群的上市进度上。它意味着 DeepSeek 已经把「模型 + 国产算力」当成定价基础设施在算了。V4 的 EP（专家并行）方案已经在英伟达 GPU 和华为昇腾 NPU 两套体系上都验证过，通用推理任务实现 1.5–1.73 倍加速，延迟敏感场景最高 1.96 倍。

如果昇腾 950 超节点下半年顺利批量出货，DeepSeek-V4-Pro 的成本结构还会再下一个台阶。届时腾讯云、阿里云这类聚合平台，大概率还要再做一轮跟进。

给开发者的几个实际建议

对接入方来说，这次降价的窗口期值得好好用：

如果应用本身缓存命中率高（Agent、长 system prompt、文档问答），V4-Pro 现在的成本几乎可以忽略不计。一个典型的 RAG 场景，前缀重叠率 70%+ 的话，按缓存命中 0.025 元/百万 tokens 算，每千次调用的输入成本可能就几分钱。
腾讯云和 DeepSeek 官方现在价格持平，选择哪个看配套。如果你已经用了腾讯云生态（COS、向量数据库、智能体开发平台），走腾讯云接入更顺手；如果只是裸调 API，直接走官方也行。
缓存未命中那档其实没多便宜，提示词工程要做扎实。把系统提示和长文档放在请求开头、保持稳定，是把账单压到底的关键。如果你的应用每次都换 prompt 头，享受不到这次降价的红利。
国内多个聚合平台（包括 OpenAI Hub 这类一 Key 调全模型的服务）也已经支持 DeepSeek-V4 系列，方便和 GPT、Claude、Gemini 做横向对比测试，跑通后再决定走哪条接入路径，比较省事。

一点判断

这一轮调价表面是腾讯云的一个公告，本质是 DeepSeek 永久降价在渠道层的传导。重要的不是 97.5% 这个数字——单看缓存命中那档其实已经低到不太能再低——重要的是行业上半段在涨、下半段被 DeepSeek 死死压住的格局现在更清晰了。

中国大模型市场正在分层：顶端是 OpenAI 和 Anthropic 用 GPT-5.5、Claude Opus 4.7 这种顶级闭源模型把守的高溢价区；底端是 DeepSeek 用 1.6 万亿参数 + 100 万上下文 + 缓存命中 0.025 元/百万 tokens 占住的普惠区。中间地带的玩家，要么往上够，要么往下卷——智谱选了往上对标 GPT 和 Claude 涨价，小米选了往下贴着 DeepSeek 打。腾讯云这种综合云厂商，自家模型可以涨，但代理 DeepSeek 的窗口必须保持平价，否则用户用脚投票。

下一个节点看昇腾 950 的批量出货时间。如果国产算力真在下半年起量，DeepSeek-V4-Pro 的下一轮降价就不只是渠道跟进了，而是底层成本结构的再下一阶。那时候，整个云厂商代理 API 的商业模式都要重新算账。

参考来源

最高降 97.5%：腾讯云智能体开发平台 DeepSeek-V4 系列模型明日起大幅降价，持平官网 - IT之家：腾讯云本次降价的完整价目表和原始公告内容

腾讯云跟进 DeepSeek 降价：V4 系列 API 缓存命中价砍到 2.5 分