腾讯云跟进 DeepSeek 降价:V4 系列 API 缓存命中价砍到 2.5 分

产品更新

腾讯云智能体开发平台 6 月 3 日零点起下调 DeepSeek-V4 系列价格,V4-Pro 推理输入输出降 75%,缓存命中价降 97.5% 至每千 token 0.000025 元,与官网持平。这是 DeepSeek 永久降价潮在云厂商渠道的延续。

跟进 DeepSeek 永久降价,腾讯云这次是被动反应

腾讯云今天发了个公告:6 月 3 日零点起,智能体开发平台上的 DeepSeek-V4 系列模型 API 价格全面下调,最高降幅 97.5%。本次只调价格,模型服务能力不变。

时间点很值得玩味。DeepSeek 官方在 5 月 22 日宣布把 V4-Pro 从限时 2.5 折优惠改成永久 1/4 定价,5 月 31 日正式生效。腾讯云隔了不到三天就跟上,把自家平台的接入价拉到和官网持平。说白了,不跟价不行——开发者完全可以直接去 DeepSeek 官方 API 调,云厂商作为中间渠道,价格上不能比源头还贵。

腾讯云智能体开发平台 DeepSeek-V4 系列降价公告示意

具体降了多少:把数字摊开看

这次调价主要集中在 V4-Pro,V4-Flash 只动了缓存命中那一档。完整对比如下:

DeepSeek-V4-Pro(单位:元 / 千 tokens)

分类 调整前 调整后 降幅
推理输入 0.012 0.003 75%
推理输出 0.024 0.006 75%
缓存命中 0.001 0.000025 97.5%

DeepSeek-V4-Flash(单位:元 / 千 tokens)

分类 调整前 调整后 降幅
缓存命中 0.0002 0.00002 90%

换算成行业更常用的「百万 token」口径,V4-Pro 缓存命中价格落到 0.025 元 / 百万 tokens,输入 3 元、输出 6 元;V4-Flash 缓存命中 0.02 元 / 百万 tokens。

这是个什么概念?港媒此前算过一笔账,OpenAI GPT-5.5 模型的缓存输入价格约合 3.4 元 / 百万 tokens,是 V4-Pro 缓存价的 136 倍。Anthropic Claude Opus 4.7 完成一组测试的成本,按 DeepSeek 自己披露的数据,是 V4-Pro 的约 40 倍。

缓存命中:理解这次降价的关键变量

看到「97.5%」这个数字,很多人第一反应是「白给了」。但真要享受到这个价格,前提是缓存命中

缓存命中机制简单讲,就是大模型在处理重复或相似前缀的请求时,可以直接复用之前计算过的 KV Cache,不用从头重算。开发者实际场景里——比如 Agent 反复带着同一份 system prompt 调用、RAG 把同一组文档塞进上下文、代码助手反复读同一个项目——前缀重叠是常态,命中率往往很高。这也是 DeepSeek 这几轮降价都把火力压在缓存命中那一档的原因:它知道开发者实际用起来,大部分 token 都会落到这一档。

反过来,缓存未命中的价格其实没那么夸张。V4-Pro 推理输入 3 元 / 百万 tokens,跟 Kimi-K2.6 的 1.1 元、智谱 GLM-5.1 的 1.3–2 元相比,并不算极致便宜。真正的撒手锏是缓存命中之后两个数量级的价差。

小米上周宣布 MiMo 大模型 API 降 99% 时,定价逻辑也是一模一样的:缓存命中 0.025 元 / 百万 tokens,未命中 3 元 / 百万 tokens。这套打法已经被验证可行,正在被复制。

为什么腾讯云会跟,而且跟得这么快

要理解这件事,得放到 2026 年上半年这个大背景里看。

年初以来 AI 行业其实在涨价。HBM 涨了五倍多,高端 GPU 一卡难求,推理需求又在飙。AWS、Azure 都涨过价,国内三家云厂商也都涨过——腾讯混元的输入价最高涨幅曾到 463%,智谱在几个月内连续三次调价。整个行业是有共识的:算力越来越贵,API 服务理应越来越贵。

DeepSeek 反着来,把 V4-Pro 直接锁死在原价 1/4 永久执行。这一下把所有跟着涨价的厂商架住了。腾讯云在自己的混元上涨价,没问题;但在自己平台上代理 DeepSeek-V4,价格不能比 DeepSeek 官方还高,否则开发者直接绕过去。这就是聚合渠道的尴尬:定价权不在自己手里。

所以这次「调整」对腾讯云来说,与其说是主动让利,不如说是平价跟进。本次调整后,腾讯云智能体开发平台上 V4 系列的价格基本与 DeepSeek 官网持平。

DeepSeek-V4 系列在不同平台的定价对比图

顺带回顾下 V4 是什么样的模型

DeepSeek-V4 系列发布于 2026 年 4 月 24 日,包含两个版本:

  • V4-Pro:总参数 1.6 万亿,激活参数 490 亿,对标高性能任务
  • V4-Flash:总参数 2840 亿,激活参数 130 亿,定位低成本高吞吐

两款都是 MoE 架构,原生支持 100 万 token 上下文。能力方面,技术报告披露 V4-Pro 的 Agentic Coding 体验优于 Claude Sonnet 4.5,数学、STEM、竞赛代码超过所有公开开源模型,世界知识仅次于 Gemini-3.1-Pro。整体智能指数和顶级闭源仍有差距,但性价比上的代差太大了。

OpenRouter 5 月底的数据里,V4-Flash 登顶全球调用榜,这是 DeepSeek 系列首次拿到全球第一,V4-Pro 也连续多日维持在前列。

算力侧的伏笔:昇腾 950 还没批量到货

更值得关注的是 DeepSeek 在 V4 发布时埋的伏笔。

DeepSeek 在定价说明里明确写了:「受限于高端算力,目前 Pro 版服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。」

这是个不寻常的表述——一家模型公司把未来的降价节奏,直接绑在某一类国产芯片集群的上市进度上。它意味着 DeepSeek 已经把「模型 + 国产算力」当成定价基础设施在算了。V4 的 EP(专家并行)方案已经在英伟达 GPU 和华为昇腾 NPU 两套体系上都验证过,通用推理任务实现 1.5–1.73 倍加速,延迟敏感场景最高 1.96 倍。

如果昇腾 950 超节点下半年顺利批量出货,DeepSeek-V4-Pro 的成本结构还会再下一个台阶。届时腾讯云、阿里云这类聚合平台,大概率还要再做一轮跟进。

给开发者的几个实际建议

对接入方来说,这次降价的窗口期值得好好用:

  1. 如果应用本身缓存命中率高(Agent、长 system prompt、文档问答),V4-Pro 现在的成本几乎可以忽略不计。一个典型的 RAG 场景,前缀重叠率 70%+ 的话,按缓存命中 0.025 元/百万 tokens 算,每千次调用的输入成本可能就几分钱。

  2. 腾讯云和 DeepSeek 官方现在价格持平,选择哪个看配套。如果你已经用了腾讯云生态(COS、向量数据库、智能体开发平台),走腾讯云接入更顺手;如果只是裸调 API,直接走官方也行。

  3. 缓存未命中那档其实没多便宜,提示词工程要做扎实。把系统提示和长文档放在请求开头、保持稳定,是把账单压到底的关键。如果你的应用每次都换 prompt 头,享受不到这次降价的红利。

  4. 国内多个聚合平台(包括 OpenAI Hub 这类一 Key 调全模型的服务)也已经支持 DeepSeek-V4 系列,方便和 GPT、Claude、Gemini 做横向对比测试,跑通后再决定走哪条接入路径,比较省事。

一点判断

这一轮调价表面是腾讯云的一个公告,本质是 DeepSeek 永久降价在渠道层的传导。重要的不是 97.5% 这个数字——单看缓存命中那档其实已经低到不太能再低——重要的是行业上半段在涨、下半段被 DeepSeek 死死压住的格局现在更清晰了。

中国大模型市场正在分层:顶端是 OpenAI 和 Anthropic 用 GPT-5.5、Claude Opus 4.7 这种顶级闭源模型把守的高溢价区;底端是 DeepSeek 用 1.6 万亿参数 + 100 万上下文 + 缓存命中 0.025 元/百万 tokens 占住的普惠区。中间地带的玩家,要么往上够,要么往下卷——智谱选了往上对标 GPT 和 Claude 涨价,小米选了往下贴着 DeepSeek 打。腾讯云这种综合云厂商,自家模型可以涨,但代理 DeepSeek 的窗口必须保持平价,否则用户用脚投票。

下一个节点看昇腾 950 的批量出货时间。如果国产算力真在下半年起量,DeepSeek-V4-Pro 的下一轮降价就不只是渠道跟进了,而是底层成本结构的再下一阶。那时候,整个云厂商代理 API 的商业模式都要重新算账。

参考来源