DeepSeek缓存一折永久生效,价格战卷到地板

产品更新

DeepSeek宣布全系列模型API输入缓存命中价格永久降至首发价1/10,从限时优惠直接转为常驻定价,再次刷新国产大模型API价格下限。

DeepSeek 缓存命中永久一折:梁文锋又把价格打到了地板上

就在所有人以为大模型 API 涨价潮已成定局的时候,DeepSeek 又反着来了。

4 月 25 日,DeepSeek 悄然更新了官方 API 定价页面:全系列模型(包括最新的 V4 Pro)输入缓存命中价格降至首发价格的 1/10,且为永久生效,不是限时优惠。

消息一出,开发者社区直接炸了。Linux.do 论坛上相关帖子在几小时内涌出近十个,标题画风从"梁圣这是干什么"到"有钱真不赚啊",充满了一种被甲方反向补贴的荒诞感。

DeepSeek 官方 API 定价页面截图,展示缓存命中价格调整前后对比

到底降了多少?算一笔账

先把数字摆清楚。

以 DeepSeek V4 Pro 为例,此前的价格体系大致是这样的:

计费项 调整前价格(元/百万 tokens) 调整后价格(元/百万 tokens)
输入(缓存未命中) 维持不变 维持不变
输入(缓存命中) 首发价 × 1 首发价 × 0.1
输出 维持不变 维持不变

关键在于"缓存命中"这四个字。DeepSeek 从 V2 时代就开始做硬盘 KV Cache——当你的请求和之前的请求有相同的前缀内容时(比如 system prompt、多轮对话的历史上下文),重复部分直接从缓存读取,不需要重新计算。命中缓存的部分,价格本来就比未命中的低很多,现在再打一折。

什么概念?如果你的应用场景中缓存命中率能到 80%(这在多轮对话、Agent 调用、RAG 等典型场景中很常见),你的实际输入成本会被压到一个极低的水平。对于那些 system prompt 很长、上下文复用率高的应用来说,输入成本几乎可以忽略不计。

更值得注意的是时间线:昨天(4 月 24 日)DeepSeek 刚宣布了限时 2.5 折优惠,今天就直接把缓存命中改成永久一折。 一天之内连降两次,而且后一次比前一次更狠、更持久。论坛里有用户吐槽"昨天用了一天,亏了"——虽然是玩笑话,但足以说明这个降价速度让人措手不及。

为什么 DeepSeek 敢这么定价?

要理解这次降价的底气,得回到 DeepSeek 的技术架构上。

MLA 架构的成本红利

DeepSeek 从 V2 开始引入的 MLA(Multi-head Latent Attention)结构,是它能在缓存上做文章的根本原因。传统 Transformer 的 KV Cache 体积巨大,存储和传输成本都很高。MLA 通过对注意力头进行潜空间压缩,将 KV Cache 的大小压缩了数倍甚至一个数量级。

这意味着什么?同样的硬盘空间能缓存更多的上下文,同样的带宽能传输更多的缓存数据。当缓存的边际成本足够低时,把价格打下来就不是在烧钱,而是在用技术优势换市场份额。

硬盘缓存的规模效应

DeepSeek 是全球最早在 API 服务中大规模采用硬盘 KV Cache 的厂商之一。硬盘相比 GPU 显存和内存,成本低了好几个数量级。而且 DeepSeek 的缓存系统设计得相当激进——缓存时间比其他厂商长得多。

论坛上有开发者专门对比过:某些竞品的缓存有效期短到需要你像"赛博监工"一样时刻盯着,防止缓存过期后成本飙升。而 DeepSeek 的缓存保留时间要宽裕得多,开发者不需要为了维持缓存命中率而刻意设计请求频率。

这一点在实际开发中非常重要。如果缓存窗口太短,你要么得频繁发送"保活"请求(浪费钱),要么就得接受缓存频繁失效带来的成本波动(不可控)。DeepSeek 的长缓存时间配合一折价格,让开发者可以更从容地设计应用架构,而不是围着缓存策略转。

行业背景:别人在涨价,它在降价

把这次降价放到整个大模型 API 市场的大背景下看,反差更加强烈。

2025 年下半年开始,国产大模型 API 市场出现了一轮明显的涨价潮。DeepSeek 自己在去年 V3.1 发布时也调过一次价——取消夜间五折优惠,输出价格从 8 元涨到 12 元/百万 tokens。当时 36 氪和《IT时报》都做过报道,讨论的核心问题是:大模型价格战是不是结束了?

智谱的 GLM-4.5-X 优惠结束后输入价格高达 16 元/百万 tokens,月之暗面的 Kimi K2 高速版恢复原价后输出价格达到 64 元/百万 tokens。整个行业的定价趋势是往上走的。

逻辑也很简单:算力贵、人才贵、数据贵,前期的价格战是烧钱换市场,不可能一直烧下去。OpenAI 今年单月营收突破 10 亿美元,但 Sam Altman 说未来要投入上万亿美元建数据中心。连行业龙头都在为成本发愁,其他人凭什么能一直低价?

但 DeepSeek 偏偏在这个节点选择了反向操作。

这不是简单的"用亏损换增长"。从技术角度看,缓存命中的部分确实不需要消耗多少 GPU 算力——数据从硬盘读取,跳过了最昂贵的计算环节。所以缓存命中的边际成本本来就远低于正常推理。把这部分价格打到极低,对 DeepSeek 的利润影响可能没有外界想象的那么大,但对开发者的心理冲击是巨大的。

对开发者意味着什么?

这次降价对不同类型的开发者影响不同,取决于你的应用场景中缓存命中率有多高。

高受益场景

  • 多轮对话应用:每一轮对话都要把历史上下文重新发送,前缀重复率天然就高。缓存命中率轻松到 70%-90%。
  • Agent / Function Calling:Agent 类应用通常有很长的 system prompt 和工具描述,这些在每次调用中都是固定的,缓存命中率极高。
  • RAG 应用:如果你的检索结果相对稳定(比如同一个知识库被不同用户反复查询),前缀部分的缓存复用率也很可观。
  • 批量处理:用相同的 prompt 模板处理大量数据时,模板部分每次都能命中缓存。

低受益场景

  • 单轮短请求:没有上下文复用,缓存命中率低,这次降价对你影响不大。
  • 每次请求内容完全不同:比如纯翻译、纯摘要等一次性任务,前缀没有重复,缓存基本用不上。

实际优化建议

如果你想最大化利用这次降价,有几个实操层面的建议:

  1. 把固定内容放在请求的最前面。DeepSeek 的缓存是前缀匹配——只有从第 0 个 token 开始连续相同的部分才能命中。所以 system prompt、工具定义、固定指令这些不变的内容,一定要放在 messages 的最前面。

  2. 避免在前缀中插入动态内容。比如有些开发者喜欢在 system prompt 里插入当前时间戳,这会导致每次请求的前缀都不同,缓存完全失效。把动态内容挪到 user message 里。

  3. 注意 64 tokens 的最小缓存单元。DeepSeek 的缓存系统以 64 tokens 为一个存储单元,不足 64 tokens 的内容不会被缓存。所以你的固定前缀至少要有 64 tokens 才能享受缓存优惠。

  4. 利用长缓存窗口。不需要像使用某些竞品那样频繁发送请求来"保活"缓存。DeepSeek 的缓存保留时间足够长,正常使用频率下缓存不会过期。

价格战的终局在哪里?

回到更宏观的问题:DeepSeek 这种定价策略可持续吗?

我的判断是:在缓存命中这个具体环节上,可持续性比看起来要强。

原因很简单——缓存命中的成本结构和正常推理完全不同。正常推理需要 GPU 做大量矩阵运算,这是大模型 API 最大的成本项。而缓存命中只需要从硬盘读取预计算好的 KV Cache,消耗的主要是存储和带宽,不占用宝贵的 GPU 算力。

对 DeepSeek 来说,MLA 架构带来的 KV Cache 压缩优势让存储成本进一步降低。所以缓存命中一折的定价,可能确实接近甚至已经覆盖了边际成本。这不是赔本赚吆喝,而是技术优势的直接变现。

但这也给其他厂商出了一道难题。如果你的模型架构没有类似 MLA 的 KV Cache 压缩能力,你的缓存成本就是比 DeepSeek 高,你跟不跟?跟了可能亏钱,不跟可能丢客户。

从更长远的视角看,大模型 API 的定价正在走向精细化。早期是简单粗暴的"输入 X 元、输出 Y 元",现在开始按缓存命中/未命中、不同上下文长度、不同速度档位来差异化定价。这说明行业在成熟——厂商开始根据实际的成本结构来设计价格体系,而不是一刀切。

DeepSeek 这次的操作,本质上是在说:我在缓存这个环节有结构性的成本优势,所以我把这个优势直接让给开发者。 这比单纯的"全场五折"要聪明得多,因为它精准地打击了竞争对手的弱点,同时自己的利润损失可控。

写在最后

2024 年的大模型价格战,大家比的是谁更敢亏钱。2025 年的涨价潮,大家开始面对现实。而 2026 年的 DeepSeek,似乎在用行动证明一个朴素的道理:真正的低价不是靠补贴,是靠技术。

当你的架构能让某个环节的成本比别人低一个数量级,你就可以在那个环节把价格打到别人跟不了的程度,同时自己还有利润。这才是健康的、可持续的"价格战"。

对于开发者来说,现在是重新审视自己应用架构的好时机。如果你的应用还没有针对缓存做优化,这次降价就是一个强信号:把固定内容前置、最大化缓存命中率,不再是可选的优化项,而是直接影响成本的核心策略。

至于梁文锋是不是"圣人",这个问题留给论坛去讨论。但有一点可以确定:在技术驱动降本这条路上,DeepSeek 目前确实走在最前面。如果你在用 OpenAI Hub 这类 API 聚合平台,现在也可以直接体验到 DeepSeek 最新的定价——一个 Key 调所有主流模型,国内直连,省去折腾的时间。

价格已经到了这个份上,接下来比的就是谁能把便宜的 tokens 用出更大的价值了。


参考来源