腾讯云挥别 DeepSeek-V3.2,一个月后强制迁移 V4
腾讯云今日宣布 DeepSeek-V3.2 将于 7 月 16 日正式下线,建议用户提前迁移至 V4 系列,未完成迁移的调用将被自动切换至最新模型。这是 DeepSeek 在腾讯云上的第三次大版本退役。
腾讯云挥别 DeepSeek-V3.2,一个月后强制迁移 V4 系列
6 月 16 日,腾讯云挂出公告:知识引擎原子能力平台和大模型服务平台 TokenHub 上的 DeepSeek-V3.2 模型,将于北京时间 2026 年 7 月 16 日 00:00 起正式下线,届时不再提供接入服务。官方推荐用户迁移至「能力更优」的 DeepSeek-V4 系列。
留给开发者的时间是一个月。
这并不意外。从去年下半年开始,腾讯云对 DeepSeek 系列的版本迭代节奏,明显是按月在推。V3 在 2025 年 9 月退役,V3.1 在 2026 年 3 月 30 日下线,今天轮到 V3.2,恰好又是 30 天上下的窗口。腾讯云这套「老版本逐步劝退、新版本接棒」的打法,已经成为它运营第三方模型的标准动作。
一份没什么悬念的下线通告
按照公告原文,受影响的范围是两个:知识引擎原子能力平台和大模型服务平台 TokenHub。两边的 deepseek-v3.2 模型参数会在 7 月 16 日零点统一停服。
替代方案也很直接——DeepSeek-V4 系列。腾讯云目前在售的 V4 主要是两款:
- DeepSeek-V4-Pro:主力推理模型,对标 DeepSeek 官网
- DeepSeek-V4-Flash:轻量低延迟版本,适合高并发场景
这里有一个细节值得开发者注意:如果到 7 月 16 日还没完成迁移,系统会自动把请求切到 DeepSeek 最新模型。听上去贴心,实际上是个坑——「最新模型」意味着模型行为、输入输出格式、价格档位都可能变动,对于已经在生产环境跑稳的服务,这种隐式升级很容易出问题。一句话总结:别等系统替你做决定。
为什么是现在?V4 已经跑出来了
要理解这次下线的节奏,得回头看 V4 系列在腾讯云上的部署轨迹。
V4 正式发布是 4 月 24 日左右,当时给出的定价相当激进——每百万 token 0.2 元起。这个价格在国内 MoE 模型里属于地板价,几乎是 V3.2 时代的对折。
紧接着是 6 月 3 日凌晨那一波降价。腾讯云智能体开发平台对 V4 系列动手:
| 模型 | 推理输入/输出 | 缓存命中 | | --- | --- | --- | | DeepSeek-V4-Pro | 降幅 75% | 降幅 97.5% | | DeepSeek-V4-Flash | — | 降幅 90% |
降到这个程度,基本就是「持平官网」的姿态。意思也很明确:腾讯云已经把 V4 的成本结构压到位了,接下来要做的就是把存量调用从 V3.x 系列搬过来,集中算力跑新版本。
反过来看 V3.2 的处境就有点尴尬。它是去年 10 月份推出的过渡版本,主打稀疏注意力(DSA)和长上下文优化,性价比一度很高。但 V4 出来之后,无论是基础能力、上下文窗口还是单价,V3.2 都没有继续留下的理由。继续运营老模型,腾讯云既要分配 GPU 资源,又要维护推理栈的兼容性,账算不过来。
DeepSeek 在腾讯云上的「代际换防」节奏
把腾讯云过去一年的几个公告串起来看,会发现一个非常工整的节奏:
- 2025 年 9 月 20 日:V3 下线,迁移到 V3-0324 或 V3.1
- 2026 年 3 月 30 日:V3.1 下线,迁移到 V3.1-Terminus 或 V3.2
- 2026 年 7 月 16 日:V3.2 下线,迁移到 V4 系列
基本每半年清理一次。这其实是云厂商运营第三方开源模型的标准范式:模型本身是社区在迭代,云厂商负责工程化部署和定价,每出一个大版本,旧版本就排期下线,把推理资源腾出来。
问题在于,开发者侧的迁移成本并不是零。DeepSeek 各代之间虽然都兼容 OpenAI 格式,但:
- prompt 风格漂移:V3.2 在指令遵循上的「脾气」和 V4 不完全一致,少数 few-shot 模板需要重调
- 工具调用行为变化:V4 系列对 function calling 的解析更严格,老 prompt 里靠 V3.2 容错性混过去的写法会翻车
- 上下文窗口/计费单位调整:缓存命中的计费规则变了,老的 prompt 缓存策略可能不再是最优
这些都是「迁移指南里不会写、但真上线就会爆」的细节。
给开发者的迁移 checklist
如果你的服务还跑在 deepseek-v3.2 上,下面这几件事建议在 7 月 16 日前过一遍:
1. 全量替换 model 参数
搜代码库里所有 deepseek-v3.2 字符串,替换为 deepseek-v4-pro 或 deepseek-v4-flash。注意配置中心、A/B 实验框架、灰度开关里也可能藏着硬编码。
2. 重跑你的评测集
别只看官方 benchmark 数字。用你自己业务的真实 case 跑一轮,特别是:
- 长上下文场景(超过 32K 的输入)
- 多轮对话的状态保持
- 中英文混合的指令解析
- 结构化输出(JSON、SQL、Markdown 表格)
V4-Pro 在多数维度上都强于 V3.2,但「强」不代表「完全兼容」。会有少数 case V3.2 答得更顺手——这是基模换代的常态。
3. 重新核算成本
V4 系列降价之后,单位 token 价格比 V3.2 低不少,但实际账单不一定下降,原因有二:
- V4 的输出 token 长度通常更长(推理过程更完整)
- 缓存命中策略变了,老的 batch 调用模式可能不再触发深度命中
建议先用线上 5%~10% 的流量灰度,跑两三天看真实账单再全量切换。
4. 监控错误码和 P99 延迟
版本切换初期,关注两个指标:
- 4xx 错误率(参数兼容性问题)
- P99 延迟(V4-Pro 推理链路更长,长输出场景下延迟可能上升)
如果你跑的是用户面的实时对话产品,可以优先考虑 V4-Flash;Pro 更适合后台批处理、Agent 长任务这类对延迟不那么敏感的场景。
一个更值得聊的问题:模型多供应商策略
这次下线公告其实也提醒了大家一件事——单一渠道接入第三方模型是有风险的。
DeepSeek 是开源模型,理论上你可以在 DeepSeek 官方、腾讯云、阿里云、火山引擎、华为云、硅基流动等多个渠道调到「同一个模型」。但每家:
- 定价不同
- 下线节奏不同
- 工程优化(吞吐、首 token 延迟)不同
- 限流策略不同
对于把 DeepSeek 跑成主力的团队,比较合理的姿态是同时接两到三家,做自动 failover。这次腾讯云提前一个月预告下线,已经算是相当友好;万一哪家某天突然把价格涨上去,或者限流策略一变,单点接入的服务会很难受。
聚合类的 API 平台在这种场景下有它存在的合理性。比如 **OpenAI Hub(openai-hub.com)**这种走 OpenAI 兼容协议的聚合方案,一个 Key 同时打通 GPT、Claude、Gemini、DeepSeek 等主流模型,DeepSeek-V4 系列也在支持列表里。模型版本切换只需要改一行 model 参数,至少能把「换版本要改 SDK、要重接鉴权」这类纯体力活省掉。当然这只是其中一种选项,自建多云路由也完全可以,关键是别把命脉押在单一供应商身上。
接下来看什么
几个值得关注的时间点:
- 6 月下旬到 7 月初:腾讯云大概率会推出 V3.2 → V4 的迁移工具或一键替换脚本,照惯例还会发一波代金券拉动迁移率
- 7 月 16 日 0 点:V3.2 正式停服,未迁移的请求自动切到「最新模型」(届时大概率是 V4-Pro)
- DeepSeek 官方动态:V4 之后下一代什么时候出?社区的预期是 9 月前后会有动作,如果属实,腾讯云这套「半年一退役」的节奏还会继续
对开发者来说,记住一句话就够了:别等系统替你做决定。一个月时间,迁移、灰度、回归测试,安排上。
写在最后
模型下线这种事,从用户视角看起来是「被迫升级」,但放到行业语境里其实是个健康信号——说明新一代模型在能力和成本上都已经压制住旧版本,云厂商有信心、有动力推动迭代。最难受的是那种「新模型出了但旧的也下不掉、价格也降不下来」的状态,那才是真的卡住了。
V3.2 在腾讯云上跑了大半年,完成了它的过渡使命。V4 接班,单价降 75%、缓存命中降 97.5%,开发者其实是受益的一方。剩下的事情,就是花一个周末把代码里的版本号改了、把评测重跑一遍。
参考来源
- IT之家:腾讯云 DeepSeek-V3.2 模型 7 月 16 日下线,官方建议用户迁移至 V4 系列 —— 下线公告的中文报道,含 V4 系列降价细节
- Linux.do 社区讨论帖 —— 开发者社区对本次下线的讨论与迁移经验交流
