腾讯云今日宣布 DeepSeek-V3.2 将于 7 月 16 日正式下线，建议用户提前迁移至 V4 系列，未完成迁移的调用将被自动切换至最新模型。这是 DeepSeek 在腾讯云上的第三次大版本退役。

腾讯云挥别 DeepSeek-V3.2，一个月后强制迁移 V4 系列

6 月 16 日，腾讯云挂出公告：知识引擎原子能力平台和大模型服务平台 TokenHub 上的 DeepSeek-V3.2 模型，将于北京时间 2026 年 7 月 16 日 00:00 起正式下线，届时不再提供接入服务。官方推荐用户迁移至「能力更优」的 DeepSeek-V4 系列。

留给开发者的时间是一个月。

这并不意外。从去年下半年开始，腾讯云对 DeepSeek 系列的版本迭代节奏，明显是按月在推。V3 在 2025 年 9 月退役，V3.1 在 2026 年 3 月 30 日下线，今天轮到 V3.2，恰好又是 30 天上下的窗口。腾讯云这套「老版本逐步劝退、新版本接棒」的打法，已经成为它运营第三方模型的标准动作。

一份没什么悬念的下线通告

按照公告原文，受影响的范围是两个：知识引擎原子能力平台和大模型服务平台 TokenHub。两边的 deepseek-v3.2 模型参数会在 7 月 16 日零点统一停服。

替代方案也很直接——DeepSeek-V4 系列。腾讯云目前在售的 V4 主要是两款：

DeepSeek-V4-Pro：主力推理模型，对标 DeepSeek 官网
DeepSeek-V4-Flash：轻量低延迟版本，适合高并发场景

这里有一个细节值得开发者注意：如果到 7 月 16 日还没完成迁移，系统会自动把请求切到 DeepSeek 最新模型。听上去贴心，实际上是个坑——「最新模型」意味着模型行为、输入输出格式、价格档位都可能变动，对于已经在生产环境跑稳的服务，这种隐式升级很容易出问题。一句话总结：别等系统替你做决定。

为什么是现在？V4 已经跑出来了

要理解这次下线的节奏，得回头看 V4 系列在腾讯云上的部署轨迹。

V4 正式发布是 4 月 24 日左右，当时给出的定价相当激进——每百万 token 0.2 元起。这个价格在国内 MoE 模型里属于地板价，几乎是 V3.2 时代的对折。

紧接着是 6 月 3 日凌晨那一波降价。腾讯云智能体开发平台对 V4 系列动手：

| 模型 | 推理输入/输出 | 缓存命中 | | --- | --- | --- | | DeepSeek-V4-Pro | 降幅 75% | 降幅 97.5% | | DeepSeek-V4-Flash | — | 降幅 90% |

降到这个程度，基本就是「持平官网」的姿态。意思也很明确：腾讯云已经把 V4 的成本结构压到位了，接下来要做的就是把存量调用从 V3.x 系列搬过来，集中算力跑新版本。

反过来看 V3.2 的处境就有点尴尬。它是去年 10 月份推出的过渡版本，主打稀疏注意力（DSA）和长上下文优化，性价比一度很高。但 V4 出来之后，无论是基础能力、上下文窗口还是单价，V3.2 都没有继续留下的理由。继续运营老模型，腾讯云既要分配 GPU 资源，又要维护推理栈的兼容性，账算不过来。

DeepSeek 在腾讯云上的「代际换防」节奏

把腾讯云过去一年的几个公告串起来看，会发现一个非常工整的节奏：

2025 年 9 月 20 日：V3 下线，迁移到 V3-0324 或 V3.1
2026 年 3 月 30 日：V3.1 下线，迁移到 V3.1-Terminus 或 V3.2
2026 年 7 月 16 日：V3.2 下线，迁移到 V4 系列

基本每半年清理一次。这其实是云厂商运营第三方开源模型的标准范式：模型本身是社区在迭代，云厂商负责工程化部署和定价，每出一个大版本，旧版本就排期下线，把推理资源腾出来。

问题在于，开发者侧的迁移成本并不是零。DeepSeek 各代之间虽然都兼容 OpenAI 格式，但：

prompt 风格漂移：V3.2 在指令遵循上的「脾气」和 V4 不完全一致，少数 few-shot 模板需要重调
工具调用行为变化：V4 系列对 function calling 的解析更严格，老 prompt 里靠 V3.2 容错性混过去的写法会翻车
上下文窗口/计费单位调整：缓存命中的计费规则变了，老的 prompt 缓存策略可能不再是最优

这些都是「迁移指南里不会写、但真上线就会爆」的细节。

给开发者的迁移 checklist

如果你的服务还跑在 deepseek-v3.2 上，下面这几件事建议在 7 月 16 日前过一遍：

1. 全量替换 model 参数

搜代码库里所有 deepseek-v3.2 字符串，替换为 deepseek-v4-pro 或 deepseek-v4-flash。注意配置中心、A/B 实验框架、灰度开关里也可能藏着硬编码。

2. 重跑你的评测集

别只看官方 benchmark 数字。用你自己业务的真实 case 跑一轮，特别是：

长上下文场景（超过 32K 的输入）
多轮对话的状态保持
中英文混合的指令解析
结构化输出（JSON、SQL、Markdown 表格）

V4-Pro 在多数维度上都强于 V3.2，但「强」不代表「完全兼容」。会有少数 case V3.2 答得更顺手——这是基模换代的常态。

3. 重新核算成本

V4 系列降价之后，单位 token 价格比 V3.2 低不少，但实际账单不一定下降，原因有二：

V4 的输出 token 长度通常更长（推理过程更完整）
缓存命中策略变了，老的 batch 调用模式可能不再触发深度命中

建议先用线上 5%~10% 的流量灰度，跑两三天看真实账单再全量切换。

4. 监控错误码和 P99 延迟

版本切换初期，关注两个指标：

4xx 错误率（参数兼容性问题）
P99 延迟（V4-Pro 推理链路更长，长输出场景下延迟可能上升）

如果你跑的是用户面的实时对话产品，可以优先考虑 V4-Flash；Pro 更适合后台批处理、Agent 长任务这类对延迟不那么敏感的场景。

一个更值得聊的问题：模型多供应商策略

这次下线公告其实也提醒了大家一件事——单一渠道接入第三方模型是有风险的。

DeepSeek 是开源模型，理论上你可以在 DeepSeek 官方、腾讯云、阿里云、火山引擎、华为云、硅基流动等多个渠道调到「同一个模型」。但每家：

定价不同
下线节奏不同
工程优化（吞吐、首 token 延迟）不同
限流策略不同

对于把 DeepSeek 跑成主力的团队，比较合理的姿态是同时接两到三家，做自动 failover。这次腾讯云提前一个月预告下线，已经算是相当友好；万一哪家某天突然把价格涨上去，或者限流策略一变，单点接入的服务会很难受。

聚合类的 API 平台在这种场景下有它存在的合理性。比如 **OpenAI Hub（openai-hub.com）**这种走 OpenAI 兼容协议的聚合方案，一个 Key 同时打通 GPT、Claude、Gemini、DeepSeek 等主流模型，DeepSeek-V4 系列也在支持列表里。模型版本切换只需要改一行 model 参数，至少能把「换版本要改 SDK、要重接鉴权」这类纯体力活省掉。当然这只是其中一种选项，自建多云路由也完全可以，关键是别把命脉押在单一供应商身上。

接下来看什么

几个值得关注的时间点：

6 月下旬到 7 月初：腾讯云大概率会推出 V3.2 → V4 的迁移工具或一键替换脚本，照惯例还会发一波代金券拉动迁移率
7 月 16 日 0 点：V3.2 正式停服，未迁移的请求自动切到「最新模型」（届时大概率是 V4-Pro）
DeepSeek 官方动态：V4 之后下一代什么时候出？社区的预期是 9 月前后会有动作，如果属实，腾讯云这套「半年一退役」的节奏还会继续

对开发者来说，记住一句话就够了：别等系统替你做决定。一个月时间，迁移、灰度、回归测试，安排上。

写在最后

模型下线这种事，从用户视角看起来是「被迫升级」，但放到行业语境里其实是个健康信号——说明新一代模型在能力和成本上都已经压制住旧版本，云厂商有信心、有动力推动迭代。最难受的是那种「新模型出了但旧的也下不掉、价格也降不下来」的状态，那才是真的卡住了。

V3.2 在腾讯云上跑了大半年，完成了它的过渡使命。V4 接班，单价降 75%、缓存命中降 97.5%，开发者其实是受益的一方。剩下的事情，就是花一个周末把代码里的版本号改了、把评测重跑一遍。

参考来源

IT之家：腾讯云 DeepSeek-V3.2 模型 7 月 16 日下线，官方建议用户迁移至 V4 系列 —— 下线公告的中文报道，含 V4 系列降价细节
Linux.do 社区讨论帖 —— 开发者社区对本次下线的讨论与迁移经验交流

腾讯云挥别 DeepSeek-V3.2，一个月后强制迁移 V4