微软或用 DeepSeek V4 微调版替换 Copilot Cowork 闭源模型

微软正考虑用 DeepSeek V4 微调版替换 Copilot Cowork 背后的 Anthropic 和 OpenAI 模型，并把智能体改为按用量计费。账单压力下，连 Azure 自己也撑不住了。

微软可能要拿 DeepSeek 给自己的旗舰智能体产品做"心脏移植"。

据 Axios 6 月 17 日报道，微软 Copilot、智能体及平台执行副总裁 Charles Lamanna 透露，公司正在把 Copilot Cowork 的计费模式切到"按计算量收费"，同时评估用 DeepSeek V4 微调版（或其他开源模型）来替代当前后端跑着的 Anthropic 和 OpenAI 模型。微软给出的时间表是——几周之内官宣最终选型。

这事最有意思的地方不在于"微软又一次拥抱开源"，而是连一家自己卖云、自己拿着 OpenAI 49% 收益权、刚跟 Anthropic 续签了 Claude on Azure 协议的巨头，都开始嫌闭源模型的 token 太贵了。

智能体经济正在被自己的账单反噬

要理解微软为什么动这个念头，先得明白 Copilot Cowork 是个什么东西。

它对标的不是去年那种"在 Word 里帮你润色一段话"的轻量 Copilot，而是 Claude Code、OpenAI Codex 这一类自主执行任务的智能体。你丢一个目标进去，它自己拆任务、自己写代码、自己跑工具、自己改 bug，跑完一轮再跑下一轮。

问题就出在这个"自己跑"上。

传统 Chat 模式下，一次对话最多消耗几千到几万 token。但智能体是另一种生物——一个稍微复杂点的编码任务，它能在后台跑出几百万 token 的上下文，反复调用模型十几次甚至上百次。每一步推理、每一次工具调用回填、每一轮自我反思，都在烧钱。

Lamanna 用了个不太外交辞令的说法：智能体带来生产力，也带来"疯狂的 AI 账单"（crazy AI bills）。

这话直白到几乎是抱怨。要知道现在 Anthropic 最新旗舰 Fable 5 的输出定价是 50 美元/百万 token——这还是企业协议价；而 DeepSeek V4 Pro 在 2.5 折永久优惠后是 0.87 美元/百万 token。两者实际差价约 57 倍。

对于一个动辄消耗几千万 token 才能完成一个企业流程的智能体来说，这不是省点钱的问题，是能不能商业化的问题。

微软的算盘：从订阅制切到 usage-based

微软这次动作其实是两件事捆在一起做的，外界容易只看到换模型这半边。

第一步是计费模式改造。 Copilot Cowork 之前走的是订阅制，按 seat 收钱。新模式是 usage-based，按客户实际烧掉的计算量收钱。这个改动本身就说明，原先按人头打包卖的方式，已经覆盖不住一些重度用户的成本——尤其是那些把智能体真用起来干活的开发团队和企业自动化场景。

第二步才是替换底层模型。 当计费透明化之后，模型成本会直接传导给客户。如果继续用 Claude 或 GPT 系列，客户会肉眼可见地看到账单飙升，进而抗拒使用。微软必须给企业一个"便宜但够用"的默认选项。

DeepSeek V4 就在这个位置上被推到了候选名单。

DeepSeek V4 到底强在哪

这里有必要把 V4 这代模型拎出来讲清楚，因为它跟很多人记忆里的"V3 时代的 DeepSeek"已经不是一个东西了。

DeepSeek 在今年 4 月 24 日发布了 V4 预览版并同步开源，主打两个版本：

DeepSeek-V4-Pro：旗舰版，对标 Opus 4.6 等顶级闭源模型
DeepSeek-V4-Flash：轻量版，定位规模化普惠场景

架构层面，V4 没走单纯堆参数的路线，而是上了三件套：

混合注意力架构（CSA + HCA）
流形约束超连接（mHC）
Muon 优化器

效果非常凶。在 100 万 token 上下文场景下，V4-Pro 单 token 推理计算量只有 V3.2 的 27%，KV 缓存内存占用降到 10%。这意味着同样一张卡，能扛的并发推理任务直接翻几倍。

更关键的是 Agentic 能力。在 Agentic Coding 评测里，V4-Pro 已经达到开源模型最佳水平，部分基准上甚至追平 Opus 4.6。换句话说，对于 Copilot Cowork 这种主打编码和企业流程自动化的场景，V4 不是"够用"，而是"真能干"。

再叠加一层：MIT 协议完全开源，支持本地部署和二次开发。

这两条特性合起来，对微软几乎是量身定做的——它可以拿到模型权重，在 Azure 上做微调（fine-tuning），针对 Copilot Cowork 的工作流做专门优化，最后整套东西完全跑在自己的云上，不需要再向第三方付推理费用。

数据安全这块，微软提前把话说在前头

意识到"用中国开源模型"这件事在企业客户那里会有政治和合规层面的疑虑，微软这次的措辞非常谨慎。

Lamanna 明确承诺：

模型完全托管在 Azure 上
客户数据保留在微软云端
受 Azure 的企业安全、合规、数据驻留控制管辖

翻译一下就是：我们只是拿权重，不让任何 token 流出 Azure 边界。

这套话术其实跟当初 Azure 接入 Llama、Mistral 时是一样的。本质上是把"开源模型"当成一种可以被本地化部署的资产，而不是一个外部服务。对于受监管行业（金融、医疗、政府）的客户来说，这个区别非常重要。

这件事对 OpenAI 和 Anthropic 意味着什么

不太好。

微软是 OpenAI 最大的金主和最大的渠道之一，Copilot 系列长期是 GPT 系列在 To B 端最大的流量入口。Copilot Cowork 如果把底层换掉，意味着 OpenAI 在企业智能体这一波最有钱可赚的赛道上，会被自己最重要的合作伙伴边缘化。

Anthropic 那边更尴尬。Claude on Azure 协议本来是 Anthropic 拓展企业市场的关键一环，结果微软现在直接告诉市场：Claude 太贵了，我们要找平替。

这背后有一个更大的趋势——模型能力差距在收敛，而价格差距在扩大。

2026 年以来，主要闭源厂商的 token 资费普遍上调（Fable 5、GPT-5.5 都涨过价），逻辑是"我能力领先所以我贵"。但当开源阵营（DeepSeek、Qwen、GLM 等）在 Agentic 能力上把差距缩到 10-20% 以内时，对于绝大多数企业场景，省 50 倍的成本远比多 10% 的能力更有吸引力。

这就是 Lamanna 们正在做的算账。

微调版本是关键变量

报道里有一个被很多人忽略的细节：微软说的不是直接用 DeepSeek V4，而是用"DeepSeek V4 的微调版本"。

这件事的工程含义比想象中大。

通用 V4-Pro 在 Agentic Coding 上已经很强，但 Copilot Cowork 的场景不只是写代码，还涉及：

微软 Graph API 调用
Office 文档操作
Teams 工作流
Azure DevOps 集成
企业身份和权限链路

这些工具调用和长链路推理需要专门的指令微调和工具使用训练。微软完全可以基于 V4 的开源权重，喂入大量自己的工具调用轨迹数据，做出一个"只会用微软全家桶但用得很顺"的特化版本。

这种做法的好处是：能力专精、推理成本可控、生态壁垒还在自己手里。坏处是：你跟 DeepSeek 官方版本的差距会越拉越大，未来 V4.5、V5 出来时还得重新做一遍微调。

但对微软这种体量的公司来说，这点 MLOps 成本根本不是事。

国内开发者怎么看

如果你是用 Copilot Cowork 或者类似智能体的开发者，这次变化里有几个点值得关注：

价格会显著下来。usage-based 模式叠加便宜模型，意味着重度使用者的边际成本会降一个数量级。原本因为账单不敢放开用的场景，可以重新评估。
能力可能会有阶段性波动。从 Claude/GPT 切到 DeepSeek 微调版，在某些极端长链路推理或冷门语言场景下，可能会出现回归。建议关键工作流做 A/B 验证。
多模型选择会成为常态。微软这次的表态意味着，未来 Copilot 系列大概率会演变成"按任务路由到不同模型"的架构——便宜任务走 DeepSeek，高难任务走 Claude/GPT。这跟很多 AI 网关产品的思路是一致的。

顺带一提，OpenAI Hub（openai-hub.com）现在已经接入了 DeepSeek V4 全系（Pro 和 Flash），同时也支持 GPT、Claude、Gemini 等主流模型，一个 Key 就能切换调用。如果你想自己复现微软的"多模型按成本路由"思路，不用再分别去申请各家账号、处理国内访问问题，直接走兼容 OpenAI 格式的接口就行——这对小团队做智能体成本优化挺方便的。