微软自研推理模型 MAI-Thinking-1 明日亮相 Build 2026,Copilot 超级应用同步浮出水面
微软终于要把自家的推理模型摆上台面了。
按照 The Verge 6 月 1 日的爆料,北京时间 6 月 3 日凌晨 0 点 30 分召开的 Build 2026 大会上,微软 AI 部门(MAI)将正式发布 MAI-Thinking-1——这是微软第一个自研推理模型,而且爆料里特别强调了一句:没用其他模型的输出做蒸馏训练。这句话信息量很大,下面会详细说。
同台亮相的还有 MAI-Image-2.5 和 MAI-Image-2.5-Flash 两款图像生成模型。算上去年 8 月发布的 MAI-Voice-1 语音模型和 MAI-1-preview 基础模型,微软自研模型矩阵的四块拼图——基础、语音、图像、推理——终于补齐。

为什么这次发布值得认真看
过去几年,业界对微软在 AI 上的定位其实是有点纠结的。一边是 OpenAI 最大金主和最大客户的身份,Copilot 里跑的是 GPT-4、GPT-5;另一边,Mustafa Suleyman 2024 年从 Inflection 带队加入后组建的 MAI 部门,一直在闷声搞自研。
去年 8 月那波 MAI-Voice-1 和 MAI-1-preview 发布的时候,Suleyman 在博客里写了一句意味深长的话:"我们会继续使用来自我们团队、合作伙伴以及开源社区的最佳模型来驱动我们的产品。" 翻译一下就是:OpenAI 还得用,但我们不会一棵树吊死。
MAI-Thinking-1 是这个战略走到今天最关键的一步。推理模型是当前大模型竞赛的主战场——OpenAI 的 o 系列、Anthropic 的 Claude 思考模式、DeepSeek-R1、Gemini 的 Deep Think,谁家没有一个能在数学、代码、长链路任务上打的推理模型,谁就别想在企业级 Agent 场景里立足。微软 Copilot 要做端到端的 Agent,没有自己的推理底座,永远要被 OpenAI 牵着鼻子走。
"未用蒸馏" 这四个字的分量
爆料里 "没用其他模型输出做蒸馏" 这个细节,业内人一看就知道是什么意思。
推理模型的训练成本极高,最便宜的捷径就是拿 OpenAI o1/o3 或者 DeepSeek-R1 的思维链输出当数据,做监督微调或者拒绝采样。DeepSeek-R1 当初放出来之后,市面上一夜冒出几十个 "推理模型",大半都是这么搞的。这条路能快速做出能用的产品,但天花板就是被蒸馏对象的能力上限,而且法律层面始终有灰色地带——OpenAI 的服务条款明确禁止用其输出训练竞品模型。
微软强调 MAI-Thinking-1 没走蒸馏路线,至少说明两件事:
- 能力上限不被锁死。从零训练的推理模型,理论上有机会超过被蒸馏的母模型,至少不会被天然压一头。
- 跟 OpenAI 的关系考量。微软目前还在用 OpenAI 的模型,蒸馏自家投资对象的输出,无论从合同还是公关角度都说不过去。从零训意味着这条产品线在法律上是干净的,将来要替换 OpenAI 在 Copilot 里的份额时没有包袱。
当然,"没用蒸馏" 这个声明的真实性也要等模型放出来之后大家去拉 benchmark、抓特征指纹来验证。OpenAI 之前指控 DeepSeek 蒸馏 GPT 的事儿大家都还有印象。
MAI 一年时间补齐了四大模态
把时间线拉出来看,MAI 这一年的节奏其实相当快:
| 时间 | 模型 | 类型 | 备注 |
|---|---|---|---|
| 2025.8 | MAI-Voice-1 | 语音生成 | 单 GPU 一秒生成 1 分钟音频,已上线 Copilot Daily |
| 2025.8 | MAI-1-preview | 基础文本模型 | 5000 亿参数级别,对标 GPT-4 类 |
| 2026.6 | MAI-Image-2.5 / 2.5-Flash | 图像生成 | 标准版 + 快速版双 SKU |
| 2026.6 | MAI-Thinking-1 | 推理模型 | 首个自研推理模型,未走蒸馏 |
图像模型直接跳到 2.5,说明前面在内部至少迭代了一两代。Flash 这个命名习惯明显是从 Gemini 那边借来的——同模型不同档位,一个走质量、一个走低延迟低成本,对应 Copilot 在不同场景下的调用策略。
这套组合拳打下来,微软第一次拥有了一个完整的、不依赖第三方的模型栈。这不是说 OpenAI 立刻就会被踢出局,但 Copilot 内部的模型路由会有更多选择:简单问答走 MAI-1,文生图走 MAI-Image-2.5-Flash,复杂推理走 MAI-Thinking-1,硬骨头才丢给 GPT-5。从成本和延迟控制角度,这事儿对微软的财务报表非常友好。
Copilot "超级应用" 的雏形
另一个值得说道的是 Copilot 形态的变化。Fortune 上周流出的截图显示,微软正在把目前散落在各处的 AI 助手——Microsoft 365 Copilot、Copilot Chat、Copilot Studio 里的各种代理——整合到一个统一的入口里,画面中还出现了一个叫 Scout AI agent 的新东西。
消息源澄清这只是 Build 2026 的展示用模型图,测试版要到夏末才会发。但方向已经很清楚了:微软不打算继续维护一堆名字里都带 Copilot 但互相隔离的产品,而是要做一个统一壳子,把 Agent、Chat、文档协作、语音对话都收进来。
这个思路其实跟 OpenAI 把 GPTs、Operator、Canvas、Sora 都塞进 ChatGPT 是一个路数,也跟字节、阿里在国内做的超级 App 形态思路一致。所谓 "超级应用",本质是一个智能体调度中心,而调度的底层就是前面那套自研模型矩阵——MAI-Thinking-1 在这套架构里大概率会承担 "决定下一步该做什么" 的角色,也就是 Agent 的大脑。
Scout 这个名字也有点意思,过去微软内部代号里出现过 Scout,跟浏览/搜索增强相关,配合 Bing 的数据底座做实时信息检索是合理的猜测。
一些悬而未决的问题
Build 2026 凌晨开场前,几个关键问题等待答案:
- MAI-Thinking-1 的参数规模和上下文长度。MAI-1-preview 此前曝出是 5000 亿参数的 MoE,推理模型如果走同样架构,激活参数大概率在百亿级别。上下文长度方面,微软研究院今年推过 LongRoPE2,把 LLaMA3-8B 扩到 128K 还保留 98.5% 短上下文性能,这套技术大概率会用到自家模型上。
- 是否开放 API 还是仅 Copilot 内部使用。MAI-1-preview 当时只在 LMArena 上做了公开测试,没有正式的开放 API。MAI-Thinking-1 如果只服务 Copilot,那对外影响有限;如果通过 Azure AI Foundry 开放,才算真正进入推理模型的市场竞争。
- 跟 OpenAI 的关系会不会变化。微软已经从 OpenAI 那边拿到了 GPT 系列的权重使用权,但商业上两家的同业竞争越来越明显。Build 2026 上 Suleyman 怎么定调,比模型本身更值得关注。
- Benchmark 选择。推理模型比拼的指标已经固化为 AIME、GPQA Diamond、SWE-bench Verified、Codeforces 这几样,微软要是只放自家选的 benchmark 不放主流标准,那就要小心了。
给开发者的实际意义
对开发者来说,MAI-Thinking-1 真正能用上还需要等几个条件:
- 上 Azure AI Foundry,提供推理 API
- 进入 Copilot Studio 的模型选择列表(目前那里已经能选 GPT-5.5 推理、Claude Sonnet 4.6、Claude Opus 等)
- 集成进 GitHub Copilot 的模型切换菜单
微软 Copilot Studio 最近几个月节奏明显在加快,从 GPT-5 全量开放、Claude 系列正式可用、到现在加入自家推理模型,对企业用户来说选择是变多了,但模型路由策略也会更复杂。多模型时代,"用哪个模型解决什么问题" 本身就是个需要持续调优的工程问题——这也是为什么聚合调度类的工具最近这么火。
顺带提一句,OpenAI Hub 一个 Key 调通主流闭源模型这个能力,在多模型并存的当下确实是个省心的方案,MAI 系列如果将来开放 API,按惯例也会第一时间接入。
结语
MAI-Thinking-1 不是微软第一个自研模型,但它是微软自研战略里最关键的一块。语音、图像可以靠合作伙伴和开源补,但推理模型一旦自己掌握了,Copilot 就有了真正意义上的 "自有大脑"。
明天凌晨的 Build 2026,看点不止是模型本身,更是微软怎么向市场解释——作为 OpenAI 最大的金主,为什么要花这么大力气自己再造一个。答案大概早已写在 Suleyman 的笔记本里:在 AI 这个赛道,没有人愿意把自己的命运永远交到别人手上。
参考来源
- 微软首个自研推理 AI 模型 MAI-Thinking-1、新 Copilot 超级应用曝光 - IT之家 — IT之家关于 MAI-Thinking-1 和 Copilot 超级应用截图的爆料