华为云抢首发:昇腾跑通 MiniMax M3,1M 上下文落地

6 月 12 日,华为云 CloudMatrix 完成 MiniMax M3 的开源首发适配,基于昇腾算力为这款新一代原生多模态旗舰模型提供 Tokens 服务,MSA 稀疏注意力和 MoE 均衡也都在昇腾上跑通。
昨天(6 月 12 日),华为云宣布 CloudMatrix 智算云服务完成了对 MiniMax M3 的开源首发适配——注意是「首发」,意味着 M3 一开源,第一个把它在国产算力上跑通并提供 Tokens 服务的,是昇腾。
这件事在当下的语境里值得拆开看。一边是 MiniMax 上半年憋出来的新旗舰 M3:原生多模态、1M 上下文、能操作电脑桌面,Coding 上把 GPT-5.5 和 Gemini 3.1 Pro 都压下去了;另一边是华为云憋了一年多的 CloudMatrix,终于在一线开源大模型的首发名单里站稳了位置。两件事撞在一起,比单独看任何一边都更有信号意义。

M3 到底是个什么货色
先说模型本身。MiniMax 这家公司从 M1 开始就走「长上下文 + 线性/稀疏注意力」的路子,M3 把这条路推到了一个新台阶——他们这次端出来的是 MSA(MiniMax Sparse Attention),一种新的稀疏注意力架构,最高支持 1M token 的上下文。
1M 上下文这事儿现在已经不稀奇,Gemini 早就有了,Claude 也跟进了。但稀疏注意力的玩法和 Gemini 那种以工程优化为主的「长但慢」不一样:MSA 是从架构层面把 attention 的计算稀疏掉,理论上长上下文下的吞吐和显存表现会更线性。代价是 KV cache 的访存模式会复杂很多,这也是为什么后面华为云提到要做「精确 KV 分块与连续访存策略」——MSA 不是塞进去就能跑的,算子要重写。
再看官方公布的几个跑分:
- SWE-Bench Pro(Coding):M3 超过 GPT-5.5、Gemini 3.1 Pro,接近 Anthropic Opus 4.7
- SVG-Bench(矢量图生成):超过 Opus 4.7
- OmniDocBench(多模态文档理解):超过 Gemini 3.1 Pro
- Claw-Eval(端到端 Agent 评测):拿到最高分
Claw-Eval 这个最高分,配合「能操作电脑桌面」的官方描述,基本说明 MiniMax 这次的瞄准方向就是 Agent。SWE-Bench Pro 接近 Opus 4.7 已经是国产开源模型里少见的水位——要知道 Opus 4.7 在编程任务上几乎是当下天花板,开源能摸到这个位置,意味着真的能用在严肃的代码工程场景。
至于多模态部分,M3 支持图片和视频输入,OmniDocBench 上压过 Gemini 3.1 Pro,这是典型的「文档智能 + Agent 操作」组合拳。把这些拼起来看,M3 其实是一款瞄着「能在电脑里自己干活」的模型——读屏、看文档、写代码、点鼠标,一条龙。
昇腾这一仗赢在哪
关于「首发适配」这四个字,外界一般有两种理解。一种是 PPT 友好型的「能跑通 demo」,另一种是真把推理服务挂出来对外卖 Token。这次华为云走的是后者:CloudMatrix 直接提供 Tokens 算力支持,意味着 M3 在昇腾上是以生产级推理服务形态对外的。
这背后做了两件硬活儿:
1. MSA 算子在昇腾上重写
稀疏注意力在国产卡上跑,最大的痛点是 KV cache 的内存访问。GPU 上有成熟的 PagedAttention、FlashAttention 系列做底,昇腾这边长期是自己一套 CANN 算子库,新架构出来基本上得从头写。
官方表述用了两个关键词:精确 KV 分块和连续访存策略。前者对应稀疏注意力下不同 query 对 KV 的访问模式分块管理,后者解决 sparse pattern 带来的非连续 memory access——这是 MSA 这种架构在任何硬件上都绕不开的工程难点,尤其在 1M 上下文场景下,KV cache 动辄几十上百 GB,访存效率直接决定 TPS。
能把这块跑通,说明华为云这边的算子团队对 MSA 的内部实现是真摸过的,不是简单转译。
2. MoE 多卡均衡优化
M3 是 MoE 架构,专家路由不均衡是 MoE 推理的老问题——少数热门专家被打爆,大部分专家闲着,整体吞吐被木桶最短板拖死。华为云提到在昇腾上做了 MoE 均衡优化,让各个专家模块在多卡间高效协作。
这里的潜台词是 CloudMatrix 的卡间互联。CloudMatrix 384 这套架构本身就是华为云用来对标 GB200 NVL72 的方案,主打的就是超节点内大带宽。MoE 推理对 all-to-all 通信非常敏感,CloudMatrix 这种设计形态在 MoE 场景下的优势会被放大。M3 这种稀疏 MoE + 长上下文的组合,恰好是给 CloudMatrix 量身定做的 showcase。
为什么是这个时间点
站在 2026 年年中这个节点回头看,国产算力 + 开源大模型的捆绑节奏其实越来越清晰:
- 2025 年初 DeepSeek V3/R1 出来,第一批适配昇腾、海光、寒武纪的国产卡密集发布;
- 2025 下半年 Qwen3、GLM-5 系列陆续上昇腾;
- 到了 2026 年,节奏变了——不再是「开源模型出来后几周适配」,而是首发同步。
MiniMax 这次选华为云做首发,背后逻辑也很现实:M3 是 1M 上下文 + 多模态 + Agent,三个特性叠加意味着推理成本远高于普通对话模型。MiniMax 自己开放 API 是一回事,要让大量开发者在国内便宜稳定地调用得起来,必须依赖 CloudMatrix 这种规模化算力底座。
对华为云来说,能拿到这种级别开源旗舰的首发位置,相当于给 CloudMatrix 的算力服务做了一次顶配压力测试——既能跑 MSA 稀疏注意力,又能扛 MoE all-to-all,还要顶住 1M 上下文的 KV 显存。这三件事如果都过关,下半年其他开源大模型再要谈昇腾适配,华为云的话语权会上一个台阶。
开发者视角:能不能用、怎么用
抛开宏大叙事,对一线开发者来说,最关心的还是几件事:
- 价格:MiniMax 官方还没公布 M3 的 Token 价格,华为云这边的定价大概率会跟 MiniMax 自家走。考虑到 1M 上下文 + MoE 的成本结构,长上下文的输入价格预计会比 M2 时代上一个台阶,但稀疏架构应该会在 prompt 偏长时拉回一些性价比。
- 延迟:MSA 在长 prompt 下的 prefill 速度是关键指标。如果昇腾这边能把 prefill 做到 GPU 同代的 60%-70% 水位,对国内 Agent 应用就已经够用了。
- 生态兼容:M3 是开源模型,权重应该会陆续上 Hugging Face,本地部署的玩家可以等社区量化版;不想折腾基础设施的,直接走华为云或 MiniMax 的 API 更省事。
顺带提一下,OpenAI Hub 也已经接入 MiniMax M3,用同一个 Key 就能在 GPT、Claude、Gemini、DeepSeek 之间切换 M3,对那些想在 Agent 项目里横向对比模型表现的团队来说,省掉了再开一套账号的工夫。
一点判断
这次合作真正值得划重点的不是「华为云适配了一个新模型」——这种新闻这两年看得太多了。重点是**「首发」+「Tokens 服务」+「MSA 算子级别适配」**这三个词捆在一起。它说明:
- 国产算力对前沿开源模型的响应速度,从「跟随」进入了「同步」阶段;
- 模型公司选择首发合作方时,CloudMatrix 这种超节点架构已经具备和海外集群同台竞争的资格;
- MoE + 稀疏注意力 + 长上下文这套未来一年大概率成为主流的架构组合,在国产硬件上已经被跑通过一次完整路径。
M3 自己能不能在开源社区里站住脚还需要时间检验——SWE-Bench Pro 的分数好看,但真实代码工程中能不能稳定胜任 Opus 级任务,得看 Cursor、Cline 这些工具链接入后的用户口碑。但无论如何,这一仗让 2026 下半年的开源模型适配竞赛,多了一个值得盯的变量。
参考来源
- IT之家:华为云与 MiniMax 最新模型 M3 实现开源首发适配,提供 Tokens 算力支持 —— 适配消息的原始报道,包含 MSA 架构、跑分和昇腾适配细节



