华为云首发适配 MiniMax M3：昇腾算力跑通 1M 上下文 MSA

6 月 12 日，华为云 CloudMatrix 完成 MiniMax M3 的开源首发适配，基于昇腾算力为这款新一代原生多模态旗舰模型提供 Tokens 服务，MSA 稀疏注意力和 MoE 均衡也都在昇腾上跑通。

昨天（6 月 12 日），华为云宣布 CloudMatrix 智算云服务完成了对 MiniMax M3 的开源首发适配——注意是「首发」，意味着 M3 一开源，第一个把它在国产算力上跑通并提供 Tokens 服务的，是昇腾。

这件事在当下的语境里值得拆开看。一边是 MiniMax 上半年憋出来的新旗舰 M3：原生多模态、1M 上下文、能操作电脑桌面，Coding 上把 GPT-5.5 和 Gemini 3.1 Pro 都压下去了；另一边是华为云憋了一年多的 CloudMatrix，终于在一线开源大模型的首发名单里站稳了位置。两件事撞在一起，比单独看任何一边都更有信号意义。

华为云 CloudMatrix 与 MiniMax M3 适配示意图

M3 到底是个什么货色

先说模型本身。MiniMax 这家公司从 M1 开始就走「长上下文 + 线性/稀疏注意力」的路子，M3 把这条路推到了一个新台阶——他们这次端出来的是 MSA（MiniMax Sparse Attention），一种新的稀疏注意力架构，最高支持 1M token 的上下文。

1M 上下文这事儿现在已经不稀奇，Gemini 早就有了，Claude 也跟进了。但稀疏注意力的玩法和 Gemini 那种以工程优化为主的「长但慢」不一样：MSA 是从架构层面把 attention 的计算稀疏掉，理论上长上下文下的吞吐和显存表现会更线性。代价是 KV cache 的访存模式会复杂很多，这也是为什么后面华为云提到要做「精确 KV 分块与连续访存策略」——MSA 不是塞进去就能跑的，算子要重写。

再看官方公布的几个跑分：

SWE-Bench Pro（Coding）：M3 超过 GPT-5.5、Gemini 3.1 Pro，接近 Anthropic Opus 4.7
SVG-Bench（矢量图生成）：超过 Opus 4.7
OmniDocBench（多模态文档理解）：超过 Gemini 3.1 Pro
Claw-Eval（端到端 Agent 评测）：拿到最高分

Claw-Eval 这个最高分，配合「能操作电脑桌面」的官方描述，基本说明 MiniMax 这次的瞄准方向就是 Agent。SWE-Bench Pro 接近 Opus 4.7 已经是国产开源模型里少见的水位——要知道 Opus 4.7 在编程任务上几乎是当下天花板，开源能摸到这个位置，意味着真的能用在严肃的代码工程场景。

至于多模态部分，M3 支持图片和视频输入，OmniDocBench 上压过 Gemini 3.1 Pro，这是典型的「文档智能 + Agent 操作」组合拳。把这些拼起来看，M3 其实是一款瞄着「能在电脑里自己干活」的模型——读屏、看文档、写代码、点鼠标，一条龙。

昇腾这一仗赢在哪

关于「首发适配」这四个字，外界一般有两种理解。一种是 PPT 友好型的「能跑通 demo」，另一种是真把推理服务挂出来对外卖 Token。这次华为云走的是后者：CloudMatrix 直接提供 Tokens 算力支持，意味着 M3 在昇腾上是以生产级推理服务形态对外的。

这背后做了两件硬活儿：

1. MSA 算子在昇腾上重写

稀疏注意力在国产卡上跑，最大的痛点是 KV cache 的内存访问。GPU 上有成熟的 PagedAttention、FlashAttention 系列做底，昇腾这边长期是自己一套 CANN 算子库，新架构出来基本上得从头写。

官方表述用了两个关键词：精确 KV 分块和连续访存策略。前者对应稀疏注意力下不同 query 对 KV 的访问模式分块管理，后者解决 sparse pattern 带来的非连续 memory access——这是 MSA 这种架构在任何硬件上都绕不开的工程难点，尤其在 1M 上下文场景下，KV cache 动辄几十上百 GB，访存效率直接决定 TPS。

能把这块跑通，说明华为云这边的算子团队对 MSA 的内部实现是真摸过的，不是简单转译。

2. MoE 多卡均衡优化

M3 是 MoE 架构，专家路由不均衡是 MoE 推理的老问题——少数热门专家被打爆，大部分专家闲着，整体吞吐被木桶最短板拖死。华为云提到在昇腾上做了 MoE 均衡优化，让各个专家模块在多卡间高效协作。

这里的潜台词是 CloudMatrix 的卡间互联。CloudMatrix 384 这套架构本身就是华为云用来对标 GB200 NVL72 的方案，主打的就是超节点内大带宽。MoE 推理对 all-to-all 通信非常敏感，CloudMatrix 这种设计形态在 MoE 场景下的优势会被放大。M3 这种稀疏 MoE + 长上下文的组合，恰好是给 CloudMatrix 量身定做的 showcase。

为什么是这个时间点

站在 2026 年年中这个节点回头看，国产算力 + 开源大模型的捆绑节奏其实越来越清晰：

2025 年初 DeepSeek V3/R1 出来，第一批适配昇腾、海光、寒武纪的国产卡密集发布；
2025 下半年 Qwen3、GLM-5 系列陆续上昇腾；
到了 2026 年，节奏变了——不再是「开源模型出来后几周适配」，而是首发同步。

MiniMax 这次选华为云做首发，背后逻辑也很现实：M3 是 1M 上下文 + 多模态 + Agent，三个特性叠加意味着推理成本远高于普通对话模型。MiniMax 自己开放 API 是一回事，要让大量开发者在国内便宜稳定地调用得起来，必须依赖 CloudMatrix 这种规模化算力底座。

对华为云来说，能拿到这种级别开源旗舰的首发位置，相当于给 CloudMatrix 的算力服务做了一次顶配压力测试——既能跑 MSA 稀疏注意力，又能扛 MoE all-to-all，还要顶住 1M 上下文的 KV 显存。这三件事如果都过关，下半年其他开源大模型再要谈昇腾适配，华为云的话语权会上一个台阶。

开发者视角：能不能用、怎么用

抛开宏大叙事，对一线开发者来说，最关心的还是几件事：

价格：MiniMax 官方还没公布 M3 的 Token 价格，华为云这边的定价大概率会跟 MiniMax 自家走。考虑到 1M 上下文 + MoE 的成本结构，长上下文的输入价格预计会比 M2 时代上一个台阶，但稀疏架构应该会在 prompt 偏长时拉回一些性价比。
延迟：MSA 在长 prompt 下的 prefill 速度是关键指标。如果昇腾这边能把 prefill 做到 GPU 同代的 60%-70% 水位，对国内 Agent 应用就已经够用了。
生态兼容：M3 是开源模型，权重应该会陆续上 Hugging Face，本地部署的玩家可以等社区量化版；不想折腾基础设施的，直接走华为云或 MiniMax 的 API 更省事。

顺带提一下，OpenAI Hub 也已经接入 MiniMax M3，用同一个 Key 就能在 GPT、Claude、Gemini、DeepSeek 之间切换 M3，对那些想在 Agent 项目里横向对比模型表现的团队来说，省掉了再开一套账号的工夫。

一点判断

这次合作真正值得划重点的不是「华为云适配了一个新模型」——这种新闻这两年看得太多了。重点是**「首发」+「Tokens 服务」+「MSA 算子级别适配」**这三个词捆在一起。它说明：

国产算力对前沿开源模型的响应速度，从「跟随」进入了「同步」阶段；
模型公司选择首发合作方时，CloudMatrix 这种超节点架构已经具备和海外集群同台竞争的资格；
MoE + 稀疏注意力 + 长上下文这套未来一年大概率成为主流的架构组合，在国产硬件上已经被跑通过一次完整路径。

M3 自己能不能在开源社区里站住脚还需要时间检验——SWE-Bench Pro 的分数好看，但真实代码工程中能不能稳定胜任 Opus 级任务，得看 Cursor、Cline 这些工具链接入后的用户口碑。但无论如何，这一仗让 2026 下半年的开源模型适配竞赛，多了一个值得盯的变量。

参考来源

IT之家：华为云与 MiniMax 最新模型 M3 实现开源首发适配，提供 Tokens 算力支持 —— 适配消息的原始报道，包含 MSA 架构、跑分和昇腾适配细节

华为云抢首发：昇腾跑通 MiniMax M3，1M 上下文落地

M3 到底是个什么货色

昇腾这一仗赢在哪

1. MSA 算子在昇腾上重写

2. MoE 多卡均衡优化

为什么是这个时间点

开发者视角：能不能用、怎么用

一点判断

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们