摩尔线程 MTT S5000 完成 MiniMax M3 大模型 Day-0 适配

6月12日 MiniMax M3 开源，摩尔线程旗舰智算卡 MTT S5000 同日完成 Day-0 适配，覆盖 vLLM 与 SGLang 双框架，国产 GPU 跟卡前沿模型的节奏越来越紧。

国产 GPU 这次没掉队

6月12日，MiniMax 把新一代原生多模态旗舰模型 M3 扔到了开源社区。就在同一天，摩尔线程宣布旗舰级 AI 训推一体智算卡 MTT S5000 完成 Day-0 适配——开发者拉下 M3 权重，可以直接跑在国产卡上。

这不是摩尔线程第一次玩 Day-0。今年早些时候，从 DeepSeek-V4、MiniMax M2.5/M2.7，到 GLM-5.1，几乎每一款国产头部开源模型上线，摩尔线程都能在当天或次日完成适配并放出技术 Blog。一年前国产 GPU 还在追着模型跑、出问题先甩锅给硬件兼容性，现在已经能做到模型 release 当天可推理、几周内出性能优化版本。这种节奏的变化，比单纯的 TFLOPS 数字更说明问题。

摩尔线程 MTT S5000 与 MiniMax M3 适配示意图

先说 MiniMax M3 自己

要理解为什么 M3 的适配难度比上一代高，得先看它的几个关键变化。

M3 是 MiniMax 第一款 从 Step 0 就进行多模态混合训练 的旗舰模型——不是先训文本再贴个视觉编码器的那种缝合方案，而是从预训练第一步起，图像、视频、文本就在一个 token 流里一起喂。这意味着推理时算子的工作负载分布跟纯文本模型完全不一样：视觉 token 占比高、序列长度更长、KV Cache 的访问模式也更碎。

架构上 M3 继续用了 MiniMax 自家的 MSA（Mixed Sparse Attention，混合稀疏注意力）路线，把全局注意力和局部稀疏窗口混编，目的是把上下文窗口拉到百万 token 量级而不让显存爆炸。但 MSA 的代价是：算子结构跟标准 Transformer 不一样，主流推理框架里没有现成的 fused kernel，谁都得重新写一遍。

这也是为什么「Day-0 适配」在今天还有含金量。模型架构越往非标准走，谁能在第一时间把算子搞定，谁就能截住第一波 try-out 流量。

MTT S5000 这边做了什么

摩尔线程这次给出的硬件参数和优化路径，是按 M3 的痛点逐个对的：

算力侧：MTT S5000 单卡稠密 FP8 算力 1000 TFLOPS，硬件级原生 FP8 加速。M3 在推理时大量用 FP8，这点直接对上。
显存与带宽：80GB HBM、1.6TB/s 带宽。百万 token 上下文场景下，KV Cache 动辄几十 GB，带宽吃满是常态——这套配置基本是冲着「单卡跑长上下文」去的。
算子迁移：MUSA C++ 与 Triton-MUSA 抽象层。Triton-MUSA 这条路是关键，意味着开发者写一遍 Triton kernel，能在 MUSA 平台上直接跑，不用为每张卡重写 CUDA。M3 的 MSA 新算子之所以能在 Day-0 跑起来，靠的就是这层抽象。

再往上是框架层。这次摩尔线程同步拉起了 vLLM 和 SGLang 两套主流推理框架——选择是有讲究的。vLLM 在 batch serving、PagedAttention 上是工业部署的事实标准；SGLang 则在结构化输出、Agentic workflow、RadixAttention 缓存复用上更激进。M3 本身是奔着编程和智能体场景去的，SGLang 的支持几乎是必选项。

Coding 和 Agent，是 M3 也是 S5000 的主战场

MiniMax 这一代 M3 重点强化了两块：代码生成和智能体调用。这两个场景对推理基础设施的要求是反直觉的——

它们看上去 token 输出量不大，但 prefill 阶段的上下文极长（整个仓库、整个工具链文档塞进去），而且 多轮交互导致 KV Cache 复用率极高。一个 Agent 任务里，前几轮的 context 几乎不变，每次都重新算 prefill 是巨大浪费。

摩尔线程在适配 Blog 里提到，他们针对 M3 做了「原生算子定制」，在精度无损前提下提升吞吐、降低延迟。结合此前对 DeepSeek-V4 和 GLM-5.1 的适配经验，已经形成一套针对「长 prefill + 短 decode + 高缓存复用」场景的优化方法论。这个方向是对的——光堆算力打 MMLU 没用，真实的 Agent workload 是另一回事。

全精度覆盖：从研发到落地的一条龙

值得单独拎出来说的是 MTT S5000 的精度矩阵——FP8 到 FP64 全覆盖。

这个事在 AI 推理卡里其实不算常见。多数推理卡为了能效，会把 FP32/FP64 算力砍得很狠，专心做 FP16/INT8。但 MTT S5000 把 FP64 也留着，对应的是科学计算和 HPC 场景；FP32 留给训练 fine-tune；FP16/BF16 给标准推理；FP8 给最新的旗舰推理负载。

这背后是国产卡的现实选择：用户买一张卡，希望能从模型研发一直用到商业化落地，不愿意为不同精度买不同硬件。S5000 这套配置是「训推一体」的真实定义，不是 PPT 上的概念。

MUSA 软件栈与双框架部署架构图

部署体验：MUSA + vLLM/SGLang

对开发者来说，最关心的是「我现在能不能直接用」。答案是：能。

基于 MUSA 软件栈，搭配 vLLM 或 SGLang，部署路径已经跑通。需要注意的几个点：

MUSA SDK 版本：建议升级到最新稳定版，M3 的算子优化是跟着 SDK 一起放出来的，老版本跑得起来但性能差距明显。
框架选择：纯 chat/completion 场景上 vLLM 更省事；如果做 Agent、function calling、结构化输出，SGLang 的 RadixAttention 能省下大量重复 prefill。
长上下文调优：百万 token 场景下，KV Cache 量化、PagedAttention 的 block size、prefix caching 这几个开关要根据实际 workload 调，默认值不是最优。

摩尔线程说后续会持续放出算子级性能优化补丁——这事在国产 GPU 圈很重要，因为 Day-0 跑起来只是起点，后面几周的迭代速度才决定能不能真正进入生产。

一个更大的趋势

回到行业层面看，2026 年这半年发生的事情很值得琢磨：国产开源大模型的发布节奏越来越快，DeepSeek、MiniMax、智谱、阶跃几家几乎每个季度都有大版本；同时国产 GPU 的 Day-0 适配也成了「标配动作」——你发模型当天我就跑通，否则就是失职。

这种闭环的形成，意味着「国产模型只能在 H100 上跑」的时代基本结束了。不是说性能完全追平，但「能用、好用、能进生产」这三个门槛已经过了。对开发者来说，多一个选择就是多一份议价权。

顺带一提，OpenAI Hub 已经支持通过统一 Key 调用 MiniMax M3，兼容 OpenAI 格式，国内直连。如果你只是想先试试 M3 的效果再决定是不是自建推理，可以直接走 API；要做大规模部署，再考虑摩尔线程这套国产化方案。两条路并不冲突。

写在最后

MTT S5000 + M3 这件事，单看是一次普通的适配公告。但放到过去 12 个月的脉络里看，国产 AI 算力栈在模型适配速度、框架生态对接、精度覆盖这几个维度上，确实在快速逼近主流水准。

剩下的问题是性能——同 batch、同上下文长度下，S5000 跑 M3 的吞吐和延迟到底跟 H100/H200 差多少。这个数据摩尔线程暂时没公开，但按惯例后续 Blog 会放。等基准出来，再来看这次 Day-0 的成色到底有多硬。

参考来源

IT之家：Day-0 支持，摩尔线程完成 MiniMax M3 大模型适配 — 包含 MTT S5000 硬件参数与适配技术细节的完整披露

MiniMax M3 开源当天，摩尔线程 S5000 完成 Day-0 适配

国产 GPU 这次没掉队

先说 MiniMax M3 自己

MTT S5000 这边做了什么

Coding 和 Agent，是 M3 也是 S5000 的主战场

全精度覆盖：从研发到落地的一条龙

部署体验：MUSA + vLLM/SGLang

一个更大的趋势

写在最后

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们