DeepSeek-V4-Flash Day-0 适配国产 GPU MTT S5000，摩尔线程与智源联合突破

摩尔线程联合智源 FlagOS，在旗舰 GPU MTT S5000 上完成 DeepSeek-V4-Flash 模型 Day-0 适配，凭借原生 FP8 能力实现核心算子深度优化，TTFT 时延降低 16.5%，吞吐量提升 65.7%，国产算力生态再下一城。

DeepSeek-V4-Flash 完成国产 GPU Day-0 适配：摩尔线程与智源联合突破

4 月 24 日，摩尔线程联合智源众智 FlagOS 社区宣布，在旗舰级 AI 训推一体 GPU MTT S5000 上完成了 DeepSeek-V4-Flash 大模型的 Day-0 极速适配，并实现全量核心算子深度优化与部署支持。

所谓 Day-0 适配，就是模型发布当天即完成国产硬件上的跑通与优化——不是跑个 demo 交差，而是要做到算子级深度适配、实际可部署的程度。这已经是摩尔线程连续第三次在国产大模型发布时做到这一点了，此前 MiniMax M2.7、智谱 GLM-5 的适配节奏都是同样的打法。

这件事本身不算意外，但放在当下的语境里，信号意义比技术意义更大。

为什么这次适配值得关注

DeepSeek-V4-Flash 不是一个普通的模型迭代。它采用 MoE（混合专家）架构，总参数量 284B，激活参数 13B，支持百万 token 上下文长度，预训练数据超 32T token。在 Flash-Max 模式下，推理能力已经逼近 Pro 版本。

但真正让这次适配变得有技术含量的，是 DeepSeek-V4 首次采用了 FP4+FP8 混合精度策略。

这里需要解释一下为什么这很重要。当前国内主流 AI 芯片——包括华为昇腾在内——普遍以 BF16（Brain Float 16）为主要计算精度。BF16 是 16 位浮点数，每个参数占 2 字节。而 FP8 是 8 位浮点数，每个参数只占 1 字节。

简单做个类比：如果说 BF16 是用双车道运货，FP8 就是把货物体积压缩了一半，同样的道路一次能运两倍的量。具体到 GPU 上，这意味着：

显存带宽压力降低 50%——同样的显存带宽能喂更多数据给计算单元
理论计算吞吐量翻倍——Tensor Core 每个周期能处理更多数据
显存占用更低——同样的显卡能装更大的模型

问题在于，你的芯片得原生支持 FP8 才行。如果硬件不支持，就只能用软件模拟，性能会大打折扣。

MTT S5000 GPU 与 DeepSeek-V4-Flash 适配架构示意图

MTT S5000：国产 GPU 的 FP8 先手棋

摩尔线程的 MTT S5000 恰好是国内最早原生支持 FP8 精度的训练 GPU 之一。这不是巧合，而是产品定义时的前瞻判断。

来看 MTT S5000 的核心参数：

| 指标 | MTT S5000 | |------|----------| | 显存容量 | 80GB | | 显存带宽 | 1.6TB/s | | FP8 AI 算力 | 1000 TFLOPS（1 PFLOPS） | | 多卡互联带宽 | 784GB/s | | 精度支持 | FP8 ~ FP64 全精度 | | 架构 | 第四代 MUSA「平湖」 |

单卡 FP8 算力达到 1 PFLOPS——每秒 1 千万亿次计算。对比上代 MTT S4000，显存提升 67%，带宽提升 113%。内置硬件级 FP8 Tensor Core 加速单元，不是软件模拟，是真正的硬件原生支持。

在业内实测中，MTT S5000 的性能已经可以对标 NVIDIA H100，在多模态大模型微调任务中部分场景甚至超越 H100，推理性能约为 H20 的 2.5 倍。

这些数字意味着什么？意味着当 DeepSeek-V4 决定走 FP4+FP8 混合精度路线时，MTT S5000 是国产阵营里少数不需要"将就"的选择。

适配攻坚：FP8 算子与 Sparse Attention

当然，硬件支持 FP8 只是第一步。要让 DeepSeek-V4-Flash 在 MTT S5000 上真正跑起来、跑得好，还需要在软件栈上做大量工作。

通过系统级分析，摩尔线程与 FlagOS 双方技术团队将攻坚重点锁定在两个方向：

1. FP8 算子优化

FlagOS 团队为 DeepSeek-V4 模型进行了 FP8 量化。这不是简单地把权重从 BF16 转成 FP8——精度降低会导致模型效果退化，需要精心设计量化策略，确保关键层的精度损失在可接受范围内。

对于 MoE 架构来说，这尤其复杂。284B 总参数中只有 13B 被激活，意味着不同的 Expert 在不同的输入下会被选中，量化策略需要覆盖所有 Expert 的精度需求，而不仅仅是平均情况。

2. Sparse Attention 算子优化

百万 token 上下文意味着 Attention 矩阵会非常庞大。DeepSeek-V4 使用了 Sparse Attention（稀疏注意力）来降低计算量，但这也意味着访存模式变得不规则，对 GPU 的内存子系统提出了更高要求。

在这两个方向上，团队在编译优化与自动调优两个维度取得了突破：

编译优化：针对 MUSA 架构特性，对 FP8 算子和 Sparse Attention 算子的计算图进行了深度优化，减少冗余计算和不必要的数据搬运
自动调优（FlagOS-Tune）：通过自动搜索最优内核配置，替代传统的手工调优。这一点很关键——手工调优依赖工程师经验，效率低、覆盖面窄；自动调优可以在更大的搜索空间中找到最优解

实测效果相当亮眼：

| 指标 | 优化效果 | |------|----------| | TTFT（首 Token 时延） | 降低 16.5% | | ITL（Token 间时延） | 降低 39.7% | | 吞吐量 | 提升 65.7% |

TTFT 降低 16.5% 意味着用户等待第一个字输出的时间缩短了近两成。ITL 降低 39.7% 意味着后续每个字的生成速度快了近四成。吞吐量提升 65.7% 意味着同样的硬件资源可以服务更多并发用户。

这三个数字加在一起，对于实际部署来说是实打实的成本节约。

更大的图景：国产算力生态的加速收敛

把视角拉远一点，这次适配是国产算力生态加速成熟的一个缩影。

4 月初，DeepSeek-V4 已经全面转向华为昇腾芯片并完成开源发布，实现了万亿参数规模完全基于国产算力落地。现在摩尔线程又在 MTT S5000 上完成了 Day-0 适配。这意味着 DeepSeek-V4 在国产算力平台上已经有了至少两个可选的硬件方案。

多元供给，对模型开发者来说是好事。

回顾一下时间线：

2025 年 12 月：摩尔线程联合硅基流动完成 DeepSeek-V3 671B 满血版在 MTT S5000 上的适配，单卡 Prefill 吞吐超 4000 tokens/s，Decode 吞吐超 1000 tokens/s
2026 年 1 月：智源基于 MTT S5000 千卡集群完成 RoboBrain 2.5 端到端训练，与 H100 集群训练 loss 差异仅 0.62%
2026 年 3 月：DeepSeek 开源 TileLang 语言，华为、寒武纪当日完成 Day-0 适配；摩尔 MUSA 宣称支持 PyTorch "零成本迁移"
2026 年 4 月：DeepSeek-V4 全面转向昇腾；摩尔线程完成 V4-Flash Day-0 适配

可以看到一个清晰的趋势：国产 GPU 从"能跑"到"跑得好"，从"事后适配"到"Day-0 同步"，迭代速度在明显加快。

更值得注意的是，摩尔线程已经在推进更大规模的 DeepSeek-V4-Pro（1.6T 参数） 在 MTT S5000 上的迁移适配。1.6 万亿参数，这对国产 GPU 的集群通信、显存管理、计算效率都是更大的考验。

几个值得思考的问题

FP8 会成为国产 GPU 的分水岭吗？

当 DeepSeek 这样的头部模型开始采用 FP4+FP8 混合精度，而不是停留在 BF16 时，硬件端的 FP8 支持就从"加分项"变成了"必选项"。目前国产阵营中，摩尔线程的 MTT S5000 是少数原生支持 FP8 的选手。其他厂商如果不跟进，在承载新一代模型时会越来越吃力。

这有点像当年 GPU 从单精度（FP32）向半精度（FP16）迁移的过程——一旦模型端形成共识，硬件端不跟上就会被淘汰。

Day-0 适配的意义到底是什么？

表面上看，Day-0 适配是一个营销动作——模型发布当天就宣布支持，抢占心智。但背后反映的是国产 GPU 厂商与模型厂商之间的深度协同。

要做到 Day-0，意味着双方在模型正式发布前就已经进行了联合开发和测试。这种上下游的紧密配合，在 NVIDIA 生态中是常态（NVIDIA 会提前向合作伙伴提供新硬件和驱动），但在国产生态中还是比较新鲜的。

如果这种协同模式能持续下去，国产算力生态的成熟速度会比很多人预期的更快。

软件栈才是真正的护城河

这次适配中，FlagOS-Tune 自动调优带来的性能提升（吞吐量 +65.7%）远超手工优化的效果。这说明一个道理：在硬件性能逐渐追上的情况下，软件栈的成熟度才是决定实际体验的关键因素。

摩尔线程的 MUSA 生态、智源的 FlagOS 平台，加上 DeepSeek 开源的 TileLang 语言，国产软件栈正在从"能用"向"好用"演进。但和 CUDA 生态的差距仍然巨大，这不是一两次 Day-0 适配能弥补的。

写在最后

国产 GPU 的故事，正在从"我也能做"变成"我做得不比你差"。MTT S5000 在 FP8 上的前瞻布局，让它在 DeepSeek-V4 的精度变革中占到了先机。而 Day-0 适配这种模式的常态化，正在重塑国产算力生态的协同效率。

当然，清醒的判断也不能少：单次适配的成功不等于生态的成熟，MTT S5000 对标 H100 不等于追上了 NVIDIA 的整体节奏（Blackwell 架构已经在大规模部署了），FP8 的先发优势也需要持续的软件生态投入来巩固。

但方向是对的，速度在加快。这就够了。

对于开发者来说，如果你在关注国产算力方案，MTT S5000 + FlagOS 的组合值得列入评估清单——尤其是在 DeepSeek-V4 系列模型的推理部署场景下。

参考来源

IT之家：摩尔线程携手智源 FlagOS，为 MTT S5000 GPU 完成 DeepSeek-V4 模型 Day-0 适配 — 摩尔线程与智源联合完成 DeepSeek-V4-Flash 适配的首发报道

DeepSeek-V4-Flash Day-0 适配国产GPU

DeepSeek-V4-Flash 完成国产 GPU Day-0 适配：摩尔线程与智源联合突破

为什么这次适配值得关注

MTT S5000：国产 GPU 的 FP8 先手棋

适配攻坚：FP8 算子与 Sparse Attention

更大的图景：国产算力生态的加速收敛

几个值得思考的问题

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们