DeepSeek-V4-Flash 完成国产 GPU Day-0 适配:摩尔线程与智源联合突破
4 月 24 日,摩尔线程联合智源众智 FlagOS 社区宣布,在旗舰级 AI 训推一体 GPU MTT S5000 上完成了 DeepSeek-V4-Flash 大模型的 Day-0 极速适配,并实现全量核心算子深度优化与部署支持。
所谓 Day-0 适配,就是模型发布当天即完成国产硬件上的跑通与优化——不是跑个 demo 交差,而是要做到算子级深度适配、实际可部署的程度。这已经是摩尔线程连续第三次在国产大模型发布时做到这一点了,此前 MiniMax M2.7、智谱 GLM-5 的适配节奏都是同样的打法。
这件事本身不算意外,但放在当下的语境里,信号意义比技术意义更大。
为什么这次适配值得关注
DeepSeek-V4-Flash 不是一个普通的模型迭代。它采用 MoE(混合专家)架构,总参数量 284B,激活参数 13B,支持百万 token 上下文长度,预训练数据超 32T token。在 Flash-Max 模式下,推理能力已经逼近 Pro 版本。
但真正让这次适配变得有技术含量的,是 DeepSeek-V4 首次采用了 FP4+FP8 混合精度策略。
这里需要解释一下为什么这很重要。当前国内主流 AI 芯片——包括华为昇腾在内——普遍以 BF16(Brain Float 16)为主要计算精度。BF16 是 16 位浮点数,每个参数占 2 字节。而 FP8 是 8 位浮点数,每个参数只占 1 字节。
简单做个类比:如果说 BF16 是用双车道运货,FP8 就是把货物体积压缩了一半,同样的道路一次能运两倍的量。具体到 GPU 上,这意味着:
- 显存带宽压力降低 50%——同样的显存带宽能喂更多数据给计算单元
- 理论计算吞吐量翻倍——Tensor Core 每个周期能处理更多数据
- 显存占用更低——同样的显卡能装更大的模型
问题在于,你的芯片得原生支持 FP8 才行。如果硬件不支持,就只能用软件模拟,性能会大打折扣。

MTT S5000:国产 GPU 的 FP8 先手棋
摩尔线程的 MTT S5000 恰好是国内最早原生支持 FP8 精度的训练 GPU 之一。这不是巧合,而是产品定义时的前瞻判断。
来看 MTT S5000 的核心参数:
| 指标 | MTT S5000 |
|---|---|
| 显存容量 | 80GB |
| 显存带宽 | 1.6TB/s |
| FP8 AI 算力 | 1000 TFLOPS(1 PFLOPS) |
| 多卡互联带宽 | 784GB/s |
| 精度支持 | FP8 ~ FP64 全精度 |
| 架构 | 第四代 MUSA「平湖」 |
单卡 FP8 算力达到 1 PFLOPS——每秒 1 千万亿次计算。对比上代 MTT S4000,显存提升 67%,带宽提升 113%。内置硬件级 FP8 Tensor Core 加速单元,不是软件模拟,是真正的硬件原生支持。
在业内实测中,MTT S5000 的性能已经可以对标 NVIDIA H100,在多模态大模型微调任务中部分场景甚至超越 H100,推理性能约为 H20 的 2.5 倍。
这些数字意味着什么?意味着当 DeepSeek-V4 决定走 FP4+FP8 混合精度路线时,MTT S5000 是国产阵营里少数不需要"将就"的选择。
适配攻坚:FP8 算子与 Sparse Attention
当然,硬件支持 FP8 只是第一步。要让 DeepSeek-V4-Flash 在 MTT S5000 上真正跑起来、跑得好,还需要在软件栈上做大量工作。
通过系统级分析,摩尔线程与 FlagOS 双方技术团队将攻坚重点锁定在两个方向:
1. FP8 算子优化
FlagOS 团队为 DeepSeek-V4 模型进行了 FP8 量化。这不是简单地把权重从 BF16 转成 FP8——精度降低会导致模型效果退化,需要精心设计量化策略,确保关键层的精度损失在可接受范围内。
对于 MoE 架构来说,这尤其复杂。284B 总参数中只有 13B 被激活,意味着不同的 Expert 在不同的输入下会被选中,量化策略需要覆盖所有 Expert 的精度需求,而不仅仅是平均情况。
2. Sparse Attention 算子优化
百万 token 上下文意味着 Attention 矩阵会非常庞大。DeepSeek-V4 使用了 Sparse Attention(稀疏注意力)来降低计算量,但这也意味着访存模式变得不规则,对 GPU 的内存子系统提出了更高要求。
在这两个方向上,团队在编译优化与自动调优两个维度取得了突破:
- 编译优化:针对 MUSA 架构特性,对 FP8 算子和 Sparse Attention 算子的计算图进行了深度优化,减少冗余计算和不必要的数据搬运
- 自动调优(FlagOS-Tune):通过自动搜索最优内核配置,替代传统的手工调优。这一点很关键——手工调优依赖工程师经验,效率低、覆盖面窄;自动调优可以在更大的搜索空间中找到最优解
实测效果相当亮眼:
| 指标 | 优化效果 |
|---|---|
| TTFT(首 Token 时延) | 降低 16.5% |
| ITL(Token 间时延) | 降低 39.7% |
| 吞吐量 | 提升 65.7% |
TTFT 降低 16.5% 意味着用户等待第一个字输出的时间缩短了近两成。ITL 降低 39.7% 意味着后续每个字的生成速度快了近四成。吞吐量提升 65.7% 意味着同样的硬件资源可以服务更多并发用户。
这三个数字加在一起,对于实际部署来说是实打实的成本节约。
更大的图景:国产算力生态的加速收敛
把视角拉远一点,这次适配是国产算力生态加速成熟的一个缩影。
4 月初,DeepSeek-V4 已经全面转向华为昇腾芯片并完成开源发布,实现了万亿参数规模完全基于国产算力落地。现在摩尔线程又在 MTT S5000 上完成了 Day-0 适配。这意味着 DeepSeek-V4 在国产算力平台上已经有了至少两个可选的硬件方案。
多元供给,对模型开发者来说是好事。
回顾一下时间线:
- 2025 年 12 月:摩尔线程联合硅基流动完成 DeepSeek-V3 671B 满血版在 MTT S5000 上的适配,单卡 Prefill 吞吐超 4000 tokens/s,Decode 吞吐超 1000 tokens/s
- 2026 年 1 月:智源基于 MTT S5000 千卡集群完成 RoboBrain 2.5 端到端训练,与 H100 集群训练 loss 差异仅 0.62%
- 2026 年 3 月:DeepSeek 开源 TileLang 语言,华为、寒武纪当日完成 Day-0 适配;摩尔 MUSA 宣称支持 PyTorch "零成本迁移"
- 2026 年 4 月:DeepSeek-V4 全面转向昇腾;摩尔线程完成 V4-Flash Day-0 适配
可以看到一个清晰的趋势:国产 GPU 从"能跑"到"跑得好",从"事后适配"到"Day-0 同步",迭代速度在明显加快。
更值得注意的是,摩尔线程已经在推进更大规模的 DeepSeek-V4-Pro(1.6T 参数) 在 MTT S5000 上的迁移适配。1.6 万亿参数,这对国产 GPU 的集群通信、显存管理、计算效率都是更大的考验。
几个值得思考的问题
FP8 会成为国产 GPU 的分水岭吗?
当 DeepSeek 这样的头部模型开始采用 FP4+FP8 混合精度,而不是停留在 BF16 时,硬件端的 FP8 支持就从"加分项"变成了"必选项"。目前国产阵营中,摩尔线程的 MTT S5000 是少数原生支持 FP8 的选手。其他厂商如果不跟进,在承载新一代模型时会越来越吃力。
这有点像当年 GPU 从单精度(FP32)向半精度(FP16)迁移的过程——一旦模型端形成共识,硬件端不跟上就会被淘汰。
Day-0 适配的意义到底是什么?
表面上看,Day-0 适配是一个营销动作——模型发布当天就宣布支持,抢占心智。但背后反映的是国产 GPU 厂商与模型厂商之间的深度协同。
要做到 Day-0,意味着双方在模型正式发布前就已经进行了联合开发和测试。这种上下游的紧密配合,在 NVIDIA 生态中是常态(NVIDIA 会提前向合作伙伴提供新硬件和驱动),但在国产生态中还是比较新鲜的。
如果这种协同模式能持续下去,国产算力生态的成熟速度会比很多人预期的更快。
软件栈才是真正的护城河
这次适配中,FlagOS-Tune 自动调优带来的性能提升(吞吐量 +65.7%)远超手工优化的效果。这说明一个道理:在硬件性能逐渐追上的情况下,软件栈的成熟度才是决定实际体验的关键因素。
摩尔线程的 MUSA 生态、智源的 FlagOS 平台,加上 DeepSeek 开源的 TileLang 语言,国产软件栈正在从"能用"向"好用"演进。但和 CUDA 生态的差距仍然巨大,这不是一两次 Day-0 适配能弥补的。
写在最后
国产 GPU 的故事,正在从"我也能做"变成"我做得不比你差"。MTT S5000 在 FP8 上的前瞻布局,让它在 DeepSeek-V4 的精度变革中占到了先机。而 Day-0 适配这种模式的常态化,正在重塑国产算力生态的协同效率。
当然,清醒的判断也不能少:单次适配的成功不等于生态的成熟,MTT S5000 对标 H100 不等于追上了 NVIDIA 的整体节奏(Blackwell 架构已经在大规模部署了),FP8 的先发优势也需要持续的软件生态投入来巩固。
但方向是对的,速度在加快。这就够了。
对于开发者来说,如果你在关注国产算力方案,MTT S5000 + FlagOS 的组合值得列入评估清单——尤其是在 DeepSeek-V4 系列模型的推理部署场景下。
参考来源
- IT之家:摩尔线程携手智源 FlagOS,为 MTT S5000 GPU 完成 DeepSeek-V4 模型 Day-0 适配 — 摩尔线程与智源联合完成 DeepSeek-V4-Flash 适配的首发报道