华为与湖北移动完成首个长序列大模型推理加速测试，Token吞吐率提升372%

华为与湖北移动完成全国首个长序列大模型推理加速现网测试，通过 UCM 技术将 KV Cache 扩展至 PB 级外置存储，在 128K 序列场景下 Token 吞吐率最高提升 372%。

华为和湖北移动刚刚交出一份成绩单：在运营商现网环境下，长序列大模型推理的 Token 吞吐率最高提升了 372%。

这个数字来自 6 月 24 日 MWC 上海展期间双方联合发布的测试结果。测试对象是 MiniMax M2.5 和 GLM-5.1 两款主流大模型，序列长度覆盖 8K 到 190K——这基本涵盖了当前 AI 应用最常见的长上下文场景。

问题出在哪

要理解这个测试的意义，得先搞清楚长序列推理为什么难。

大模型在推理时需要维护一个叫 KV Cache 的数据结构，用来存储已处理 Token 的键值对信息，避免重复计算。上下文越长，KV Cache 就越大。问题是，GPU/NPU 的高带宽内存（HBM）容量有限，通常只有几十到上百 GB。当 KV Cache 撑爆 HBM，要么丢弃旧数据导致质量下降，要么频繁换入换出拖慢速度。

这在 Agent 时代尤其致命。智能体需要处理超长代码、多轮对话历史、复杂文档分析，动辄就是几十上百 K 的上下文。传统方案在这种场景下捉襟见肘。

华为的解法：把 KV Cache 搬到存储上

华为在 2025 年底推出的 UCM（Unified Cache Manager，推理记忆数据管理）技术，思路很直接：既然 HBM 不够用，就用外置存储来扩展。

具体来说，UCM 做了几件事：

容量扩展：通过 OceanStor A800 存储提供 PB 级的 KV Cache 空间，彻底打破 HBM 容量天花板
分层管理：对 KV Cache 进行全生命周期的分层调度，热数据留在 HBM，温数据放 DRAM，冷数据沉到存储
跨会话复用：多轮对话可以复用历史 KV Cache，不用每次都从头算

这个思路在学术界不算新鲜，但华为把它工程化落地到运营商现网环境，并且跑出了可量化的收益，这是首次。

测试细节

这次测试的硬件底座是华为昇腾 A3 超节点 + OceanStor A800 存储，软件层跑的是 vLLM-Ascend 推理框架。测试指标主要看两个：

TTFT（Time To First Token）：首 Token 延迟，衡量响应速度
TPS（Tokens Per Second）：单卡 Token 输出效率，衡量吞吐能力

MiniMax M2.5 场景

| 序列长度 | TTFT 优化 | TPS 提升 | |---------|----------|----------| | 64K | 26%~62% | 58% | | 128K | 26%~62% | 78% |

GLM-5.1 场景

| 序列长度 | TTFT 优化 | TPS 提升 | |---------|----------|----------| | 64K | 51%~93% | 313% | | 128K | 51%~93% | 372% |

有意思的是，序列越长，UCM 的优势越明显。64K 时 GLM-5.1 的 TPS 提升 313%，到 128K 直接飙到 372%。这说明 UCM 确实解决了长序列场景下 KV Cache 的瓶颈问题，而不是在短序列上刷数字。

技术架构拆解

整个方案的技术栈可以分成三层：

计算层：昇腾 A3 超节点，这是华为最新的 AI 推理硬件，NPU 算力和互联带宽都有大幅提升。

框架层：vLLM-Ascend，是 vLLM 的昇腾适配版本。vLLM 本身就以高效的内存管理著称，PagedAttention 机制让 KV Cache 的管理更灵活，和 UCM 的分层调度天然契合。

存储层：OceanStor A800，华为的全闪存储旗舰，低延迟高带宽，能跟得上推理的数据吞吐需求。

这三层的配合是关键。如果存储延迟太高，KV Cache 换入换出的开销会吃掉计算收益；如果框架层不支持细粒度的缓存管理，UCM 的分层调度也发挥不出来。

对行业的意义

这个测试虽然是在湖北移动的环境下完成的，但它验证的技术路线对整个行业都有参考价值。

对云厂商和运营商：运营商的 AI 业务正在快速增长，湖北移动自己就有中国移动智算中心（武汉），已建成 1500P 算力，计划扩容到 6800P。推理加速方案能直接提升这些算力的利用效率和服务能力。

对模型厂商：MiniMax 和智谱都是国内头部大模型公司，他们的模型在这套方案上跑出了不错的效果，说明 UCM 对主流模型有普适性，不是针对特定模型优化的。

对企业用户：长上下文能力是 AI 落地的刚需。代码生成要看整个项目上下文，客服对话要记住历史交互，文档分析要处理几十页的材料。推理成本降下来，这些场景的 ROI 才能算得过来。

华为的 AI 基础设施布局

把这次测试放到更大的背景下看，华为在 AI 基础设施上的布局已经相当完整：

芯片：昇腾系列 AI 处理器，从训练到推理全覆盖
计算平台：Atlas 系列服务器和超节点
框架：MindSpore 深度学习框架，以及 vLLM-Ascend 等开源框架适配
存储：OceanStor 全闪存储，针对 AI 场景优化
软件：UCM 这样的系统级优化技术

这套组合拳的逻辑是：AI 推理的瓶颈在不断转移，从单纯的算力，到内存带宽，再到存储 I/O。只做芯片或者只做存储都不够，得把整个数据通路打通才能释放性能。

和其他方案的比较

市面上解决长序列推理问题的思路大致有几种：

1. 模型层面：通过稀疏注意力、滑动窗口等技术减少 KV Cache 的大小，代表是 Mistral 的 Sliding Window Attention。优点是不需要改硬件，缺点是对模型能力有损。

2. 算法层面：KV Cache 压缩、量化、选择性丢弃等。同样是在模型侧做文章，trade-off 类似。

3. 系统层面：就是华为这次展示的思路，用更大容量的存储来承载 KV Cache。优点是对模型透明，不影响输出质量；缺点是需要存储和计算的协同优化，技术门槛更高。

4. 分布式推理：把一个长序列拆到多张卡上并行处理。适合超长序列，但通信开销大，成本也高。

华为的方案属于第三种，走的是「硬件+系统」协同优化的路线。这条路更重，但天花板也更高——模型层面的优化总会遇到质量下降的边界，而存储扩展理论上可以无限叠加。

落地还需要解决什么

当然，从测试到大规模商用还有距离。

成本：OceanStor A800 是企业级全闪存储，价格不便宜。对于中小规模的推理场景，这套方案的 ROI 需要仔细算。

通用性：这次测试是在昇腾生态内完成的，对于用 NVIDIA GPU 的用户来说，需要等待类似的适配方案。

运维复杂度：引入外置存储意味着系统架构变复杂，故障点增多，运维团队需要有相应的能力储备。

这些问题不是技术障碍，更多是商业和生态层面的事情。华为选择和运营商合作做首个现网测试，本身也是在为后续的规模化落地铺路。

运营商的 AI 野心

湖北移动在这次合作中不只是提供测试环境。从他们近两年的动作看，运营商对 AI 的投入相当激进。

2024 年 1 月，中国移动智算中心（武汉）开放运营，立足武汉辐射湘鄂赣，是中国移动全国首个落地运营的区域中心节点。2024 年底计划扩容至 6800P，成为华中地区规模最大的智算中心。

2024 年 11 月，湖北移动长江研究院及中国移动大模型产业创新基地（湖北）揭牌，科研方向包括人工智能、5G-A/6G、北斗和卫星互联网、低空经济。

运营商做 AI 有天然优势：有算力基础设施、有网络覆盖、有政企客户资源。但他们缺的是软件和算法能力，这恰好是和华为合作的互补点。

写在最后

372% 的提升是个漂亮的数字，但更值得关注的是这背后的技术趋势：AI 推理正在从「算力驱动」转向「系统驱动」。

单纯堆 GPU 的时代正在过去。当模型规模和上下文长度持续增长，内存墙、存储墙会依次成为瓶颈。谁能把计算、内存、存储、网络这些环节协同优化好，谁就能在推理效率上建立优势。

华为这次展示的方案，是这个方向上的一个有效验证。至于能否成为行业标准做法，还要看后续的成本优化和生态推广。

参考来源

IT之家：华为与湖北移动完成全国运营商首个 AI 推理加速方案现网测试 - 原始新闻报道，包含完整测试数据

华为存储让大模型推理提速372%