华为存储让大模型推理提速372%

华为与湖北移动完成全国首个长序列大模型推理加速现网测试,通过 UCM 技术将 KV Cache 扩展至 PB 级外置存储,在 128K 序列场景下 Token 吞吐率最高提升 372%。
华为和湖北移动刚刚交出一份成绩单:在运营商现网环境下,长序列大模型推理的 Token 吞吐率最高提升了 372%。
这个数字来自 6 月 24 日 MWC 上海展期间双方联合发布的测试结果。测试对象是 MiniMax M2.5 和 GLM-5.1 两款主流大模型,序列长度覆盖 8K 到 190K——这基本涵盖了当前 AI 应用最常见的长上下文场景。
问题出在哪
要理解这个测试的意义,得先搞清楚长序列推理为什么难。
大模型在推理时需要维护一个叫 KV Cache 的数据结构,用来存储已处理 Token 的键值对信息,避免重复计算。上下文越长,KV Cache 就越大。问题是,GPU/NPU 的高带宽内存(HBM)容量有限,通常只有几十到上百 GB。当 KV Cache 撑爆 HBM,要么丢弃旧数据导致质量下降,要么频繁换入换出拖慢速度。
这在 Agent 时代尤其致命。智能体需要处理超长代码、多轮对话历史、复杂文档分析,动辄就是几十上百 K 的上下文。传统方案在这种场景下捉襟见肘。
华为的解法:把 KV Cache 搬到存储上
华为在 2025 年底推出的 UCM(Unified Cache Manager,推理记忆数据管理)技术,思路很直接:既然 HBM 不够用,就用外置存储来扩展。
具体来说,UCM 做了几件事:
- 容量扩展:通过 OceanStor A800 存储提供 PB 级的 KV Cache 空间,彻底打破 HBM 容量天花板
- 分层管理:对 KV Cache 进行全生命周期的分层调度,热数据留在 HBM,温数据放 DRAM,冷数据沉到存储
- 跨会话复用:多轮对话可以复用历史 KV Cache,不用每次都从头算
这个思路在学术界不算新鲜,但华为把它工程化落地到运营商现网环境,并且跑出了可量化的收益,这是首次。
测试细节
这次测试的硬件底座是华为昇腾 A3 超节点 + OceanStor A800 存储,软件层跑的是 vLLM-Ascend 推理框架。测试指标主要看两个:
- TTFT(Time To First Token):首 Token 延迟,衡量响应速度
- TPS(Tokens Per Second):单卡 Token 输出效率,衡量吞吐能力
MiniMax M2.5 场景
| 序列长度 | TTFT 优化 | TPS 提升 | |---------|----------|----------| | 64K | 26%~62% | 58% | | 128K | 26%~62% | 78% |
GLM-5.1 场景
| 序列长度 | TTFT 优化 | TPS 提升 | |---------|----------|----------| | 64K | 51%~93% | 313% | | 128K | 51%~93% | 372% |
有意思的是,序列越长,UCM 的优势越明显。64K 时 GLM-5.1 的 TPS 提升 313%,到 128K 直接飙到 372%。这说明 UCM 确实解决了长序列场景下 KV Cache 的瓶颈问题,而不是在短序列上刷数字。
技术架构拆解
整个方案的技术栈可以分成三层:
计算层:昇腾 A3 超节点,这是华为最新的 AI 推理硬件,NPU 算力和互联带宽都有大幅提升。
框架层:vLLM-Ascend,是 vLLM 的昇腾适配版本。vLLM 本身就以高效的内存管理著称,PagedAttention 机制让 KV Cache 的管理更灵活,和 UCM 的分层调度天然契合。
存储层:OceanStor A800,华为的全闪存储旗舰,低延迟高带宽,能跟得上推理的数据吞吐需求。
这三层的配合是关键。如果存储延迟太高,KV Cache 换入换出的开销会吃掉计算收益;如果框架层不支持细粒度的缓存管理,UCM 的分层调度也发挥不出来。
对行业的意义
这个测试虽然是在湖北移动的环境下完成的,但它验证的技术路线对整个行业都有参考价值。
对云厂商和运营商:运营商的 AI 业务正在快速增长,湖北移动自己就有中国移动智算中心(武汉),已建成 1500P 算力,计划扩容到 6800P。推理加速方案能直接提升这些算力的利用效率和服务能力。
对模型厂商:MiniMax 和智谱都是国内头部大模型公司,他们的模型在这套方案上跑出了不错的效果,说明 UCM 对主流模型有普适性,不是针对特定模型优化的。
对企业用户:长上下文能力是 AI 落地的刚需。代码生成要看整个项目上下文,客服对话要记住历史交互,文档分析要处理几十页的材料。推理成本降下来,这些场景的 ROI 才能算得过来。
华为的 AI 基础设施布局
把这次测试放到更大的背景下看,华为在 AI 基础设施上的布局已经相当完整:
- 芯片:昇腾系列 AI 处理器,从训练到推理全覆盖
- 计算平台:Atlas 系列服务器和超节点
- 框架:MindSpore 深度学习框架,以及 vLLM-Ascend 等开源框架适配
- 存储:OceanStor 全闪存储,针对 AI 场景优化
- 软件:UCM 这样的系统级优化技术
这套组合拳的逻辑是:AI 推理的瓶颈在不断转移,从单纯的算力,到内存带宽,再到存储 I/O。只做芯片或者只做存储都不够,得把整个数据通路打通才能释放性能。
和其他方案的比较
市面上解决长序列推理问题的思路大致有几种:
1. 模型层面:通过稀疏注意力、滑动窗口等技术减少 KV Cache 的大小,代表是 Mistral 的 Sliding Window Attention。优点是不需要改硬件,缺点是对模型能力有损。
2. 算法层面:KV Cache 压缩、量化、选择性丢弃等。同样是在模型侧做文章,trade-off 类似。
3. 系统层面:就是华为这次展示的思路,用更大容量的存储来承载 KV Cache。优点是对模型透明,不影响输出质量;缺点是需要存储和计算的协同优化,技术门槛更高。
4. 分布式推理:把一个长序列拆到多张卡上并行处理。适合超长序列,但通信开销大,成本也高。
华为的方案属于第三种,走的是「硬件+系统」协同优化的路线。这条路更重,但天花板也更高——模型层面的优化总会遇到质量下降的边界,而存储扩展理论上可以无限叠加。
落地还需要解决什么
当然,从测试到大规模商用还有距离。
成本:OceanStor A800 是企业级全闪存储,价格不便宜。对于中小规模的推理场景,这套方案的 ROI 需要仔细算。
通用性:这次测试是在昇腾生态内完成的,对于用 NVIDIA GPU 的用户来说,需要等待类似的适配方案。
运维复杂度:引入外置存储意味着系统架构变复杂,故障点增多,运维团队需要有相应的能力储备。
这些问题不是技术障碍,更多是商业和生态层面的事情。华为选择和运营商合作做首个现网测试,本身也是在为后续的规模化落地铺路。
运营商的 AI 野心
湖北移动在这次合作中不只是提供测试环境。从他们近两年的动作看,运营商对 AI 的投入相当激进。
2024 年 1 月,中国移动智算中心(武汉)开放运营,立足武汉辐射湘鄂赣,是中国移动全国首个落地运营的区域中心节点。2024 年底计划扩容至 6800P,成为华中地区规模最大的智算中心。
2024 年 11 月,湖北移动长江研究院及中国移动大模型产业创新基地(湖北)揭牌,科研方向包括人工智能、5G-A/6G、北斗和卫星互联网、低空经济。
运营商做 AI 有天然优势:有算力基础设施、有网络覆盖、有政企客户资源。但他们缺的是软件和算法能力,这恰好是和华为合作的互补点。
写在最后
372% 的提升是个漂亮的数字,但更值得关注的是这背后的技术趋势:AI 推理正在从「算力驱动」转向「系统驱动」。
单纯堆 GPU 的时代正在过去。当模型规模和上下文长度持续增长,内存墙、存储墙会依次成为瓶颈。谁能把计算、内存、存储、网络这些环节协同优化好,谁就能在推理效率上建立优势。
华为这次展示的方案,是这个方向上的一个有效验证。至于能否成为行业标准做法,还要看后续的成本优化和生态推广。
参考来源
- IT之家:华为与湖北移动完成全国运营商首个 AI 推理加速方案现网测试 - 原始新闻报道,包含完整测试数据



