腾讯混元HPC-Ops算子库升级：五大新算子破推理瓶颈

腾讯混元AI Infra团队再次更新开源的HPC-Ops算子库，新增五大关键算子，专门解决Attention长尾延迟、显存搬运和跨卡通信等工程瓶颈，多项指标超越现有开源基线。

腾讯又往HPC-Ops里塞了五个算子，这次是冲着推理工程的真痛点去的

6月11日，腾讯混元AI Infra团队把开源的HPC-Ops算子库又推了一版升级，五个新算子一次性放出。要理解这次升级的分量，得先把时间线拉回今年2月——那时候HPC-Ops首次开源，靠着CUDA和CuTe从零手写，在真实生产场景里把混元模型的推理QPM干上去了30%，DeepSeek也跟着涨了17%。单算子层面，Attention对比FlashInfer/FlashAttention最高2.22倍，GroupGEMM对比DeepGEMM最高1.88倍，FusedMoE对比TensorRT-LLM最高1.49倍。这些数字在当时已经够让圈内人挑挑眉毛了。

四个月过去，新一波升级的目标更直白：把那些上线之后才会暴露的工程瓶颈一个个堵掉。

腾讯混元HPC-Ops算子库架构示意图

这次为什么是五个算子，而不是更宏大的叙事

做过推理部署的人都清楚一件事：benchmark跑得漂亮和线上扛得住，是两码事。一个算子在白皮书里平均延迟很低，但只要P99尾延迟一抖动，整个服务的SLA就会被拖垮。HPC-Ops这次升级的官方表述里有句话挺关键——「为了进一步满足推理系统对动态业务负载的适应性」。翻译成人话就是：之前那版在静态、规整的workload下打榜很猛，但真实流量是动态的、不规则的、长短交织的，那些场景里依然有油水可榨。

这次官方点名要解决的三类问题，全是工程层面的硬骨头：

Attention长尾延迟：在变长序列、连续批处理（continuous batching）场景下，长序列请求会拉爆整批的延迟分布
显存搬运开销：现代GPU的算力和HBM带宽差距越拉越大，很多时候算子不是被算力卡住，是被搬运卡住的
跨卡通信：单机多卡、多机多卡的张量并行/专家并行场景，AllReduce、All-to-All这些通信原语跟计算的重叠程度直接决定吞吐

这三个方向，正好对应HPC-Ops团队此前公布的路线图——稀疏Attention、混合精度量化、计算通信协同优化。这次的五大算子，基本就是把那张路线图往前推了一步。

把算子库当工程项目做，而不是论文项目

要说HPC-Ops跟其他开源算子库最不一样的地方，是它的「出身」。FlashAttention系列、FlashInfer走的是学院派路线，论文先行，跑通学术benchmark；DeepGEMM是DeepSeek开源的，主打FP8 GEMM；TensorRT-LLM是英伟达官方的，闭源核多。HPC-Ops的定位更像是「我们在生产环境踩了无数坑，把解决方案抽出来开源」。

这种出身决定了它的几个特点：

第一，抽象化的工程架构。算子开发这件事，过去要么用CUTLASS这种偏底层的模板库，要么直接写CUDA Kernel，前者门槛高，后者难维护。HPC-Ops的做法是在CuTe基础上做一层抽象，让上层的算子开发者不用每次都跟tile、layout、swizzle这些概念死磕。降低了开发门槛，团队迭代速度也就上来了。

第二，微架构深度适配。Hopper（H100/H800）和Blackwell（B200）这一代GPU，引入了TMA、WGMMA这些新的硬件特性，能不能把它们用好直接决定算子能不能逼近硬件峰值。HPC-Ops在这方面做得相当细，特别是Attention和GroupGEMM上，TMA的异步加载和WGMMA的warp group协作被充分利用起来。

第三，指令级极致优化。这就是脏活累活了——PTX层面的寄存器分配、bank conflict规避、指令调度，一点点抠出来的性能。普通团队没那个耐心，也没那个机会成本去做这件事，混元有真实的混元模型和外部客户的DeepSeek部署场景在压着，做这件事的ROI才打得正。

跟谁比，比的是什么

来对一下竞品。FlashAttention 3已经把Attention推到了H100上接近理论峰值的程度，HPC-Ops能在它基础上再做到2.22倍，听起来匪夷所思，但仔细看就明白——FlashAttention 3的强项是规整长序列，对变长场景的优化是比较克制的。HPC-Ops显然是把变长、稀疏、长尾这些情况单独做了路径优化，所以在某些特定shape下能拉开这么大差距。这也提醒一件事：看benchmark一定要看具体配置，「最高提升2.22倍」是峰值，不是平均。

GroupGEMM对比DeepGEMM也是同理。DeepGEMM主打FP8，是DeepSeek MoE路径上的核心算子，HPC-Ops做到1.88倍，多半是在Group数量大、每个Group的M较小的场景——也就是真实MoE推理时专家激活不均匀那种状况。FusedMoE对比TensorRT-LLM做到1.49倍，这个分量更重，因为TRT-LLM是英伟达官方的，能在它眼皮底下拿到50%的提升，说明HPC-Ops在MoE融合的路径设计上确实有想法。

HPC-Ops核心算子性能对比图

五大算子覆盖了哪些场景

虽然完整的技术细节要等代码仓库的更新和后续技术博客，但根据官方披露的三个方向，可以推测这次五大算子的大致分布：

稀疏/动态Attention类：针对长上下文场景，把KV Cache的访存压力降下来。现在大模型上下文动辄128K、200K，Attention的访存瓶颈才是真问题，算力反倒不缺。
量化GEMM/MoE类：混合精度的核心算子。4bit权重+8bit激活、W4A8这种组合在生产里越来越常见，把对应的高性能Kernel开源出来，对小团队部署大模型的友好度很高。
计算-通信协同类：把AllReduce、All-to-All融进GEMM或者MoE Kernel里，让通信跑在算力的影子里。这块是分布式推理最难啃的骨头，做好了能省下大量的跨卡等待时间。

# 典型的HPC-Ops算子使用方式（示意）
from hpc_ops import fused_moe, attention

# Fused MoE 调用
out = fused_moe(
    hidden_states,
    expert_weights,
    topk_ids,
    topk_weights,
    quant_type="w4a8",
    overlap_comm=True,  # 计算通信重叠
)

# 变长Attention调用
out = attention(
    q, k, v,
    cu_seqlens,
    sparse_pattern="block_sparse",  # 稀疏模式
    kv_cache_layout="paged",
)

这件事对开发者意味着什么

如果你是在自己机器上跑推理框架的中小团队，HPC-Ops能不能直接拿来用？答案是：可以，但有门槛。

好处是显而易见的：

直接节省成本：QPM提升30%意味着同样的GPU能多扛30%的流量，反过来说同样的流量能少买30%的卡。这笔账算下来不是小数。
国产模型友好：DeepSeek也吃到了17%的提升，说明HPC-Ops不是只优化自家模型的私货，对开源生态有真实贡献。
生产级的稳定性：腾讯内部混元在用，外部已经有客户跑DeepSeek，说明踩坑这件事腾讯帮你做过了。

但门槛也得提一句：

硬件要求高，对Hopper及以上架构的GPU优化最好，A100/A800上能跑但收益打折
集成到自己的推理框架需要工程能力，不是pip install就能用的程度
路线图还在迭代，稀疏Attention这些算子的稳定性还需要时间验证

一个更大的背景

2026年的AI Infra圈子，几个明显的趋势：MoE模型成为大模型主流形态，长上下文推理需求井喷，FP8/INT4等低精度推理从尝鲜变成标配，多卡多机部署成为日常。在这个背景下，推理引擎之间的竞争已经从「能不能跑」卷到了「跑得多快、多稳、多便宜」。

HPC-Ops的开源升级是腾讯在这场竞争里亮的一张牌。它的逻辑很清楚：把底层算子开源出来，让生态用起来，反向推动自家模型的部署效率和影响力。同样的剧本DeepSeek用DeepGEMM演过，英伟达用cuBLAS/cuDNN演过几十年，腾讯这次入场，意味着国内厂商在AI Infra的核心层面，开始有了能拿出来跟国际开源项目正面对线的东西。

对开发者来说，结果是好的——选择更多了，性能更卷了，部署成本更低了。至于HPC-Ops能不能成为下一代主流推理引擎的标配算子库，还得看后续社区接受度和持续迭代能力。但至少从今天放出来的这五个算子看，腾讯混元AI Infra团队是认真在做这件事的，不是冲着发个PR赚波关注。

值得一提的是，OpenAI Hub（openai-hub.com）作为AI API聚合平台，对混元、DeepSeek等主流国产模型一直有完整支持，国内直连，兼容OpenAI格式。如果想直接调用底层用上HPC-Ops优化的推理服务，是个比较省事的路径。

参考来源

腾讯混元 AI Infra 核心技术开源，推理吞吐提升 30% - IT之家：IT之家对HPC-Ops首次开源的报道，包含官方性能数据和后续路线图
腾讯混元AI Infra核心技术重磅开源：推理吞吐提升30% - 知乎专栏：知乎专栏对HPC-Ops技术细节的解读，包含CUDA/CuTe构建路径的分析

腾讯混元HPC-Ops升级：五大算子直击推理痛点

腾讯又往HPC-Ops里塞了五个算子，这次是冲着推理工程的真痛点去的

这次为什么是五个算子，而不是更宏大的叙事

把算子库当工程项目做，而不是论文项目

跟谁比，比的是什么

五大算子覆盖了哪些场景

这件事对开发者意味着什么

一个更大的背景

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们