vLLM 推出 Micro-Agent 框架：API 内协作击败 Frontier 模型

vLLM 团队今天放出 Micro-Agent 框架，把多智能体协作从应用层下沉到模型推理 API 内部，用中小模型组队的方式在多个基准上反超 GPT-5、Claude 4.5 这一档 Frontier 模型，推理成本和延迟也压下来一大截。

vLLM 把 Agent 塞进了推理引擎

今天，vLLM 团队在官方博客上甩出了 Micro-Agent 框架。一句话概括：把过去跑在应用层、靠一堆 HTTP 调用串起来的 Multi-Agent，整个搬进了模型推理 API 的内部，让多个小模型在一次 API 调用里完成分工、协作、投票、纠错。

这个动作的关键词不是"又一个 Agent 框架"，而是"在模型 API 内"。过去两年大家做 Multi-Agent，无非是 LangGraph、AutoGen、CrewAI 这一类——外面一个编排器，里面每个 Agent 都是独立的 LLM 调用，token 一来一回全走网络。vLLM 这次的思路反过来：既然这些 Agent 最后都要落到推理引擎上，为什么不让它们在 KV cache 还没冷掉的时候就完成协作？

按博客里给出的数据，Micro-Agent 用 Qwen3-32B、DeepSeek-V3.2、Llama-4-Scout 这一档中等规模的开源模型组队，在 SWE-Bench Verified、GPQA Diamond、LiveCodeBench 这几个硬骨头上，反超了 GPT-5 和 Claude 4.5 Sonnet 的单模型成绩。成本只有 Frontier 模型的 1/4 到 1/3，端到端延迟也压到了同一个量级。这个结论如果能站得住，对整个行业的成本结构都是一次冲击。

Micro-Agent 框架架构图，展示推理引擎内部多个小模型协作的数据流

核心思路：把协作下沉到 KV Cache 这一层

传统 Multi-Agent 的痛点很具体。你让三个 Agent 评审一段代码，每个 Agent 都得重新读一遍上下文，prompt 里那段几千 token 的代码会被 prefill 三次，KV cache 各算各的。如果再加一个 Aggregator 做汇总，前面三个 Agent 的输出又得作为 prompt 重新喂进去，再 prefill 一遍。算力账一摊开，光重复 prefill 就占掉一半。

Micro-Agent 的做法是把这套流程编译成一张计算图，丢给 vLLM 引擎统一调度：

共享 prefix 复用：所有协作角色共用同一段任务上下文的 KV cache，prefill 只做一次。这是 vLLM 早就有的 prefix caching 能力，Micro-Agent 把它用到了多角色协作场景。
角色级 LoRA 切换：不同角色（比如 Planner、Coder、Reviewer）通过轻量 LoRA Adapter 来区分人格，底模共享。切换一个角色的开销从过去的整模型加载，压到只换一组 adapter 权重。
协作原语内置：vote、debate、reflect、aggregate 这些过去要在应用层手撸的协作模式，直接作为算子写进引擎，调用方只需要在请求里声明 collaboration_mode。
早停与剪枝：如果三个 Reviewer 角色给出的判断已经收敛，引擎可以提前终止后续生成，不必等全部跑完。

说白了，过去的 Multi-Agent 是"几个独立模型互发邮件"，Micro-Agent 是"几个角色坐在同一台机器上传纸条"。物理距离短了，效率自然就上来了。

性能数据：中等模型组队，能不能真的打赢 Frontier？

博客里贴了一组对比数据，看着挺扎眼。在 SWE-Bench Verified 上，单跑 Claude 4.5 Sonnet 是 74.2%，单跑 GPT-5 是 76.8%；而 Micro-Agent 用 4 个 DeepSeek-V3.2 + 1 个 Qwen3-Coder-32B 的组合，跑到了 78.5%。GPQA Diamond 上的差距更明显，Micro-Agent 组合拿到 82.1%，比单跑 GPT-5 的 79.3% 高出近 3 个点。

这个结果不算太意外。学术界过去一年关于 LLM-as-Judge、Self-Consistency、Multi-Agent Debate 的论文已经反复证明：多次采样加投票，几乎一定能把单模型的天花板往上推。问题在于过去这么做实在太贵——你跑 5 次 Claude 4.5，账单就是 5 倍。Micro-Agent 把成本曲线拉平之后，这条路才真正变得可用。

但有一点得说在前面：博客里的 benchmark 是在自家推理栈上跑的，参数（温度、top-p、协作轮数）也都是调过的。同样的策略放到 SGLang、TensorRT-LLM 上能不能复现，需要社区接下来验证。Frontier 厂商如果反手出一招 GPT-5.5 或者 Claude 4.6，差距可能又被拉开。这种"开源模型组队打闭源"的故事，每隔半年就会上演一次，最后大家都没输——除了为单模型 API 付溢价的客户。

为什么是 vLLM 来做这件事

这两年开源推理引擎卷得厉害，vLLM、SGLang、TensorRT-LLM 三家在 throughput、首 token 延迟上你追我赶。但单纯的性能优化已经接近物理极限——A100/H100 上的 KV cache 利用率、PagedAttention 这些优化点都被啃得差不多了。再想拉开差距，得换战场。

Micro-Agent 就是 vLLM 选的新战场：从"我跑得快"转向"我跑得聪明"。引擎不只是无脑执行 prompt，而是参与到推理策略的编排里去。这一步走出去，vLLM 就从一个"更快的 OpenAI API 实现"，变成了一个真正的 Agent 运行时。

这个定位变化意义不小。过去你部署一个 Agent 系统，技术栈是 LangGraph + vLLM + Redis + 一堆胶水代码；现在 vLLM 可以把后面这一坨吞掉。对企业内部部署场景特别友好——少一个组件，少一份运维成本，少一处故障点。

顺带一提，OpenAI Hub 已经在跟进 Micro-Agent 的兼容。后端调度层支持把协作请求拆解到多个开源模型实例上跑，开发者用一个 Key 就能在 GPT、Claude、DeepSeek 之间组队，不用自己搭推理集群。这对想验证 Micro-Agent 思路、但不想立刻自建 GPU 集群的团队来说，是个比较省事的入口。

几个值得关注的细节

看完整篇博客和初步开源的代码，有几个点开发者应该会关心：

编程模型：Micro-Agent 的 API 设计向 OpenAI Chat Completions 看齐，新增了 agents 和 collaboration 两个字段。你可以在一个请求里声明多个角色、每个角色的模型和系统提示，以及它们之间的协作拓扑。这意味着前端代码改动很小，存量的 OpenAI SDK 用户基本可以无痛迁移。

模型组合的自由度：理论上你可以让 Qwen 当 Planner、DeepSeek 当 Coder、Llama 当 Reviewer。但实际上跨模型 KV cache 不能共享，跨模型协作的成本会显著高于同模型多角色。博客里推荐的最佳实践是"一个底模 + 多个 LoRA 角色"，这也是这套架构红利最大的形态。

协作模式可扩展：除了内置的 vote、debate、reflect，框架开放了自定义协作算子的接口。Python 写一个继承 CollaborationOp 的类，注册到引擎里就能用。这块的设计明显是奔着学术研究和企业内部定制场景去的。

还没解决的问题：流式输出在多角色协作场景下怎么处理？目前的实现是协作完成后整体返回，对要做实时交互界面的应用不太友好。社区已经开了 issue，按 vLLM 团队的节奏，估计两三个版本之内会给出方案。

行业意味着什么

往大了说，Micro-Agent 是开源阵营对"Scaling 信仰"的又一次反击。过去两年，闭源 Frontier 模型的护城河一直建立在"参数量和训练数据的绝对优势"上——你 70B 再怎么折腾，也打不过我 5000 亿参数的旗舰。但当推理时计算（inference-time compute）成为新战场，这套逻辑就动摇了。OpenAI o1、Claude 4 的 Extended Thinking 走的就是这条路，只不过它们把推理时计算锁在了自己的 API 里。

开源社区现在的回应是：那我们也搞推理时计算，而且我们把这套机制做成开放协议，谁都可以用。Micro-Agent 之后，可以预期 SGLang、TensorRT-LLM 会跟进类似能力，Hugging Face 那边大概率也会出一套上层抽象。这场仗会拖到模型推理层和编排层的边界彻底模糊，对开发者来说，意味着选型变量又多了一个维度。

往小了说，对正在做 Agent 产品的团队，Micro-Agent 至少值得做一次 PoC。如果你的 Agent 系统里有大量"反复用同一段长上下文、轮流让不同角色处理"的模式（代码评审、合同审核、复杂客服工单），那这套东西能直接帮你把账单砍掉一半以上。如果你做的是单轮交互、上下文不长的场景，那 Micro-Agent 的红利就有限——这种情况下，你本来也用不上 Multi-Agent。

参考链接

vLLM 项目主仓库 - GitHub：vLLM 推理引擎源码，Micro-Agent 模块预计在下个 minor 版本合入主分支
OpenHands Microagents 拆解 - 知乎：另一个用 Microagent 思路做软件工程 Agent 的开源项目，可以对比 vLLM 这次做法的不同之处

vLLM 推出 Micro-Agent：让小模型在 API 里组队打赢 Frontier

vLLM 把 Agent 塞进了推理引擎

核心思路：把协作下沉到 KV Cache 这一层

性能数据：中等模型组队，能不能真的打赢 Frontier？

为什么是 vLLM 来做这件事

几个值得关注的细节

行业意味着什么

参考链接

相关推荐

OpenAI官宣Codex专属硬件：7月15日联手Work Louder发布

Cursor 推出移动端 App，把编码智能体装进口袋

美团 LongCat-2.0 开测：9.9 元 5000 万 token

联系我们