AReaL 2.0 开源发布：面向自演进 Agent 的在线强化学习基础设施

蚂蚁、清华、港科大联合项目 AReaL 于 7 月 2 日发布 2.0 版本，把强化学习基础设施做成微服务，让已上线的 Agent 能直接把真实交互轨迹喂回训练流程，试图解决 Agent 部署即冻结这个老问题。

7 月 2 日，开源强化学习基础设施 AReaL 正式发布 2.0 版本。这次升级把问题的边界从「怎么高效训练一个 Agent」推到了「一个已经在跑的 Agent 怎么继续学习」——听起来只差一个字，工程量差了不止一个数量级。

熟悉这个项目的读者应该记得，AReaL v1.0 是今年 3 月发的，主打大规模异步 RL 训练和 Agent 一键接入。v2.0 的重心明显换了地方：不再纠结于训练环节本身有多快，而是直面 Agent 落地后最尴尬的一个现实——每天都在干活，却学不到东西。

AReaL 2.0 Online RL 工作流架构示意图

Agent 上线之后就冻结了，这是个真问题

过去一年，Agent 已经真真切切进了生产环境。企业里用它写代码、查资料、调工具、跑流程，任务越来越复杂。但一个略显讽刺的现象是：这些 Agent 每天产生海量交互数据——哪些工具调用失败了、用户为什么改口、哪一步规划走偏了——这些经验绝大多数只是被写进日志，然后就没有然后了。

以往想让 Agent 变强，标准操作是这样：人工构造训练数据 → 离线跑一轮 RL → 重新部署上线。中间环节多、周期长，而且离线仿真环境和线上真实业务之间总有 gap。代码库更新了、流程调了、内部工具接口改了，Agent 还停留在上次训练时对世界的理解上。

AReaL 团队在技术报告里的判断挺直接：自演进 Agent 的瓶颈既不完全在模型本身，也不完全在 RL 算法，而是缺一套服务于真实 Agent 的在线 RL 基础设施。这个判断我基本认同——现在开源社区里 RL 训练框架不少，但绝大多数是给研究者跑 benchmark 用的，离生产环境的假设差得远。

核心思路：把 RL 基础设施改造成微服务

AReaL 2.0 的做法可以一句话说完：把原本服务于 Rollout 和训练的计算单元，重组成可部署、可接入、可替换的 Agent-compute 微服务组件。

翻译一下就是——你不用重写你的 Agent，也不用把业务系统推倒重来。只要把 Agent 原来发给大模型的推理请求，改指向 AReaL 2.0 管理的推理入口，剩下的事情它在后台接管：会话式交互记录、轨迹采集、奖励绑定、异步训练全流程串起来。

这个设计上的选择挺聪明。业内很多做 Agentic RL 的方案，要么让开发者把线上 Agent 抽象成一个离线仿真任务重新跑，要么要求接入方按训练框架的规范重写 Agent loop。前者训出来的东西在真实环境里未必好用，后者的迁移成本足以劝退大部分企业开发者。AReaL 2.0 选择在推理入口这一层做统一切面，最大限度地保留原有 Agent 的规划、工具调用、沙箱和记忆模块，我觉得这更符合工程直觉。

三根支柱：ATDP、Data Proxy、Evolution Control Plane

技术报告里，AReaL 2.0 把自演进 Agent 系统抽象成三个模块：

Agent Trajectory Data Protocol（ATDP）：定义「应该记录什么」。多轮对话、工具调用、执行结果、奖励信号，都要有统一的结构化描述，才能被后续训练流程消费。
Agentic Data Proxy：解决「在真实生产系统里如何记录」。这一层重点考虑权限控制、数据脱敏、隔离、审计——因为企业里 Agent 摸到的可能是代码库、客户信息、内部系统，训练数据不能随便流。
Agent Evolution Control Plane：负责在线策略更新和整体调度。

三个模块里，我认为 Data Proxy 是最有产业价值也最容易被忽视的一块。学术界的 Agentic RL 工作大多默认数据可以自由流动，但真到企业场景里，一个 Agent 的训练链路能不能落地，往往不是算法说了算，而是数据合规团队说了算。AReaL 2.0 提前把这层做进架构里，这一点做得比大部分同类项目务实。

团队自己也承认，AReaL 2.0 并没有做出完整的自演进智能体基座，而是选了「基于真实部署轨迹的在线策略模型更新」这条最有代表性的路径先切进去。这种边界感反而让 2.0 的定位更清晰。

从 Hermes 到 Claude Code：两套可复用范例

光讲架构容易空。AReaL 2.0 这次给了两个可跑通的例子。

Hermes Agent 范例演示的是接入方式。Hermes 照常接任务、规划、调模型，AReaL 2.0 在后台记录关键交互过程，结合任务结束后的反馈信号，把真实轨迹拿去做后续训练。开发者要复用，把 Hermes 换成自己的 Agent 和任务环境，接入范式是一样的。

Claude Code Agent RL 范例则接近端到端的软件工程智能体训练参考，覆盖数据处理、Agent Infra 建设、算法训练全链路。对做 Coding Agent 的团队来说，这套东西比重新造轮子省事得多。

两个例子的代码都放在 GitHub 仓库的 examples/ 目录下：

examples/hermes —— Hermes Agent 在线 RL 接入示例
examples/swe —— Claude Code 方向的软件工程 Agent 训练示例

可复用性是这次 2.0 版本最实在的卖点。之前做 Agentic RL 的团队大多在重复造相似的轮子——数据采集、轨迹存储、奖励对齐、异步训练——这些工程活儿谁都得干一遍。AReaL 2.0 把这套东西微服务化开源出来，某种程度上降低了行业整体的重复劳动。

AReaL 2.0 Agent 微服务组件与 RL 训练闭环示意

项目现在归谁管，生态怎么样

AReaL 项目 2024 年由蚂蚁集团、清华大学、香港科技大学等团队发起，主力研究者包括前 OpenAI 研究员、清华交叉信息院的吴翼团队。今年 5 月，AReaL 从蚂蚁 InclusionAI 孵化独立出来，成为独立开源社区，并加入了 PyTorch Foundation Ecosystem 项目。

独立之后，社区伙伴陆续加入，目前公开可见的合作方包括华为云团队、MindLab 等。团队后续路线图里提到了三个方向：在线强化学习继续深挖、自动化评估、多模态智能体训练。第三个方向估计会是 3.0 版本的重点。

对开发者意味着什么

如果你正在构建生产环境的 Agent 应用，AReaL 2.0 至少提供了两件事：

一套可以直接用的在线 RL 基础设施。不需要自己去搭 Rollout Worker、异步训练调度、轨迹管理这些底层的东西。
一种把线上真实数据转化为模型能力的工程范式。以往这部分要么闭源在头部大厂内部，要么散落在各个论文的实验代码里，很难拼成一套完整可跑的东西。

当然它不是万能的。首先，跑起来还是需要一定的计算资源，中小团队真要做在线 RL，成本账要算清楚。其次，能不能训出效果，很大程度取决于奖励信号设计得好不好——这个部分 AReaL 2.0 帮不上太多忙，属于业务方自己的活儿。

对底层模型的选择也是开放的。AReaL 2.0 训的是策略模型，开发者可以选自己想优化的 base model。如果只是想快速验证 Agent 的推理链路而不训练底层模型，用 OpenAI Hub 这类聚合平台先把 GPT、Claude、Gemini、DeepSeek 都跑一遍对比，再决定拿哪个做 RL 微调基座，也是一条务实的路径。

一点判断

过去两年 Agent 领域一直有个心照不宣的尴尬——大家都在讲 Agent 会「自演进」、会「越用越强」，但产品真正上线之后基本都是静态的。AReaL 2.0 未必能一次性解决这个问题，但它至少把话题从 PPT 层面拉回了工程层面：Agent 的持续学习不是一个概念，而是一个由推理入口、轨迹协议、数据代理、异步训练组成的具体系统问题。

对国内开源社区而言，能在 RL 基础设施这个偏底层、偏基础的方向上做出一个进入 PyTorch Foundation Ecosystem 的项目，本身也是件不常见的事。接下来值得盯的，是社区能不能围绕 ATDP 这套协议吸引更多 Agent 框架接入——只有生态起来了，「自演进 Agent」才算真的有了工程基础。