英伟达 GEAR 实验室首次把 AutoResearch 搬到物理世界，8 个 Codex 智能体自主调度机器人队列完成插显卡、穿扎带等高精度任务，成功率达 99%，框架即将开源。

英伟达让机器人通宵自学装显卡，ENPIRE 即将开源

6 月 17 日，英伟达 GEAR 实验室联合负责人 Jim Fan 在 X 上甩出一段视频：8 个 Codex 智能体被丢进一个真实的机器人车间，配上一队机械臂、一批 GPU 和一笔慷慨的 token 预算，然后被告知一句话——"尽快把任务做完，让机器人忙起来，但别出事，也别烧钱"。

人就走了。第二天早上回来，研究员看的是训练报告，不是实验日志。

这就是 ENPIRE，全称 "Agentic Robot Policy Self-Improvement in the Real World"，由 NVIDIA GEAR 联合 CMU 和 UC Berkeley 一起搞出来的东西。Jim Fan 把这个方向叫做 AutoResearch——让 AI 自己做科研。过去这事只在纯数字世界里跑通过，比如让 agent 自动炼丹、跑 benchmark、写报告。ENPIRE 是第一次，把这条循环搬到了物理世界，搬到了真实的硬件上。

不是遥控，是真的放养

要理解 ENPIRE 的意义，得先把它和过去那些"AI + 机器人"的 demo 区分开。

大部分机器人学习项目，无论用强化学习还是模仿学习，核心循环里都得有人。要么人来设计奖励函数，要么人来标数据，要么人来重置场景——机械臂把积木推到桌子外面去了，得有研究生跑过去捡回来。这个"人"在循环里的存在，决定了机器人学习的速度上限就是研究生肝的速度。

ENPIRE 想做的事是把这个人从循环里彻底拿掉。它给 Codex 这种编程 agent 提供了一个通往物理世界的 API，剩下的事 agent 自己干：

设计实验：根据当前任务定义训练流程、采样策略、超参数
执行训练：调度 GPU 资源，让机器人去试
判断成败：通过视觉线索判断任务是否完成、机器人有没有卡住
重置场景：让机械臂自己把物体摆回起始位置，省掉人工
失败归因：看日志、看视频、分析代码哪里有问题
查文献：上网读论文，看看别人是怎么解决类似问题的
改代码再来：迭代控制堆栈，重新跑

这个循环的关键点在于"重置场景"和"判断成败"这两步——它们传统上是人类的活，现在被 agent 用视觉 + 代码生成的方式接管了。一旦这两个节点闭环，整个机器人实验室就可以 24 小时连轴转，研究员只需要早上来看汇总。

它真的把显卡插进了主板

光说循环没意思，得看任务难度。ENPIRE 测试了几个相当难的灵巧操作：

把细 pin 脚精确插入盒子上的孔
穿扎带（cable tie）
用剪刀把扎带剪掉
把 GPU 显卡插到主板的 PCIe 插槽里
整理一堆钉子

最后一项尤其有梗——英伟达的机器人在给英伟达的主板装英伟达的显卡。从硬件配合精度来说，PCIe 插槽对位的容差只有毫米级，对力反馈和视觉对齐的要求都不低。最终 agent 自主训练出的策略在 pass@8 标准下达到了 99% 的成功率。

这意味着什么？意味着如果你给 ENPIRE 一个全新的、它从没见过的灵巧操作任务，丢给它一晚上，第二天早上你大概率能拿到一个能用的策略。这是过去机器人学习实验室一个 PhD 三个月的工作量。

三家编程 agent 同场竞技

论文里一个比较有意思的细节是，ENPIRE 不是只测了 OpenAI 的 Codex，还把另外两家拉进来做了对照：

OpenAI Codex（搭配 GPT-5.5）
Anthropic Claude Code（搭配 Opus 4.7）
月之暗面 Kimi Code（搭配 Kimi K2.6）

三家都能把整个 AutoResearch 流程跑通，但在不同任务上的研究推进速度有差异。论文没把这三家分出绝对的高下，但这种横评本身就很有意思——它在告诉你，agentic coding 这条赛道已经卷到了"谁能更好地驱动机器人做科研"这个层次。一年前我们还在比谁的 HumanEval 分数高，现在直接比谁能更快让机械臂学会插显卡。

OpenAI Hub 这边三家模型都接入了，开发者想自己复现或者改改 prompt 试试，可以用同一个 Key 在 Codex、Claude、Kimi 之间切换对比，省去逐家申请配额的麻烦。

"物理 Scaling Law"：8 个机器人比 1 个快多少

ENPIRE 还观察到一个他们称之为"物理 scaling law"的现象。

这个名字起得有点大，但核心观察其实很直觉：把 8 台机器人并行起来跑 AutoResearch，研究推进速度比 1 台或 4 台快得多。原因有两层：

并行实验本身就更快：8 台机器人可以同时试 8 种不同的策略，类似于把一个研究员的 batch size 从 1 加到 8。
agent 之间会互相学习：一台机器人发现了一个有效的技巧，其他 agent 可以参考它的成功代码，类似于多个 PhD 在同一个项目上互相 review。

但这个 scaling law 也不是线性的。机器人多了之后：

token 消耗显著上升：每台机器人都要被 agent 看着、总结、调度
协调开销变大：agent 花在阅读"队友进展"上的时间越来越多
单台利用率反而下降：因为要等其他机器人的结果

这其实非常像人类研究团队的扩张曲线——10 个人的实验室比 1 个人快，但不是快 10 倍。ENPIRE 的有趣之处在于，它把这种"组织行为学"的现象，第一次在 AI agent + 物理机器人的组合上量化了出来。

为什么是英伟达，为什么是现在

GEAR 实验室是 Jim Fan 和朱玉可教授去年底成立的，名字是 Generalist Embodied Agent Research 的缩写。这个实验室的定位很清楚：做具身智能的 foundation model，不光做虚拟世界（游戏、模拟器），也做物理世界（机器人）。

他们前面铺垫了一系列东西：

Cosmos：World Foundation Model，能生成物理真实的视频和场景
GR00T：通用人形机器人基础模型
DreamDojo：基于世界模型的策略学习环境
Isaac Sim/Lab：模拟器和合成数据管线

ENPIRE 是这个体系里"最后一公里"的那一块——前面的 foundation model、模拟器、世界模型都是为了喂数据、做预训练，但机器人真正要在物理世界里 deploy，最后总得有一个在真机上微调和适应的过程。这一步过去严重依赖人工，ENPIRE 把它自动化了。

从产品逻辑上讲，英伟达卖的是 GPU、机器人开发套件（Jetson、Thor）和软件栈。如果它能让"买了我硬件的人晚上不用盯实验，第二天直接拿策略"，那这套硬件的吸引力就会大幅提升。这是非常典型的英伟达式打法——把开发者门槛打到地板上，让生态自己长起来。

开源意味着什么

Jim Fan 明确说了 ENPIRE 会开源。这个开源的含金量需要分两层看。

对头部机器人实验室：这是降本。过去你要养一群 PhD 盯实验，现在可以把这套 agent 框架直接套上去，让研究员从"操作工"变成"产品经理"——定义任务、看报告、决定下一步研究方向。一个 lab 的产出能直接翻几倍。

对个人开发者和爱好者：理论上你可以在家搭一个"自运行的机器人实验室"。但实际门槛仍然不低，你至少得有：

一队机械臂（至少 1 台，最好 4-8 台才能跑出 scaling 效应）
一批 GPU（用来训练 policy，不只是跑 inference）
编程 agent 的 token 预算（Codex、Claude Code 这些不便宜）

所以"在家托管自动机器人实验室"这个画面，现实里更可能是"中小型机器人公司"和"高校 lab"的标配，而不是真的极客在车库里搞。但话说回来，2017 年的时候你也不会想到几年后能在自己显卡上跑出和 GPT-3 差不多的 LLM。开源的复利效应一向被低估。

一些没解决的问题

看完 demo 视频和论文摘要，我有几个保留意见：

安全性：让 agent 完全自主驱动机械臂，意味着 agent 写出的代码会直接驱动几十公斤的机械部件运动。论文里强调了"safety"作为约束，但具体的兜底机制是什么、出过什么意外、如何避免 agent 在追求成功率时做出危险动作，这些细节值得看。
任务泛化：现在测的几个任务都是"在固定场景下重复练习一个特定动作"。真实的机器人应用更多需要在变化的环境里做长序列任务。ENPIRE 这套循环能不能扩展到那种场景，是下一步的关键。
成本：8 个 agent 跑一晚上烧多少 token？如果一个策略的训练成本是几千美元的 API 调用，那它和雇一个 PhD 比起来到底划不划算？这个账目前论文里没算清楚。
"agent 互相参考"的可靠性：多 agent 协作的时候，如果有一个 agent 走错了方向，会不会污染整个集体的判断？这是 multi-agent 系统的老问题，在物理世界里出错的成本更高。

写在最后

ENPIRE 是过去半年里我看到的最有"未来感"的机器人学习工作之一。不是因为它做了什么颠覆性的算法创新——单看每一块（agent、code generation、self-improvement、multi-robot），都不算新东西。它的力量来自于工程整合：把这些已经成熟的组件第一次缝合进了一个能在物理世界里 24 小时自我运转的闭环。

这种"工程上的临界点"往往比算法突破更能改变行业。当一个机器人实验室的产能不再受限于人类研究员的工作时间，整个具身智能领域的迭代速度会被重新定义。

开源之后会怎样，再等等看吧。

参考来源

IT之家：英伟达机器人自学"装显卡"，把 AI 带到现实世界直接放养 - 中文媒体首发报道，含 Jim Fan 视频和任务演示
知乎专栏：与 GEAR 高深远聊世界模型、自进化循环和 DreamDojo - GEAR 实验室世界模型与自进化循环的背景访谈

英伟达让机器人通宵自学装显卡，ENPIRE 即将开源

英伟达让机器人通宵自学装显卡，ENPIRE 即将开源

不是遥控，是真的放养

它真的把显卡插进了主板

三家编程 agent 同场竞技

"物理 Scaling Law"：8 个机器人比 1 个快多少

为什么是英伟达，为什么是现在

开源意味着什么

一些没解决的问题

写在最后

参考来源

相关推荐

阿里开源LOGOS：1B参数干翻微软56倍大的NatureLM

Transformer之父二次出走：Noam Shazeer离开谷歌投奔OpenAI

蔚来世界模型大更新：70万车主同步升级，直出方向盘信号

联系我们