AI 快讯英伟达让机器人通宵自学装显卡,ENPIRE 即将开源
行业快讯

英伟达让机器人通宵自学装显卡,ENPIRE 即将开源

2026-06-18T07:07:52.327Z

英伟达 GEAR 实验室首次把 AutoResearch 搬到物理世界,8 个 Codex 智能体自主调度机器人队列完成插显卡、穿扎带等高精度任务,成功率达 99%,框架即将开源。

英伟达让机器人通宵自学装显卡,ENPIRE 即将开源

6 月 17 日,英伟达 GEAR 实验室联合负责人 Jim Fan 在 X 上甩出一段视频:8 个 Codex 智能体被丢进一个真实的机器人车间,配上一队机械臂、一批 GPU 和一笔慷慨的 token 预算,然后被告知一句话——"尽快把任务做完,让机器人忙起来,但别出事,也别烧钱"。

人就走了。第二天早上回来,研究员看的是训练报告,不是实验日志。

这就是 ENPIRE,全称 "Agentic Robot Policy Self-Improvement in the Real World",由 NVIDIA GEAR 联合 CMU 和 UC Berkeley 一起搞出来的东西。Jim Fan 把这个方向叫做 AutoResearch——让 AI 自己做科研。过去这事只在纯数字世界里跑通过,比如让 agent 自动炼丹、跑 benchmark、写报告。ENPIRE 是第一次,把这条循环搬到了物理世界,搬到了真实的硬件上。

不是遥控,是真的放养

要理解 ENPIRE 的意义,得先把它和过去那些"AI + 机器人"的 demo 区分开。

大部分机器人学习项目,无论用强化学习还是模仿学习,核心循环里都得有人。要么人来设计奖励函数,要么人来标数据,要么人来重置场景——机械臂把积木推到桌子外面去了,得有研究生跑过去捡回来。这个"人"在循环里的存在,决定了机器人学习的速度上限就是研究生肝的速度。

ENPIRE 想做的事是把这个人从循环里彻底拿掉。它给 Codex 这种编程 agent 提供了一个通往物理世界的 API,剩下的事 agent 自己干:

  • 设计实验:根据当前任务定义训练流程、采样策略、超参数
  • 执行训练:调度 GPU 资源,让机器人去试
  • 判断成败:通过视觉线索判断任务是否完成、机器人有没有卡住
  • 重置场景:让机械臂自己把物体摆回起始位置,省掉人工
  • 失败归因:看日志、看视频、分析代码哪里有问题
  • 查文献:上网读论文,看看别人是怎么解决类似问题的
  • 改代码再来:迭代控制堆栈,重新跑

这个循环的关键点在于"重置场景"和"判断成败"这两步——它们传统上是人类的活,现在被 agent 用视觉 + 代码生成的方式接管了。一旦这两个节点闭环,整个机器人实验室就可以 24 小时连轴转,研究员只需要早上来看汇总。

它真的把显卡插进了主板

光说循环没意思,得看任务难度。ENPIRE 测试了几个相当难的灵巧操作:

  • 把细 pin 脚精确插入盒子上的孔
  • 穿扎带(cable tie)
  • 用剪刀把扎带剪掉
  • 把 GPU 显卡插到主板的 PCIe 插槽里
  • 整理一堆钉子

最后一项尤其有梗——英伟达的机器人在给英伟达的主板装英伟达的显卡。从硬件配合精度来说,PCIe 插槽对位的容差只有毫米级,对力反馈和视觉对齐的要求都不低。最终 agent 自主训练出的策略在 pass@8 标准下达到了 99% 的成功率。

这意味着什么?意味着如果你给 ENPIRE 一个全新的、它从没见过的灵巧操作任务,丢给它一晚上,第二天早上你大概率能拿到一个能用的策略。这是过去机器人学习实验室一个 PhD 三个月的工作量。

三家编程 agent 同场竞技

论文里一个比较有意思的细节是,ENPIRE 不是只测了 OpenAI 的 Codex,还把另外两家拉进来做了对照:

  • OpenAI Codex(搭配 GPT-5.5)
  • Anthropic Claude Code(搭配 Opus 4.7)
  • 月之暗面 Kimi Code(搭配 Kimi K2.6)

三家都能把整个 AutoResearch 流程跑通,但在不同任务上的研究推进速度有差异。论文没把这三家分出绝对的高下,但这种横评本身就很有意思——它在告诉你,agentic coding 这条赛道已经卷到了"谁能更好地驱动机器人做科研"这个层次。一年前我们还在比谁的 HumanEval 分数高,现在直接比谁能更快让机械臂学会插显卡。

OpenAI Hub 这边三家模型都接入了,开发者想自己复现或者改改 prompt 试试,可以用同一个 Key 在 Codex、Claude、Kimi 之间切换对比,省去逐家申请配额的麻烦。

"物理 Scaling Law":8 个机器人比 1 个快多少

ENPIRE 还观察到一个他们称之为"物理 scaling law"的现象。

这个名字起得有点大,但核心观察其实很直觉:把 8 台机器人并行起来跑 AutoResearch,研究推进速度比 1 台或 4 台快得多。原因有两层:

  1. 并行实验本身就更快:8 台机器人可以同时试 8 种不同的策略,类似于把一个研究员的 batch size 从 1 加到 8。
  2. agent 之间会互相学习:一台机器人发现了一个有效的技巧,其他 agent 可以参考它的成功代码,类似于多个 PhD 在同一个项目上互相 review。

但这个 scaling law 也不是线性的。机器人多了之后:

  • token 消耗显著上升:每台机器人都要被 agent 看着、总结、调度
  • 协调开销变大:agent 花在阅读"队友进展"上的时间越来越多
  • 单台利用率反而下降:因为要等其他机器人的结果

这其实非常像人类研究团队的扩张曲线——10 个人的实验室比 1 个人快,但不是快 10 倍。ENPIRE 的有趣之处在于,它把这种"组织行为学"的现象,第一次在 AI agent + 物理机器人的组合上量化了出来。

为什么是英伟达,为什么是现在

GEAR 实验室是 Jim Fan 和朱玉可教授去年底成立的,名字是 Generalist Embodied Agent Research 的缩写。这个实验室的定位很清楚:做具身智能的 foundation model,不光做虚拟世界(游戏、模拟器),也做物理世界(机器人)。

他们前面铺垫了一系列东西:

  • Cosmos:World Foundation Model,能生成物理真实的视频和场景
  • GR00T:通用人形机器人基础模型
  • DreamDojo:基于世界模型的策略学习环境
  • Isaac Sim/Lab:模拟器和合成数据管线

ENPIRE 是这个体系里"最后一公里"的那一块——前面的 foundation model、模拟器、世界模型都是为了喂数据、做预训练,但机器人真正要在物理世界里 deploy,最后总得有一个在真机上微调和适应的过程。这一步过去严重依赖人工,ENPIRE 把它自动化了。

从产品逻辑上讲,英伟达卖的是 GPU、机器人开发套件(Jetson、Thor)和软件栈。如果它能让"买了我硬件的人晚上不用盯实验,第二天直接拿策略",那这套硬件的吸引力就会大幅提升。这是非常典型的英伟达式打法——把开发者门槛打到地板上,让生态自己长起来。

开源意味着什么

Jim Fan 明确说了 ENPIRE 会开源。这个开源的含金量需要分两层看。

对头部机器人实验室:这是降本。过去你要养一群 PhD 盯实验,现在可以把这套 agent 框架直接套上去,让研究员从"操作工"变成"产品经理"——定义任务、看报告、决定下一步研究方向。一个 lab 的产出能直接翻几倍。

对个人开发者和爱好者:理论上你可以在家搭一个"自运行的机器人实验室"。但实际门槛仍然不低,你至少得有:

  • 一队机械臂(至少 1 台,最好 4-8 台才能跑出 scaling 效应)
  • 一批 GPU(用来训练 policy,不只是跑 inference)
  • 编程 agent 的 token 预算(Codex、Claude Code 这些不便宜)

所以"在家托管自动机器人实验室"这个画面,现实里更可能是"中小型机器人公司"和"高校 lab"的标配,而不是真的极客在车库里搞。但话说回来,2017 年的时候你也不会想到几年后能在自己显卡上跑出和 GPT-3 差不多的 LLM。开源的复利效应一向被低估。

一些没解决的问题

看完 demo 视频和论文摘要,我有几个保留意见:

  1. 安全性:让 agent 完全自主驱动机械臂,意味着 agent 写出的代码会直接驱动几十公斤的机械部件运动。论文里强调了"safety"作为约束,但具体的兜底机制是什么、出过什么意外、如何避免 agent 在追求成功率时做出危险动作,这些细节值得看。
  2. 任务泛化:现在测的几个任务都是"在固定场景下重复练习一个特定动作"。真实的机器人应用更多需要在变化的环境里做长序列任务。ENPIRE 这套循环能不能扩展到那种场景,是下一步的关键。
  3. 成本:8 个 agent 跑一晚上烧多少 token?如果一个策略的训练成本是几千美元的 API 调用,那它和雇一个 PhD 比起来到底划不划算?这个账目前论文里没算清楚。
  4. "agent 互相参考"的可靠性:多 agent 协作的时候,如果有一个 agent 走错了方向,会不会污染整个集体的判断?这是 multi-agent 系统的老问题,在物理世界里出错的成本更高。

写在最后

ENPIRE 是过去半年里我看到的最有"未来感"的机器人学习工作之一。不是因为它做了什么颠覆性的算法创新——单看每一块(agent、code generation、self-improvement、multi-robot),都不算新东西。它的力量来自于工程整合:把这些已经成熟的组件第一次缝合进了一个能在物理世界里 24 小时自我运转的闭环。

这种"工程上的临界点"往往比算法突破更能改变行业。当一个机器人实验室的产能不再受限于人类研究员的工作时间,整个具身智能领域的迭代速度会被重新定义。

开源之后会怎样,再等等看吧。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: