OpenAI正式进军机器人：世界模型转Robotics落地真实世界

OpenAI官宣成立Robotics团队，由前DALL·E负责人Aditya Ramesh领衔，将沉寂多年的机器人业务重启。这一次，它不再单打硬件，而是以世界模型为大脑，瞄准真实世界的具身Agent。

OpenAI 又回来做机器人了

6 月 1 日，Sam Altman 在 X 上甩出一条 OpenAI Robotics 的招聘贴，正式宣告这家被 ChatGPT 拖住了四年的公司，重新杀回机器人赛道。招聘范围铺得很开——全栈硬件、系统、运营、机器学习工程师全要，意思已经很清楚：这不是再开一个研究小组，而是要把硬件和模型一起做下去。

几个小时后，联合创始人 Greg Brockman 在 X 上补了一句"OpenAI Robotics 推进得非常快"。这种 CEO 加联创联动发声的姿态，在 OpenAI 的产品史上一般只出现在 GPT-4、Sora 这种级别的节点上。

值得注意的细节是项目的来历。Altman 透露，过去一年里 OpenAI 内部的"世界模拟（World Simulator）"研究项目演进很快，现在直接被改组成了 OpenAI Robotics，由 Aditya Ramesh 领导。这位是 DALL·E 系列的主创，从图像生成转向世界模型，再到带队做机器人——这条路径本身就说明了 OpenAI 怎么理解"具身智能"：从内容生成模型出发，把生成能力扩展为对物理世界的预测和操作能力。

OpenAI Robotics 团队招聘页面与机器人原型示意

为什么是现在，为什么是这种打法

时间点选得不偶然。OpenAI 上一次认真做机器人是 2018 年到 2021 年那批 Dactyl 机械手项目，最后因为"数据太少、硬件太贵、模型太弱"三件套被砍掉，团队也散得差不多了。当年他们的解法是强化学习加仿真到现实的迁移，结果就是一只手翻魔方都得训上百万次仿真。

到 2026 年这个时点，几件事都不一样了：

大模型范式已经验证。GPT 系列的成功证明了"数据规模 × 算力规模 = 能力提升"这套打法是 work 的，问题只是怎么把它搬到物理世界。
世界模型成了共识方向。从 Sora 到 Genie，从李飞飞的 Marble 到 Meta 的 JEPA，整个行业开始相信：要让 AI 真正进入物理世界，必须先让它"理解"世界，而不仅是"描述"世界。
人形机器人融资全面开闸。Figure AI、1X、宇树、特斯拉 Optimus……硬件这一侧不再是瓶颈，缺的就是一个真正能跑通的大脑。
互联网文本数据见底。多家研究机构估算，高质量公开语料将在 2026–2028 年被主流模型基本耗尽。下一波数据红利在哪里？在真实世界的传感器数据里。

这几条加起来，逻辑就闭环了：OpenAI 不能再等。它必须趁世界模型这条新主线尚未被瓜分干净之前，把自己的位置卡住。

短期：协助型机器人；长期：人手一台

Altman 的话其实把战略说得很白：

短期内，OpenAI 专注于研发能够协助技术工人建设未来基础设施的机器人；长远来看，每个人都能拥有一个可以完成各种需求的个人机器人。

短期目标里有两个关键词值得拆——"协助型" 和 "基础设施"。

"协助型"意味着 OpenAI 不打算一上来就做 to C，更不会去碰家庭场景。这是非常清醒的选择。家庭场景的复杂性和安全门槛极高，老人和小孩在场的环境里，任何一次抓取失误都可能是新闻头条。to B 垂直场景才是当前唯一能跑通商业闭环的路径，这一点在中国厂商的路径选择上也是同样的判断——零售、产线、办公先验证，家庭往后放。

"基础设施"则进一步缩小了范围。意思大概率是数据中心、能源、半导体工厂这一类"AI 自身需要的产能"。这里有个隐含逻辑：OpenAI 自己就是 AI 基础设施的最大买家，Stargate 这种千亿级的项目要落地，谁来盖、谁来布线、谁来运维？如果机器人能切进这个闭环，等于 OpenAI 自己造工具来加速自己的扩张。

真正的技术底牌：世界模型 + VLA 的双层架构

这次 OpenAI 反复强调一句话：机器人硬件研究与机器学习研究的深度融合与协同设计。这不是客套，是路线声明。

要理解 OpenAI Robotics 的打法，可以参考行业当下的主流共识——"世界模型 + VLA"的双层架构：

世界模型（大脑）：负责理解和预测。给一个任务，它先在"脑海"里预演各种可能的场景，规划出最优路径。这一层学的是物理规律和因果逻辑，不是"指令到动作"的映射。
VLA（Vision-Language-Action，小脑）：负责具体执行。接到子任务后输出动作参数，控制关节、抓取、移动。
闭环反馈：执行结果与预测不一致时，世界模型重新规划，循环迭代。

这套架构跟过去几年纯 VLA 路线最大的区别在于：模型对物理世界有了"显式理解"，而不是端到端地把视觉直接映射到电机控制。VLA 单干的问题是泛化差、可解释性差、训练样本爆炸；而引入世界模型作为上层规划，本质上是给具身智能加了一层"想象力"。

OpenAI 把 Sora 团队的世界模拟项目直接转成 Robotics 部门，这条路径就完全说得通了——Sora 已经证明了视频生成模型能在某种程度上学到"物理常识"，下一步就是把这种常识接到机械臂和腿上。

数据从哪里来：OpenAI 没说的那部分

如果说世界模型是"大脑"，那数据就是养分。这是 OpenAI 这次招聘里没说、但所有人都在盯的问题。

商汤大晓机器人的王晓刚最近提了一个判断很值得参考：行业正在从"以机器为中心"的数据采集，转向"以人为中心"的环境式采集（Ambient Data Collection）。过去几年全行业积累的机器人训练数据大约 10 万小时量级，而未来一到两年有机会冲到千万小时——百倍以上的跃升。

数据来源主要三类：

互联网图像 + 文本：海量但间接，相当于"读书"
仿真生成数据：可规模化但有 sim-to-real gap
真实环境穿戴式采集：让保洁、产线工人在工作时同步采集，最接近真实分布

OpenAI 这套打法里，前两类是它的强项（Sora 的视频先验 + 大规模仿真），但第三类是它的短板——它没有产线、没有工人、没有终端硬件出货量。这也解释了为什么招聘贴里硬件和运营岗位被并列强调。没有硬件铺出去，就拿不到真实世界的数据流；拿不到真实世界数据，世界模型就是悬空的。

这一刀切下去，OpenAI 实际上是承认了"纯软件公司做不出真正的具身智能"。Brockman 在另一条推文里说他们要做"硬件软件协同设计"，潜台词就是：要自己下场做机器人本体，至少是参考设计层面的本体。

跟特斯拉、Figure、DeepMind 比，OpenAI 的牌好在哪

横向看一下竞争格局：

特斯拉 Optimus：自有产线 + 真机数据闭环 + FSD 视觉栈复用，硬件量产能力最强，但模型层面相对封闭，迭代速度受限于工厂节奏。
Figure AI：跟 OpenAI 之前有合作，后来分手了，现在自研 Helix 模型，硬件设计偏精致但量产能力存疑。
Google DeepMind：RT-2、Gemini Robotics 一路下来，模型能力一流，但硬件长期依赖外部合作伙伴，缺数据闭环。
1X Technologies：跟 OpenAI 关系密切（OpenAI 早期投过），主打家庭场景，硬件偏轻量。

OpenAI 入场的差异化在哪？它有最强的生成式模型基建（Sora 等世界模拟资产）+ 最强的算力调度能力（Stargate）+ 最大的应用入口（ChatGPT 的用户分发）。短板是硬件和制造工艺基本从零起步。

所以接下来一个比较合理的猜测是：OpenAI 会以参考硬件 + 合作伙伴代工的模式起步，把核心放在"大脑"层，硬件层借力。1X 仍然是最可能的合作方之一。

对开发者意味着什么

短期看，OpenAI Robotics 不会立刻有面向开发者的 API。这跟当年 GPT-3 早期一样，先是闭门研究，再是早期合作伙伴，最后才是开放接口。

但有几件事会很快发生：

机器人领域的人才市场会被搅一遍。OpenAI 开的薪资过去吸走了 OpenAI 的对手们大量的核心研究员，这次轮到机器人圈。
世界模型成为下一个标配能力。可以预期 GPT-5 之后的版本会有更强的"物理推理"能力，这些能力会先以 API 的形式开放给做仿真、做规划、做具身 Agent 的开发者。
Sora 的下一代会承担更多 Robotics 角色。视频生成模型本身就是世界模型的一种形式，下一代 Sora 大概率会被定位为"可交互的世界模拟器"，让开发者可以在里面预训练机器人策略。

对应用层开发者来说，更现实的路径仍然是"调用最强大脑 + 接到自己的硬件/Agent 框架上"。这也是国内厂商目前主流的玩法——通过 ROS 2、WebRTC 这类成熟通信栈，把云端大模型的能力接到机器人本体上，把抓取、移动、识别这些动作变成 Agent 可调用的工具。

如果你正在做这类多模型协同的 Agent 应用，OpenAI Hub 这种聚合式 API 网关会比较省事——一个 Key 就能同时调 GPT、Claude、Gemini、DeepSeek 等主流模型，兼容 OpenAI 格式、国内直连，做"大脑选型"实验时不用反复换 SDK。

一个判断

这次 OpenAI 进军机器人，不是简单的业务扩张，而是它对"AGI 路径"的一次重新表态。

过去两年，Altman 反复说"AGI 就在不远的几年内"。但纯语言模型的 scaling 已经明显放缓，GPT-4 之后每一代的边际提升都在收窄。如果 AGI 的定义里包含"在物理世界中行动"，那 OpenAI 必须自己下场做机器人——否则它就永远在做"输出文字的 AGI"，而不是"改变世界的 AGI"。

这一步迟早要走，只是 Altman 选了一个所有牌都已经摸清的时刻。

硬件不再是瓶颈，世界模型范式已经清晰，资本愿意烧钱，竞争对手都没站稳。这个窗口期，OpenAI 不可能让别人独享。

至于成不成，看 Ramesh 这一年能不能拿出第一个让人"咦"一下的 demo。Sora 的 demo 当年也只是一段视频，但它定义了一整个赛道。这一次轮到机器人版的"Sora 时刻"。

参考来源

OpenAI 发招聘宣布进军机器人赛道，短期内专注研发协助型机器人 - IT之家：本次 OpenAI Robotics 招聘信息及 Altman 表态的原始报道

OpenAI杀回机器人：从世界模型到真实Agent