英伟达开源Cosmos 3:物理AI的"GPT时刻"来了?

模型上新

英伟达发布全球首款全开源全模态物理AI基础大模型Cosmos 3,混合Transformer架构融合视觉推理、世界生成与动作预测,并联合Runway、Black Forest Labs等组建Cosmos联盟,将机器人训练周期从数月压缩到数日。

英伟达开源 Cosmos 3:物理 AI 的"GPT 时刻"来了?

6 月 1 日,英伟达正式发布 Cosmos 3,号称"全球首款全开源、全模态的物理 AI 基础大模型"。这是一个在单一系统里同时塞进了视觉推理、世界生成、动作预测三种能力的庞然大物,目标只有一个——让机器人、自动驾驶、视觉智能体真正"看懂"并"动得了"现实世界。

黄仁勋在发布会上重复了那句他过去半年说了不下十次的话:"机器人开发的 ChatGPT 时刻已然到来。" 不过这次他给这句话配上了一个具体的载体。

黄仁勋发布 Cosmos 3 现场,背景是机器人在虚拟环境中执行任务的演示画面

一个模型,把三件事捏在一起

要理解 Cosmos 3 的野心,得先理解物理 AI 过去几年的尴尬。

做机器人的人都知道,整条技术栈是碎的:感知用一套 VLM,世界仿真用 Isaac Sim 或者自研引擎,动作策略又是另一套 VLA 模型。数据格式不通、训练目标不一致、评估基准各管各的,导致一个机器人新技能从仿真到落地,普遍要数月起步。

Cosmos 3 给出的方案是架构层面的统一:一套混合 Transformer,把推理 Transformer 和生成类 Transformer 拼在一起协同工作。模型先解析物体交互、运动规律、时空关联——也就是"理解这个世界发生了什么",再交给生成模块去预测未来的视频帧和动作轨迹。

官方给它定义了三种用法,开发者可以按需调用:

  • 多模态图文大模型:跨模态理解与推理,相当于一个"看得懂物理世界"的 VLM;
  • 世界模型 / 视频基础模型:用来仿真物理环境、预判场景未来状态,可以替代或增强现有仿真器;
  • 世界动作模型主干网络:作为机器人技能训练的 backbone,下游接特定任务的 head。

这种"一模型三用"的设计,对真正在做机器人产品的团队来说很关键——它意味着同一套表征可以贯穿数据生成、策略训练、回归评估整条管线,而不是在三个互不通气的系统之间来回搬运数据。

全模态到底有多全

Cosmos 3 原生支持的模态包括:文本、图像、视频、环境音效、动作轨迹

注意"环境音效"和"动作轨迹"这两个,这是它和传统多模态模型最明显的分水岭。GPT-4o、Gemini 这些模型也在卷多模态,但它们的多模态是为人类对话场景设计的——看图说话、听声辨意。Cosmos 3 的多模态是给机器人用的:金属碰撞声能不能帮助判断物体材质?关节扭矩的时序信号怎么和视觉流对齐?这才是物理 AI 的真问题。

训练语料官方给出的口径是"数十亿条文本、图像、视频、音效及动作轨迹样本",没给精确数字,但从规模描述看,这应该是迄今为止公开的物理 AI 数据集中最大的一份。

在评测层面,英伟达点名了几个基准:Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench。在开源模型范畴内,Cosmos 3 的世界生成精度在这几个榜上都拿到了 SOTA。当然,开源范畴这个限定词得记住——闭源世界还有 Sora 2、Veo 3 这些选手,Cosmos 3 没有正面对比。

Cosmos 联盟:把对手拉进同一条船

比模型本身更值得玩味的,是英伟达同步发起的NVIDIA Cosmos Coalition(宇宙联盟)。

创始成员名单挺有意思:

  • Agile Robots:欧洲人形机器人新锐
  • Black Forest Labs:FLUX 模型的开发者,图像生成顶流
  • Generalist:通用机器人 startup
  • LTX:视频生成模型 LTX-Video 的开发者
  • Runway:商业视频生成代表
  • Skild AI:通用机器人智能层创业公司,估值已过 40 亿美元

这个组合的含义很明确:把视频生成最强的几家(Runway、BFL、LTX)和机器人最前沿的几家(Skild、Agile、Generalist)放在同一张桌子上。视频生成模型本质上就是世界模型的一种形态——你能预测下一帧,就能预测物理世界的下一步。英伟达在做的事情,是把这两条原本平行的技术路线拧成一股。

对 Runway、BFL 这些公司来说,加入联盟意味着接入英伟达的数据、算力和机器人下游生态;对英伟达来说,则是把潜在的世界模型竞争者变成贡献者。这一招相当老辣。

全开源是真的全开源吗

"全开源"这三个字现在已经被滥用得差不多了。Cosmos 3 这里指的是:模型权重、训练代码、部分数据集都通过 Hugging Face 开放下载,并且支持商业授权使用。

对比一下:

  • Meta 的 Llama 系列:权重开放、训练代码部分开放、数据集不开放
  • Mistral:权重开放
  • 大多数视频生成模型:要么 API、要么仅推理代码

Cosmos 3 在物理 AI 这个垂直领域做到了目前业界最彻底的开放程度。考虑到物理 AI 训练对数据质量和多样性的极端依赖,开源数据这件事的价值可能比开源权重更大。

它对开发者意味着什么

对不同类型的开发者,Cosmos 3 的价值不一样:

做机器人的团队:可以直接拿 Cosmos 3 当 backbone,跳过最贵最重的预训练阶段,专注做下游 fine-tune。英伟达自己给出的数据是训练评估周期能从"数月"压到"数日",按机器人创业公司的现金流,这相当于直接续命。

做自动驾驶的团队:世界模型那一块直接可用,corner case 数据生成、闭环仿真测试都能接上。这也是为什么英伟达在 NeurIPS 上同步推了一波自动驾驶相关的开源模型。

做生成式视频的团队:Cosmos 3 的视频生成模块虽然主打物理仿真精度,但本身就是一个能用的视频基础模型。LTX、Runway 这些联盟成员明显会基于它去做衍生产品。

做应用层的开发者:可能暂时还用不到。Cosmos 3 不是给你写聊天机器人的,它的目标受众明确是"打造能在现实世界中感知、推理、规划并执行动作"的系统的开发者。

一些没说出口的事

这次发布有几个细节值得留意。

第一,Cosmos 3 和 GR00T 是什么关系。GR00T 是英伟达的人形机器人基础模型,现在最新版本 N1.7 也刚开放抢先体验。两条线看起来在并行推进——Cosmos 偏"通用世界基础",GR00T 偏"人形机器人专用大脑"。可以理解成 Cosmos 是地基,GR00T 是盖在地基上的楼。

第二,Isaac Lab 3.0 抢先体验版同步推出,配合全新的 Newton 物理引擎 1.0。这套组合拳指向同一个目标:让机器人能在 DGX 级基础设施上跑更大规模、更快速度的学习。换句话说,Cosmos 3 解决模型问题,Isaac Lab 3.0 解决训练基础设施问题,两者咬合。

第三,云厂商已经接入。Microsoft Azure 和 Nebius 集成了英伟达的物理 AI 数据工厂 Blueprint,CoreWeave 集成了 Isaac Lab,阿里云直接把整套物理 AI 堆栈接进了自己的 AI 平台。这意味着 Cosmos 3 不是只能在自家硬件上跑的孤岛模型——这对生态扩张极其重要。

一点判断

物理 AI 这个赛道,过去两年喊得多、落地少。Figure、1X、Agility 这些人形机器人公司估值飙升,但真正能在工厂稳定干活的产品屈指可数。卡点不在硬件,而在模型的泛化能力:训了 100 小时的机器人换个场景就懵,换个物体就抓不住。

Cosmos 3 的思路是用大规模预训练 + 全模态融合,去解决这个泛化问题——逻辑上和 LLM 解决 NLP 泛化问题是一样的。能不能成,要看真实部署的数据。但有一点是明确的:当英伟达把模型、训练框架、仿真引擎、物理引擎、合成数据工具链、云厂商集成、机器人厂商联盟这一整套东西全部端出来的时候,物理 AI 的工程化门槛实实在在被砍掉了一大截。

下一年,如果你做的是机器人或者物理 AI 应用,Cosmos 3 大概率会成为绕不开的基线。

模型已上 Hugging Face,国内开发者可以直接拉取。对于上层应用调用各类大模型的需求,OpenAI Hub 也已经覆盖了主流闭源模型的 API 聚合,国内直连、兼容 OpenAI 格式,配合 Cosmos 3 这类开源物理基座做端到端机器人系统,倒也是一个挺顺手的组合。

参考来源