英伟达发布全球首款全开源全模态物理AI基础大模型Cosmos 3，混合Transformer架构融合视觉推理、世界生成与动作预测，并联合Runway、Black Forest Labs等组建Cosmos联盟，将机器人训练周期从数月压缩到数日。

英伟达开源 Cosmos 3：物理 AI 的"GPT 时刻"来了？

6 月 1 日，英伟达正式发布 Cosmos 3，号称"全球首款全开源、全模态的物理 AI 基础大模型"。这是一个在单一系统里同时塞进了视觉推理、世界生成、动作预测三种能力的庞然大物，目标只有一个——让机器人、自动驾驶、视觉智能体真正"看懂"并"动得了"现实世界。

黄仁勋在发布会上重复了那句他过去半年说了不下十次的话："机器人开发的 ChatGPT 时刻已然到来。" 不过这次他给这句话配上了一个具体的载体。

黄仁勋发布 Cosmos 3 现场，背景是机器人在虚拟环境中执行任务的演示画面

一个模型，把三件事捏在一起

要理解 Cosmos 3 的野心，得先理解物理 AI 过去几年的尴尬。

做机器人的人都知道，整条技术栈是碎的：感知用一套 VLM，世界仿真用 Isaac Sim 或者自研引擎，动作策略又是另一套 VLA 模型。数据格式不通、训练目标不一致、评估基准各管各的，导致一个机器人新技能从仿真到落地，普遍要数月起步。

Cosmos 3 给出的方案是架构层面的统一：一套混合 Transformer，把推理 Transformer 和生成类 Transformer 拼在一起协同工作。模型先解析物体交互、运动规律、时空关联——也就是"理解这个世界发生了什么"，再交给生成模块去预测未来的视频帧和动作轨迹。

官方给它定义了三种用法，开发者可以按需调用：

多模态图文大模型：跨模态理解与推理，相当于一个"看得懂物理世界"的 VLM；
世界模型 / 视频基础模型：用来仿真物理环境、预判场景未来状态，可以替代或增强现有仿真器；
世界动作模型主干网络：作为机器人技能训练的 backbone，下游接特定任务的 head。

这种"一模型三用"的设计，对真正在做机器人产品的团队来说很关键——它意味着同一套表征可以贯穿数据生成、策略训练、回归评估整条管线，而不是在三个互不通气的系统之间来回搬运数据。

全模态到底有多全

Cosmos 3 原生支持的模态包括：文本、图像、视频、环境音效、动作轨迹。

注意"环境音效"和"动作轨迹"这两个，这是它和传统多模态模型最明显的分水岭。GPT-4o、Gemini 这些模型也在卷多模态，但它们的多模态是为人类对话场景设计的——看图说话、听声辨意。Cosmos 3 的多模态是给机器人用的：金属碰撞声能不能帮助判断物体材质？关节扭矩的时序信号怎么和视觉流对齐？这才是物理 AI 的真问题。

训练语料官方给出的口径是"数十亿条文本、图像、视频、音效及动作轨迹样本"，没给精确数字，但从规模描述看，这应该是迄今为止公开的物理 AI 数据集中最大的一份。

在评测层面，英伟达点名了几个基准：Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench。在开源模型范畴内，Cosmos 3 的世界生成精度在这几个榜上都拿到了 SOTA。当然，开源范畴这个限定词得记住——闭源世界还有 Sora 2、Veo 3 这些选手，Cosmos 3 没有正面对比。

Cosmos 联盟：把对手拉进同一条船

比模型本身更值得玩味的，是英伟达同步发起的NVIDIA Cosmos Coalition（宇宙联盟）。

创始成员名单挺有意思：

Agile Robots：欧洲人形机器人新锐
Black Forest Labs：FLUX 模型的开发者，图像生成顶流
Generalist：通用机器人 startup
LTX：视频生成模型 LTX-Video 的开发者
Runway：商业视频生成代表
Skild AI：通用机器人智能层创业公司，估值已过 40 亿美元

这个组合的含义很明确：把视频生成最强的几家（Runway、BFL、LTX）和机器人最前沿的几家（Skild、Agile、Generalist）放在同一张桌子上。视频生成模型本质上就是世界模型的一种形态——你能预测下一帧，就能预测物理世界的下一步。英伟达在做的事情，是把这两条原本平行的技术路线拧成一股。

对 Runway、BFL 这些公司来说，加入联盟意味着接入英伟达的数据、算力和机器人下游生态；对英伟达来说，则是把潜在的世界模型竞争者变成贡献者。这一招相当老辣。

全开源是真的全开源吗

"全开源"这三个字现在已经被滥用得差不多了。Cosmos 3 这里指的是：模型权重、训练代码、部分数据集都通过 Hugging Face 开放下载，并且支持商业授权使用。

对比一下：

Meta 的 Llama 系列：权重开放、训练代码部分开放、数据集不开放
Mistral：权重开放
大多数视频生成模型：要么 API、要么仅推理代码

Cosmos 3 在物理 AI 这个垂直领域做到了目前业界最彻底的开放程度。考虑到物理 AI 训练对数据质量和多样性的极端依赖，开源数据这件事的价值可能比开源权重更大。

它对开发者意味着什么

对不同类型的开发者，Cosmos 3 的价值不一样：

做机器人的团队：可以直接拿 Cosmos 3 当 backbone，跳过最贵最重的预训练阶段，专注做下游 fine-tune。英伟达自己给出的数据是训练评估周期能从"数月"压到"数日"，按机器人创业公司的现金流，这相当于直接续命。

做自动驾驶的团队：世界模型那一块直接可用，corner case 数据生成、闭环仿真测试都能接上。这也是为什么英伟达在 NeurIPS 上同步推了一波自动驾驶相关的开源模型。

做生成式视频的团队：Cosmos 3 的视频生成模块虽然主打物理仿真精度，但本身就是一个能用的视频基础模型。LTX、Runway 这些联盟成员明显会基于它去做衍生产品。

做应用层的开发者：可能暂时还用不到。Cosmos 3 不是给你写聊天机器人的，它的目标受众明确是"打造能在现实世界中感知、推理、规划并执行动作"的系统的开发者。

一些没说出口的事

这次发布有几个细节值得留意。

第一，Cosmos 3 和 GR00T 是什么关系。GR00T 是英伟达的人形机器人基础模型，现在最新版本 N1.7 也刚开放抢先体验。两条线看起来在并行推进——Cosmos 偏"通用世界基础"，GR00T 偏"人形机器人专用大脑"。可以理解成 Cosmos 是地基，GR00T 是盖在地基上的楼。

第二，Isaac Lab 3.0 抢先体验版同步推出，配合全新的 Newton 物理引擎 1.0。这套组合拳指向同一个目标：让机器人能在 DGX 级基础设施上跑更大规模、更快速度的学习。换句话说，Cosmos 3 解决模型问题，Isaac Lab 3.0 解决训练基础设施问题，两者咬合。

第三，云厂商已经接入。Microsoft Azure 和 Nebius 集成了英伟达的物理 AI 数据工厂 Blueprint，CoreWeave 集成了 Isaac Lab，阿里云直接把整套物理 AI 堆栈接进了自己的 AI 平台。这意味着 Cosmos 3 不是只能在自家硬件上跑的孤岛模型——这对生态扩张极其重要。

一点判断

物理 AI 这个赛道，过去两年喊得多、落地少。Figure、1X、Agility 这些人形机器人公司估值飙升，但真正能在工厂稳定干活的产品屈指可数。卡点不在硬件，而在模型的泛化能力：训了 100 小时的机器人换个场景就懵，换个物体就抓不住。

Cosmos 3 的思路是用大规模预训练 + 全模态融合，去解决这个泛化问题——逻辑上和 LLM 解决 NLP 泛化问题是一样的。能不能成，要看真实部署的数据。但有一点是明确的：当英伟达把模型、训练框架、仿真引擎、物理引擎、合成数据工具链、云厂商集成、机器人厂商联盟这一整套东西全部端出来的时候，物理 AI 的工程化门槛实实在在被砍掉了一大截。

下一年，如果你做的是机器人或者物理 AI 应用，Cosmos 3 大概率会成为绕不开的基线。

模型已上 Hugging Face，国内开发者可以直接拉取。对于上层应用调用各类大模型的需求，OpenAI Hub 也已经覆盖了主流闭源模型的 API 聚合，国内直连、兼容 OpenAI 格式，配合 Cosmos 3 这类开源物理基座做端到端机器人系统，倒也是一个挺顺手的组合。

参考来源

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3 - IT之家：Cosmos 3 发布会原始报道，包含模型架构与联盟成员信息
NVIDIA Cosmos 3：当世界模型开始"做决策" - 知乎专栏：对 Cosmos 3 统一架构设计的技术解读
Hugging Face NVIDIA 模型仓库：Cosmos 3 及 GR00T 系列模型权重下载入口

英伟达开源Cosmos 3：物理AI的"GPT时刻"来了？