阿里今天发布首个完整的具身智能大模型系列Qwen-Robot，包含操作模型RobotManip、导航模型RobotNav和世界模型RobotWorld，正式把Qwen的多模态能力推向物理世界。

阿里掏出Qwen-Robot三件套：给机器人配齐手、脚和大脑

6月16日，阿里把Qwen家族的版图正式扩到了物理世界。今天发布的Qwen-Robot系列一口气端出三个模型：负责操作的VLA模型Qwen-RobotManip、负责导航的VLN模型Qwen-RobotNav，以及作为「想象引擎」的世界模型Qwen-RobotWorld。按官方那个不算新鲜但很直观的比喻——分别对应机器人的手、脚和大脑。

这是Qwen家族第一次拿出完整建制的具身智能模型矩阵。此前阿里在这条线上一直是「投资+局部探索」的姿态：集团层面投了宇树、星动纪元、星海图、逐际动力，达摩院在去年底放出过RynnVLA系列，通义这边则由林俊旸去年10月在Twitter上官宣成立了内部具身团队。半年多过去，这支队伍交卷了。

Qwen-Robot系列三大模型架构示意图

一、三个模型，分别解决什么问题

做过具身的人都清楚，这个方向上没有「一招吃遍天」的架构。操作（Manipulation）讲究亚毫米级的末端控制，导航（Navigation）关心的是大范围空间记忆和路径规划，而世界模型是另一个赛道——预测未来帧、做规划反演。把这三件事塞进同一个大模型基本是灾难。阿里这次的做法是分而治之，但底座共享Qwen的VLM能力。

Qwen-RobotManip：把VLA的训练数据量怼到了38100小时

VLA（Vision-Language-Action）这两年是具身圈最热的范式，从RT-2、OpenVLA到Pi-0，路线逐渐收敛。Qwen-RobotManip的技术要点有两个：

规范化的状态-动作空间：统一了不同机型的关节定义和坐标系，这是大规模多机型训练能跑通的前提。具身领域过去一个老问题就是「数据不可迁移」——同样是抓杯子，UR5和Franka学到的策略几乎没法复用。
相机坐标系下的末端执行器增量位姿（delta EE pose）：用相对位姿而不是绝对关节角作为动作表征，这条路Pi-0、RDT走过，好处是对相机标定和机器人本体的依赖大幅降低。

训练数据完全由开源数据构成，超过38100小时——这个数字相当激进。作为对比，OpenVLA当时用的Open X-Embodiment大约是100万episode，按平均时长粗算也就上万小时量级。阿里这次把开源数据吃干榨净的姿态很明显，也间接说明Qwen团队判断：当前VLA的瓶颈不在算法，在数据规模和清洗质量。

Qwen-RobotNav：把导航、追踪、自动驾驶塞进一个模型

Nav模型的设计思路更像「以VLM为中枢的Agent」——通过可控观测编码（controllable observation encoding）和工具接口，让模型能调用底层移动控制。官方宣称统一了四类任务：

指令跟随（Instruction Following）
点导航 / 目标导航（PointGoal / ObjectGoal Nav）
目标追踪（Object Tracking）
自动驾驶（Autonomous Driving）

把自动驾驶和室内导航放进同一个模型，这步走得相当大胆。从任务结构上看，二者确实都是「观测→决策→低层控制」的链路，但场景的尺度、动力学约束、安全边界差太多。Qwen-RobotNav能不能真的在L2+自动驾驶里跑起来还得等更多benchmark，但统一接口这件事本身对开发者是友好的——你不用为家用机器人和户外送货机器人维护两套prompt模板。

Qwen-RobotWorld：自然语言驱动的世界模型

这个最有意思。世界模型这两年从Sora、Genie、V-JEPA到1X的1X-World Model，已经成了具身和自动驾驶圈的「兵家必争」。Qwen-RobotWorld的卖点是自然语言动作接口——你用语言描述一个动作意图，它给你预测出一段符合物理规律的未来视频，且这个能力横跨操作、驾驶、导航三类场景。

这意味着两件事：

它可以当数据生成器用，给VLA模型生成合成训练数据；
它可以当规划器用，先在「脑内」rollout几条候选轨迹，挑最优的去执行。

这套思路其实就是Yann LeCun一直在推的「世界模型做规划」的范式，只不过LeCun押的是JEPA的非生成式路线，阿里这次走的还是生成式。两条路谁能跑通现在还没定论，但对工程落地来说，生成式世界模型至少能直接看到「机器人脑子里在想什么」，调试体验好太多。

二、为什么是现在？

这件事放在2026年6月这个节点上不算意外。回看几个关键节点：

2025年10月，林俊旸在X上官宣Qwen内部组建具身团队，原话是「I set up」，亲自带队的味道很浓。
2025年9月云栖大会，阿里云和NVIDIA联合提出「Physical AI」计划，把AI推向机器臂和工业自动化。
2025年8月，达摩院在世界机器人大会开源了RynnRCP、RynnVLA-001等三大件，相当于先用达摩院趟了一遍路。
2026年5月，Qwen3.7-Max在Arena盲测里冲进国产第一，给VLM底座提供了足够强的基础。

半年时间从「成立小组」到「拿出完整三件套」，速度不算慢。更重要的是，阿里这次把具身的三个核心能力（操作、导航、世界模型）一次性补齐，跨度上比之前达摩院RynnVLA单点突破要完整得多。

机器人在厨房场景下执行多步骤抓取任务的演示截图

三、跟竞品比，Qwen-Robot站在什么位置

横向看一圈，现在做具身基础模型的玩家分三派：

第一派是创业公司，以Physical Intelligence（Pi-0、Pi-0.5）、Skild AI、Figure（Helix）为代表，路线偏纯VLA，专注操作。

第二派是大厂的具身专项，Google DeepMind的Gemini Robotics、NVIDIA的GR00T N1/N2、字节的GR-2/GR-3，往往是大模型团队的延伸产品。

第三派是国内的「全栈派」，华为盘古具身、智元启元大模型、银河通用GraspVLA等等。

Qwen-Robot明显属于第二派往第三派靠拢。它的差异化在于：

明确分工：Manip / Nav / World三个独立模型，而不是Gemini Robotics那种一个VLA端到端通吃。这种做法更工程化，单点能力更容易打磨，但对集成方提出了更高的协同要求。
可单独部署，也能协同运转：意思是你只想做个移动底盘的话可以只用Nav，做桌面操作只用Manip。这种「乐高化」对中小机器人厂商是真利好——大家不用为了一个能力买一整套。
背靠Qwen3.7的VLM底座：这是阿里最大的牌。Gemini Robotics背后是Gemini，Helix背后是Figure自研，Qwen-Robot吃的是Qwen3.7-VL的红利。

至于实际效果如何，技术报告和benchmark阿里还没全部放出，得等接下来几周陆续公开的论文和demo。从过往Qwen团队的口碑看，吹的牛大概率能兑现一部分，但宣传里的「跨场景通用」往往要打个七折看。

四、给开发者的几个观察点

如果你是做机器人或者具身应用的开发者，这次发布有几个点值得关注：

训练数据策略：38100小时的纯开源数据语料，意味着Qwen团队大概率会公开数据清洗和混合的recipe。这对整个开源社区是大利好，比纯放模型权重还重要。
动作表征的工程细节：相机坐标系下的delta EE pose，配合规范化的状态-动作空间，这套接口设计如果开放出来，会成为国内具身领域事实上的标准之一。
世界模型的生成质量：是真能预测「物理合理」的未来，还是只是看起来像？这是判断Qwen-RobotWorld有没有真材实料的关键。一个连刚体碰撞都模拟不准的世界模型，做规划是没用的。
自动驾驶能力到底有多少：把ADAS塞进通用Nav模型，这步走得激进。短期看实用价值有限，长期看是个值得追的方向。

五、写在最后

2026年的具身智能领域，热闹归热闹，真正能把「基础模型 + 数据 + 硬件」打通的玩家还是少数。阿里这次掏出Qwen-Robot系列，更像是一个宣告——通义千问不再只做「云上的大脑」，而要走进物理世界。

说实话，作为科技编辑，我对国内大厂做具身这件事一直有点保留。过去几年「PPT具身」太多，真正能在工厂、家庭里跑起来的模型几乎没有。阿里这次至少把架子搭起来了，剩下的就看接下来几个月——技术报告、开源进度、合作伙伴的真实部署案例。

值得期待，但也保持冷静。Qwen-Robot能不能成为具身领域的「通用底座」，半年后回头看就知道了。

参考来源

IT之家：阿里巴巴发布首个具身智能大模型 Qwen-Robot 系列 — 阿里今日发布Qwen-Robot系列的官方报道，含三大模型技术细节
知乎专栏：Qwen要做机器人了，林俊旸官宣成立具身智能团队 — 2025年10月Qwen具身团队成立背景，由通义千问技术负责人林俊旸亲自带队

阿里掏出Qwen-Robot三件套：给机器人配齐手、脚和大脑

阿里掏出Qwen-Robot三件套：给机器人配齐手、脚和大脑

一、三个模型，分别解决什么问题

Qwen-RobotManip：把VLA的训练数据量怼到了38100小时

Qwen-RobotNav：把导航、追踪、自动驾驶塞进一个模型

Qwen-RobotWorld：自然语言驱动的世界模型

二、为什么是现在？

三、跟竞品比，Qwen-Robot站在什么位置

四、给开发者的几个观察点

五、写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们