AI 快讯阿里掏出Qwen-Robot三件套:给机器人配齐手、脚和大脑
模型上新

阿里掏出Qwen-Robot三件套:给机器人配齐手、脚和大脑

2026-06-16T06:07:49.557Z
阿里掏出Qwen-Robot三件套:给机器人配齐手、脚和大脑

阿里今天发布首个完整的具身智能大模型系列Qwen-Robot,包含操作模型RobotManip、导航模型RobotNav和世界模型RobotWorld,正式把Qwen的多模态能力推向物理世界。

阿里掏出Qwen-Robot三件套:给机器人配齐手、脚和大脑

6月16日,阿里把Qwen家族的版图正式扩到了物理世界。今天发布的Qwen-Robot系列一口气端出三个模型:负责操作的VLA模型Qwen-RobotManip、负责导航的VLN模型Qwen-RobotNav,以及作为「想象引擎」的世界模型Qwen-RobotWorld。按官方那个不算新鲜但很直观的比喻——分别对应机器人的手、脚和大脑。

这是Qwen家族第一次拿出完整建制的具身智能模型矩阵。此前阿里在这条线上一直是「投资+局部探索」的姿态:集团层面投了宇树、星动纪元、星海图、逐际动力,达摩院在去年底放出过RynnVLA系列,通义这边则由林俊旸去年10月在Twitter上官宣成立了内部具身团队。半年多过去,这支队伍交卷了。

Qwen-Robot系列三大模型架构示意图

一、三个模型,分别解决什么问题

做过具身的人都清楚,这个方向上没有「一招吃遍天」的架构。操作(Manipulation)讲究亚毫米级的末端控制,导航(Navigation)关心的是大范围空间记忆和路径规划,而世界模型是另一个赛道——预测未来帧、做规划反演。把这三件事塞进同一个大模型基本是灾难。阿里这次的做法是分而治之,但底座共享Qwen的VLM能力。

Qwen-RobotManip:把VLA的训练数据量怼到了38100小时

VLA(Vision-Language-Action)这两年是具身圈最热的范式,从RT-2、OpenVLA到Pi-0,路线逐渐收敛。Qwen-RobotManip的技术要点有两个:

  • 规范化的状态-动作空间:统一了不同机型的关节定义和坐标系,这是大规模多机型训练能跑通的前提。具身领域过去一个老问题就是「数据不可迁移」——同样是抓杯子,UR5和Franka学到的策略几乎没法复用。
  • 相机坐标系下的末端执行器增量位姿(delta EE pose):用相对位姿而不是绝对关节角作为动作表征,这条路Pi-0、RDT走过,好处是对相机标定和机器人本体的依赖大幅降低。

训练数据完全由开源数据构成,超过38100小时——这个数字相当激进。作为对比,OpenVLA当时用的Open X-Embodiment大约是100万episode,按平均时长粗算也就上万小时量级。阿里这次把开源数据吃干榨净的姿态很明显,也间接说明Qwen团队判断:当前VLA的瓶颈不在算法,在数据规模和清洗质量

Qwen-RobotNav:把导航、追踪、自动驾驶塞进一个模型

Nav模型的设计思路更像「以VLM为中枢的Agent」——通过可控观测编码(controllable observation encoding)和工具接口,让模型能调用底层移动控制。官方宣称统一了四类任务:

  • 指令跟随(Instruction Following)
  • 点导航 / 目标导航(PointGoal / ObjectGoal Nav)
  • 目标追踪(Object Tracking)
  • 自动驾驶(Autonomous Driving)

把自动驾驶和室内导航放进同一个模型,这步走得相当大胆。从任务结构上看,二者确实都是「观测→决策→低层控制」的链路,但场景的尺度、动力学约束、安全边界差太多。Qwen-RobotNav能不能真的在L2+自动驾驶里跑起来还得等更多benchmark,但统一接口这件事本身对开发者是友好的——你不用为家用机器人和户外送货机器人维护两套prompt模板。

Qwen-RobotWorld:自然语言驱动的世界模型

这个最有意思。世界模型这两年从Sora、Genie、V-JEPA到1X的1X-World Model,已经成了具身和自动驾驶圈的「兵家必争」。Qwen-RobotWorld的卖点是自然语言动作接口——你用语言描述一个动作意图,它给你预测出一段符合物理规律的未来视频,且这个能力横跨操作、驾驶、导航三类场景

这意味着两件事:

  1. 它可以当数据生成器用,给VLA模型生成合成训练数据;
  2. 它可以当规划器用,先在「脑内」rollout几条候选轨迹,挑最优的去执行。

这套思路其实就是Yann LeCun一直在推的「世界模型做规划」的范式,只不过LeCun押的是JEPA的非生成式路线,阿里这次走的还是生成式。两条路谁能跑通现在还没定论,但对工程落地来说,生成式世界模型至少能直接看到「机器人脑子里在想什么」,调试体验好太多。

二、为什么是现在?

这件事放在2026年6月这个节点上不算意外。回看几个关键节点:

  • 2025年10月,林俊旸在X上官宣Qwen内部组建具身团队,原话是「I set up」,亲自带队的味道很浓。
  • 2025年9月云栖大会,阿里云和NVIDIA联合提出「Physical AI」计划,把AI推向机器臂和工业自动化。
  • 2025年8月,达摩院在世界机器人大会开源了RynnRCP、RynnVLA-001等三大件,相当于先用达摩院趟了一遍路。
  • 2026年5月,Qwen3.7-Max在Arena盲测里冲进国产第一,给VLM底座提供了足够强的基础。

半年时间从「成立小组」到「拿出完整三件套」,速度不算慢。更重要的是,阿里这次把具身的三个核心能力(操作、导航、世界模型)一次性补齐,跨度上比之前达摩院RynnVLA单点突破要完整得多。

机器人在厨房场景下执行多步骤抓取任务的演示截图

三、跟竞品比,Qwen-Robot站在什么位置

横向看一圈,现在做具身基础模型的玩家分三派:

第一派是创业公司,以Physical Intelligence(Pi-0、Pi-0.5)、Skild AI、Figure(Helix)为代表,路线偏纯VLA,专注操作。

第二派是大厂的具身专项,Google DeepMind的Gemini Robotics、NVIDIA的GR00T N1/N2、字节的GR-2/GR-3,往往是大模型团队的延伸产品。

第三派是国内的「全栈派」,华为盘古具身、智元启元大模型、银河通用GraspVLA等等。

Qwen-Robot明显属于第二派往第三派靠拢。它的差异化在于:

  • 明确分工:Manip / Nav / World三个独立模型,而不是Gemini Robotics那种一个VLA端到端通吃。这种做法更工程化,单点能力更容易打磨,但对集成方提出了更高的协同要求。
  • 可单独部署,也能协同运转:意思是你只想做个移动底盘的话可以只用Nav,做桌面操作只用Manip。这种「乐高化」对中小机器人厂商是真利好——大家不用为了一个能力买一整套。
  • 背靠Qwen3.7的VLM底座:这是阿里最大的牌。Gemini Robotics背后是Gemini,Helix背后是Figure自研,Qwen-Robot吃的是Qwen3.7-VL的红利。

至于实际效果如何,技术报告和benchmark阿里还没全部放出,得等接下来几周陆续公开的论文和demo。从过往Qwen团队的口碑看,吹的牛大概率能兑现一部分,但宣传里的「跨场景通用」往往要打个七折看。

四、给开发者的几个观察点

如果你是做机器人或者具身应用的开发者,这次发布有几个点值得关注:

  1. 训练数据策略:38100小时的纯开源数据语料,意味着Qwen团队大概率会公开数据清洗和混合的recipe。这对整个开源社区是大利好,比纯放模型权重还重要。
  2. 动作表征的工程细节:相机坐标系下的delta EE pose,配合规范化的状态-动作空间,这套接口设计如果开放出来,会成为国内具身领域事实上的标准之一。
  3. 世界模型的生成质量:是真能预测「物理合理」的未来,还是只是看起来像?这是判断Qwen-RobotWorld有没有真材实料的关键。一个连刚体碰撞都模拟不准的世界模型,做规划是没用的。
  4. 自动驾驶能力到底有多少:把ADAS塞进通用Nav模型,这步走得激进。短期看实用价值有限,长期看是个值得追的方向。

五、写在最后

2026年的具身智能领域,热闹归热闹,真正能把「基础模型 + 数据 + 硬件」打通的玩家还是少数。阿里这次掏出Qwen-Robot系列,更像是一个宣告——通义千问不再只做「云上的大脑」,而要走进物理世界。

说实话,作为科技编辑,我对国内大厂做具身这件事一直有点保留。过去几年「PPT具身」太多,真正能在工厂、家庭里跑起来的模型几乎没有。阿里这次至少把架子搭起来了,剩下的就看接下来几个月——技术报告、开源进度、合作伙伴的真实部署案例。

值得期待,但也保持冷静。Qwen-Robot能不能成为具身领域的「通用底座」,半年后回头看就知道了。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: