AI 快讯银河通用发布 AstraBrain-WBC 0.5:人形机器人也迎来 GPT 时刻
模型上新

银河通用发布 AstraBrain-WBC 0.5:人形机器人也迎来 GPT 时刻

2026-06-19T09:04:43.933Z
银河通用发布 AstraBrain-WBC 0.5:人形机器人也迎来 GPT 时刻

银河通用今天甩出全球首个人形机器人通用小脑 GPT 模型 AstraBrain-WBC 0.5,8040 万参数、2 万小时人类动作数据,首次在运控领域验证了 Scaling Law,且全面开源。

今天(6 月 19 日)上午,银河通用正式发布 AstraBrain-WBC 0.5——他们口中"全球首个人形机器人通用小脑 GPT 基础模型"。这事儿值得说一下,因为它把一个一直被认为是"控制工程问题"的领域,强行拽进了大模型范式:8040 万参数,2 万小时人类动作数据训练,并且把全身控制重新定义成了一个"连续序列预测"问题。

更关键的是——论文、代码、权重一并开源。

AstraBrain-WBC 0.5 模型架构示意图

不是又一个具身大脑,而是"小脑"

过去一年多,具身智能赛道几乎所有公开的工作都集中在"大脑"层面:VLA、世界模型、长程任务规划、视觉-语言-动作三件套。Figure、1X、宇树、智元、银河通用自己也都在卷大脑。

但人形机器人真正最痛的地方从来不在那里。让一台 1.7 米高的双足机器人不摔倒、不抽搐、能跳能扛能抱,靠的是毫秒级的全身协同——这是"小脑"的活儿,传统做法是 MPC + RL + 大量手工 reward shaping,一个动作调一周很正常,跨本体几乎不可能复用。

AstraBrain-WBC 0.5 干的就是这件事:把全身数十个自由度的实时控制,做成一个统一的、可泛化的基础模型。银河通用把这个模型放在他们"银河星脑(AstraBrain)"技术体系的小脑位置——WBC 即 Whole-Body Control。

把全身控制写成"下一帧预测"

架构选择本身就是个表态。AstraBrain-WBC 0.5 用的是 GPT 风格的因果 Transformer,输入历史动作序列,输出未来运动趋势。换句话说,机器人的腿要怎么迈、腰要怎么扭、手臂的反向配重怎么给,全都被建模成 next-token prediction——只不过 token 是动作帧。

这套路子其实在自动驾驶、机器人 manipulation 上有过零散尝试,但能上到全身实时 WBC、还跑到 GPT-1 量级(8040 万参数)的,这是头一次。GPT-1 量级听起来很小?放在运控领域已经是降维打击——之前的同类工作大多停留在百万参数级,更多是策略网络而非"基础模型"。

训练数据是另一个看点:2 万小时人类动作捕捉数据,银河通用自称是行业最大规模的人形机器人运动语料库。从扩展到 20 亿帧的规模来看,这个量级是从动捕、视频重建、互联网体育素材里凑出来的,单靠 MoCap 摄影棚远远做不到。

第一次在运控领域看到 Scaling Law

这篇工作最有信息量的一张图,是数据规模和零样本跟踪成功率的曲线:

  • 200 万帧:成功率 83.26%
  • 2 亿帧:稳步上升
  • 20 亿帧:成功率 92.58%,零样本跟踪误差持续下降

训练数据规模与成功率的 Scaling Law 曲线

9 个百分点听上去不夸张,但对于运动控制而言,从 83% 到 92% 意味着失败率从 17% 直接砍到 7.4%——这是从"演示视频里能跑通"到"敢拉出去做商业演示"的分水岭。更重要的是这条曲线没看到饱和的迹象。

这是第一次有人在严肃的实验里证明:机器人运控领域也存在 GPT 式的 Scaling Law。如果这个结论成立,整个行业过去几年"调 reward—调控制器—一个动作一个动作攒"的范式可能要被推翻。语言模型的故事会重演:与其雕花,不如把数据和算力堆上去。

真机零样本:篮球、拳击、舞蹈、翻身

光看数字没意思,银河通用同时放出了真机演示。AstraBrain-WBC 0.5 在测试集中零样本完成了大量训练集里从未出现过的高动态动作,包括:

  • 投篮、运球这类需要全身协调发力的运动
  • 拳击的快速出拳和重心切换
  • 舞蹈动作
  • 翻身起立——这个是大杀器,过去摔倒就基本意味着任务结束,现在机器人能自己爬起来
  • 协作搬运等多体接触任务

零样本是关键词。不是预录的、不是 fine-tune 过的,而是模型见过类似数据分布之后直接泛化出来的。对比一下 Boston Dynamics 那种"调一个动作演一年"的传统范式,差别一目了然。

当然,0.5 这个版本号也说明了态度:这不是终点。8040 万参数离真正的"运控 GPT-3"还差好几个数量级,目前能跑的动作复杂度、和环境真实交互的鲁棒性,离实际部署还有距离。但路径已经被验证了。

大脑+小脑的拼图,正在补齐

把这个事放到行业坐标里看就更有意思。

过去半年,具身大脑那一侧已经卷成红海:Physical Intelligence 的 π0、Figure 的 Helix、智元的 GO-1、银河通用自家的 GraspVLA。但所有这些大脑都依赖一个隐含假设——下层有一个足够稳定、足够通用的执行器。现实是,这个执行器一直没有。

结果就是大脑能想清楚"把杯子拿到桌子上",但机器人会因为身体协调不过来摔倒,或者一个端水任务要针对一种本体训一个专门的低层策略。小脑层缺失,大脑再聪明也跑不起来。

AstraBrain-WBC 0.5 试图填的就是这个洞。如果后续能跨本体(不同关节配置、不同腿长、不同上肢自由度)泛化,意义就更大——意味着具身领域终于有了类似 LLM 之于 NLP 的那个"通用底座"。

开源策略:抄作业的窗口期

论文、代码、技术成果全面开源,这点必须夸。考虑到这是行业里第一个明确意义上的运控基础模型,开源等于给后来者送了一个大礼包:你可以拿着他们的语料组织方式、训练曲线、架构超参直接复现或者改进,不用从零开始踩坑。

对开发者来说,这意味着接下来几个月会看到一波基于 AstraBrain-WBC 架构的二次工作。无论你是做四足、做轮式、还是做上肢操作,这套"动作序列预测"的范式都可以借鉴。

顺带说一句,OpenAI Hub 这边主要聚合的是语言/多模态大模型 API,运控小脑这种部署在本体上的模型暂时不在范围内。但具身大脑那一侧(VLA 模型的视觉-语言推理部分)很多都会用到 GPT-4o、Claude、Gemini 这类多模态能力,OpenAI Hub 一个 Key 调齐这些主流模型,对正在搭具身 pipeline 的开发者还是有用的。

一点判断

我的看法:AstraBrain-WBC 0.5 本身不会立刻改变行业格局——8040 万参数、0.5 版本号都摆在那里。但它做了三件结构性的事:

  1. 第一次用大模型范式严肃地做了 WBC,证明 Transformer 那一套在运控里行得通;
  2. 第一次在运控领域验证了 Scaling Law,给整个赛道指了一条比调 reward 更值得卷的路;
  3. 第一次把这个东西开源,让 follow-up 的成本降到合理范围。

这三件事任何一件单独拿出来都够发一篇 paper,凑在一起意味着——机器人小脑的 GPT-1 时刻来了。接下来该期待的是有人做出小脑领域的 GPT-3,那个时刻才是人形机器人真正可以走出实验室的临界点。

按这条曲线的斜率,可能不会太远。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: