AI 快讯智平方NeuroVLA:把机器人「大脑小脑脊髓」拆开做
模型上新

智平方NeuroVLA:把机器人「大脑小脑脊髓」拆开做

2026-06-15T04:06:08.859Z
智平方NeuroVLA:把机器人「大脑小脑脊髓」拆开做

智平方在2026智源大会上发布全球首个类脑式具身智能系统NeuroVLA,用皮层-小脑-脊髓三级架构把传统VLA的单体大模型拆解,碰撞反射缩到20毫秒,脊髓层功耗仅0.4瓦。

6月13日的北京智源大会上,智平方创始人郭彦东把NeuroVLA端了出来——这是一个把人脑「皮层-小脑-脊髓」三层结构搬进机器人大模型的具身智能系统,他们自己定义为「全球首个类脑架构VLA」。

如果你最近一直在追VLA(Vision-Language-Action)这条线,应该能感觉到一个微妙的转向:过去两年大家忙着把视觉、语言、动作塞进一个端到端大模型里,证明「一个网络解决一切」是可行的;但2026年开始,越来越多的玩家意识到,这种「单体大脑」在真实物理世界里碰壁了。NeuroVLA是这一波转向里走得最激进的一个。

NeuroVLA三级类脑架构示意图

单体VLA的天花板,到底卡在哪

先说清楚为什么要做类脑架构。传统VLA的做法很直接:视觉编码器+语言模型+动作解码器,端到端训练,输入图像和指令,输出动作序列。OpenVLA、RT-2、π0这一系是典型代表。

这套范式在演示视频里很惊艳,但部署到工厂或者家庭场景,三个老问题一直没解决:

  • 响应延迟:一个动作要走完完整的「感知-推理-生成」链路,少则一百多毫秒,多则三五百毫秒。机器人撞到人之后再开始想「我该怎么办」,已经太晚了。
  • 动作抖动:大模型的高频运动控制能力先天不足,做精细操作时会有明显的颤抖和过冲,靠后处理滤波只能缓解。
  • 能耗失控:跑一个7B的VLA模型,机载GPU功率几十瓦起步,移动机器人续航被吃得很惨。

智平方给的解法是——人脑就不是这么干的,凭什么机器人非要这么干?

三层架构,各干各的

NeuroVLA把整个系统按生物学层级拆成三块,每一层有自己的频率和职责:

皮层(Cortex):慢思考

负责语义理解、任务规划、长程推理。这一层基本对应传统VLA里的多模态大模型部分,跑在主控算力上,频率不高(几Hz到十几Hz),但管得宽——「把桌上那杯咖啡递给穿蓝衣服的人」这种话,是这一层听懂的。

小脑(Cerebellum):高频运动协调

这是NeuroVLA最关键的一层。小脑层接收皮层下发的动作意图,负责把它细化成平滑、稳定、连贯的运动轨迹,并根据实时反馈做动态修正。官方数据是这一层把运动抖动降低了75%以上——这个数字如果实测能复现,对精细操作场景的意义非常大。

小脑层的设计借鉴了生物小脑的「前馈+反馈」控制思路,不再让大模型直接吐关节角度,而是由专门的运动协调模块来做插值、平滑和扰动补偿。

脊髓(Spinal Cord):反射弧

这一层是最有意思的。脊髓层只干一件事:在毫秒级时间窗口内对危险信号做出反射性响应。碰撞、跌落、夹手——这些场景下根本来不及让皮层「思考」,必须像人不小心摸到烫的东西会瞬间缩手一样,绕开大脑直接处理。

NeuroVLA的脊髓层把碰撞-反射响应做到了20毫秒。作为对比,传统VLA系统这个数字超过200毫秒,差了一个数量级。更重要的是,碰撞之后的任务恢复成功率从0%(传统VLA基本就当场死机)提升到了54.8%——也就是说机器人不光能躲开,还能调整路径接着干活。

脉冲神经网络,外加在线学习

脊髓层用了脉冲神经网络(SNN)做动作头,训练算法是R-STDP(奖励调制的STDP)。这两个组合在学术圈不算新概念,但被严肃地用在量产机器人上,NeuroVLA算是头一波。

SNN的好处一是低功耗——官方披露脊髓层执行任务时平均功耗只有0.4瓦,比一部手机播放视频还低;二是天然适合处理时序信号和事件驱动型任务,正好对得上「反射」这种用例。

R-STDP则带来一个有意思的能力:部署阶段的在线自适应。说人话就是机器人在工厂里干着干着,自己就能针对当前场景微调脊髓层的响应,类似人类反复练习一个动作后形成的「肌肉记忆」。这一点对于工业场景的长尾问题处理非常关键——工厂里每条产线的细节都不一样,让机器人能自己适应而不是每次都回炉训练,价值很大。

这个架构到底解决了什么

把NeuroVLA和传统VLA放一起比,差异可以列得很清楚:

| 维度 | 传统VLA | NeuroVLA | | --- | --- | --- | | 架构 | 单体端到端大模型 | 皮层-小脑-脊髓三层分工 | | 碰撞反射延迟 | >200ms | 20ms | | 运动抖动 | 基准 | 降低75%+ | | 反射后任务恢复率 | 0% | 54.8% | | 脊髓层功耗 | N/A | 0.4W | | 在线学习 | 通常不支持 | R-STDP支持 |

值得注意的是,三层之间不是简单的串行调用,而是并行运行、互不阻塞。皮层在做慢思考的时候,小脑该跑还在跑,脊髓的反射弧永远在线。这一点其实是类脑设计最本质的优势——把不同时间尺度的任务交给不同的子系统处理,而不是让一个大模型既要管语义又要管毫秒级反应。

说白了,这就是把软件架构里「关注点分离」的思想,搬到了具身智能的模型架构层面。

NeuroVLA在工业场景中的应用演示

已经在跑的商业化

智平方不是只发了一个论文级的Demo。会上同时披露了几个落地数据点:

  • NeuroVLA已在AlphaBrain Platform开源——这对开发者是个好消息,意味着可以拿来研究和二次开发
  • 商业化场景已经覆盖汽车、半导体等工业产线
  • 自有产品「智魔方」机器人店员业态落地全国十余省份

郭彦东在会上抛了一句话挺值得琢磨:通用智能机器人是继PC、手机、汽车之后的「第四代智能终端」,行业应该回归技术创新、避免烧钱内卷。这话从一家正在做量产的公司CEO嘴里说出来,多少带点行业喊话的意味——过去一年具身智能这个赛道明星公司一堆,融资数字也很好看,但真正能拿出工程化落地数据的并不多。

类脑VLA是不是下一站

回到一个更大的问题:单体端到端VLA还是分层类脑架构,哪条路对?

从NeuroVLA的数据看,类脑路线在安全、稳定、能耗这三个工程化最关键的维度上拿到了明显的优势。但代价也很现实——架构复杂度上去了,三层之间的协同训练、通信延迟、故障处理都是新问题;皮层和小脑之间的接口怎么设计才能既灵活又高效,本身就是个开放问题。

端到端派的反驳大概会是:「你这是开倒车,scaling law能解决的问题不需要先验结构」。这个争论在大模型领域并不新鲜,只是现在搬到了具身智能。

我个人倾向于认为,物理世界的实时性约束是scaling解决不了的硬约束。你可以把一个VLA模型从7B堆到70B、700B,但光速和电路延迟摆在那里,单体大模型走完一次前向传播需要的时间不会因为参数变多就消失。在这一点上,类脑分层架构有结构性的优势。

至于NeuroVLA本身——它给出的20ms反射、0.4W功耗、75%抖动抑制,如果在第三方测评和更多场景里能稳定复现,那这个架构思路大概率会成为接下来一两年里其他玩家跟进的方向。AlphaBrain Platform开源也降低了大家验证的门槛。

顺带一提,OpenAI Hub已经接入了一系列主流多模态模型,做VLA上层皮层模块开发的同学可以直接用一个Key切换GPT、Claude、Gemini、DeepSeek等模型来跑对比——三层架构里皮层那一层用哪个大模型,实际上是个工程取舍问题,值得多试几个看效果。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: