智平方NeuroVLA发布：全球首个皮层-小脑-脊髓三级类脑VLA架构

智平方在2026智源大会上发布全球首个类脑式具身智能系统NeuroVLA，用皮层-小脑-脊髓三级架构把传统VLA的单体大模型拆解，碰撞反射缩到20毫秒，脊髓层功耗仅0.4瓦。

6月13日的北京智源大会上，智平方创始人郭彦东把NeuroVLA端了出来——这是一个把人脑「皮层-小脑-脊髓」三层结构搬进机器人大模型的具身智能系统，他们自己定义为「全球首个类脑架构VLA」。

如果你最近一直在追VLA（Vision-Language-Action）这条线，应该能感觉到一个微妙的转向：过去两年大家忙着把视觉、语言、动作塞进一个端到端大模型里，证明「一个网络解决一切」是可行的；但2026年开始，越来越多的玩家意识到，这种「单体大脑」在真实物理世界里碰壁了。NeuroVLA是这一波转向里走得最激进的一个。

NeuroVLA三级类脑架构示意图

单体VLA的天花板，到底卡在哪

先说清楚为什么要做类脑架构。传统VLA的做法很直接：视觉编码器+语言模型+动作解码器，端到端训练，输入图像和指令，输出动作序列。OpenVLA、RT-2、π0这一系是典型代表。

这套范式在演示视频里很惊艳，但部署到工厂或者家庭场景，三个老问题一直没解决：

响应延迟：一个动作要走完完整的「感知-推理-生成」链路，少则一百多毫秒，多则三五百毫秒。机器人撞到人之后再开始想「我该怎么办」，已经太晚了。
动作抖动：大模型的高频运动控制能力先天不足，做精细操作时会有明显的颤抖和过冲，靠后处理滤波只能缓解。
能耗失控：跑一个7B的VLA模型，机载GPU功率几十瓦起步，移动机器人续航被吃得很惨。

智平方给的解法是——人脑就不是这么干的，凭什么机器人非要这么干？

三层架构，各干各的

NeuroVLA把整个系统按生物学层级拆成三块，每一层有自己的频率和职责：

皮层（Cortex）：慢思考

负责语义理解、任务规划、长程推理。这一层基本对应传统VLA里的多模态大模型部分，跑在主控算力上，频率不高（几Hz到十几Hz），但管得宽——「把桌上那杯咖啡递给穿蓝衣服的人」这种话，是这一层听懂的。

小脑（Cerebellum）：高频运动协调

这是NeuroVLA最关键的一层。小脑层接收皮层下发的动作意图，负责把它细化成平滑、稳定、连贯的运动轨迹，并根据实时反馈做动态修正。官方数据是这一层把运动抖动降低了75%以上——这个数字如果实测能复现，对精细操作场景的意义非常大。

小脑层的设计借鉴了生物小脑的「前馈+反馈」控制思路，不再让大模型直接吐关节角度，而是由专门的运动协调模块来做插值、平滑和扰动补偿。

脊髓（Spinal Cord）：反射弧

这一层是最有意思的。脊髓层只干一件事：在毫秒级时间窗口内对危险信号做出反射性响应。碰撞、跌落、夹手——这些场景下根本来不及让皮层「思考」，必须像人不小心摸到烫的东西会瞬间缩手一样，绕开大脑直接处理。

NeuroVLA的脊髓层把碰撞-反射响应做到了20毫秒。作为对比，传统VLA系统这个数字超过200毫秒，差了一个数量级。更重要的是，碰撞之后的任务恢复成功率从0%（传统VLA基本就当场死机）提升到了54.8%——也就是说机器人不光能躲开，还能调整路径接着干活。

脉冲神经网络，外加在线学习

脊髓层用了脉冲神经网络（SNN）做动作头，训练算法是R-STDP（奖励调制的STDP）。这两个组合在学术圈不算新概念，但被严肃地用在量产机器人上，NeuroVLA算是头一波。

SNN的好处一是低功耗——官方披露脊髓层执行任务时平均功耗只有0.4瓦，比一部手机播放视频还低；二是天然适合处理时序信号和事件驱动型任务，正好对得上「反射」这种用例。

R-STDP则带来一个有意思的能力：部署阶段的在线自适应。说人话就是机器人在工厂里干着干着，自己就能针对当前场景微调脊髓层的响应，类似人类反复练习一个动作后形成的「肌肉记忆」。这一点对于工业场景的长尾问题处理非常关键——工厂里每条产线的细节都不一样，让机器人能自己适应而不是每次都回炉训练，价值很大。

这个架构到底解决了什么

把NeuroVLA和传统VLA放一起比，差异可以列得很清楚：

| 维度 | 传统VLA | NeuroVLA | | --- | --- | --- | | 架构 | 单体端到端大模型 | 皮层-小脑-脊髓三层分工 | | 碰撞反射延迟 | >200ms | 20ms | | 运动抖动 | 基准 | 降低75%+ | | 反射后任务恢复率 | 0% | 54.8% | | 脊髓层功耗 | N/A | 0.4W | | 在线学习 | 通常不支持 | R-STDP支持 |

值得注意的是，三层之间不是简单的串行调用，而是并行运行、互不阻塞。皮层在做慢思考的时候，小脑该跑还在跑，脊髓的反射弧永远在线。这一点其实是类脑设计最本质的优势——把不同时间尺度的任务交给不同的子系统处理，而不是让一个大模型既要管语义又要管毫秒级反应。

说白了，这就是把软件架构里「关注点分离」的思想，搬到了具身智能的模型架构层面。

NeuroVLA在工业场景中的应用演示

已经在跑的商业化

智平方不是只发了一个论文级的Demo。会上同时披露了几个落地数据点：

NeuroVLA已在AlphaBrain Platform开源——这对开发者是个好消息，意味着可以拿来研究和二次开发
商业化场景已经覆盖汽车、半导体等工业产线
自有产品「智魔方」机器人店员业态落地全国十余省份

郭彦东在会上抛了一句话挺值得琢磨：通用智能机器人是继PC、手机、汽车之后的「第四代智能终端」，行业应该回归技术创新、避免烧钱内卷。这话从一家正在做量产的公司CEO嘴里说出来，多少带点行业喊话的意味——过去一年具身智能这个赛道明星公司一堆，融资数字也很好看，但真正能拿出工程化落地数据的并不多。

类脑VLA是不是下一站

回到一个更大的问题：单体端到端VLA还是分层类脑架构，哪条路对？

从NeuroVLA的数据看，类脑路线在安全、稳定、能耗这三个工程化最关键的维度上拿到了明显的优势。但代价也很现实——架构复杂度上去了，三层之间的协同训练、通信延迟、故障处理都是新问题；皮层和小脑之间的接口怎么设计才能既灵活又高效，本身就是个开放问题。

端到端派的反驳大概会是：「你这是开倒车，scaling law能解决的问题不需要先验结构」。这个争论在大模型领域并不新鲜，只是现在搬到了具身智能。

我个人倾向于认为，物理世界的实时性约束是scaling解决不了的硬约束。你可以把一个VLA模型从7B堆到70B、700B，但光速和电路延迟摆在那里，单体大模型走完一次前向传播需要的时间不会因为参数变多就消失。在这一点上，类脑分层架构有结构性的优势。

至于NeuroVLA本身——它给出的20ms反射、0.4W功耗、75%抖动抑制，如果在第三方测评和更多场景里能稳定复现，那这个架构思路大概率会成为接下来一两年里其他玩家跟进的方向。AlphaBrain Platform开源也降低了大家验证的门槛。

顺带一提，OpenAI Hub已经接入了一系列主流多模态模型，做VLA上层皮层模块开发的同学可以直接用一个Key切换GPT、Claude、Gemini、DeepSeek等模型来跑对比——三层架构里皮层那一层用哪个大模型，实际上是个工程取舍问题，值得多试几个看效果。

参考来源

具身大模型类脑技术谁走在最前面？2026大脑-小脑-脊髓分工协同能力评估 - IT之家 — 对NeuroVLA技术细节、性能数据和VLA三阶段演进论的深度梳理

智平方NeuroVLA：把机器人「大脑小脑脊髓」拆开做

单体VLA的天花板，到底卡在哪

三层架构，各干各的

皮层（Cortex）：慢思考

小脑（Cerebellum）：高频运动协调

脊髓（Spinal Cord）：反射弧

脉冲神经网络，外加在线学习

这个架构到底解决了什么

已经在跑的商业化

类脑VLA是不是下一站

参考来源

相关推荐

OpenAI 放出 Codex 官方 Python SDK：编码智能体彻底变成一个函数调用

开源知识图谱+混合检索：把多跳推理这事做扎实

把博途交给AI：TIA_Portal_Openness_MCP的实战体验

联系我们