小米开源VLA模型完成真机后训练,20小时解锁亚毫米级操作

模型上新

小米今日正式发布 Xiaomi-Robotics-0 真机后训练全流程,仅用 20 小时任务数据便让模型掌握高难度耳机收纳动作,实现亚毫米级空间感知精度,向「开箱即用」的机器人生产力工具迈出关键一步。

小米开源 VLA 模型完成真机后训练,20 小时数据解锁亚毫米级精密操作

从开源到落地,Xiaomi-Robotics-0 用一套完整的后训练流程,证明了 VLA 大模型走向真机部署的可行路径。

2026 年 4 月 27 日,小米机器人团队正式对外发布 Xiaomi-Robotics-0 真机后训练(Post-training)全流程,并带来了令人印象深刻的新能力演示——机器人连续、丝滑地将多个耳机精准收纳进耳机盒。这是继今年 2 月模型首次开源以来,小米在物理智能领域迈出的又一关键步伐。

小米机器人手臂连续将耳机精准放入耳机盒的动作序列演示


一、背景回顾:从开源到下载榜第六

2026 年 2 月 12 日,小米正式对外发布并开源了首代机器人 VLA(Vision-Language-Action)大模型 Xiaomi-Robotics-0。该模型拥有 47 亿参数,兼具视觉语言理解与高性能实时执行能力,在发布当月便登上 HuggingFace 全球 VLA 模型下载榜 第六名,引发了业界的广泛关注。

然而,一个预训练模型距离在真实世界中「干活」,中间还横亘着一道关键鸿沟——后训练(Post-training)。正如大语言模型需要经过 RLHF 等对齐流程才能真正「好用」,VLA 模型同样需要在真机场景中进行有针对性的后训练,才能从「能力基座」蜕变为「开箱即用」的生产力利器。

今天,小米正式补上了这最后一块拼图。


二、核心发布:真机后训练全流程

2.1 什么是「真机后训练」?

在 VLA 模型的技术路线中,训练通常分为两个阶段:

  1. 跨模态预训练(Pre-training):在大规模数据集(包含图像、语言、动作等多模态信息)上进行训练,让模型获得广泛的视觉理解、语言推理和基础动作生成能力。
  2. 真机后训练(Post-training):在特定的真实机器人平台和任务场景下,利用少量任务数据对模型进行微调,使其精确适配具体硬件的运动学特征和任务需求。

小米此次发布的正是第二阶段的 完整流程,涵盖了从数据采集、训练策略、到部署验证的端到端方案。这意味着社区开发者和研究者可以基于开源的预训练基座,按照小米提供的流程,在自己的机器人平台上复现并拓展后训练能力。

2.2 令人惊艳的演示:连续收纳耳机

小米选择了一个极具挑战性的任务来展示后训练效果——将耳机收纳进耳机盒

这并非一个简单的「抓取-放置」任务。官方指出,该任务涉及两大核心技术挑战:

  • 亚毫米级空间感知精度:耳机与耳机盒槽位之间的公差极小,模型必须达到亚毫米级的空间感知精度,才能完成精准的对位操作。稍有偏差,耳机便无法卡入槽位。
  • 极低粗糙度表面的接触控制:耳机与盒体表面的粗糙度最低可达 Ra 0.03μm(接近镜面级光滑),这意味着耳机在触碰过程中极易发生位移。模型必须具备快速感知偏差并实时修正动作的能力,避免装配失败。

而令人惊叹的是,基于预训练基座,小米团队 仅利用 20 小时的任务数据 进行真机后训练,便让 Xiaomi-Robotics-0 成功掌握了这一高难度动作,并且能够 连续、流畅 地完成多个耳机的收纳——动作如行云流水,毫无迟滞。

耳机与耳机盒槽位的微距特写,展示极小公差和光滑表面


三、技术深度解析

3.1 架构基础:Mixture-of-Transformers(MoT)

Xiaomi-Robotics-0 采用了当前主流的 Mixture-of-Transformers(MoT)架构。这一架构的核心优势在于能够在统一的模型框架内,同时处理视觉、语言和动作三种模态的信息,实现「感知-决策-执行」的端到端闭环。

模型的 47 亿参数并非简单堆叠,而是通过精心设计的模态混合机制,在不同子任务间动态分配计算资源,从而在保持强大通用理解能力的同时,实现高效的动作生成。

3.2 训练策略:两阶段方法保留基础能力

大部分 VLA 模型在学习动作时面临一个经典难题:灾难性遗忘。模型在获得新的动作执行能力时,往往会「变笨」,丢失原有的视觉理解、物体检测和逻辑推理等基础能力。

为解决这一问题,小米设计了 「跨模态预训练 + 后训练」的两阶段训练方法

  • 预训练阶段:通过多模态与动作数据的混合训练,让模型在学会基础操作的同时,保持强大的物体检测、视觉问答和逻辑推理能力,做到「既懂常识又精通体力活」。
  • 后训练阶段:采用多种专门技术对预训练基座进行微调,包括隐式世界建模(Implicit World Modeling)等机制,使模型能够在特定任务场景下实现精细化的动作控制。

值得注意的是,后训练并非对预训练模型的「覆盖」,而是一种精准的能力「注入」。20 小时的数据量之所以足够,正是因为预训练阶段已经为模型打下了坚实的物理常识和视觉理解基础,后训练只需在此基础上完成任务级别的精细调整。

3.3 异步推理:解决真机部署的「动作断层」

在真实机器人部署中,推理延迟是一个长期困扰行业的问题。当模型推理速度跟不上机器人的控制频率时,机器人的动作就会出现「断层」——表现为动作不连贯、卡顿甚至停滞。

针对这一问题,小米团队采用了 异步推理模式。其核心思想是让模型推理与机器人运行脱离同步约束,异步执行。具体而言:

  • 模型在后台持续进行推理,生成动作序列(Action Chunk)。
  • 机器人前台按照既定频率从动作缓冲区中读取并执行动作。
  • 通过精心设计的连续动作块对齐机制,确保前后两次推理生成的动作序列能够平滑衔接,不产生突变。

这一机制从根本上保障了机器人动作的连贯性和流畅性,也是此次演示中机器人能够「丝滑」完成连续收纳动作的关键技术支撑。

3.4 实时推理:消费级显卡即可运行

另一个值得关注的亮点是,Xiaomi-Robotics-0 能够在 消费级显卡 上实现实时推理。这大幅降低了开发者和研究者的硬件门槛,使得更多团队能够以较低成本在自己的机器人平台上部署和验证该模型。

这一特性对于推动 VLA 模型的普及具有重要意义——不再需要昂贵的数据中心级硬件,一张普通的游戏显卡就足以让机器人「动起来」。


四、开源生态与社区资源

小米此次不仅发布了后训练流程的技术细节,更延续了一贯的开源策略,将完整的代码、模型权重和技术文档全部开放给社区。以下是关键资源汇总:

资源类型 链接
开源代码 GitHub - Xiaomi-Robotics-0
模型权重 HuggingFace - XiaomiRobotics
技术官网 robotics.xiaomi.com
项目网站 robotics.xiaomi.com/xiaomi-robotics-0.html

开发者可以通过 HuggingFace 平台直接下载模型权重,并参考 GitHub 仓库中的代码和文档,快速复现预训练和后训练流程。

快速开始

对于希望体验该模型的开发者,可以通过以下步骤获取模型:

# 克隆项目代码
git clone https://github.com/XiaomiRobotics/Xiaomi-Robotics-0.git
cd Xiaomi-Robotics-0

# 安装依赖
pip install -r requirements.txt

# 从 HuggingFace 下载模型权重
# 请参考项目 README 获取详细的模型加载和推理说明

具体的后训练流程配置、数据格式要求和训练脚本使用方法,均可在项目仓库的文档中找到详细说明。


五、行业意义与前瞻思考

5.1 VLA 模型从「论文」走向「产线」

此次发布的意义远不止于一次技术演示。它标志着 VLA 大模型正在从学术研究的象牙塔,走向真实世界的工业应用场景。

过去,大多数 VLA 模型的评测都停留在仿真环境中,真机部署的案例屈指可数,且往往局限于抓取、推移等较为简单的任务。小米此次展示的「耳机收纳」任务,在精度要求和环境复杂度上都达到了一个新的水平,证明了 VLA 模型在精密装配等工业级场景中的潜力。

5.2 「20 小时」的启示:数据效率是关键

仅用 20 小时的任务数据就能完成后训练,这一数字具有重要的实践意义。在真实的工业部署中,数据采集是最耗时、最昂贵的环节之一。如果每个新任务都需要数百甚至数千小时的示教数据,VLA 模型的落地成本将高不可攀。

小米的实践表明,基于强大的预训练基座,后训练阶段的数据需求可以被压缩到一个非常可控的范围内。这为 VLA 模型在多任务场景中的快速部署提供了信心。

5.3 开源的力量:加速全行业迭代

小米选择将完整的后训练流程开源,而非仅开放预训练权重,这一决策对整个机器人社区意义重大。后训练是连接「通用基座」和「特定任务」的桥梁,也是此前行业中相对缺乏公开参考的环节。

通过开源,小米实际上为社区提供了一套 可复现的「从零到一」方案

  • 研究者 可以在此基础上探索新的后训练算法和策略。
  • 开发者 可以将模型快速适配到不同的机器人平台和任务场景。
  • 企业 可以评估 VLA 模型在自身业务中的可行性,降低技术验证的门槛。

5.4 展望:通用机器人智能的曙光

从更宏观的视角来看,Xiaomi-Robotics-0 的后训练流程发布,是物理智能(Physical Intelligence)领域的一个里程碑事件。它验证了一条清晰的技术路径:

大规模预训练 → 少量数据后训练 → 真机精密操作

这条路径与大语言模型的发展轨迹高度相似:GPT 系列通过预训练获得广泛知识,再通过 RLHF 等后训练手段获得对齐能力和实用价值。VLA 模型正在沿着相同的逻辑演进,而小米正走在这条道路的前列。

可以预见,随着更多研究者和开发者加入这一开源生态,更多任务场景将被解锁,VLA 模型的能力边界将被持续拓展。通用机器人智能的愿景,或许比我们想象的更近。


六、总结

小米今日发布的 Xiaomi-Robotics-0 真机后训练全流程,是该模型自 2 月开源以来最重要的一次能力升级。从核心亮点来看:

  • 20 小时任务数据 即可完成后训练,数据效率令人瞩目
  • 亚毫米级精度 的空间感知与动作控制,满足精密操作需求
  • 异步推理模式 确保真机部署时动作连贯流畅
  • 完整流程开源,从代码到权重全面开放,社区即刻可用
  • 消费级显卡 即可运行实时推理,硬件门槛大幅降低

这不仅是一次技术更新,更是 VLA 模型走向真实世界应用的一次标志性事件。小米正在用实际行动证明:开源不止于开放权重,更要开放从预训练到部署的完整知识链条。对于所有关注机器人智能、物理智能方向的研究者和开发者而言,这无疑是一份值得深入研究的重要参考。


参考来源