AI 快讯魔法原子上交会甩出两张牌:VLA K02 与世界模型 Magic-Mix
模型上新

魔法原子上交会甩出两张牌:VLA K02 与世界模型 Magic-Mix

2026-06-13T04:11:58.402Z
魔法原子上交会甩出两张牌:VLA K02 与世界模型 Magic-Mix

6月13日上海国际技术进出口交易会闭幕,魔法原子首次在国内公开自研 Magic-VLA K02 大模型与 Magic-Mix 世界模型,押注「VLA + 世界模型」双轮架构,试图解决具身智能泛化不足的老大难问题。

魔法原子上交会甩出两张牌:VLA K02 与世界模型 Magic-Mix

6月13日,第十二届中国(上海)国际技术进出口交易会(CSITF)在上海世博展览馆闭幕。这场原本以贸易为主题的展会,今年的话题中心被一家成立刚满两年半的公司抢了去——魔法原子(MagicLab)把全栈技术矩阵一股脑搬了过来,顺手在国内首次公开了两件压箱底的东西:自研 Magic-VLA K02 大模型,以及世界模型 Magic-Mix

世界模型 Magic-Mix 严格来说不算全球首发——4月底的硅谷具身智能创新大会上它已经露过一次脸。但 VLA K02 是真正意义上的国内首秀,加上两个模型第一次以「组合拳」形式公开亮相,技术叙事的味道一下就出来了。

魔法原子在 CSITF 展台上展示人形机器人 MagicBot X1 与灵巧手 MagicHand H01

一、为什么是「VLA + 世界模型」这套组合

做具身智能的同行应该都清楚,过去一年多 VLA(Vision-Language-Action)几乎成了行业默认解法。从 Google 的 RT-2 到 Figure 的 Helix,再到国内一众做人形机器人的公司,大家都在卷视觉-语言-动作端到端打通这件事。

但 VLA 路线有个谁都绕不开的天花板——泛化性。模型在演示视频里把咖啡杯递得行云流水,换一个杯子、换一盏灯、换一张桌子,动作可能就开始抽风。本质问题是,VLA 是从数据里学「该怎么动」,并没有真正理解「世界为什么这么转」。环境一变,数据分布漂移,模型就懵。

世界模型这条线,是过去半年开始被反复提的解法。它的核心思路不是教机器人模仿动作,而是让模型先在内部建一个「物理沙盘」——预测下一帧画面、下一秒物体的位置、抓取后会不会滑落。有了这个沙盘,机器人在执行前就能「在脑子里跑一遍」,再决定怎么动。

魔法原子这次把两条路线焊到一起,逻辑上是说得通的:VLA 负责快速反应和动作生成,世界模型负责物理常识兜底和数据合成。 一前一后,一个干活一个想事,互相补位。

至于实际效果怎么样,那是另一回事,我们后面聊。

二、Magic-VLA K02:到底解决了什么

从现场放出的有限信息看,K02 相比上一代 K01 的进步主要集中在三块。

第一是上下文长度的拉伸。 VLA 模型最头疼的不是单步动作,而是长链条任务。比如「把桌子上的水杯拿到厨房,倒掉里面的水,放进洗碗机」这种多步骤指令,过去的模型经常在第三步开始失忆。K02 据称把任务规划的上下文窗口拉到了之前的数倍,长程任务的成功率有明显提升。

第二是视觉编码器的换血。 上一代用的还是相对通用的视觉骨干,K02 换成了针对操作场景重新训练的编码器,对手部精细动作、物体姿态变化、半遮挡场景的鲁棒性显著改善。说人话就是,杯子放歪了、被另一个东西挡了一半,模型也能识别。

第三是动作 token 化方案的升级。 这块魔法原子没讲太细,但从他们演示的灵巧手控制看,20 自由度的 MagicHand H01 能跑出比较细腻的动作组合,背后应该是动作表达粒度做了重新设计。粗暴一点理解:以前模型每秒只能「画」几张动作草图,现在能画几十张,自然更顺滑。

Magic-VLA K02 在长程操作任务中的演示画面

值得一提的是,K02 在国内首发,但魔法原子明确表态会把它作为后续平台开放的核心模型之一——结合他们 4 月在硅谷宣布的「未来五年砸 10 亿美元做机器人二次开发生态」,这步棋的意图很明确:把 K02 做成开发者的底座,而不是关起门来自己用。

三、Magic-Mix:双引擎闭环到底怎么转

相比 K02,Magic-Mix 才是这家公司今年技术叙事的真正主角。

Magic-Mix 由两个引擎构成:

  • Magic-Mix WAM(World Action Model):负责物理环境理解、空间推演、动作决策。
  • Magic-Mix Creator:离线数据生成引擎,批量合成训练样本。

这两块拼起来,构建了一个挺有意思的闭环:

真实数据采集 → WAM 学习物理规律 → Creator 合成新场景数据
        ↑                                       ↓
        └────── 模型在新数据上再训练 ←─────────┘

这套机制的精妙之处在于,它解决了具身智能最大的成本痛点——数据

众所周知,机器人真实数据采集贵到离谱。一台机器、一个工程师、一天采几百条任务数据,按工时成本算下来,单条高质量数据动辄几十块钱。魔法原子自己披露的数字是日均采集约 1.6 万条,高质量数据规模超过 100 万小时——这个量级在国内已经是第一梯队。

但真正的杀招是 Creator:通过世界模型合成,把数据体量再放大一万倍。 也就是说,真实采的是 100 万小时,模型见过的是 100 亿小时。这个差距在训练曲线上会被无情放大。

当然,合成数据有合成数据的坑——分布偏移、物理失真、长尾覆盖不足,这些是老问题。但只要 WAM 对物理规律的建模足够准,合成数据的可用率就能压得住。这也是为什么世界模型最近成了具身智能行业的共识方向:它不只是一个新模型,它是数据飞轮的发动机。

四、跟同行比,魔法原子站在什么位置

横向看一眼,具身智能这条赛道现在大概是这么个格局:

  • Physical Intelligence(PI)Figure 在北美,VLA 端到端做得最深,但数据闭环偏依赖真实采集。
  • 1X Technologies 押人形 + 家庭场景,世界模型也在做,但更多内部使用。
  • 国内的智元、宇树、银河通用 各有侧重,VLA 与世界模型大多是分开推进,少有打包亮相的。

魔法原子把 VLA 和世界模型双线作为「全栈」叙事推出,加上从灵巧手到本体再到模型的纵向打通,这套打法在国内确实少见。它更像是在对标特斯拉的 Optimus + Dojo + FSD 这套垂直整合,而不是单点突破。

这种打法的好处是叙事完整、估值好讲,坏处是每一块都得自己扛。模型做不好怪你,硬件做不好也怪你,数据飞轮转不起来更怪你。压力全在自己身上。

Magic-Mix 双引擎数据闭环架构示意

五、几个值得开发者关注的细节

1)平台化生态什么时候真开放?

4 月硅谷大会上,魔法原子提到「千景共创」计划——未来五年 10 亿美元,开放硬件样机、开发资金、核心技术、品牌资源给生态伙伴。这次国内公开 K02 和 Magic-Mix 之后,对开发者来说最关键的问题是:这两个模型什么时候能拿来用?以什么形式开放?是 API 还是 SDK,还是直接给权重?

现场没有给出明确时间表。但从他们 2036 年 140 亿美元营收的目标倒推,平台化必须尽快落地,否则光靠卖机器人本体撑不起这个体量。

2)和大模型 API 厂商的关系

这里要顺嘴提一句,做具身智能 Demo 和原型的开发者,背后往往还需要调用通用大模型做规划或多模态理解。这种场景下,统一接入比单独接每家方便得多——OpenAI Hub 这类聚合平台一个 Key 调通 GPT、Claude、Gemini、DeepSeek 等主流模型、兼容 OpenAI 格式、国内直连,省去自己搭代理和管多套密钥的麻烦。在等 K02 正式开放之前,前端规划逻辑可以先用通用模型顶一阵。

3)世界模型的评测怎么做?

这是行业共性难题。Magic-Mix 这种东西,单看 demo 都很炸裂,但量化评测一直没有公认标准。预测准确度、长时间外推稳定性、物理一致性、合成数据下游可用率——每一项都需要细拆。魔法原子目前没有公开 benchmark 数字,希望后续在开发者文档里能看到。

六、一点判断

做个不带滤镜的判断:

魔法原子这次的两个模型,技术方向是对的,叙事节奏是对的,但落地证据还差临门一脚

  • VLA + 世界模型组合,这是行业共识,他们走在了前列,但 PI、Figure 这些海外团队也没闲着。
  • 数据飞轮的思路非常聪明,1 万倍合成的数字也够唬人,但合成数据的真实贡献率,需要看后续在真实任务上的成功率提升。
  • 平台化生态是个大饼,10 亿美元也是个大饼,关键看接下来 12 个月开放出多少 API、签下多少开发者。

对一线开发者来说,现在能做的是:盯住 K02 的开放节奏,关注他们的 SDK 和数据格式定义。如果魔法原子真的把 VLA 模型和世界模型同时对外,这会是国内具身智能开发者第一次拿到完整的「双引擎」工具链——意义不亚于当年 Stable Diffusion 开源给图像生成圈带来的冲击。

至于能不能撑到 2036 年 140 亿美元,那是资本市场操心的事。技术人只看一件事:模型够不够强,飞轮转不转得动。

这场仗才刚开始。

参考来源

  • 魔法原子上交会首秀VLA K02大模型 - 36氪:CSITF 闭幕日的首发现场报道(国内访问受限,仅作信息溯源)
  • 魔法原子硅谷发布会公开资料:Magic-Mix 双引擎架构与「千景共创」计划相关细节
  • 具身智能行业研究:VLA 路线泛化性瓶颈与世界模型补位的相关讨论

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: