大晓机器人发布开悟世界模型Kairos 3.0并开源4B端侧版，四项具身Benchmark拿下SOTA，推理速度较英伟达Cosmos 2.5提升72倍，成为全球首个可端侧驱动机器人本体的世界模型。

大晓开源端侧具身世界模型Kairos 3.0，4B参数把Cosmos 2.5甩开72倍

6月15日，大晓机器人（ACE ROBOTICS）官宣天使+轮融资落地，距上一轮仅隔4个月，今年累计融资已达数亿美元。第二天，公司把刚刚在四项全球具身智能榜单上拿到SOTA的开悟世界模型Kairos 3.0端出来——更猛的是，4B参数的端侧版本同步开源，仓库挂在 github.com/kairos-agi/kairos-sensenova。

对一家2025年7月才成立的公司来说，这个节奏不算慢，反而有点"卷王"内味儿。

一句话先把事儿说完

Kairos 3.0-4B做到了三件别人没做到的事：

全球首个可端侧直驱机器人本体的具身世界模型：跑在Jetson Thor T5000（517 TFLOPS）上，能直接输出从上肢到手指再到下肢的全身控制指令，省掉中间转译；
行业首个在THOR平台达成1:1.5实时生成（视频生成时间:视频时长），云侧则做到1:1实时；
A800上完成10秒生成只要9.5秒，比英伟达Cosmos 2.5（687.2秒）快约72倍，比阿里Wan 2.2快9倍，比蚂蚁Lingbot快151倍。

四项基准——RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen——全部第一。PAI-Bench-robot拿到80.03分，压住Cosmos 2.5-14B（79.4）和Lingbot（79.96）；DreamGen Bench里物理对齐指标PA得0.529，比Wan 2.2-5B的0.314高出近70%。

这是个分水岭信号：具身世界模型这条赛道，参数堆叠的红利期已经过去，架构原生设计 + 推理工程优化正在重新洗牌。

为什么"4B干翻14B"不是噱头

过去一年，业内做世界模型的主流套路是"大模型改款"——拿一个视频生成大模型（Cosmos、Wan系），后面挂个动作头，凑合让机器人能动。这条路的问题在于：视频模型本身没有物理世界的因果先验，水流的速度、石头的刚性、力的支撑关系，全靠数据"猜"。

Kairos 3.0走的是另一条路：从架构底层为机器人在真实世界的运行做设计，把自然界物理规律与因果链作为认知根基。官方的说法叫"多模态理解—生成—预测"一体化架构，听起来很玄，但放在具体场景里区别极其直观：

倒水任务：Kairos生成的水流速度平稳，液体总量严格匹配水杯容量，符合质量守恒；Cosmos 2.5和Lingbot要么水流过快，要么液体凭空变多，物理逻辑直接崩；
叠平衡石：Kairos老老实实遵守重力与支撑结构；Cosmos的石头开始悬浮，Lingbot更离谱——最底层的石头会凭空消失。

这不是benchmark数字游戏，这是世界模型有没有"懂"物理的本质区别。一个"会表演但不会干活"的世界模型，进了真实场景就是事故制造机。

推理侧的提速来自一个工程层面的大招：自研的混合时间线性注意力算子。常规Transformer的二次复杂度在长视频生成上是灾难，混合时间线性注意力把这块开销压下来，配合4B的轻量化参数（23.5GB显存，跟5B的Wan 2.2持平，远低于14B的Cosmos的70.2GB），才有可能塞进Jetson Thor这种端侧设备。

端侧实时生成意味着什么

业内做端侧具身的，过去一直绕不过去一个尴尬：云端模型推理快，但延迟和带宽顶不住实时控制；端侧能跑的模型又太"傻"。结果就是机器人在演示视频里很聪明，搬到真实场景里要么卡顿要么犯蠢。

Kairos 3.0-4B在Jetson Thor T5000上做到1:1.5的实时生成是个关键节点。换算一下，机器人执行一个10秒的动作，模型只需要15秒就能预测、规划并下发完整控制序列。配合云端1:1的实时推理，整套"预测—决策—执行"链路第一次有可能脱离云端独立闭环。

更重要的是，这个端侧版直接开源。这事在国内具身圈是头一回——之前要么是闭源SDK，要么是阉割过的demo权重。Kairos 3.0-4B把可端侧驱动的完整能力放出来，意味着小团队、高校实验室、二线本体厂商也能直接拿来跑，不用再被算力和license卡脖子。

一个长视频，把"长时序"做到7分钟

世界模型的另一个老大难是长时序退化——生成超过几十秒就开始飘，前后逻辑断裂。Kairos 3.0结合Agent智能体技术做了层级化任务拆解和自我反思机制，把连贯具身动态交互视频做到了7分钟。

官方放出的家庭场景Demo里，机器人一镜到底完成整理桌面、衣物清洗、早餐制备的全流程，没有断点。这个时长在工业落地上意义不小：传统流水线工序、酒店保洁动线、仓储分拣全流程，绝大多数都在分钟级，Kairos的长时序能力第一次让"用世界模型仿真替代部分真机训练"具备工程可行性。

数据范式：王晓刚为什么死磕"以人为中心"

聊Kairos绕不开大晓的ACE研发范式。董事长王晓刚（商汤联合创始人）反复强调的一个观点是：具身智能的数据缺口是断崖式的。

几个数字摆出来很扎眼：

智能驾驶领域，特斯拉FSD V14靠世界模型仿真器，每日训练量等价人类驾驶员400万小时，约等于500年；
当前具身智能行业的真机数据总量，只有大约10万小时。

两个量级的差距，意味着继续走真机遥操路线根本追不上。但完全转向纯视觉学习（Figure、特斯拉近期在尝试），又会撞上"现实鸿沟"——视频里看不到力、看不到摩擦、看不到三维力学。

大晓的解法是"以人为中心"的环境式采集：用跨视角多模态设备同时记录人与真实环境的交互，融合第一/第三视角视频、力触觉、运动轨迹、语音，构建物理基础的3D资产库。这套方案把训练数据扩到了100万小时，是传统真机采集的10倍。再叠加Kairos的生成能力放大，等效数据规模可以推到亿小时级。

这套打法和Figure、特斯拉的"硬件—数据—模型"内部闭环路径不一样。王晓刚承认国内这套闭环还没形成，但他押的是：世界模型作为放大器，能让数据效率以非线性方式追上去。

跨本体泛化：一次训练，多个躯壳

传统具身模型有个老毛病，"一本体一训练"——换个机器人，整套数据和策略重来。Kairos 3.0-4B支持跨本体一键生成，单臂、双臂、灵巧手都能适配，无需额外训练就能输出执行策略。

目前已经深度适配的硬件包括智元-精灵G1、宇树G1等主流型号。在大晓自家的落地节奏里，半年前具身大脑模组A1的主要场景还是道路巡检机器狗；现在已经进了酒店、无人零售店、无人物流仓。形态从机器狗扩到轮式、双足、机械臂，背后靠的就是Kairos的跨本体泛化。

国产芯片生态：一个值得注意的细节

Kairos 3.0已经和沐曦股份、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产芯片完成适配。沐曦也是这一轮天使+融资的投资方之一。

这套组合很像当年DeepSeek+国产芯片的剧本：模型方做工程优化，把国产芯片的实际性能压榨出来；芯片方拿到顶级模型作为标杆负载。对正在被英伟达卡算力的国内具身赛道，这是一条不得不走的路。

横向对比：跟谁打，差在哪

把目前能拿到的对手放在一张表上看：

| 模型 | 参数 | 显存 | 10秒生成耗时 | 端侧部署 | |------|------|------|--------------|----------| | Kairos 3.0-4B | 4B | 23.5GB | 9.5s | ✅ THOR 1:1.5 | | Cosmos 2.5-2B | 2B | — | 687s | ❌ | | Cosmos 2.5-14B | 14B | 70.2GB | — | ❌ | | Wan 2.2-5B | 5B | ~23GB | 85s | ❌ | | Lingbot | 28B | 46.1GB | 1436s | ❌ |

Kairos的牌面是清晰的：参数小、显存低、推理快、能上端侧。但有几个隐忧值得后续观察：

物理仿真的覆盖广度：Demo里展示的是倒水、叠石、家庭场景，工业场景的高频次重复动作、精密装配、柔性物料处理还需要更多数据验证；
跨本体的真实泛化边界：智元、宇树这种主流型号好说，长尾本体的适配成本是多少，还没有公开数据；
开源版本和商用版本的能力差：4B开源，但商用部署是否还有更大模型可选，目前没说。

写在最后

2026年的具身赛道，融资数字一个比一个吓人，但能拿出真东西的没几家。大晓这一波操作里，最值得关注的不是"四项SOTA"或者"72倍提速"这种营销点，而是两个判断：

第一，世界模型在具身领域的范式之争已经分出胜负——架构原生设计正在压过"大模型改款"路线。这意味着接下来一两年，单纯靠堆视频生成模型参数的玩家会很难受。

第二，端侧实时是具身落地的临界点。在Kairos 3.0-4B之前，"机器人本体能不能脱离云端独立思考"是个开放问题；之后，这就是个工程问题。

至于开源能走多远，得看github仓库的issue和PR能积累到什么程度。但起码大晓选了一条比闭源SaaS更难、但生态势能更大的路。

参考来源

Kairos-Sensenova 开源仓库（GitHub）：Kairos 3.0-4B 端侧版本代码与权重发布地址

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

大晓开源端侧具身世界模型Kairos 3.0，4B参数把Cosmos 2.5甩开72倍

一句话先把事儿说完

为什么"4B干翻14B"不是噱头

端侧实时生成意味着什么

一个长视频，把"长时序"做到7分钟

数据范式：王晓刚为什么死磕"以人为中心"

跨本体泛化：一次训练，多个躯壳

国产芯片生态：一个值得注意的细节

横向对比：跟谁打，差在哪

写在最后

参考来源

相关推荐

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

海光把抗量子密码塞进了芯片，金融场景实测跑到3万TPS

联系我们