大晓开源端侧具身世界模型Kairos 3.0,4B参数干翻Cosmos 2.5
大晓机器人发布开悟世界模型Kairos 3.0并开源4B端侧版,四项具身Benchmark拿下SOTA,推理速度较英伟达Cosmos 2.5提升72倍,成为全球首个可端侧驱动机器人本体的世界模型。
大晓开源端侧具身世界模型Kairos 3.0,4B参数把Cosmos 2.5甩开72倍
6月15日,大晓机器人(ACE ROBOTICS)官宣天使+轮融资落地,距上一轮仅隔4个月,今年累计融资已达数亿美元。第二天,公司把刚刚在四项全球具身智能榜单上拿到SOTA的开悟世界模型Kairos 3.0端出来——更猛的是,4B参数的端侧版本同步开源,仓库挂在 github.com/kairos-agi/kairos-sensenova。
对一家2025年7月才成立的公司来说,这个节奏不算慢,反而有点"卷王"内味儿。
一句话先把事儿说完
Kairos 3.0-4B做到了三件别人没做到的事:
- 全球首个可端侧直驱机器人本体的具身世界模型:跑在Jetson Thor T5000(517 TFLOPS)上,能直接输出从上肢到手指再到下肢的全身控制指令,省掉中间转译;
- 行业首个在THOR平台达成1:1.5实时生成(视频生成时间:视频时长),云侧则做到1:1实时;
- A800上完成10秒生成只要9.5秒,比英伟达Cosmos 2.5(687.2秒)快约72倍,比阿里Wan 2.2快9倍,比蚂蚁Lingbot快151倍。
四项基准——RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen——全部第一。PAI-Bench-robot拿到80.03分,压住Cosmos 2.5-14B(79.4)和Lingbot(79.96);DreamGen Bench里物理对齐指标PA得0.529,比Wan 2.2-5B的0.314高出近70%。
这是个分水岭信号:具身世界模型这条赛道,参数堆叠的红利期已经过去,架构原生设计 + 推理工程优化正在重新洗牌。
为什么"4B干翻14B"不是噱头
过去一年,业内做世界模型的主流套路是"大模型改款"——拿一个视频生成大模型(Cosmos、Wan系),后面挂个动作头,凑合让机器人能动。这条路的问题在于:视频模型本身没有物理世界的因果先验,水流的速度、石头的刚性、力的支撑关系,全靠数据"猜"。
Kairos 3.0走的是另一条路:从架构底层为机器人在真实世界的运行做设计,把自然界物理规律与因果链作为认知根基。官方的说法叫"多模态理解—生成—预测"一体化架构,听起来很玄,但放在具体场景里区别极其直观:
- 倒水任务:Kairos生成的水流速度平稳,液体总量严格匹配水杯容量,符合质量守恒;Cosmos 2.5和Lingbot要么水流过快,要么液体凭空变多,物理逻辑直接崩;
- 叠平衡石:Kairos老老实实遵守重力与支撑结构;Cosmos的石头开始悬浮,Lingbot更离谱——最底层的石头会凭空消失。
这不是benchmark数字游戏,这是世界模型有没有"懂"物理的本质区别。一个"会表演但不会干活"的世界模型,进了真实场景就是事故制造机。
推理侧的提速来自一个工程层面的大招:自研的混合时间线性注意力算子。常规Transformer的二次复杂度在长视频生成上是灾难,混合时间线性注意力把这块开销压下来,配合4B的轻量化参数(23.5GB显存,跟5B的Wan 2.2持平,远低于14B的Cosmos的70.2GB),才有可能塞进Jetson Thor这种端侧设备。
端侧实时生成意味着什么
业内做端侧具身的,过去一直绕不过去一个尴尬:云端模型推理快,但延迟和带宽顶不住实时控制;端侧能跑的模型又太"傻"。结果就是机器人在演示视频里很聪明,搬到真实场景里要么卡顿要么犯蠢。
Kairos 3.0-4B在Jetson Thor T5000上做到1:1.5的实时生成是个关键节点。换算一下,机器人执行一个10秒的动作,模型只需要15秒就能预测、规划并下发完整控制序列。配合云端1:1的实时推理,整套"预测—决策—执行"链路第一次有可能脱离云端独立闭环。
更重要的是,这个端侧版直接开源。这事在国内具身圈是头一回——之前要么是闭源SDK,要么是阉割过的demo权重。Kairos 3.0-4B把可端侧驱动的完整能力放出来,意味着小团队、高校实验室、二线本体厂商也能直接拿来跑,不用再被算力和license卡脖子。
一个长视频,把"长时序"做到7分钟
世界模型的另一个老大难是长时序退化——生成超过几十秒就开始飘,前后逻辑断裂。Kairos 3.0结合Agent智能体技术做了层级化任务拆解和自我反思机制,把连贯具身动态交互视频做到了7分钟。
官方放出的家庭场景Demo里,机器人一镜到底完成整理桌面、衣物清洗、早餐制备的全流程,没有断点。这个时长在工业落地上意义不小:传统流水线工序、酒店保洁动线、仓储分拣全流程,绝大多数都在分钟级,Kairos的长时序能力第一次让"用世界模型仿真替代部分真机训练"具备工程可行性。
数据范式:王晓刚为什么死磕"以人为中心"
聊Kairos绕不开大晓的ACE研发范式。董事长王晓刚(商汤联合创始人)反复强调的一个观点是:具身智能的数据缺口是断崖式的。
几个数字摆出来很扎眼:
- 智能驾驶领域,特斯拉FSD V14靠世界模型仿真器,每日训练量等价人类驾驶员400万小时,约等于500年;
- 当前具身智能行业的真机数据总量,只有大约10万小时。
两个量级的差距,意味着继续走真机遥操路线根本追不上。但完全转向纯视觉学习(Figure、特斯拉近期在尝试),又会撞上"现实鸿沟"——视频里看不到力、看不到摩擦、看不到三维力学。
大晓的解法是"以人为中心"的环境式采集:用跨视角多模态设备同时记录人与真实环境的交互,融合第一/第三视角视频、力触觉、运动轨迹、语音,构建物理基础的3D资产库。这套方案把训练数据扩到了100万小时,是传统真机采集的10倍。再叠加Kairos的生成能力放大,等效数据规模可以推到亿小时级。
这套打法和Figure、特斯拉的"硬件—数据—模型"内部闭环路径不一样。王晓刚承认国内这套闭环还没形成,但他押的是:世界模型作为放大器,能让数据效率以非线性方式追上去。
跨本体泛化:一次训练,多个躯壳
传统具身模型有个老毛病,"一本体一训练"——换个机器人,整套数据和策略重来。Kairos 3.0-4B支持跨本体一键生成,单臂、双臂、灵巧手都能适配,无需额外训练就能输出执行策略。
目前已经深度适配的硬件包括智元-精灵G1、宇树G1等主流型号。在大晓自家的落地节奏里,半年前具身大脑模组A1的主要场景还是道路巡检机器狗;现在已经进了酒店、无人零售店、无人物流仓。形态从机器狗扩到轮式、双足、机械臂,背后靠的就是Kairos的跨本体泛化。
国产芯片生态:一个值得注意的细节
Kairos 3.0已经和沐曦股份、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产芯片完成适配。沐曦也是这一轮天使+融资的投资方之一。
这套组合很像当年DeepSeek+国产芯片的剧本:模型方做工程优化,把国产芯片的实际性能压榨出来;芯片方拿到顶级模型作为标杆负载。对正在被英伟达卡算力的国内具身赛道,这是一条不得不走的路。
横向对比:跟谁打,差在哪
把目前能拿到的对手放在一张表上看:
| 模型 | 参数 | 显存 | 10秒生成耗时 | 端侧部署 | |------|------|------|--------------|----------| | Kairos 3.0-4B | 4B | 23.5GB | 9.5s | ✅ THOR 1:1.5 | | Cosmos 2.5-2B | 2B | — | 687s | ❌ | | Cosmos 2.5-14B | 14B | 70.2GB | — | ❌ | | Wan 2.2-5B | 5B | ~23GB | 85s | ❌ | | Lingbot | 28B | 46.1GB | 1436s | ❌ |
Kairos的牌面是清晰的:参数小、显存低、推理快、能上端侧。但有几个隐忧值得后续观察:
- 物理仿真的覆盖广度:Demo里展示的是倒水、叠石、家庭场景,工业场景的高频次重复动作、精密装配、柔性物料处理还需要更多数据验证;
- 跨本体的真实泛化边界:智元、宇树这种主流型号好说,长尾本体的适配成本是多少,还没有公开数据;
- 开源版本和商用版本的能力差:4B开源,但商用部署是否还有更大模型可选,目前没说。
写在最后
2026年的具身赛道,融资数字一个比一个吓人,但能拿出真东西的没几家。大晓这一波操作里,最值得关注的不是"四项SOTA"或者"72倍提速"这种营销点,而是两个判断:
第一,世界模型在具身领域的范式之争已经分出胜负——架构原生设计正在压过"大模型改款"路线。这意味着接下来一两年,单纯靠堆视频生成模型参数的玩家会很难受。
第二,端侧实时是具身落地的临界点。在Kairos 3.0-4B之前,"机器人本体能不能脱离云端独立思考"是个开放问题;之后,这就是个工程问题。
至于开源能走多远,得看github仓库的issue和PR能积累到什么程度。但起码大晓选了一条比闭源SaaS更难、但生态势能更大的路。
参考来源
- Kairos-Sensenova 开源仓库(GitHub):Kairos 3.0-4B 端侧版本代码与权重发布地址


