一张图,一个世界,跑在手机上
4 月 27 日,蚂蚁集团旗下全模态 AI 助手「灵光」App 正式上线了「体验世界模型」功能。简单说就是:你给它一张图,它几秒钟内帮你生成一个可以用第一人称视角走进去逛的 3D 世界。
听起来像是 demo 级别的炫技?不完全是。这次的关键词不是「又一个世界模型」,而是「在手机上跑起来了」。
过去一年,世界模型(World Model)是 AI 圈最热的概念之一。从 Sora 掀起的视频生成浪潮,到 Genie、UniSim 等学术项目,再到各家具身智能团队的内部探索,大家都在试图让 AI 不只是「看懂」世界,而是「模拟」世界。但绝大多数世界模型的体验方式是:打开一个网页 demo,等几十秒甚至几分钟,看一段预渲染的视频。
灵光这次做的事情不一样——它把世界模型的推理链路压到了移动端可用的程度,而且支持实时交互。用户不是在看一段视频,而是像玩手游一样,用虚拟摇杆控制前进后退,自由转动视角,在 AI 生成的 3D 场景里「走来走去」。
这个体验差异,比参数量大几个 B 要实在得多。
怎么玩:三步进入「你的世界」
操作流程非常直觉:
- 打开灵光 App,在对话框上传一张图片
- 系统会智能推荐操作,选择「生成图中世界」,或者直接输入类似「用第一人称视角探索这个世界」的指令
- 等待几秒,3D 世界生成完毕,点击进入
进入世界后,屏幕上会出现一个虚拟摇杆,操作逻辑和手游一致——左侧控制移动,右侧(或滑动屏幕)控制视角。整个体验时长最长支持 60 秒的连续探索。
60 秒听起来不长,但考虑到这是实时生成、实时渲染的 3D 场景,而不是预录视频,这个时长已经相当可观。更重要的是,蚂蚁官方提到模型支持「分钟级长时一致性」——也就是说,你在场景里走了一圈回到原点,周围的建筑、植被、光影不会突然变样。这对世界模型来说是个硬指标,很多学术 demo 在这一点上翻车得很彻底。
背后的模型:LingBot-World-Fast
灵光这次上线的功能,背后接入的是蚂蚁灵波团队的 LingBot-World-Fast 世界模型。
先说「灵波」这个团队的背景。蚂蚁灵波(LingBot)是蚂蚁集团在具身智能和多模态方向的核心研究团队,今年已经陆续开源了好几个模型:
- LingBot-Depth:高精度空间感知模型,解决的是「AI 怎么理解三维空间」的问题
- LingBot-VLA:具身大模型,让 AI 能在理解环境的基础上做出动作决策
- LingBot-World:世界模型,也就是这次的主角
这三个模型构成了一条从「感知空间 → 模拟世界 → 行动决策」的完整链路。LingBot-World 负责的是中间那一环:给定一个初始观测(比如一张图片),模型能够预测「如果我往前走三步、向右转 90 度,世界会变成什么样」。
而 LingBot-World-Fast 是 LingBot-World 的轻量化 / 加速版本,专门为实时交互场景优化。从命名惯例来看,这大概率是在模型架构或推理流程上做了针对性的裁剪和加速,以换取移动端可用的延迟表现。
值得注意的是,LingBot-World-Fast 已经开源。这意味着开发者可以自己拿来跑、拿来改、拿来接入自己的应用。对于做游戏、做 XR、做具身智能的团队来说,这是一个可以直接上手的起点。
世界模型到底在解决什么问题?
聊到这里,有必要退一步说说「世界模型」这个概念本身。
最直觉的理解:世界模型就是一个能「想象」世界运转方式的 AI。你给它一个当前状态,它能预测下一个状态。这和大语言模型预测下一个 token 在本质上是同一件事,只不过预测的对象从文字变成了三维空间中的视觉信号。
为什么这件事重要?至少有三个层面:
1. 具身智能的「大脑模拟器」
机器人要在真实世界中行动,不可能每一步都靠试错。它需要一个内部模型来「想象」不同动作的后果,然后选择最优策略。世界模型就是这个内部模拟器。LingBot 团队把 Depth、World、VLA 三个模型串起来,思路非常清晰:先看懂空间,再模拟世界,最后做决策。
2. 内容生成的下一个形态
从文本生成到图片生成到视频生成,下一步自然是「可交互的 3D 场景生成」。世界模型如果足够好,理论上可以替代传统游戏引擎中大量的手工建模工作。一张概念图进去,一个可以走进去的场景出来——这对游戏、影视、建筑可视化等行业的吸引力不言而喻。
3. AGI 的必经之路
Yann LeCun 反复强调世界模型是通向 AGI 的关键组件。他的论点是:一个真正智能的系统必须能理解物理世界的运作规律,而不仅仅是语言层面的推理。不管你是否同意 LeCun 的技术路线,世界模型作为 AI 理解物理世界的一种方式,确实是当前研究的重要方向。
移动端落地,难在哪?
把世界模型做出来是一回事,把它塞进手机是另一回事。
世界模型的推理过程本质上是一个条件视频生成任务:给定当前帧和用户的动作输入,生成下一帧(或下几帧)。这个过程的计算量非常大,传统方案通常需要高端 GPU 服务器来支撑。
要在移动端实现「实时交互」,至少需要解决几个问题:
- 延迟:用户推摇杆到画面响应,延迟必须控制在百毫秒级别,否则体验会非常「晕」。这要求模型的单帧推理速度极快,或者采用预测性生成策略(提前生成几个可能的方向)。
- 一致性:连续生成的帧之间必须保持空间一致性。你往前走了 10 步再回头,身后的场景不能变了样。这是世界模型最容易出问题的地方,尤其在长时间序列上。
- 画质与算力的平衡:手机的算力和散热都有硬约束。要在这些约束下保持可接受的画质,模型的效率必须足够高。
蚂蚁官方提到 LingBot-World-Fast 支持「分钟级长时一致性」和「实时交互」,如果这两点确实做到了,说明他们在模型压缩和推理优化上下了不少功夫。当然,「实时」的具体定义(帧率多少?分辨率多少?)和「一致性」的实际表现,还需要更多开发者上手测试后才能下定论。
从产品策略上看,60 秒的体验时长限制也是一个务实的选择——既能让用户感受到世界模型的魅力,又避免了长时间推理带来的一致性崩塌和算力压力。
和同行比,灵光做对了什么?
目前市面上能体验到的世界模型产品并不多。Google DeepMind 的 Genie 系列主要停留在学术论文和受限 demo 阶段;Decart 的 Oasis 做了一个类 Minecraft 的实时生成游戏,但主要跑在 PC 端;World Labs 拿了大额融资,产品还没公开。
灵光的差异化在于两点:
第一,移动端原生体验。 不是「手机浏览器打开一个网页 demo」,而是在 App 内原生集成,操作逻辑针对触屏优化。这看起来是个工程问题,但实际上决定了用户触达的门槛。能在手机上随手玩一下,和需要打开电脑、配置环境、等待加载,是完全不同的体验漏斗。
第二,模型开源。 LingBot-World-Fast 的开源意味着这不是一个封闭的产品 feature,而是一个开放的技术能力。开发者可以基于它做二次开发,接入自己的应用场景。这对于世界模型这个还处于早期的领域来说,是推动生态发展的正确做法。
当然,也要看到局限性。60 秒的体验时长、单图输入的限制、以及目前尚不清楚的画质细节,都说明这个功能更多是一个「技术预览」而非成熟产品。但作为世界模型在移动端的首次公开落地,它的信号意义大于产品意义。
开源生态:LingBot 的拼图越来越完整
把视角拉远一点看,蚂蚁灵波团队在开源策略上的节奏值得关注。
从 LingBot-Depth 到 LingBot-VLA 再到 LingBot-World,他们没有一上来就丢一个大而全的模型出来,而是沿着「感知 → 模拟 → 决策」的链路逐步开源。每个模型解决一个明确的子问题,组合起来又能形成完整的具身智能 pipeline。
这种模块化的开源策略有几个好处:
- 每个模型都可以独立使用,降低了开发者的上手门槛
- 不同模块可以被社区独立改进和替换,灵活性更高
- 逐步开源的节奏也给团队留出了迭代和优化的空间
对于关注具身智能和世界模型方向的开发者来说,LingBot 系列已经是一个值得持续跟踪的开源项目。
世界模型的 2025-2026:从论文到产品的关键一年
回顾过去一年多,世界模型领域的进展速度明显加快。2024 年初 Sora 的发布让「视频生成」成为全民话题,但真正的世界模型——能理解物理规律、支持交互式探索的模型——在当时还主要存在于论文里。
到了 2025 年下半年,情况开始变化。多个团队发布了可交互的世界模型 demo,学术界在长时一致性、物理仿真精度等关键指标上也取得了显著进展。而现在,2026 年 4 月,蚂蚁灵光把世界模型做到了手机上,并且开源了底层模型。
这个进度条推进得比很多人预期的要快。
当然,世界模型距离真正的「好用」还有很长的路。当前的模型在复杂场景下的物理一致性、长时间探索的稳定性、以及生成质量的精细度上,都还有明显的提升空间。但方向是清晰的,落地路径也在逐渐明确。
灵光这次的更新,与其说是一个产品发布,不如说是一个技术里程碑的公开展示:世界模型已经从「实验室里的论文」走到了「手机上的功能」。中间的距离,比很多人想象的要短。
参考来源
- 世界模型首次搬进手机:蚂蚁灵光 App 今日上线「体验世界模型」功能 - IT之家:灵光 App 上线世界模型功能的详细报道
- 上传一张图片即时生成一个 3D 世界,灵光 App 率先将世界模型搬上手机 - IT之家:功能操作流程及技术细节介绍
- 世界模型 LingBot-World,正式开源! - 知乎专栏:LingBot-World 开源发布的技术解读