蚂蚁灵光App上线世界模型功能：LingBot-World-Fast开源，手机端一图生成3D世界

蚂蚁灵光 App 今日上线「体验世界模型」功能，接入开源模型 LingBot-World-Fast，用户上传一张图即可在手机端生成并漫游 3D 世界，这是世界模型首次落地移动端。

一张图，一个世界，跑在手机上

4 月 27 日，蚂蚁集团旗下全模态 AI 助手「灵光」App 正式上线了「体验世界模型」功能。简单说就是：你给它一张图，它几秒钟内帮你生成一个可以用第一人称视角走进去逛的 3D 世界。

听起来像是 demo 级别的炫技？不完全是。这次的关键词不是「又一个世界模型」，而是「在手机上跑起来了」。

过去一年，世界模型（World Model）是 AI 圈最热的概念之一。从 Sora 掀起的视频生成浪潮，到 Genie、UniSim 等学术项目，再到各家具身智能团队的内部探索，大家都在试图让 AI 不只是「看懂」世界，而是「模拟」世界。但绝大多数世界模型的体验方式是：打开一个网页 demo，等几十秒甚至几分钟，看一段预渲染的视频。

灵光这次做的事情不一样——它把世界模型的推理链路压到了移动端可用的程度，而且支持实时交互。用户不是在看一段视频，而是像玩手游一样，用虚拟摇杆控制前进后退，自由转动视角，在 AI 生成的 3D 场景里「走来走去」。

这个体验差异，比参数量大几个 B 要实在得多。

怎么玩：三步进入「你的世界」

操作流程非常直觉：

打开灵光 App，在对话框上传一张图片
系统会智能推荐操作，选择「生成图中世界」，或者直接输入类似「用第一人称视角探索这个世界」的指令
等待几秒，3D 世界生成完毕，点击进入

进入世界后，屏幕上会出现一个虚拟摇杆，操作逻辑和手游一致——左侧控制移动，右侧（或滑动屏幕）控制视角。整个体验时长最长支持 60 秒的连续探索。

60 秒听起来不长，但考虑到这是实时生成、实时渲染的 3D 场景，而不是预录视频，这个时长已经相当可观。更重要的是，蚂蚁官方提到模型支持「分钟级长时一致性」——也就是说，你在场景里走了一圈回到原点，周围的建筑、植被、光影不会突然变样。这对世界模型来说是个硬指标，很多学术 demo 在这一点上翻车得很彻底。

背后的模型：LingBot-World-Fast

灵光这次上线的功能，背后接入的是蚂蚁灵波团队的 LingBot-World-Fast 世界模型。

先说「灵波」这个团队的背景。蚂蚁灵波（LingBot）是蚂蚁集团在具身智能和多模态方向的核心研究团队，今年已经陆续开源了好几个模型：

LingBot-Depth：高精度空间感知模型，解决的是「AI 怎么理解三维空间」的问题
LingBot-VLA：具身大模型，让 AI 能在理解环境的基础上做出动作决策
LingBot-World：世界模型，也就是这次的主角

这三个模型构成了一条从「感知空间 → 模拟世界 → 行动决策」的完整链路。LingBot-World 负责的是中间那一环：给定一个初始观测（比如一张图片），模型能够预测「如果我往前走三步、向右转 90 度，世界会变成什么样」。

而 LingBot-World-Fast 是 LingBot-World 的轻量化 / 加速版本，专门为实时交互场景优化。从命名惯例来看，这大概率是在模型架构或推理流程上做了针对性的裁剪和加速，以换取移动端可用的延迟表现。

值得注意的是，LingBot-World-Fast 已经开源。这意味着开发者可以自己拿来跑、拿来改、拿来接入自己的应用。对于做游戏、做 XR、做具身智能的团队来说，这是一个可以直接上手的起点。

世界模型到底在解决什么问题？

聊到这里，有必要退一步说说「世界模型」这个概念本身。

最直觉的理解：世界模型就是一个能「想象」世界运转方式的 AI。你给它一个当前状态，它能预测下一个状态。这和大语言模型预测下一个 token 在本质上是同一件事，只不过预测的对象从文字变成了三维空间中的视觉信号。

为什么这件事重要？至少有三个层面：

1. 具身智能的「大脑模拟器」

机器人要在真实世界中行动，不可能每一步都靠试错。它需要一个内部模型来「想象」不同动作的后果，然后选择最优策略。世界模型就是这个内部模拟器。LingBot 团队把 Depth、World、VLA 三个模型串起来，思路非常清晰：先看懂空间，再模拟世界，最后做决策。

2. 内容生成的下一个形态

从文本生成到图片生成到视频生成，下一步自然是「可交互的 3D 场景生成」。世界模型如果足够好，理论上可以替代传统游戏引擎中大量的手工建模工作。一张概念图进去，一个可以走进去的场景出来——这对游戏、影视、建筑可视化等行业的吸引力不言而喻。

3. AGI 的必经之路

Yann LeCun 反复强调世界模型是通向 AGI 的关键组件。他的论点是：一个真正智能的系统必须能理解物理世界的运作规律，而不仅仅是语言层面的推理。不管你是否同意 LeCun 的技术路线，世界模型作为 AI 理解物理世界的一种方式，确实是当前研究的重要方向。

移动端落地，难在哪？

把世界模型做出来是一回事，把它塞进手机是另一回事。

世界模型的推理过程本质上是一个条件视频生成任务：给定当前帧和用户的动作输入，生成下一帧（或下几帧）。这个过程的计算量非常大，传统方案通常需要高端 GPU 服务器来支撑。

要在移动端实现「实时交互」，至少需要解决几个问题：

延迟：用户推摇杆到画面响应，延迟必须控制在百毫秒级别，否则体验会非常「晕」。这要求模型的单帧推理速度极快，或者采用预测性生成策略（提前生成几个可能的方向）。
一致性：连续生成的帧之间必须保持空间一致性。你往前走了 10 步再回头，身后的场景不能变了样。这是世界模型最容易出问题的地方，尤其在长时间序列上。
画质与算力的平衡：手机的算力和散热都有硬约束。要在这些约束下保持可接受的画质，模型的效率必须足够高。

蚂蚁官方提到 LingBot-World-Fast 支持「分钟级长时一致性」和「实时交互」，如果这两点确实做到了，说明他们在模型压缩和推理优化上下了不少功夫。当然，「实时」的具体定义（帧率多少？分辨率多少？）和「一致性」的实际表现，还需要更多开发者上手测试后才能下定论。

从产品策略上看，60 秒的体验时长限制也是一个务实的选择——既能让用户感受到世界模型的魅力，又避免了长时间推理带来的一致性崩塌和算力压力。

和同行比，灵光做对了什么？

目前市面上能体验到的世界模型产品并不多。Google DeepMind 的 Genie 系列主要停留在学术论文和受限 demo 阶段；Decart 的 Oasis 做了一个类 Minecraft 的实时生成游戏，但主要跑在 PC 端；World Labs 拿了大额融资，产品还没公开。

灵光的差异化在于两点：

第一，移动端原生体验。 不是「手机浏览器打开一个网页 demo」，而是在 App 内原生集成，操作逻辑针对触屏优化。这看起来是个工程问题，但实际上决定了用户触达的门槛。能在手机上随手玩一下，和需要打开电脑、配置环境、等待加载，是完全不同的体验漏斗。

第二，模型开源。 LingBot-World-Fast 的开源意味着这不是一个封闭的产品 feature，而是一个开放的技术能力。开发者可以基于它做二次开发，接入自己的应用场景。这对于世界模型这个还处于早期的领域来说，是推动生态发展的正确做法。

当然，也要看到局限性。60 秒的体验时长、单图输入的限制、以及目前尚不清楚的画质细节，都说明这个功能更多是一个「技术预览」而非成熟产品。但作为世界模型在移动端的首次公开落地，它的信号意义大于产品意义。

开源生态：LingBot 的拼图越来越完整

把视角拉远一点看，蚂蚁灵波团队在开源策略上的节奏值得关注。

从 LingBot-Depth 到 LingBot-VLA 再到 LingBot-World，他们没有一上来就丢一个大而全的模型出来，而是沿着「感知 → 模拟 → 决策」的链路逐步开源。每个模型解决一个明确的子问题，组合起来又能形成完整的具身智能 pipeline。

这种模块化的开源策略有几个好处：

每个模型都可以独立使用，降低了开发者的上手门槛
不同模块可以被社区独立改进和替换，灵活性更高
逐步开源的节奏也给团队留出了迭代和优化的空间

对于关注具身智能和世界模型方向的开发者来说，LingBot 系列已经是一个值得持续跟踪的开源项目。

世界模型的 2025-2026：从论文到产品的关键一年

回顾过去一年多，世界模型领域的进展速度明显加快。2024 年初 Sora 的发布让「视频生成」成为全民话题，但真正的世界模型——能理解物理规律、支持交互式探索的模型——在当时还主要存在于论文里。

到了 2025 年下半年，情况开始变化。多个团队发布了可交互的世界模型 demo，学术界在长时一致性、物理仿真精度等关键指标上也取得了显著进展。而现在，2026 年 4 月，蚂蚁灵光把世界模型做到了手机上，并且开源了底层模型。

这个进度条推进得比很多人预期的要快。

当然，世界模型距离真正的「好用」还有很长的路。当前的模型在复杂场景下的物理一致性、长时间探索的稳定性、以及生成质量的精细度上，都还有明显的提升空间。但方向是清晰的，落地路径也在逐渐明确。

灵光这次的更新，与其说是一个产品发布，不如说是一个技术里程碑的公开展示：世界模型已经从「实验室里的论文」走到了「手机上的功能」。中间的距离，比很多人想象的要短。

参考来源

世界模型首次搬进手机：蚂蚁灵光 App 今日上线「体验世界模型」功能 - IT之家：灵光 App 上线世界模型功能的详细报道
上传一张图片即时生成一个 3D 世界，灵光 App 率先将世界模型搬上手机 - IT之家：功能操作流程及技术细节介绍
世界模型 LingBot-World，正式开源！ - 知乎专栏：LingBot-World 开源发布的技术解读

世界模型搬进手机，蚂蚁灵光做到了