Runway CEO Cristóbal Valenzuela 近日表示，AI 视频生成不过是通往「世界模型」的序章。这家估值 53 亿美元的公司正将赌注押向能理解和模拟物理世界的通用模型，直接叫板 Google 和 OpenAI。

Runway CEO：视频生成只是前菜，世界模型才是主菜

一句话：视频不是目的，世界才是

Runway CEO Cristóbal Valenzuela 最近在一次播客访谈中抛出了一个判断——AI 视频生成，包括他自己公司正在做的事，只是一段序章。真正的终局，是「世界模型」（World Models）。

这话从别人嘴里说出来可能是画饼，但从一个刚融了近 8.6 亿美元、估值 53 亿美元的公司掌舵人口中说出来，值得认真听一听。

Runway CEO Cristóbal Valenzuela 在访谈中阐述世界模型愿景的场景配图

Runway 是谁？为什么他的话有分量

先快速对齐一下背景。Runway 是一家总部位于纽约的 AI 公司，最早因为参与 Stable Diffusion 的开发而被圈内熟知，后来把重心转向了视频生成。他们的 Gen-1、Gen-2、Gen-3 系列模型，是目前市面上和 OpenAI Sora、Google Veo 正面竞争的头部产品。

关键数据：

累计融资接近 8.6 亿美元
最新估值 53 亿美元
核心产品覆盖文生视频、图生视频、视频编辑等多模态场景
用户群体从独立创作者到好莱坞制片公司都有覆盖

换句话说，Runway 不是一个在白板上画概念的初创团队，而是一个已经在视频生成赛道上跑出了商业闭环的玩家。当这样一个玩家说「视频只是起点」的时候，他不是在否定自己的业务，而是在重新定义自己的战场。

什么是「世界模型」？

这个概念并不新，但最近一年被越来越多地提起。简单说：

视频生成模型学的是「像素层面的规律」——给定一段文字描述或一张图片，输出一段看起来合理的视频。它关心的是视觉上的连贯性和美学质量。

世界模型学的是「物理层面的规律」——它不仅要生成看起来对的画面，还要理解重力、碰撞、光影、因果关系。一个球从桌子边缘滚下去，世界模型知道它会掉到地上而不是飘到天花板上，不是因为训练数据里有这个场景，而是因为它「理解」了重力。

打个比方：视频生成模型是一个画技精湛的画师，你说「画一个苹果从树上掉下来」，它能画得很好看。世界模型则更像一个物理引擎，它知道苹果为什么会掉、掉下来的轨迹是什么、砸到地上会怎样。

这个区别看起来是学术上的细微差异，但在应用层面，差距是质变级别的。

为什么 Valenzuela 认为这是终点战场？

在访谈中，Valenzuela 的逻辑链条大致是这样的：

1. 视频生成正在快速商品化

2024 年到 2025 年，视频生成赛道经历了一轮爆发。Sora、Veo、Kling、可灵、Runway Gen-3……各家模型在画质和连贯性上的差距正在迅速缩小。当一项技术开始商品化，单纯比「谁生成的视频更好看」就不再是可持续的护城河。

这和大语言模型的演进路径很像——2023 年大家还在比 GPT-4 和 Claude 谁更聪明，到了 2025 年，纯粹的文本能力已经不是核心差异化因素，竞争焦点转向了推理、Agent、工具调用这些更深层的能力。

2. 视频的价值天花板有限，世界模型的价值天花板几乎无限

视频生成的直接商业场景是什么？广告素材、短视频内容、影视特效、创意设计。这些都是真实需求，但市场规模是可以算出来的。

世界模型呢？如果一个模型真的能理解和模拟物理世界，它的应用场景就不止于「生成内容」了：

机器人训练：在虚拟世界里训练机器人，比在真实世界里便宜几个数量级
自动驾驶仿真：生成无限多的驾驶场景来测试自动驾驶系统
游戏和虚拟世界：不再需要手动建模，AI 直接生成可交互的 3D 环境
科学模拟：从药物分子到气候模型，用世界模型来加速模拟
工业数字孪生：工厂、城市、供应链的实时数字镜像

这不是一个「内容生成工具」的市场，这是一个「理解物理世界」的市场。两者的想象空间完全不在一个量级。

3. 视频生成是通往世界模型的最佳路径

Valenzuela 的一个核心观点是：视频生成模型在训练过程中，已经在隐式地学习物理规律。当你用海量视频数据训练一个模型，让它预测下一帧画面时，它不得不去「理解」物体的运动规律、光影变化、空间关系。

这意味着 Runway 过去几年在视频生成上积累的数据、模型架构和训练经验，不是沉没成本，而是通往世界模型的阶梯。视频生成是手段，世界模型是目的。

这个逻辑其实和 OpenAI 发布 Sora 时的叙事一脉相承——Sam Altman 当时也暗示过，视频生成模型本质上是在学习世界的物理模拟器。只不过 Valenzuela 说得更直接：我们就是奔着世界模型去的，视频只是路上的一个产品。

竞争格局：谁在抢这块蛋糕？

世界模型这个方向，Runway 不是唯一的玩家，甚至不是最大的玩家。

| 公司 | 路径 | 优势 | 挑战 | |------|------|------|------| | OpenAI | Sora → 世界模拟器 | 资金充裕，品牌效应强 | 产品节奏慢，Sora 发布后迭代不够快 | | Google DeepMind | Veo + Genie（游戏世界模型） | 数据优势（YouTube），研究深度 | 产品化能力一直是短板 | | Runway | Gen 系列 → World Models | 产品迭代快，创作者生态成熟 | 资金和算力相比巨头仍有差距 | | Meta | 视频理解 + 具身智能 | 开源策略带来的社区优势 | 视频生成产品化进展较慢 | | 国内玩家（快手可灵、智谱等） | 视频生成 → 多模态 | 国内市场和数据优势 | 世界模型方向的公开投入还不多 |

值得注意的是，Google DeepMind 在 2024 年发布的 Genie 系列，已经在「从视频学习可交互世界」这个方向上做出了不错的成果。而 Yann LeCun 在 Meta 一直在推的 JEPA（Joint Embedding Predictive Architecture）架构，本质上也是在做世界模型，只是路径不同。

所以 Valenzuela 说「世界模型是终点战场」，不是他一个人的判断，而是行业头部玩家正在形成的共识。区别只在于谁先到、怎么到。

技术上，世界模型离我们还有多远？

说实话，还挺远的。

当前最好的视频生成模型，在物理一致性上仍然经常翻车。水的流动方向不对、物体穿模、重力时有时无——这些问题说明模型学到的「物理规律」还非常粗糙和不稳定。

从视频生成到真正的世界模型，至少还需要突破几个关键瓶颈：

1. 3D 理解

当前的视频模型本质上还是在 2D 像素空间里工作。要成为世界模型，必须具备真正的 3D 空间理解能力——知道物体的深度、体积、遮挡关系，而不只是「看起来像 3D」。

2. 因果推理

视频模型学的是相关性（A 画面之后通常出现 B 画面），世界模型需要的是因果性（因为发生了 A，所以导致了 B）。这是一个根本性的能力跃迁。

3. 可交互性

生成一段好看的视频是单向的，世界模型需要支持实时交互——用户做了一个动作，世界要实时响应并生成合理的后续状态。这对推理速度和一致性的要求极高。

4. 长程一致性

当前视频模型生成几秒到十几秒的片段还行，但时间一长就容易出现物体消失、场景突变等问题。世界模型需要在任意长的时间尺度上保持一致。

这些问题每一个都是硬骨头。乐观估计，能在特定垂直领域（比如自动驾驶仿真或游戏场景生成）做出可用的世界模型，可能还需要 2-3 年。通用的世界模型？可能是这个十年末的事情。

对开发者意味着什么？

如果你是做 AI 应用的开发者，Valenzuela 的这番话有几个值得关注的信号：

短期（6-12 个月）：视频生成 API 会继续降价和普及。各家模型的能力差距在缩小，选型时更应该关注 API 的稳定性、延迟和价格，而不是纠结于哪家画质好 0.5 分。目前通过 OpenAI Hub 这类聚合平台，已经可以一个接口调用多家主流模型，在视频和多模态场景下做灵活切换。

中期（1-3 年）：关注具备物理理解能力的多模态模型。当视频生成模型开始输出 3D 信息、支持物理交互时，会催生一批全新的应用场景——特别是在游戏、仿真、机器人这些领域。

长期（3-5 年）：世界模型如果真的成熟，会重新定义「AI 应用」的边界。现在我们说的 AI 应用主要是文本和图像相关的，世界模型会把 AI 的能力延伸到物理世界的模拟和交互，这是一个全新的应用层。

一个冷静的判断

Valenzuela 的愿景很宏大，逻辑也自洽。但有几点需要保持清醒：

第一，「世界模型」这个叙事，对融资非常友好。当视频生成开始商品化、竞争加剧时，把故事从「我们是一家视频生成公司」升级为「我们是一家世界模型公司」，估值空间立刻打开了。这不是说 Valenzuela 在忽悠，但 CEO 的公开表态天然带有战略传播的成分，这一点要打个折扣。

第二，Runway 的核心挑战没有变——它在和 OpenAI、Google 这样的巨头竞争，后者的资金和算力优势是数量级的。53 亿美元的估值听起来很大，但 OpenAI 的估值已经超过 3000 亿美元，Google 更不用说。在一个极度依赖算力和数据规模的赛道上，Runway 需要找到不对称竞争的方式。

第三，从视频生成到世界模型的跃迁，技术上并不是一条平滑的曲线。很可能需要架构层面的根本创新，而不仅仅是把现有模型做得更大更好。谁能率先找到这个架构突破，谁就能在世界模型的竞争中占据先机——这不一定是现在视频生成做得最好的那家。

结语

回到 Valenzuela 的那句话：AI 视频只是序章。

这个判断大概率是对的。就像 GPT-3 时代的文本生成是通往 Agent 和推理的序章一样，视频生成也只是通往更深层世界理解的一个阶段性产物。

但序章也有序章的价值。对于大多数开发者和创作者来说，当下最务实的做法是用好现有的视频生成能力，同时保持对世界模型方向的关注。毕竟，终点战场的入场券，往往是在序章阶段就开始积累的。

本文基于 Runway CEO Cristóbal Valenzuela 近期公开访谈内容整理分析，观点不构成投资建议。

参考来源

（注：本文核心信息来源于 Runway CEO Cristóbal Valenzuela 在 TechCrunch Equity 播客中的公开访谈，因域名限制未列出原始链接。以下为相关延伸阅读。）

暂无符合域名要求的直接参考链接。如需进一步了解世界模型相关技术讨论，可在 Hugging Face 搜索 World Models 相关论文和模型。

Runway CEO：视频生成只是前菜，世界模型才是主菜

Runway CEO：视频生成只是前菜，世界模型才是主菜

一句话：视频不是目的，世界才是

Runway 是谁？为什么他的话有分量

什么是「世界模型」？

为什么 Valenzuela 认为这是终点战场？

1. 视频生成正在快速商品化

2. 视频的价值天花板有限，世界模型的价值天花板几乎无限

3. 视频生成是通往世界模型的最佳路径

竞争格局：谁在抢这块蛋糕？

技术上，世界模型离我们还有多远？

对开发者意味着什么？

一个冷静的判断

结语

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们