Runway押注世界模型:视频生成只是开胃菜

模型上新

融资8.6亿美元、估值53亿美元的Runway正在下一盘更大的棋。CEO Valenzuela认为,视频生成只是通往世界模型的必经之路,而创业公司的"局外人"身份反而是优势。

Runway押注世界模型:视频生成只是开胃菜

融资8.6亿美元、估值53亿美元的Runway,最近透露了一个更激进的野心:他们做视频生成,不是为了帮好莱坞省钱,而是为了造出能理解物理世界的AI。

Runway CEO Cristóbal Valenzuela在最新访谈中直言:视频生成只是世界模型的序章。这个判断背后的逻辑很简单——要让AI真正理解世界如何运作,最直接的方式就是让它学会预测下一帧画面。光影如何变化、物体如何运动、人的表情如何演变,这些都是物理规律和因果关系的具象化。

这个思路并不新鲜。OpenAI的Sora、谷歌的Veo都在朝这个方向走。但Runway的特别之处在于,他们认为创业公司的"局外人"身份是优势,而非劣势

Runway Gen-3 Alpha生成的电影级画面示例

从电影工具到世界模拟器

2018年,三个NYU Tisch艺术学院的校友创办Runway时,目标很明确:让AI成为创意工作流的一部分。Valenzuela之前在Snapchat干过技术岗,但他真正想做的是把AI工具交到艺术家手里,而不是让工程师自嗨。

这个定位在早期很管用。2023年奥斯卡最佳影片《瞬息全宇宙》(Everything Everywhere All At Once)用Runway的绿幕移除工具处理了岩石宇宙的场景。视觉特效师Evan Halleck的评价很直接:"它比我的人眼还精准,给了我一个完美的遮罩。"这不是"AI替代人"的故事,而是"AI让专业人士更高效"的故事。

但到了2024年,Runway的路线开始转向。Gen-3 Alpha推出时,重点不再是"帮电影人省时间",而是可控性。Motion Brush、Advanced Camera Controls、Director Mode这些功能,本质上是在训练模型理解"什么动作会导致什么结果"。

一个电影制作人的评价很能说明问题:"Runway给我的不是一个完整视频,而是一个我可以精细调整的创意工具。我能改摄像机轨迹、改角色动作、改光线方向。这就像Photoshop对静图做的事,但在时间维度上。"

这种可控性训练,其实就是在教AI理解因果关系。改变摄像机角度,画面如何变化?改变光源位置,阴影如何移动?这些都是物理世界的基本规律。

为什么创业公司反而有优势?

Valenzuela的逻辑是这样的:大厂做世界模型,容易陷入"通用性陷阱"。他们想一步到位做出能模拟一切的系统,结果是什么都做不好。而Runway从视频生成这个垂直场景切入,反而能更快积累对物理世界的理解。

这个判断有数据支撑。截至2026年5月,Runway的Gen-3 Alpha Turbo在VBench评测中拿下1247分,超过谷歌Veo 3的1235分。关键是,Runway用的算力远不如谷歌。他们没有谷歌那种级别的超算集群,但通过专注于"可控生成"这个细分方向,反而在效率上占了上风。

另一个优势是迭代速度。大厂做产品,要考虑合规、隐私、品牌风险,每个功能都要过无数个审批流程。Runway作为创业公司,可以更激进地尝试新方向。比如他们最近在测试的实时视频生成功能,就是直接面向"世界模拟"场景设计的——用户输入一个动作指令,模型实时生成对应的画面变化。这种交互方式,本质上就是在模拟一个可操控的虚拟世界。

谷歌的沉着应对

当然,谷歌也没闲着。Veo 3在2025年10月推出时,最大的亮点是多模态同步生成——视觉、对白、音效、背景音乐一次性完成,天然同步。这是Runway目前做不到的。

Veo的路线和Runway不同。谷歌强调的是"理解和完整性",而不是"可控性"。他们的逻辑是:给我一个提示或一张图,我能生成出完整、高质量的视频。这种能力更适合内容创作者和营销人员,而不是专业视效师。

数据也能说明这一点。截至2025年底,谷歌用户对Veo的日均查询量超过1000万。虽然这个数字包含大量实验性查询,但它证明了一件事:谷歌有能力让一个产品直接触达全球用户。Runway则需要通过口碑和行业影响力来扩展市场。

但Valenzuela并不担心。他认为,谷歌的优势恰恰是它的劣势。"他们有太多用户要服务,太多场景要兼顾。我们可以专注于最难、最核心的问题——如何让AI真正理解物理世界的因果关系。"

世界模型的技术门槛

从视频生成到世界模型,技术跨度有多大?

首先是物理一致性。现在的视频生成模型,生成的画面看起来真实,但经不起推敲。比如一个球从桌上滚下来,模型可能生成出"球突然消失"或"球穿过桌子"的画面。要做世界模型,必须让AI理解重力、摩擦力、碰撞这些基本物理规律。

其次是长期一致性。现在的模型生成几秒钟的视频没问题,但要生成几分钟甚至更长的连贯内容,就会出现"记忆丢失"——前面出现的物体突然消失,场景布局莫名其妙改变。世界模型需要维持长期的状态记忆。

第三是交互性。真正的世界模型不是单向生成,而是可以接受实时输入并做出响应。用户说"把那个杯子往左移",模型要能理解这个指令,并生成符合物理规律的画面变化。这需要模型具备推理能力,而不仅仅是模式匹配。

Runway在这三个方向都有布局。他们最近在测试的实时生成功能,就是在解决交互性问题。而Gen-3 Alpha的可控性设计,本质上是在训练模型理解因果关系,为物理一致性打基础。

算力困境与解法

但有一个绕不开的问题:算力

训练一个世界模型级别的系统,需要的计算资源是天文数字。谷歌、OpenAI这些大厂有自己的超算集群,可以承受这种投入。Runway作为创业公司,怎么玩?

Valenzuela的答案是:专注于效率,而不是规模

他们的策略是,不追求"什么都能模拟",而是先把某几个垂直场景做到极致。比如人物动作、摄像机运动、光影变化,这些是电影制作中最常见的需求,也是物理规律最明显的场景。把这些做好了,再逐步扩展到其他领域。

另一个策略是模型压缩和蒸馏。Gen-3 Alpha Turbo能在更少算力下达到接近Gen-3 Alpha的效果,靠的就是这个。他们用大模型训练出来的知识,蒸馏到小模型里,让推理成本大幅下降。

这种"农村包围城市"的打法,在AI历史上不是没有先例。OpenAI早期做GPT时,也是从语言模型这个垂直方向切入,逐步扩展到多模态。Runway的赌注是,视频生成是通往世界模型最直接的路径。

Runway团队在纽约办公室的工作场景

融资与估值的信号

到2025年第二季度,Runway已经融资超过5.44亿美元,最新估值30亿美元。投资者名单很能说明问题:谷歌、英伟达、Salesforce Ventures、General Atlantic、卡塔尔投资局。

这些都是科技产业最精明的钱。谷歌投Runway,某种程度上是在对冲风险——万一Runway真的在某个方向上突破了,谷歌至少有一个观察窗口。英伟达投Runway,是因为他们看好视频生成对GPU的需求。Salesforce投Runway,是因为他们想把视频生成能力集成到自己的企业软件里。

但最有意思的是卡塔尔投资局。这个主权基金很少投早期科技公司,他们投Runway,说明他们认为这家公司有可能成为下一个基础设施级别的玩家。

估值从2024年的30亿涨到2026年的53亿,涨幅不算夸张,但考虑到这段时间AI视频赛道的竞争激烈程度,能维持这个估值已经说明市场对Runway的认可。

竞争格局:融合还是对立?

现在的AI视频市场,Runway、OpenAI Sora、谷歌Veo三足鼎立。但长期来看,这可能不是"谁赢了"的问题,而是"用户在什么场景用哪个工具"的问题。

Runway的优势在专业视效领域。截至2025年底,在专业视觉特效工作室中,Runway的采用率最高。他们正在和Adobe洽谈集成,可能很快会在Premiere Pro中出现。

谷歌Veo的优势在内容创作平台。它已经深度集成到Google Photos、Google创意套件中,触达的用户基数远超Runway。

OpenAI Sora的优势在通用性和品牌效应。虽然它还没有正式商业化,但Sora的演示视频已经成为行业标杆。

但如果Runway真的在世界模型方向上取得突破,游戏规则可能会改变。一个能实时模拟物理世界的AI,应用场景远不止视频生成——游戏、机器人、自动驾驶、工业仿真,都需要这种能力。

Valenzuela在访谈中说了一句很有意思的话:"我们不是在和谷歌、OpenAI竞争做视频工具。我们是在竞争谁能先造出真正理解世界的AI。视频生成只是第一步。"

这话听起来有点狂,但考虑到Runway在算力劣势下依然能在VBench上超过谷歌,这个野心也许不是空话。

开发者视角:工具还是平台?

对开发者来说,Runway的价值不仅在于它能生成多好的视频,而在于它提供的可控性和可编程性

Gen-3 Alpha的API设计很有意思。它不是简单的"输入提示词,输出视频",而是提供了一系列细粒度的控制参数。你可以指定摄像机路径、控制物体运动轨迹、调整光照参数。这种设计,让开发者可以把Runway当作一个"视频渲染引擎"来用,而不仅仅是一个黑盒生成器。

这种思路,和游戏引擎很像。Unity、Unreal Engine之所以成为行业标准,不是因为它们能做出最好看的游戏,而是因为它们给了开发者足够的控制权。Runway似乎也在朝这个方向走。

如果Runway真的能做成"物理世界的渲染引擎",那它的价值就不是一个视频生成工具,而是一个基础设施平台。这也许是投资者愿意给它53亿美元估值的原因。

结语

Runway的故事,本质上是一个关于"路径选择"的故事。

大厂有资源、有算力、有用户,但也有包袱、有流程、有风险顾虑。创业公司没有这些优势,但也没有这些束缚。Runway选择从视频生成这个垂直方向切入,专注于可控性和物理一致性,试图用"农村包围城市"的方式,最终造出能理解世界的AI。

这条路能不能走通,现在还不好说。但至少,Runway证明了一件事:在AI这个领域,创业公司依然有机会挑战巨头。不是靠更多的算力,而是靠更清晰的方向和更快的迭代速度。

Valenzuela说,视频生成只是世界模型的序章。如果这个判断是对的,那我们现在看到的,可能只是一场更大变革的开始。


参考来源