英伟达 NVLabs 发布 SANA-WM，一个 26 亿参数的开源世界模型，支持从单张图片生成 1 分钟 720p 视频，训练成本仅为 MovieGen 的 1%，可在消费级 RTX 5090 上部署。

英伟达开源 2.6B 世界模型，RTX 5090 上 29 秒生成 1 分钟 720p 视频

英伟达 NVLabs 刚发布了 SANA-WM（SANA World Model），一个 26 亿参数的开源世界模型，专门用于生成分钟级 720p 视频。这个模型最大的亮点是效率：在 RTX 5090 上用 FP4 精度推理，生成 5 秒 720p 视频只需 29 秒，比之前快了 2.4 倍。更关键的是，它的训练成本只有 Meta MovieGen 的 1%。

这不是英伟达第一次在视频生成上做文章。SANA 系列之前已经有了图像生成模型，这次的 SANA-WM 和 SANA-Video 是视频方向的延伸。但跟市面上那些动辄几十亿参数、需要数据中心级算力的模型不同，SANA-WM 的设计目标就是「能在消费级硬件上跑」。

技术架构：Block Linear Attention 是核心

SANA-WM 基于 Block Linear Diffusion Transformer 架构，这是它能做到高效的关键。传统的 Transformer 在处理长序列时，注意力机制的计算复杂度是 O(n²)，视频帧数一多就扛不住。SANA-WM 用的是线性注意力（Linear Attention），把复杂度降到 O(n)，同时通过分块（Block-wise）的方式处理长视频。

具体来说，它设计了一个「恒定内存 KV 缓存」机制。传统的自回归生成需要存储所有历史帧的 Key-Value 对，内存占用随帧数线性增长。SANA-WM 利用线性注意力的累积特性，把历史信息压缩成一个固定大小的状态向量，内存占用不随视频长度增加。这让它能在有限显存下生成分钟级视频。

SANA-WM 架构示意图，展示 Block Linear Attention 和恒定内存 KV 缓存机制

训练成本：12 天 64 张 H100，MovieGen 的 1%

英伟达在论文里直接对比了训练成本。SANA-Video 系列模型（包括 SANA-WM）只用了 64 张 H100 训练 12 天，总算力消耗大约是 18,432 GPU-hours。作为对比，Meta 的 MovieGen 用了数千张 GPU 训练数月，保守估计超过 100 万 GPU-hours。SANA 的训练成本确实只有 MovieGen 的 1% 左右。

这个成本差异不只是硬件堆砌的问题，更多是工程优化。SANA 团队在数据过滤和训练策略上做了很多工作。他们用了更激进的数据筛选，只保留高质量、高分辨率的视频样本，同时在训练过程中动态调整分辨率和帧率，避免在低质量数据上浪费算力。

这种「小模型 + 高效训练」的路线，跟 OpenAI 的 Sora、Runway 的 Gen-3 这些闭源大模型形成了鲜明对比。后者追求的是「不计成本堆性能」，SANA 要的是「在有限资源下做到够用」。对开发者和小团队来说，SANA 的路线显然更现实。

性能表现：对标 Wan 2.1 和 SkyReel-V2

英伟达把 SANA-Video 跟两个同量级的开源模型做了对比：Wan 2.1-1.3B 和 SkyReel-V2-1.3B。这两个模型参数量都在 13 亿左右，比 SANA-WM 的 26 亿还小一半，但生成速度慢得多。

在生成 5 秒 720p 视频的测试中，SANA-Video 在 H100 上用 FP16 精度需要 71 秒，切换到 RTX 5090 的 FP4 精度后降到 29 秒。Wan 2.1 和 SkyReel-V2 在同样硬件上需要 400-500 秒，SANA 快了 16 倍左右。

质量方面，SANA-WM 在文本对齐和时间一致性上跟这两个模型差不多，但在细节保真度上稍弱一些。这是小模型的通病——参数量摆在那，很难在所有维度上都做到完美。不过考虑到速度优势，这个取舍是合理的。

更重要的是，SANA-WM 支持「图像 + 文本 + 相机轨迹」的输入方式。你可以给它一张起始图片，加上文字描述和 6 自由度（6-DoF）的相机运动参数，它会生成符合这个轨迹的视频。这种可控性是很多纯文本生成模型做不到的。

SANA-WM 生成的视频示例，展示从单张图片生成的 1 分钟 720p 视频效果

部署门槛：RTX 5090 就能跑

消费级硬件部署是 SANA-WM 的一大卖点。英伟达专门测试了在 RTX 5090 上的表现，用的是 NVFP4 精度（4-bit 浮点）。这是英伟达在 Blackwell 架构上新推的低精度格式，专门为生成式 AI 优化。

RTX 5090 有 32GB GDDR7 显存，理论带宽 1.8 TB/s。SANA-WM 在这个配置下，生成 5 秒 720p 视频的显存占用在 24GB 左右，还有余量。如果你想生成更长的视频，可以用分块生成的方式，每次生成 5-10 秒，然后拼接起来。

这个部署门槛对个人开发者来说已经很友好了。RTX 5090 的价格在 2000 美元左右，虽然不便宜，但比租云端 H100 实例便宜多了。而且本地部署没有 API 调用成本，适合需要大量生成的场景。

当然，FP4 精度会带来一定的质量损失。英伟达在论文里提到，FP4 相比 FP16 会有轻微的细节模糊和色彩偏移，但在大多数场景下肉眼难以察觉。如果你对质量要求极高，还是得用 FP16 或 BF16，那就需要更高端的硬件了。

开源策略：代码和权重都放出来了

SANA-WM 的代码和模型权重都在 GitHub 上开源了，仓库地址是 NVlabs/Sana。这个仓库不只有 SANA-WM，还包括之前的 SANA 图像生成模型和 SANA-Video 的其他变体。

代码库提供了完整的训练和推理流程，包括数据预处理、模型训练、推理加速等。推理部分支持多种精度（FP32/FP16/BF16/FP4），也支持多 GPU 并行生成。文档写得比较详细，上手难度不高。

模型权重托管在 Hugging Face 上，有几个不同的版本：

SANA-WM-2.6B：完整版，26 亿参数，支持 1 分钟 720p 视频生成
SANA-Video-1.6B：轻量版，16 亿参数，支持 30 秒 720p 视频生成
SANA-Video-0.6B：超轻量版，6 亿参数，支持 10 秒 480p 视频生成

这几个版本的架构基本一致，主要是层数和隐藏维度不同。你可以根据自己的硬件条件选择合适的版本。

数据和训练细节：高质量数据是关键

SANA 团队在论文里透露了一些训练细节。他们用的数据集主要来自公开的视频数据集，包括 WebVid、Panda-70M 等，总共大约 1000 万条视频片段。但他们没有直接用原始数据，而是做了严格的过滤。

过滤标准包括：

分辨率至少 720p，帧率至少 24fps
视频长度在 5-60 秒之间
运动幅度适中，避免静态画面和剧烈抖动
文本描述质量高，避免机器生成的低质量标注

经过过滤后，实际用于训练的数据只有 200 万条左右，是原始数据的 20%。这种「少而精」的策略在小模型训练中很常见——与其让模型在低质量数据上学一堆噪声，不如集中火力在高质量数据上。

训练过程分两个阶段：

预训练阶段：用 256x256 分辨率训练 10 天，学习基本的视频生成能力
微调阶段：用 720p 分辨率训练 2 天,提升细节和分辨率

这种「先低分辨率再高分辨率」的训练方式也是标准操作，可以大幅降低训练成本。

局限性：还不能跟 Sora 正面刚

虽然 SANA-WM 在效率上做得很好,但跟 OpenAI Sora、Runway Gen-3 这些顶级模型比,差距还是明显的。

首先是生成质量。Sora 能生成 1080p 甚至更高分辨率的视频,细节保真度和物理真实感都更强。SANA-WM 在 720p 下已经有些吃力,放大到 1080p 会出现明显的模糊和伪影。

其次是时长。Sora 官方演示过 1 分钟的视频,而且时间一致性很好。SANA-WM 虽然理论上也能生成 1 分钟,但实际测试中,超过 30 秒后容易出现画面漂移和逻辑断裂。

第三是可控性。Sora 支持复杂的文本提示,能理解物理规律、空间关系、因果逻辑等。SANA-WM 的文本理解能力弱一些,对复杂场景的描述容易出错。

但这些差距是预期之内的。Sora 的参数量可能在百亿级别,训练成本是 SANA 的几百倍。SANA 的定位本来就不是「做最好的视频生成模型」,而是「做最高效的开源视频生成模型」。

应用场景：适合快速原型和低成本生产

SANA-WM 的效率优势让它在一些特定场景下很有用：

游戏开发：用于生成游戏过场动画、环境预览、角色动作参考等。游戏开发中需要大量快速迭代,SANA-WM 的速度优势能显著提升效率。

广告和营销：生成产品展示视频、社交媒体短视频等。这类内容对质量要求不像电影那么高,但需要快速产出,SANA-WM 很合适。

教育和培训：生成教学演示视频、模拟场景等。教育内容更注重清晰度和可理解性,不需要电影级的视觉效果。

原型验证：在正式投入大模型生成之前,用 SANA-WM 快速验证创意和脚本。这能大幅降低试错成本。

对于需要高质量、长时长、复杂场景的专业制作,SANA-WM 还不够格。但对于大量的中低端需求,它已经足够好用了。

与其他开源模型的对比

开源视频生成领域现在有几个主要玩家：

ModelScope（阿里）：参数量未公开,生成速度较慢,但质量不错。主要问题是文档和社区支持不够完善。

Zeroscope：基于 Stable Diffusion 改造,参数量在 10 亿左右。生成速度比 SANA 慢,但在某些艺术风格上表现更好。

AnimateDiff：专注于动画风格视频生成,参数量较小（3-5 亿）。速度很快,但只适合特定风格,通用性差。

CogVideoX（智谱）：参数量在 50 亿左右,质量接近商业模型,但训练和推理成本都很高。

SANA-WM 在这些模型中的定位是「效率和质量的平衡点」。它不是最快的（AnimateDiff 更快）,也不是质量最好的（CogVideoX 更好）,但综合来看性价比最高。

未来方向：更长、更高清、更可控

英伟达在论文里提到了几个未来改进方向：

更长的视频：目前 1 分钟是极限,目标是做到 5 分钟甚至更长。这需要进一步优化内存管理和时间一致性。
更高的分辨率：从 720p 提升到 1080p 甚至 4K。这需要更大的模型和更多的训练数据。
更强的可控性：支持更复杂的输入条件,比如多个关键帧、详细的物体轨迹、风格参考图等。
多模态融合：结合音频生成,做到视频和音效同步。这对游戏和影视制作很有用。
实时生成：目前 29 秒生成 5 秒视频,还达不到实时。如果能做到实时或接近实时,应用场景会更广。

这些方向都很有挑战性,但考虑到 SANA 团队在效率优化上的能力,还是值得期待的。

对行业的影响：降低视频生成门槛

SANA-WM 的发布对整个视频生成行业有几个重要影响：

降低技术门槛：之前想做视频生成,要么用闭源 API（贵）,要么自己训练大模型（更贵）。SANA-WM 提供了第三条路：用开源小模型在本地跑。这让更多开发者和小团队能参与进来。

推动硬件普及：SANA-WM 能在 RTX 5090 上跑,证明了消费级硬件做视频生成的可行性。这会刺激更多人购买高端显卡,反过来推动硬件厂商继续优化。

加速应用落地：效率提升意味着成本下降,成本下降意味着更多应用场景变得可行。我们可能会看到更多基于视频生成的产品和服务出现。

倒逼闭源模型降价：开源模型的性能越来越好,闭源模型的价格优势会被削弱。OpenAI、Runway 这些公司要么降价,要么在质量上拉开更大差距。

当然,开源模型也有自己的问题,比如缺乏商业支持、文档不完善、社区碎片化等。但总体来说,SANA-WM 这样的项目对行业是利好的。

总结

SANA-WM 是一个务实的项目。它没有追求「世界最强」,而是在有限资源下做到「够用且高效」。26 亿参数、12 天训练、RTX 5090 可部署,这些数字背后是英伟达在工程优化上的深厚积累。

对开发者来说,SANA-WM 提供了一个可行的视频生成方案。你不需要数据中心级的算力,不需要天价的 API 费用,一张高端显卡就能开始实验。虽然它还不能跟 Sora 正面竞争,但对于大量的中低端需求,它已经足够好了。

更重要的是,SANA-WM 证明了「小模型 + 高效训练」这条路是走得通的。在大模型军备竞赛愈演愈烈的今天,这种务实的路线反而可能更有生命力。毕竟,不是所有人都需要用大炮打蚊子。

参考来源

SANA-WM 官方项目页面 - 英伟达 NVLabs 发布的 SANA-WM 官方介绍和技术细节
NVlabs/Sana GitHub 仓库 - SANA 系列模型的开源代码和模型权重