生数科技发布 Vidu S1 实时交互视频模型，走自回归扩散路线，支持语音控制和无限时长实时生成，把视频从'预制品'变成了可对话的动态过程。

生数科技扔出 Vidu S1：视频生成模型这次会说话了

7 月 3 日，生数科技把 Vidu S1 实时交互模型甩了出来。这次的重点不是画质、不是时长，而是一个此前没什么人认真攻的方向——实时交互。你能像打视频电话一样跟一个 AI 生成的角色说话，它一边听你讲，一边实时把接下来的画面生成出来。

说白了，视频生成从"预制"走向了"直播"。

Vidu S1 实时视频通话交互界面

这不是又一个文生视频

过去一年多，视频生成赛道基本被 Sora、Runway、可灵、Vidu Q 系列这些"batch 派"垄断——你给个 prompt，等几十秒到几分钟，出来一段几秒到十几秒的视频。质量在卷，时长在卷，可控性在卷，但交互性一直是死的：视频生成完就是成品，你不能中途插话，不能改走向，不能让画面里的人回应你。

Vidu S1 试图把这道墙拆掉。官方给的定位是"面向实时交互场景"，几个关键指标：

540P（960x540）分辨率、25FPS 帧率，最高能拉到 42FPS
无限时长连续互动，不是憋一个长视频，而是持续生成
支持语音控制走向，你说什么，画面里的角色就演什么
自定义初始形象和音色，真人、动漫、萌宠都行

这里最关键的是 25FPS 这个数字。要达到"打视频电话"的体感，帧率必须撑住实时性，否则用户看到的是 PPT 而不是对话。

技术路线：AR + Diffusion 的组合拳

Vidu S1 走的是**自回归扩散（AR + Diffusion）**路线，这一点值得展开说说。

传统的视频扩散模型（比如 Sora 一类）是"一次性把整段视频从噪声里去噪出来"——你给 prompt，模型在潜空间里一次算出所有帧，输出成品。这种范式画质好、全局一致性强，但天生跟"实时"是拧巴的：你没法在生成到一半时插入新指令，也没法边生成边播放。

Vidu S1 的做法反过来：基于已经生成的历史画面，结合当前语音指令和对话上下文，持续预测并生成后续内容。这更像大语言模型 next-token prediction 的思路，只不过预测的是下一段视频片段。历史帧是上下文，语音是随时插入的新 prompt，模型在时间维度上一段一段往前推。

这条路的好处很明显：

可以流式播放——生成一段就播一段，不用等整段做完
随时响应新指令——用户说"你转个身"，模型下一段就转
理论上无限时长——不受固定窗口约束

代价也很实在：全局一致性更难保，误差会累积（越往后可能越"漂"），计算成本高——毕竟要 25 帧每秒实时出图。Meta 的 MovieGen、Runway 的一些新研究其实也在往这个方向摸，但真正做出可用产品级实时交互的，Vidu S1 算是走在前面的。

从 Q1 到 S1，产品线在分叉

熟悉 Vidu 的应该记得，今年 3 月生数科技刚发过 Vidu Q1，主打"高可控"——多主体控制、音效同步、画质增强，是给专业创作者做精品视频的。后来的 Q3 更是登顶了 Artificial Analysis 的榜单。

而 S1 明显是另一条产品线：Q 系列做"生产力工具"，S 系列做"实时体验"。这个分叉挺聪明。视频生成走到现在，同质化很严重，大家都在卷分辨率、卷时长、卷镜头语言，但用户拿到成品之后能干嘛？发短视频、做广告、剪素材。这些场景 batch 生成已经够用了。

真正的增量在哪里？在数字人直播、虚拟陪伴、AI 客服、教育互动这些需要"对话+画面"同时在线的场景。S1 瞄的就是这块。你想想：一个能跟你实时视频通话、按你指令做动作换表情的 AI 角色，对陪伴类产品、虚拟主播、教育类应用意味着什么。

Vidu S1 支持真人/动漫/萌宠等自定义初始形象

世界模型野心的一部分

这事儿放在生数科技整体战略里看更清楚。4 月他们刚完成近 20 亿元 B 轮融资，阿里云领投，公司对外讲的故事已经从"视频大模型"升级成"通用世界模型"——数字世界的 WGM（世界生成模型）+ 物理世界的 WAM（世界行动模型，也就是去年 12 月开源的 Motus）。

S1 这种"实时理解指令并生成后续画面"的能力，本质上就是世界模型的一个基础操作：基于历史状态和外部输入预测下一状态。你把语音换成机器人的传感器信号，把生成的视频换成动作序列，这套架构就能迁移到具身智能。所以 S1 不只是一个交互 demo，它是生数在验证自回归+扩散这套范式的通用性。

实际体验和几个疑问

目前 S1 已经开启内测，有两个入口：

线上体验：vidu.cn/vidu-stream
API 平台：platform.vidu.cn/live/landing

从官方放出的 demo 看，反应速度和画面连贯性都还不错，但有几个点得实际用了才知道：

延迟到底多少。25FPS 是生成帧率，但从"说完话"到"画面响应"的端到端延迟才是体验关键。低于 500ms 才算舒适，超过 1s 就明显尬。
长时对话下的角色一致性。跑 10 分钟之后，角色的脸、发型、衣服还是同一个人吗？自回归模型最怕这个。
540P 够不够用。作为实时交互算合理妥协，但放到大屏上会略糊。真正的商用场景（比如虚拟主播）大概率还需要往上拉。
成本。25FPS 实时扩散推理，单路成本估计不便宜，能不能规模化跑起来是个问题。

一句话总结

Vidu S1 不是最漂亮的视频模型，但它是把"视频"和"对话"缝在一起的第一批认真尝试。视频生成赛道过去一年在画质和时长上打转，S1 换了个赛道——从"生成一段视频"变成"生成一个能对话的活人"。

如果这条路走通，虚拟陪伴、数字人直播、AI 教育这些一直卡在"对话没画面、有画面不对话"的赛道会被重新洗一遍。至于能不能走通，看接下来几个月内测反馈和迭代速度。

参考来源

IT之家：支持实时视频通话和语音控制视频走向，生数科技发布 Vidu S1 实时交互模型 — Vidu S1 发布首发报道，包含技术路线和规格细节

生数科技扔出 Vidu S1：视频生成模型这次会说话了

生数科技扔出 Vidu S1：视频生成模型这次会说话了

这不是又一个文生视频

技术路线：AR + Diffusion 的组合拳

从 Q1 到 S1，产品线在分叉

世界模型野心的一部分

实际体验和几个疑问

一句话总结

参考来源

相关推荐

阿里云 Qoder 企业版落地：知识库 QMind 加池化 Credits

Gemini Omni Flash 屠榜 Video Arena，领先字节 Seedance 101 Elo

英伟达开源双塔语言模型 TwoTower：扩散架构加速 LLM Token 生成

联系我们