生数科技扔出 Vidu S1:视频生成模型这次会说话了

生数科技发布 Vidu S1 实时交互视频模型,走自回归扩散路线,支持语音控制和无限时长实时生成,把视频从'预制品'变成了可对话的动态过程。
生数科技扔出 Vidu S1:视频生成模型这次会说话了
7 月 3 日,生数科技把 Vidu S1 实时交互模型甩了出来。这次的重点不是画质、不是时长,而是一个此前没什么人认真攻的方向——实时交互。你能像打视频电话一样跟一个 AI 生成的角色说话,它一边听你讲,一边实时把接下来的画面生成出来。
说白了,视频生成从"预制"走向了"直播"。

这不是又一个文生视频
过去一年多,视频生成赛道基本被 Sora、Runway、可灵、Vidu Q 系列这些"batch 派"垄断——你给个 prompt,等几十秒到几分钟,出来一段几秒到十几秒的视频。质量在卷,时长在卷,可控性在卷,但交互性一直是死的:视频生成完就是成品,你不能中途插话,不能改走向,不能让画面里的人回应你。
Vidu S1 试图把这道墙拆掉。官方给的定位是"面向实时交互场景",几个关键指标:
- 540P(960x540)分辨率、25FPS 帧率,最高能拉到 42FPS
- 无限时长连续互动,不是憋一个长视频,而是持续生成
- 支持语音控制走向,你说什么,画面里的角色就演什么
- 自定义初始形象和音色,真人、动漫、萌宠都行
这里最关键的是 25FPS 这个数字。要达到"打视频电话"的体感,帧率必须撑住实时性,否则用户看到的是 PPT 而不是对话。
技术路线:AR + Diffusion 的组合拳
Vidu S1 走的是**自回归扩散(AR + Diffusion)**路线,这一点值得展开说说。
传统的视频扩散模型(比如 Sora 一类)是"一次性把整段视频从噪声里去噪出来"——你给 prompt,模型在潜空间里一次算出所有帧,输出成品。这种范式画质好、全局一致性强,但天生跟"实时"是拧巴的:你没法在生成到一半时插入新指令,也没法边生成边播放。
Vidu S1 的做法反过来:基于已经生成的历史画面,结合当前语音指令和对话上下文,持续预测并生成后续内容。这更像大语言模型 next-token prediction 的思路,只不过预测的是下一段视频片段。历史帧是上下文,语音是随时插入的新 prompt,模型在时间维度上一段一段往前推。
这条路的好处很明显:
- 可以流式播放——生成一段就播一段,不用等整段做完
- 随时响应新指令——用户说"你转个身",模型下一段就转
- 理论上无限时长——不受固定窗口约束
代价也很实在:全局一致性更难保,误差会累积(越往后可能越"漂"),计算成本高——毕竟要 25 帧每秒实时出图。Meta 的 MovieGen、Runway 的一些新研究其实也在往这个方向摸,但真正做出可用产品级实时交互的,Vidu S1 算是走在前面的。
从 Q1 到 S1,产品线在分叉
熟悉 Vidu 的应该记得,今年 3 月生数科技刚发过 Vidu Q1,主打"高可控"——多主体控制、音效同步、画质增强,是给专业创作者做精品视频的。后来的 Q3 更是登顶了 Artificial Analysis 的榜单。
而 S1 明显是另一条产品线:Q 系列做"生产力工具",S 系列做"实时体验"。这个分叉挺聪明。视频生成走到现在,同质化很严重,大家都在卷分辨率、卷时长、卷镜头语言,但用户拿到成品之后能干嘛?发短视频、做广告、剪素材。这些场景 batch 生成已经够用了。
真正的增量在哪里?在数字人直播、虚拟陪伴、AI 客服、教育互动这些需要"对话+画面"同时在线的场景。S1 瞄的就是这块。你想想:一个能跟你实时视频通话、按你指令做动作换表情的 AI 角色,对陪伴类产品、虚拟主播、教育类应用意味着什么。

世界模型野心的一部分
这事儿放在生数科技整体战略里看更清楚。4 月他们刚完成近 20 亿元 B 轮融资,阿里云领投,公司对外讲的故事已经从"视频大模型"升级成"通用世界模型"——数字世界的 WGM(世界生成模型)+ 物理世界的 WAM(世界行动模型,也就是去年 12 月开源的 Motus)。
S1 这种"实时理解指令并生成后续画面"的能力,本质上就是世界模型的一个基础操作:基于历史状态和外部输入预测下一状态。你把语音换成机器人的传感器信号,把生成的视频换成动作序列,这套架构就能迁移到具身智能。所以 S1 不只是一个交互 demo,它是生数在验证自回归+扩散这套范式的通用性。
实际体验和几个疑问
目前 S1 已经开启内测,有两个入口:
- 线上体验:vidu.cn/vidu-stream
- API 平台:platform.vidu.cn/live/landing
从官方放出的 demo 看,反应速度和画面连贯性都还不错,但有几个点得实际用了才知道:
- 延迟到底多少。25FPS 是生成帧率,但从"说完话"到"画面响应"的端到端延迟才是体验关键。低于 500ms 才算舒适,超过 1s 就明显尬。
- 长时对话下的角色一致性。跑 10 分钟之后,角色的脸、发型、衣服还是同一个人吗?自回归模型最怕这个。
- 540P 够不够用。作为实时交互算合理妥协,但放到大屏上会略糊。真正的商用场景(比如虚拟主播)大概率还需要往上拉。
- 成本。25FPS 实时扩散推理,单路成本估计不便宜,能不能规模化跑起来是个问题。
一句话总结
Vidu S1 不是最漂亮的视频模型,但它是把"视频"和"对话"缝在一起的第一批认真尝试。视频生成赛道过去一年在画质和时长上打转,S1 换了个赛道——从"生成一段视频"变成"生成一个能对话的活人"。
如果这条路走通,虚拟陪伴、数字人直播、AI 教育这些一直卡在"对话没画面、有画面不对话"的赛道会被重新洗一遍。至于能不能走通,看接下来几个月内测反馈和迭代速度。
参考来源
- IT之家:支持实时视频通话和语音控制视频走向,生数科技发布 Vidu S1 实时交互模型 — Vidu S1 发布首发报道,包含技术路线和规格细节



