Google Flow 开放:Veo 视频生成终于能用了

模型上新

Google DeepMind 推出 AI 视频制作工具 Flow,首次向普通用户开放 Veo 3 模型。免费账户每月 1000 积分,支持文生视频、图生视频和视频编辑,还能自动生成音效和对话。

Google Flow 开放:Veo 视频生成终于能用了

Google DeepMind 的视频生成模型 Veo 终于不再是 PPT 产品了。最近 Google 悄然上线了 Flow(labs.google/flow),这是一个面向普通用户的 AI 视频制作工具,直接集成了 Veo 3 模型。免费账户每月有 1000 积分,足够生成几十条短视频。

这是 Veo 首次向公众开放。此前它只在内部测试和特定创作者手里流转,现在任何人都能用自然语言描述生成 1080p 视频,还能自动配上音效甚至人物对话。

Flow 界面截图,展示文本输入框和生成的视频预览

Veo 3 能做什么

Veo 3 是 Google DeepMind 目前最强的视频生成模型,核心能力有三个:

文生视频:输入文本提示词,直接生成视频。它能理解电影术语,比如"延时摄影"、"景观航拍"、"跟踪镜头"这些专业表达,生成的画面不是那种一看就假的 AI 味,人物和物体的运动轨迹相对自然。

图生视频:上传一张图片,描述你想要的动作或场景变化,Veo 会基于这张图生成视频。比如给一张海岸线的静态照片,让它加入一艘皮划艇划过,模型会把这个元素无缝融入原始画面。

视频编辑:对已生成的视频进行二次编辑。你可以要求改变光线、添加物体、调整镜头运动,Veo 会在保持整体连贯性的前提下完成修改。这比从头生成效率高得多。

Veo 3 最大的突破是自动生成音频。以前的视频生成模型都是哑巴,画面再好也得后期配音。Veo 3 能根据画面内容生成环境音、动作音效,甚至人物对话。虽然对话质量还不如专业配音,但对于快速原型制作和概念验证已经够用。

生成时长方面,Veo 3 支持最长几分钟的连续视频。Google I/O 2024 演示时放过一段较长的生成视频,画面连贯性和细节保持都不错。这在技术上不容易——视频越长,模型越难维持前后一致的物理规律和视觉风格。

Flow 的实际体验

Flow 的界面很简洁,核心就是一个文本输入框。你用自然语言描述想要的画面,选择视频时长(通常是 5-10 秒),然后等模型生成。

积分消耗取决于视频长度和分辨率。免费账户每月 1000 积分,生成一条 5 秒的 1080p 视频大概消耗 50-100 积分,也就是说一个月能生成 10-20 条视频。如果你是 Google One AI Premium 订阅用户(就是那个包含 Gemini Advanced 的套餐),积分额度会更高。

目前 Flow 只对部分地区开放,美国用户可以直接访问,其他地区需要排队。有用户反馈说用学生账号的 Google Workspace 也能用,但不确定是账号本身的权限还是地区限制放宽了。

生成速度不算快。一条 5 秒视频通常需要等 2-5 分钟,比 Runway、Pika 这些竞品慢一些。但生成质量确实有优势,尤其是物理真实感和运动连贯性。

和竞品比怎么样

视频生成这个赛道现在很挤:OpenAI 的 Sora 还在内测,Runway Gen-3 已经商用,Pika 1.5 主打快速迭代,Luma Dream Machine 走性价比路线。Veo 3 的定位是什么?

画面质量:Veo 3 和 Sora、Runway Gen-3 在同一梯队,明显好于 Pika 和 Luma。细节丰富,光影自然,物体边缘不会糊成一团。

运动连贯性:这是 Veo 3 的强项。很多视频生成模型在处理快速运动或复杂动作时会出现抖动、变形、物体突然消失这些问题。Veo 3 的物理引擎做得比较扎实,人物走路、车辆行驶、水流运动都相对合理。

提示词理解:Veo 3 对电影术语的理解是亮点。你说"低角度仰拍"、"浅景深特写"、"手持摄影机晃动感",它真的能体现出来。这对专业创作者很有用,但也意味着普通用户需要学习一些摄影语言才能充分发挥模型能力。

音频生成:这是 Veo 3 独有的功能。Runway 和 Pika 都不支持音频,Sora 的音频能力还没公开展示。虽然 Veo 3 生成的音频质量一般,但有总比没有强,至少省去了找音效库的麻烦。

生成速度:Veo 3 偏慢,这是目前最大的短板。Runway Gen-3 Turbo 模式下 30 秒就能出片,Luma 也就一分钟左右。Veo 3 要等好几分钟,对于需要快速迭代的场景不太友好。

价格:Flow 的免费额度比较慷慨,1000 积分能玩挺久。Runway 的免费版只有 125 积分,Pika 免费版每天限制生成次数。但 Runway 和 Pika 的付费订阅更灵活,Flow 目前只能通过 Google One AI Premium 订阅增加额度,没有单独的视频生成套餐。

实际应用场景

Veo 3 和 Flow 适合什么场景?

概念验证和分镜预览:导演和制片人可以用 Veo 快速生成分镜,测试不同的镜头角度、运动方式、光线效果。比起传统的手绘分镜或 3D 预览,AI 生成的视频更直观,也更容易和团队沟通。

Google I/O 演示时请了导演 Donald Glover 展示 Veo 在电影制作中的应用。他的团队用 Veo 生成复杂的跟踪镜头,测试不同的拍摄方案,最后选出效果最好的再去实拍。这种工作流程能大幅减少现场拍摄的试错成本。

社交媒体内容:短视频创作者可以用 Veo 生成背景素材、转场动画、特效镜头。虽然 AI 生成的视频还不能完全替代实拍,但作为辅助素材已经足够。而且 Veo 支持视频编辑,你可以先生成一个基础版本,然后根据需要调整细节。

企业培训和演示:企业可以用 Veo 制作培训视频、产品演示、虚拟会议背景。比如医疗机构可以生成手术流程的模拟视频,房地产公司可以生成楼盘的虚拟漫游。这些场景对视频质量要求不像电影那么高,但需要快速生成和灵活修改,Veo 正好满足这个需求。

游戏和虚拟现实:游戏开发者可以用 Veo 生成过场动画、环境视频、NPC 动作。虽然游戏引擎本身也能渲染这些内容,但 AI 生成的优势是速度快、成本低,适合快速原型开发。

技术细节和限制

Veo 3 的技术架构 Google 没有完全公开,但从演示效果看,它应该是基于扩散模型(Diffusion Model)的视频生成系统,类似 Sora 的技术路线。

分辨率和帧率:Veo 3 支持 1080p 输出,帧率通常是 24fps 或 30fps。这个规格对于社交媒体和在线视频够用,但如果要用于电影或广告,可能需要后期升频和增强。

时长限制:单次生成最长几分钟,但实际使用中大部分人生成的都是 5-10 秒的短片。更长的视频不仅生成时间长,而且容易出现画面不连贯、物体变形等问题。

提示词依赖:Veo 3 对提示词的质量很敏感。你需要清楚地描述场景、动作、镜头运动、光线效果,才能得到理想的结果。这对专业创作者不是问题,但普通用户可能需要多次尝试才能摸索出有效的提示词模式。

物理真实性:虽然 Veo 3 的物理引擎比大部分竞品好,但仍然会出现不符合物理规律的情况。比如人物走路时脚步和地面接触不自然,水流的运动轨迹不合理,物体碰撞后的反应不对。这些问题在短视频中不太明显,但如果仔细看还是能发现。

内容安全:Google 在 Veo 3 中集成了 SynthID 水印技术,所有生成的视频都会嵌入不可见的数字水印,用于识别 AI 生成内容。这是为了防止 Deepfake 和虚假信息传播。同时 Veo 3 也有内容过滤机制,不会生成暴力、色情、仇恨言论等违规内容。

和其他 Google AI 工具的整合

Flow 不是孤立的工具,它和 Google 的其他 AI 产品有深度整合。

Imagen 3:Google 的文生图模型,也集成在 Flow 中。你可以先用 Imagen 3 生成一张图片,然后用 Veo 3 把它变成视频。这种图片+视频的组合工作流程比直接文生视频更灵活。

Gemini:Google 的多模态大模型,可以帮你优化提示词。如果你不知道怎么描述想要的画面,可以先和 Gemini 聊天,让它帮你生成详细的提示词,然后再输入 Veo 3。

Lyria:Google 的音乐生成模型,虽然目前还没有直接集成到 Flow 中,但未来可能会支持。你可以用 Lyria 生成背景音乐,然后和 Veo 3 生成的视频组合。

这种多模态工具链的整合是 Google 的优势。OpenAI 的 Sora 是独立产品,Runway 和 Pika 也没有配套的图像和音频生成工具。Google 可以把文本、图像、视频、音频生成串联起来,形成完整的内容创作流程。

行业影响

Veo 3 和 Flow 的推出对视频生成行业意味着什么?

降低创作门槛:以前制作视频需要摄影设备、剪辑软件、专业技能。现在只要会打字就能生成视频。这会让更多人参与视频创作,也会催生新的内容形式和商业模式。

改变制作流程:传统的视频制作流程是:策划 → 拍摄 → 剪辑 → 后期。AI 视频生成会把这个流程压缩成:策划 → 生成 → 微调。拍摄和剪辑的工作量大幅减少,创作者可以把更多精力放在创意和策划上。

冲击素材市场:视频素材网站(如 Shutterstock、Getty Images)的商业模式会受到冲击。如果 AI 能生成高质量的背景视频、转场动画、特效镜头,谁还会花钱买素材?这些平台要么转型做 AI 生成服务,要么专注于 AI 无法替代的独特内容。

版权和伦理问题:AI 生成的视频是否侵犯版权?如果 Veo 3 生成的画面和某部电影很像,算不算抄袭?如果有人用 Veo 3 生成虚假新闻视频,责任在谁?这些问题目前还没有明确的法律框架,但随着 AI 视频生成的普及,必然会引发更多争议。

就业影响:视频剪辑师、特效师、摄影师的工作会受到影响。但这不意味着这些职业会消失,而是工作内容会改变。他们需要学会使用 AI 工具,把重复性的工作交给 AI,自己专注于创意和质量把控。

未来方向

Veo 3 和 Flow 还在早期阶段,未来可能的改进方向:

更长的视频:目前几分钟已经是极限,但用户需求是几十分钟甚至更长。这需要模型在长序列建模和记忆机制上有突破。

更好的控制:现在只能通过文本提示词控制生成结果,未来可能支持更精细的控制方式,比如骨骼绑定、运动轨迹编辑、分层渲染。

实时生成:目前生成一条视频需要几分钟,未来如果能做到实时生成,就可以用于直播、游戏、虚拟现实等场景。

多模态融合:把视频生成和其他 AI 能力(语音合成、3D 建模、物理模拟)深度整合,形成完整的虚拟内容创作平台。

个性化模型:允许用户用自己的视频数据微调模型,生成符合个人风格的内容。这对品牌营销和个人 IP 打造很有价值。

Google 在 AI 视频生成上起步不算早,Runway 和 Pika 已经商用一年多了,OpenAI 的 Sora 也比 Veo 更早曝光。但 Google 的优势是生态整合和计算资源。它可以把视频生成和搜索、YouTube、Google Cloud 打通,形成从内容创作到分发的完整链路。

Flow 的推出是 Veo 从实验室走向市场的第一步。虽然现在还有很多限制,但至少证明了 AI 视频生成已经到了可用阶段。接下来就看 Google 能不能把这个工具打磨成真正的生产力工具,而不是又一个炫技的 Demo。


参考来源