Google DeepMind 推出 AI 视频制作工具 Flow，首次向普通用户开放 Veo 3 模型。免费账户每月 1000 积分，支持文生视频、图生视频和视频编辑，还能自动生成音效和对话。

Google Flow 开放：Veo 视频生成终于能用了

Google DeepMind 的视频生成模型 Veo 终于不再是 PPT 产品了。最近 Google 悄然上线了 Flow（labs.google/flow），这是一个面向普通用户的 AI 视频制作工具，直接集成了 Veo 3 模型。免费账户每月有 1000 积分，足够生成几十条短视频。

这是 Veo 首次向公众开放。此前它只在内部测试和特定创作者手里流转，现在任何人都能用自然语言描述生成 1080p 视频，还能自动配上音效甚至人物对话。

Flow 界面截图，展示文本输入框和生成的视频预览

Veo 3 能做什么

Veo 3 是 Google DeepMind 目前最强的视频生成模型，核心能力有三个：

文生视频：输入文本提示词，直接生成视频。它能理解电影术语，比如"延时摄影"、"景观航拍"、"跟踪镜头"这些专业表达，生成的画面不是那种一看就假的 AI 味，人物和物体的运动轨迹相对自然。

图生视频：上传一张图片，描述你想要的动作或场景变化，Veo 会基于这张图生成视频。比如给一张海岸线的静态照片，让它加入一艘皮划艇划过，模型会把这个元素无缝融入原始画面。

视频编辑：对已生成的视频进行二次编辑。你可以要求改变光线、添加物体、调整镜头运动，Veo 会在保持整体连贯性的前提下完成修改。这比从头生成效率高得多。

Veo 3 最大的突破是自动生成音频。以前的视频生成模型都是哑巴，画面再好也得后期配音。Veo 3 能根据画面内容生成环境音、动作音效，甚至人物对话。虽然对话质量还不如专业配音，但对于快速原型制作和概念验证已经够用。

生成时长方面，Veo 3 支持最长几分钟的连续视频。Google I/O 2024 演示时放过一段较长的生成视频，画面连贯性和细节保持都不错。这在技术上不容易——视频越长，模型越难维持前后一致的物理规律和视觉风格。

Flow 的实际体验

Flow 的界面很简洁，核心就是一个文本输入框。你用自然语言描述想要的画面，选择视频时长（通常是 5-10 秒），然后等模型生成。

积分消耗取决于视频长度和分辨率。免费账户每月 1000 积分，生成一条 5 秒的 1080p 视频大概消耗 50-100 积分，也就是说一个月能生成 10-20 条视频。如果你是 Google One AI Premium 订阅用户（就是那个包含 Gemini Advanced 的套餐），积分额度会更高。

目前 Flow 只对部分地区开放，美国用户可以直接访问，其他地区需要排队。有用户反馈说用学生账号的 Google Workspace 也能用，但不确定是账号本身的权限还是地区限制放宽了。

生成速度不算快。一条 5 秒视频通常需要等 2-5 分钟，比 Runway、Pika 这些竞品慢一些。但生成质量确实有优势，尤其是物理真实感和运动连贯性。

和竞品比怎么样

视频生成这个赛道现在很挤：OpenAI 的 Sora 还在内测，Runway Gen-3 已经商用，Pika 1.5 主打快速迭代，Luma Dream Machine 走性价比路线。Veo 3 的定位是什么？

画面质量：Veo 3 和 Sora、Runway Gen-3 在同一梯队，明显好于 Pika 和 Luma。细节丰富，光影自然，物体边缘不会糊成一团。

运动连贯性：这是 Veo 3 的强项。很多视频生成模型在处理快速运动或复杂动作时会出现抖动、变形、物体突然消失这些问题。Veo 3 的物理引擎做得比较扎实，人物走路、车辆行驶、水流运动都相对合理。

提示词理解：Veo 3 对电影术语的理解是亮点。你说"低角度仰拍"、"浅景深特写"、"手持摄影机晃动感"，它真的能体现出来。这对专业创作者很有用，但也意味着普通用户需要学习一些摄影语言才能充分发挥模型能力。

音频生成：这是 Veo 3 独有的功能。Runway 和 Pika 都不支持音频，Sora 的音频能力还没公开展示。虽然 Veo 3 生成的音频质量一般，但有总比没有强，至少省去了找音效库的麻烦。

生成速度：Veo 3 偏慢，这是目前最大的短板。Runway Gen-3 Turbo 模式下 30 秒就能出片，Luma 也就一分钟左右。Veo 3 要等好几分钟，对于需要快速迭代的场景不太友好。

价格：Flow 的免费额度比较慷慨，1000 积分能玩挺久。Runway 的免费版只有 125 积分，Pika 免费版每天限制生成次数。但 Runway 和 Pika 的付费订阅更灵活，Flow 目前只能通过 Google One AI Premium 订阅增加额度，没有单独的视频生成套餐。

实际应用场景

Veo 3 和 Flow 适合什么场景？

概念验证和分镜预览：导演和制片人可以用 Veo 快速生成分镜，测试不同的镜头角度、运动方式、光线效果。比起传统的手绘分镜或 3D 预览，AI 生成的视频更直观，也更容易和团队沟通。

Google I/O 演示时请了导演 Donald Glover 展示 Veo 在电影制作中的应用。他的团队用 Veo 生成复杂的跟踪镜头，测试不同的拍摄方案，最后选出效果最好的再去实拍。这种工作流程能大幅减少现场拍摄的试错成本。

社交媒体内容：短视频创作者可以用 Veo 生成背景素材、转场动画、特效镜头。虽然 AI 生成的视频还不能完全替代实拍，但作为辅助素材已经足够。而且 Veo 支持视频编辑，你可以先生成一个基础版本，然后根据需要调整细节。

企业培训和演示：企业可以用 Veo 制作培训视频、产品演示、虚拟会议背景。比如医疗机构可以生成手术流程的模拟视频，房地产公司可以生成楼盘的虚拟漫游。这些场景对视频质量要求不像电影那么高,但需要快速生成和灵活修改，Veo 正好满足这个需求。

游戏和虚拟现实：游戏开发者可以用 Veo 生成过场动画、环境视频、NPC 动作。虽然游戏引擎本身也能渲染这些内容，但 AI 生成的优势是速度快、成本低，适合快速原型开发。

技术细节和限制

Veo 3 的技术架构 Google 没有完全公开，但从演示效果看，它应该是基于扩散模型（Diffusion Model）的视频生成系统，类似 Sora 的技术路线。

分辨率和帧率：Veo 3 支持 1080p 输出，帧率通常是 24fps 或 30fps。这个规格对于社交媒体和在线视频够用，但如果要用于电影或广告，可能需要后期升频和增强。

时长限制：单次生成最长几分钟，但实际使用中大部分人生成的都是 5-10 秒的短片。更长的视频不仅生成时间长，而且容易出现画面不连贯、物体变形等问题。

提示词依赖：Veo 3 对提示词的质量很敏感。你需要清楚地描述场景、动作、镜头运动、光线效果，才能得到理想的结果。这对专业创作者不是问题，但普通用户可能需要多次尝试才能摸索出有效的提示词模式。

物理真实性：虽然 Veo 3 的物理引擎比大部分竞品好，但仍然会出现不符合物理规律的情况。比如人物走路时脚步和地面接触不自然，水流的运动轨迹不合理，物体碰撞后的反应不对。这些问题在短视频中不太明显，但如果仔细看还是能发现。

内容安全：Google 在 Veo 3 中集成了 SynthID 水印技术，所有生成的视频都会嵌入不可见的数字水印，用于识别 AI 生成内容。这是为了防止 Deepfake 和虚假信息传播。同时 Veo 3 也有内容过滤机制，不会生成暴力、色情、仇恨言论等违规内容。

和其他 Google AI 工具的整合

Flow 不是孤立的工具，它和 Google 的其他 AI 产品有深度整合。

Imagen 3：Google 的文生图模型，也集成在 Flow 中。你可以先用 Imagen 3 生成一张图片，然后用 Veo 3 把它变成视频。这种图片+视频的组合工作流程比直接文生视频更灵活。

Gemini：Google 的多模态大模型，可以帮你优化提示词。如果你不知道怎么描述想要的画面，可以先和 Gemini 聊天，让它帮你生成详细的提示词，然后再输入 Veo 3。

Lyria：Google 的音乐生成模型，虽然目前还没有直接集成到 Flow 中，但未来可能会支持。你可以用 Lyria 生成背景音乐，然后和 Veo 3 生成的视频组合。

这种多模态工具链的整合是 Google 的优势。OpenAI 的 Sora 是独立产品，Runway 和 Pika 也没有配套的图像和音频生成工具。Google 可以把文本、图像、视频、音频生成串联起来，形成完整的内容创作流程。

行业影响

Veo 3 和 Flow 的推出对视频生成行业意味着什么？

降低创作门槛：以前制作视频需要摄影设备、剪辑软件、专业技能。现在只要会打字就能生成视频。这会让更多人参与视频创作，也会催生新的内容形式和商业模式。

改变制作流程：传统的视频制作流程是：策划 → 拍摄 → 剪辑 → 后期。AI 视频生成会把这个流程压缩成：策划 → 生成 → 微调。拍摄和剪辑的工作量大幅减少，创作者可以把更多精力放在创意和策划上。

冲击素材市场：视频素材网站（如 Shutterstock、Getty Images）的商业模式会受到冲击。如果 AI 能生成高质量的背景视频、转场动画、特效镜头，谁还会花钱买素材？这些平台要么转型做 AI 生成服务，要么专注于 AI 无法替代的独特内容。

版权和伦理问题：AI 生成的视频是否侵犯版权？如果 Veo 3 生成的画面和某部电影很像，算不算抄袭？如果有人用 Veo 3 生成虚假新闻视频，责任在谁？这些问题目前还没有明确的法律框架，但随着 AI 视频生成的普及，必然会引发更多争议。

就业影响：视频剪辑师、特效师、摄影师的工作会受到影响。但这不意味着这些职业会消失，而是工作内容会改变。他们需要学会使用 AI 工具，把重复性的工作交给 AI，自己专注于创意和质量把控。

未来方向

Veo 3 和 Flow 还在早期阶段，未来可能的改进方向：

更长的视频：目前几分钟已经是极限，但用户需求是几十分钟甚至更长。这需要模型在长序列建模和记忆机制上有突破。

更好的控制：现在只能通过文本提示词控制生成结果，未来可能支持更精细的控制方式，比如骨骼绑定、运动轨迹编辑、分层渲染。

实时生成：目前生成一条视频需要几分钟，未来如果能做到实时生成，就可以用于直播、游戏、虚拟现实等场景。

多模态融合：把视频生成和其他 AI 能力（语音合成、3D 建模、物理模拟）深度整合，形成完整的虚拟内容创作平台。

个性化模型：允许用户用自己的视频数据微调模型，生成符合个人风格的内容。这对品牌营销和个人 IP 打造很有价值。

Google 在 AI 视频生成上起步不算早，Runway 和 Pika 已经商用一年多了，OpenAI 的 Sora 也比 Veo 更早曝光。但 Google 的优势是生态整合和计算资源。它可以把视频生成和搜索、YouTube、Google Cloud 打通，形成从内容创作到分发的完整链路。

Flow 的推出是 Veo 从实验室走向市场的第一步。虽然现在还有很多限制，但至少证明了 AI 视频生成已经到了可用阶段。接下来就看 Google 能不能把这个工具打磨成真正的生产力工具，而不是又一个炫技的 Demo。

参考来源

才发现google的视频生成在这里用，每个月1000积分 - Linux.do - 用户分享 Flow 使用体验和积分机制
Google Veo 3保姆级使用教程，这才是最强AI视频工具 - 知乎 - Flow 功能详解和操作指南
Google發布可生成聲音及影像的Veo 3與AI電影製作工具Flow - iThome - Veo 3 和 Flow 的官方发布信息