Gemini Omni Flash 登顶 Video Arena，超字节 Seedance 101 Elo

谷歌 DeepMind 的 Gemini Omni Flash 以 1404 Elo 登顶 Video Arena 盲测榜，相比自家 Veo 3.1 猛提 158 分，把长期霸榜的字节 Seedance 2.0 Mini 甩开 101 分，视频生成赛道格局被重新洗牌。

谷歌今天在视频生成赛道扔下一颗炸弹。

7 月 3 日，Video Arena 更新最新盲测排行榜，谷歌 DeepMind 的 Gemini Omni Flash 以 1404 Elo 拿下第一，把此前长期霸榜的字节跳动 Seedance 2.0 Mini 直接甩开 101 Elo。谷歌视频模型在这份榜单上的排名，相比 Veo 时代往上串了 7 位。

如果你熟悉 Chatbot Arena 那套盲测机制，就知道 101 Elo 是个什么概念——这不是零点几个百分点的边际优势，这是用户拿两个视频放在一起比对时，压倒性地选谷歌那一个。Arena 官方 X 账号的原话是：文生视频维度相比谷歌自家 Veo 3.1 (1080p) 提升了 158 分，图生视频维度也是 Seedance 2.0 甩不掉的第一。

Video Arena 最新排行榜截图，Gemini Omni Flash 位列榜首

这不是 Veo 的下一代，是另一条产品线

很多人第一反应会以为 Omni Flash 是 Veo 4 换了个名字。不是。

Gemini Omni 是谷歌在今年 I/O 2026 上正式发布的一条新产品线，官方定位是"create anything from anything"——用任意模态的输入生成任意模态的输出。Flash 是这个系列里首个开放的模型，目前率先支持视频生成输出，后面才会陆续接上图像和音频的输出模态。

换句话说，Veo 是纯粹的文生视频模型，而 Omni 是把 Gemini 的推理能力和 DeepMind 的生成式媒体系统焊在一起的东西。这个差异体现在使用体验上就是：你不再是写一段 prompt 然后等结果，而是可以像聊天一样反复编辑视频。

举几个官方演示里的场景就明白了：

输入一张手的图片，加一句"把雕塑变成气泡做的"，直接输出
视频里正在弹小提琴的人，跟它说"把房间的灯调暗"，它就调
"让公寓楼里的灯光跟着音乐节奏亮起来"——它能理解音乐节奏，还能同步视觉
从一段鲸鱼游泳的视频里提取运动轨迹，套到一张液态金属的图上

这些不是拼接特效，是模型层面把世界理解、多模态输入、时间一致性编辑当成一件事做出来的。

为什么 Elo 差距能拉这么大

视频生成之前一直被诟病三件事：物理不真实、多轮编辑保持不了一致性、prompt 和实际生成对不上。Omni Flash 在盲测里能拉开这么大差距，基本就是这三个点各打了一枪。

物理层：官方展示里有一个大理石球在阶梯上滚落的样例，能量守恒、动量传递、光影反射都能盯得住。这是 Sora、Runway 之前反复翻车的地方。

多轮编辑一致性：这是最狠的一刀。传统流程里，你想改视频的某一帧或者某一段，改完前后就对不上了。Omni Flash 可以在多轮对话里连续编辑同一段视频，主体、镜头角度、场景一致性能扛住。这个能力本质上是把 Gemini 的长上下文推理和视频 latent 空间打通。

Prompt 遵循：字母表视频、文字与画面动作同步这类演示，说明它对"文本-视觉时间对齐"的建模比 Seedance、Veo 那一代都更精细。

Seedance 2.0 之前能长期霸榜，靠的是快、稳、审美好；但在理解复杂 prompt 和编辑一致性上，一直有短板。谷歌这次是拿 Gemini 的多模态大脑，硬碾了纯生成模型的路线。

榜单变化背后：中美视频模型的格局在改写

这份 Video Arena 榜单值得单独拎出来看：

第 1：Gemini Omni Flash (Google) — 1404 Elo
第 2：Seedance 2.0 Mini (字节跳动) — 1303 Elo
第 3：happyhorse-1.0 (阿里)
第 5：wan2.7 (阿里)

中国厂商在 Top 5 里依然占了 3 席，这是好事——过去半年 Seedance 和阿里的两条线一直在猛冲。但坏消息是，Omni Flash 拉开的不是身位，是代差。101 Elo 意味着盲测里绝大多数用户会选谷歌。字节和阿里如果只在纯视频生成模型上继续迭代，很难追。

真正的问题是：这个游戏的规则被谷歌换了。以前大家比"谁的 4 秒 1080p 视频最好看"，现在谷歌把它变成"谁能把视频当成一次可对话的创作过程"。这需要底座大模型能力，而不仅仅是扩散模型技巧。

开发者能怎么用

Gemini Omni Flash 目前已经在 Gemini 应用、Google Flow、YouTube Shorts、YouTube Create 里陆续铺开，Google AI Plus / Pro / Ultra 订阅用户可以直接体验。API 层面通过 Google AI Studio 开放，模型标识是 gemini-omni-flash-preview。

官方定价体系是基础费 + 按秒计费：

| 版本 | 分辨率 | 时长 | 价格 | |---|---|---|---| | Text-to-Video (Dev) | 720p / 1080p / 4K | 4 / 6 / 8 / 10 秒 | $0.2 + $0.1/秒 | | Image-to-Video (Dev) | 720p / 1080p / 4K | 4 / 6 / 8 / 10 秒 | $0.2 + $0.1/秒 |

图生视频最多支持 7 张参考图，文本 prompt 上限 2 万字符。所有 Omni 生成的内容会带 SynthID 隐形水印和 C2PA Content Credentials，这是谷歌对生成式内容溯源的一贯态度。

对于国内开发者，Gemini 系列 API 直连一直是个老问题。OpenAI Hub 已经在第一时间接入了 Gemini Omni Flash，可以用 OpenAI 兼容格式直接调，不用挂梯子，也不用切 SDK。示例：

from openai import OpenAI

client = OpenAI(
    api_key=\"your-openai-hub-key\",
    base_url=\"https://api.openai-hub.com/v1\"
)

# 文生视频
response = client.videos.generate(
    model=\"gemini-omni-flash\",
    prompt=\"A violinist playing under a glass sphere floating above his hand, \"
           \"inside the sphere a recursive room with checkerboard floor\",
    resolution=\"1080p\",
    duration=8
)

print(response.video_url)

多轮编辑的调用方式和 chat completion 类似，把上一次生成的视频作为参考传回去就行：

edit = client.videos.edit(
    model=\"gemini-omni-flash\",
    video=response.video_url,
    prompt=\"Dim the lights in the room, keep the violinist unchanged\",
    duration=8
)

图生视频场景可以塞最多 7 张参考图，用来锁主体：

i2v = client.videos.generate(
    model=\"gemini-omni-flash\",
    prompt=\"Apply the motion of the whale swimming to this liquid metal figure\",
    reference_images=[
        \"https://example.com/whale.mp4\",
        \"https://example.com/liquid_metal.png\"
    ],
    resolution=\"1080p\",
    duration=6
)

一些冷静的判断

Omni Flash 目前有几个明确的限制，值得说清楚：

第一，音频编辑和 Pro 版本没到。 官方定位是"深思熟虑的分阶段发布"，说白了就是音频合成质量、Pro 级别的电影感镜头，都还在打磨。现在能玩到的是"Flash 级"的能力，够创作 Shorts 和短广告片，但要做完整叙事片段，可能得等下一档模型。

第二，Video Arena 是盲测偏好榜。 它反映的是用户主观选择，不是全部客观质量。物理真实性、可控性、长视频叙事这些指标，Arena 覆盖不到。做电影级项目的团队还是需要跑自己的评测。

第三，谷歌的护城河不在模型本身，在分发。 Omni Flash 一发布就同时进 Gemini 应用、Google Flow、YouTube Shorts、YouTube Create——每天几十亿次内容消费的入口。这个分发能力，字节和阿里在国内可以复制（抖音、剪映），在海外做不到。

但话说回来，视频生成这个领域一年翻三倍是常态。今天 Omni Flash 领先 101 Elo，三个月后 Seedance 3.0 或 Veo 4 出来，格局又是另一回事。真正值得开发者关注的信号是：视频生成正在从"扩散模型的比赛"变成"多模态大模型的比赛"。谁的底座能同时看懂图像、视频、音频、文本，还能把这些能力压进一个可对话的接口里，谁就能领跑下一轮。

谷歌今天走在前面，但这场比赛才刚过半程。

参考来源

谷歌 Gemini Omni Flash 登顶 Video Arena 盲测榜，领先字节 Seedance 2.0 Mini 模型 101 Elo — IT之家：本次榜单变化的中文首发报道
Gemini Omni 和 Gemini 3.5 同日登场，文生视频屠榜 — 知乎：Video Arena 完整榜单和中国厂商席位分析

Gemini Omni Flash 屠榜 Video Arena，领先字节 Seedance 101 Elo

这不是 Veo 的下一代，是另一条产品线

为什么 Elo 差距能拉这么大

榜单变化背后：中美视频模型的格局在改写

开发者能怎么用

一些冷静的判断

参考来源

相关推荐

英伟达开源双塔语言模型 TwoTower：扩散架构加速 LLM Token 生成

Meta「西瓜」曝光：内部宣称追平 GPT-5.5

阿里达摩院 AI 首次验证真实超导材料

联系我们