AI 快讯Gemini Omni Flash 屠榜 Video Arena,领先字节 Seedance 101 Elo
模型上新

Gemini Omni Flash 屠榜 Video Arena,领先字节 Seedance 101 Elo

2026-07-03T08:08:19.608Z
Gemini Omni Flash 屠榜 Video Arena,领先字节 Seedance 101 Elo

谷歌 DeepMind 的 Gemini Omni Flash 以 1404 Elo 登顶 Video Arena 盲测榜,相比自家 Veo 3.1 猛提 158 分,把长期霸榜的字节 Seedance 2.0 Mini 甩开 101 分,视频生成赛道格局被重新洗牌。

谷歌今天在视频生成赛道扔下一颗炸弹。

7 月 3 日,Video Arena 更新最新盲测排行榜,谷歌 DeepMind 的 Gemini Omni Flash1404 Elo 拿下第一,把此前长期霸榜的字节跳动 Seedance 2.0 Mini 直接甩开 101 Elo。谷歌视频模型在这份榜单上的排名,相比 Veo 时代往上串了 7 位。

如果你熟悉 Chatbot Arena 那套盲测机制,就知道 101 Elo 是个什么概念——这不是零点几个百分点的边际优势,这是用户拿两个视频放在一起比对时,压倒性地选谷歌那一个。Arena 官方 X 账号的原话是:文生视频维度相比谷歌自家 Veo 3.1 (1080p) 提升了 158 分,图生视频维度也是 Seedance 2.0 甩不掉的第一。

Video Arena 最新排行榜截图,Gemini Omni Flash 位列榜首

这不是 Veo 的下一代,是另一条产品线

很多人第一反应会以为 Omni Flash 是 Veo 4 换了个名字。不是。

Gemini Omni 是谷歌在今年 I/O 2026 上正式发布的一条新产品线,官方定位是"create anything from anything"——用任意模态的输入生成任意模态的输出。Flash 是这个系列里首个开放的模型,目前率先支持视频生成输出,后面才会陆续接上图像和音频的输出模态。

换句话说,Veo 是纯粹的文生视频模型,而 Omni 是把 Gemini 的推理能力和 DeepMind 的生成式媒体系统焊在一起的东西。这个差异体现在使用体验上就是:你不再是写一段 prompt 然后等结果,而是可以像聊天一样反复编辑视频

举几个官方演示里的场景就明白了:

  • 输入一张手的图片,加一句"把雕塑变成气泡做的",直接输出
  • 视频里正在弹小提琴的人,跟它说"把房间的灯调暗",它就调
  • "让公寓楼里的灯光跟着音乐节奏亮起来"——它能理解音乐节奏,还能同步视觉
  • 从一段鲸鱼游泳的视频里提取运动轨迹,套到一张液态金属的图上

这些不是拼接特效,是模型层面把世界理解、多模态输入、时间一致性编辑当成一件事做出来的。

为什么 Elo 差距能拉这么大

视频生成之前一直被诟病三件事:物理不真实、多轮编辑保持不了一致性、prompt 和实际生成对不上。Omni Flash 在盲测里能拉开这么大差距,基本就是这三个点各打了一枪。

物理层:官方展示里有一个大理石球在阶梯上滚落的样例,能量守恒、动量传递、光影反射都能盯得住。这是 Sora、Runway 之前反复翻车的地方。

多轮编辑一致性:这是最狠的一刀。传统流程里,你想改视频的某一帧或者某一段,改完前后就对不上了。Omni Flash 可以在多轮对话里连续编辑同一段视频,主体、镜头角度、场景一致性能扛住。这个能力本质上是把 Gemini 的长上下文推理和视频 latent 空间打通。

Prompt 遵循:字母表视频、文字与画面动作同步这类演示,说明它对"文本-视觉时间对齐"的建模比 Seedance、Veo 那一代都更精细。

Seedance 2.0 之前能长期霸榜,靠的是快、稳、审美好;但在理解复杂 prompt 和编辑一致性上,一直有短板。谷歌这次是拿 Gemini 的多模态大脑,硬碾了纯生成模型的路线。

榜单变化背后:中美视频模型的格局在改写

这份 Video Arena 榜单值得单独拎出来看:

  • 第 1:Gemini Omni Flash (Google) — 1404 Elo
  • 第 2:Seedance 2.0 Mini (字节跳动) — 1303 Elo
  • 第 3:happyhorse-1.0 (阿里)
  • 第 5:wan2.7 (阿里)

中国厂商在 Top 5 里依然占了 3 席,这是好事——过去半年 Seedance 和阿里的两条线一直在猛冲。但坏消息是,Omni Flash 拉开的不是身位,是代差。101 Elo 意味着盲测里绝大多数用户会选谷歌。字节和阿里如果只在纯视频生成模型上继续迭代,很难追。

真正的问题是:这个游戏的规则被谷歌换了。以前大家比"谁的 4 秒 1080p 视频最好看",现在谷歌把它变成"谁能把视频当成一次可对话的创作过程"。这需要底座大模型能力,而不仅仅是扩散模型技巧。

开发者能怎么用

Gemini Omni Flash 目前已经在 Gemini 应用、Google Flow、YouTube Shorts、YouTube Create 里陆续铺开,Google AI Plus / Pro / Ultra 订阅用户可以直接体验。API 层面通过 Google AI Studio 开放,模型标识是 gemini-omni-flash-preview

官方定价体系是基础费 + 按秒计费

| 版本 | 分辨率 | 时长 | 价格 | |---|---|---|---| | Text-to-Video (Dev) | 720p / 1080p / 4K | 4 / 6 / 8 / 10 秒 | $0.2 + $0.1/秒 | | Image-to-Video (Dev) | 720p / 1080p / 4K | 4 / 6 / 8 / 10 秒 | $0.2 + $0.1/秒 |

图生视频最多支持 7 张参考图,文本 prompt 上限 2 万字符。所有 Omni 生成的内容会带 SynthID 隐形水印和 C2PA Content Credentials,这是谷歌对生成式内容溯源的一贯态度。

对于国内开发者,Gemini 系列 API 直连一直是个老问题。OpenAI Hub 已经在第一时间接入了 Gemini Omni Flash,可以用 OpenAI 兼容格式直接调,不用挂梯子,也不用切 SDK。示例:

from openai import OpenAI

client = OpenAI(
    api_key=\"your-openai-hub-key\",
    base_url=\"https://api.openai-hub.com/v1\"
)

# 文生视频
response = client.videos.generate(
    model=\"gemini-omni-flash\",
    prompt=\"A violinist playing under a glass sphere floating above his hand, \"
           \"inside the sphere a recursive room with checkerboard floor\",
    resolution=\"1080p\",
    duration=8
)

print(response.video_url)

多轮编辑的调用方式和 chat completion 类似,把上一次生成的视频作为参考传回去就行:

edit = client.videos.edit(
    model=\"gemini-omni-flash\",
    video=response.video_url,
    prompt=\"Dim the lights in the room, keep the violinist unchanged\",
    duration=8
)

图生视频场景可以塞最多 7 张参考图,用来锁主体:

i2v = client.videos.generate(
    model=\"gemini-omni-flash\",
    prompt=\"Apply the motion of the whale swimming to this liquid metal figure\",
    reference_images=[
        \"https://example.com/whale.mp4\",
        \"https://example.com/liquid_metal.png\"
    ],
    resolution=\"1080p\",
    duration=6
)

一些冷静的判断

Omni Flash 目前有几个明确的限制,值得说清楚:

第一,音频编辑和 Pro 版本没到。 官方定位是"深思熟虑的分阶段发布",说白了就是音频合成质量、Pro 级别的电影感镜头,都还在打磨。现在能玩到的是"Flash 级"的能力,够创作 Shorts 和短广告片,但要做完整叙事片段,可能得等下一档模型。

第二,Video Arena 是盲测偏好榜。 它反映的是用户主观选择,不是全部客观质量。物理真实性、可控性、长视频叙事这些指标,Arena 覆盖不到。做电影级项目的团队还是需要跑自己的评测。

第三,谷歌的护城河不在模型本身,在分发。 Omni Flash 一发布就同时进 Gemini 应用、Google Flow、YouTube Shorts、YouTube Create——每天几十亿次内容消费的入口。这个分发能力,字节和阿里在国内可以复制(抖音、剪映),在海外做不到。

但话说回来,视频生成这个领域一年翻三倍是常态。今天 Omni Flash 领先 101 Elo,三个月后 Seedance 3.0 或 Veo 4 出来,格局又是另一回事。真正值得开发者关注的信号是:视频生成正在从"扩散模型的比赛"变成"多模态大模型的比赛"。谁的底座能同时看懂图像、视频、音频、文本,还能把这些能力压进一个可对话的接口里,谁就能领跑下一轮。

谷歌今天走在前面,但这场比赛才刚过半程。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: