AI 快讯Grok Imagine Video 1.5 转正:6秒720P视频25秒出片
模型上新

Grok Imagine Video 1.5 转正:6秒720P视频25秒出片

2026-06-17T06:06:14.369Z

xAI 今天宣布 Grok Imagine Video 1.5 结束预览正式上线 API,主打原生音画同步、生成提速近一倍,已在 Artificial Analysis Video Arena 图生视频榜单登顶。

Grok Imagine Video 1.5 转正:6 秒 720P 视频 25 秒出片,音画一次出齐

xAI 今天(6 月 17 日)发了一则不算高调的公告:grok-imagine-video-1.5 结束预览,正式在 xAI API 上线。从 6 月 3 日预览版放出来算起,这个模型走完 GA 流程只用了两周——对 xAI 一贯的节奏来说不算意外,但放在视频生成赛道,这个速度足够把同行衬得有点慢。

要知道,几个月前 OpenAI 才刚把 Sora 从产品线里撤下来,理由是“资源约束”,外界普遍解读为这门生意算不过账。Veo 还在 Google 自己的生态里慢慢爬,字节的 Seedance 2.0 上个月还是 Artificial Analysis Video Arena 图生视频榜的头名。结果 Grok Imagine Video 1.5 一进场就把 Seedance 挤下去了,Elo 1404 ±6,目前是这条赛道的第一。

这次正式版相比预览版没换底座,主要是把速度、稳定性、配额这些工程指标拉到生产可用。对开发者来说,最关心的就是三件事:能不能调、调起来贵不贵、出来的东西能不能用。下面拆开讲。

一句话定位:图生视频,带原生音轨

Grok Imagine Video 1.5 是个图生视频模型——你给它一张起始图,再加一段描述运动、镜头、声音的 prompt,它输出一段最长 15 秒、最高 720P 的带音频片段。

关键词是“原生音频”。

这不是噱头。市面上多数视频模型——包括早期的 Sora、Veo 2 之前的版本——音频要么后补,要么干脆不出,要么出了也只是环境声铺底。Grok Imagine Video 1.5 做的是在同一次生成里把画面、环境音、音效、对白和口型对齐一起吐出来。一次推理,一个产物,省掉了后期对轨的麻烦。

这件事能做出来,靠的是 xAI 那套 Aurora 自回归 MoE 架构。和 Sora、Veo 走的扩散 Transformer 不同,Aurora 把文本、图像、视频、音频统一成一个 token 流,按 next-token 的方式预测。视频帧和音频采样在同一个序列里联合建模,对齐天然就是模型内部状态的一部分,不需要再拿一个独立模块去“对口型”。

这种架构选择在工程上很激进。自回归生视频在过去几年一直被嫌“算不动”——你想想每个 patch 都串行预测,时延肯定比并行去噪的扩散方法难看。xAI 的解法是把它扔到 11 万张 GB200 上去训,用 MoE 把激活参数压住,再做大量推理侧优化。结果就是现在 Fast 模式下 25 秒出一段 6 秒 720P,比预览版的 40 秒多砍掉将近一半。

三个升级点,逐个说

1. 音画同步:唇形对得上了

之前测预览版的时候,最直观的感受是“终于不用再后期配音”。xAI 这次重点提了三件事:

  • 单次生成同时输出环境音、音效、对话,不再是先出画面再补声音;
  • 语音清晰度显著提升,预览版偶尔会有那种含混的“AI 嗓”,正式版基本听不到了;
  • 口型同步做到了能上短片级别的程度——不是“看起来差不多”,是逐音节都能对得上。

对要做角色对白、说话头像、产品口播这类应用的开发者来说,这是省后期成本的关键。以前你得用 ElevenLabs 生成语音,再用 SadTalker 或者 Hedra 去对口型,现在一个 API 调用搞定。

2. 物理真实感:人不再扭,物不再飘

视频模型最容易翻车的地方是物理。手指多一根、走路腿穿模、衣服飘得像在水下,这些都是常见笑话。1.5 在这一块的改进具体表现为:

  • 运动连贯性——长镜头里人物动作不会忽然“断片”重置;
  • 重量感与动量——下落物体的加速度曲线接近真实,人物步幅和重心配得上;
  • 次级运动——衣摆、头发、布料这些被动跟随的部分晃动逻辑合理。

这部分是看 demo 最能看出代差的地方。Seedance 2.0 在节拍同步和多素材编排上有自己的强项,但单镜头物理真实感这一块,Grok Imagine Video 1.5 现在确实压过去了。

3. 速度:Fast 档 25 秒一条

这个数字值得拎出来说。

6 秒、720P、25 秒生成。意味着如果你做一个面向 C 端的视频生成工具,用户等待时间已经接近“能忍”的下限。预览版 40 秒勉强算可用,25 秒就是产品体验的另一档。当然 Fast 是有代价的——画质和细节稳定性会比标准档略让一些,做最终交付的项目还是得跑标准档。

API 调用:和 xAI 其它模型一个范式

模型名直接换成 grok-imagine-video-1.5,预览版的 -preview 后缀去掉了。xAI 官方 SDK 的调用大概长这样:

import os
import xai_sdk

client = xai_sdk.Client(api_key=os.getenv("XAI_API_KEY"))

response = client.video.generate(
    prompt="Slow cinematic push-in as embers drift across the battlefield, "
           "the helmet's crest stirs in the wind, faint distant horn",
    model="grok-imagine-video-1.5",
    image_url="https://your-host.com/helmet.jpg",
    duration=10,
    resolution="720p",
)

print(response.url)

参数里有几个细节值得注意:

  • duration 上限是 15 秒,超出会拒绝;
  • resolution 接受 480p720p,没有 1080P 档,这一点比 Seedance 2.0 略吃亏;
  • image_url 是必填——这是个图生视频模型,纯文生视频要走 grok-imagine-video 的另一条路径。

如果你不想直接对接 xAI,OpenAI Hub 这边也已经接上了 grok-imagine-video-1.5,复用 OpenAI 兼容格式,一个 Key 同时调 GPT、Claude、Gemini、DeepSeek 这些主流模型,国内直连不用挂代理。代码大致长这样:

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1",
)

resp = client.videos.generate(
    model="grok-imagine-video-1.5",
    prompt="a girl turns to the camera and says hi with a warm smile",
    image="https://example.com/portrait.jpg",
    duration=6,
    resolution="720p",
)
print(resp.data[0].url)

对国内团队来说,省掉 xAI 账号申请、海外支付、网络抖动这些破事,直接换个 base_url 就能跑,是这类聚合平台存在的意义。

视频续接:把 15 秒撑成一个长镜头

15 秒的硬上限其实有点尴尬——TikTok 一条片子动辄 30 秒,电商口播 60 秒起步。xAI 给的解法是视频续接(video continuation):从上一段视频的最后一帧继续生成下一段,可以把多个 6–15 秒的镜头串成一个完整序列。

这件事的工程意义是,镜头之间的角色一致性由模型内部维护,不需要你拿参考图去手动锁。配合“参考图引导生成(reference-to-video)”,你可以把同一个角色、同一个产品、同一种画风带到多个镜头里。

更实际的玩法是把它拆成一个流水线:

  1. grok-imagine-video-1.5 生第一段,确定整片的调性和角色;
  2. 取最后一帧作为下一段的起始图,继续生第二段;
  3. 镜头切换的地方在 prompt 里写明(“cut to a wide shot…”);
  4. 最后把所有片段在剪辑端拼起来,音频因为是原生生成的,对接处只需要做轻量 crossfade。

对比 Sora 当年画的那个“一镜到底两分钟”的饼,这种短镜头续接拼长片的做法虽然朴素,但工程上跑得通,成本可控,而且镜头剪辑节奏反而更接近现代短视频审美。

和 Seedance 2.0、Veo、Kling 比一下

现在带原生音频的视频模型不止 Grok 一家。简单横向看一下:

| 模型 | 厂商 | 最长时长 | 最高分辨率 | 原生音频 | 主打 | | --- | --- | --- | --- | --- | --- | | Grok Imagine Video 1.5 | xAI | 15s | 720p | 是 | 图生视频、唇形对白、续接 | | Seedance 2.0 | 字节 | 4–15s | 1080p | 是 | 多素材编排、音乐节拍同步 | | Veo 3 | Google | 8s | 1080p | 是 | 物理真实感、品质稳 | | Kling 3.0 | 快手 | 10s+ | 1080p | 是 | 多镜头、产能优先 |

Grok 这一档的短板是分辨率没到 1080P,对要交付社媒成片的团队来说要么自己上超分,要么忍。长板是图生视频路线下的对白能力——这一点 Seedance 主要靠节拍同步走音乐路线,Grok 走的是角色口播路线,定位上其实错开了。

至于 Sora,那个曾经把整个行业拉进视频生成元年的名字,现在已经从 OpenAI 产品线里下架。一个时代的标志就这么静悄悄过去了。

谁会用它,怎么用

几个看得见的落地方向:

  • 说话角色短片:上传肖像,让人物自然说一句欢迎语,配自然光和环境声,做客服、虚拟主播、教育课件都行;
  • 产品动态广告:电商详情页那种“瓶身缓推、水珠凝结”的镜头,过去要拍要做特效,现在一张产品图加一句 prompt;
  • 音乐 MV 切片:原生音频里可以混入旋律,配合视频续接做整首歌的视觉序列;
  • 分镜转动态预览:游戏、影视的分镜师做提案时,把静态分镜批量动起来给甲方看效果。

这些场景过去要么走 Runway、Pika,要么自己拼一堆开源链路。Grok Imagine Video 1.5 把音频这一环吃掉之后,整个流水线缩短了一大截。

一个判断

xAI 这次发版的节奏很值得玩味。OpenAI 撤掉 Sora、Google 把 Veo 锁在自家生态、字节的 Seedance 主战场偏 B 端,留出来的这块图生视频 + 原生音频的开发者市场,xAI 用两周时间从预览推到 GA,姿态很明确——这条产品线要做长期生意,不是 demo show

再加上它选了一条和扩散派完全不同的自回归路径,如果 Aurora 这套架构后面能继续往上拉分辨率、时长、并把 multimodal 输入做得更杂,Grok Imagine 系列在视频生成赛道的位置只会越来越靠前。

对开发者来说,今天能做的事很简单:换上 grok-imagine-video-1.5 这个新模型名,把手上的 demo 重新跑一遍,看看 25 秒一条片子能在你的产品里撑起什么样的体验。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: