xAI 今天宣布 Grok Imagine Video 1.5 结束预览正式上线 API，主打原生音画同步、生成提速近一倍，已在 Artificial Analysis Video Arena 图生视频榜单登顶。

Grok Imagine Video 1.5 转正：6 秒 720P 视频 25 秒出片，音画一次出齐

xAI 今天（6 月 17 日）发了一则不算高调的公告：grok-imagine-video-1.5 结束预览，正式在 xAI API 上线。从 6 月 3 日预览版放出来算起，这个模型走完 GA 流程只用了两周——对 xAI 一贯的节奏来说不算意外，但放在视频生成赛道，这个速度足够把同行衬得有点慢。

要知道，几个月前 OpenAI 才刚把 Sora 从产品线里撤下来，理由是“资源约束”，外界普遍解读为这门生意算不过账。Veo 还在 Google 自己的生态里慢慢爬，字节的 Seedance 2.0 上个月还是 Artificial Analysis Video Arena 图生视频榜的头名。结果 Grok Imagine Video 1.5 一进场就把 Seedance 挤下去了，Elo 1404 ±6，目前是这条赛道的第一。

这次正式版相比预览版没换底座，主要是把速度、稳定性、配额这些工程指标拉到生产可用。对开发者来说，最关心的就是三件事：能不能调、调起来贵不贵、出来的东西能不能用。下面拆开讲。

一句话定位：图生视频，带原生音轨

Grok Imagine Video 1.5 是个图生视频模型——你给它一张起始图，再加一段描述运动、镜头、声音的 prompt，它输出一段最长 15 秒、最高 720P 的带音频片段。

关键词是“原生音频”。

这不是噱头。市面上多数视频模型——包括早期的 Sora、Veo 2 之前的版本——音频要么后补，要么干脆不出，要么出了也只是环境声铺底。Grok Imagine Video 1.5 做的是在同一次生成里把画面、环境音、音效、对白和口型对齐一起吐出来。一次推理，一个产物，省掉了后期对轨的麻烦。

这件事能做出来，靠的是 xAI 那套 Aurora 自回归 MoE 架构。和 Sora、Veo 走的扩散 Transformer 不同，Aurora 把文本、图像、视频、音频统一成一个 token 流，按 next-token 的方式预测。视频帧和音频采样在同一个序列里联合建模，对齐天然就是模型内部状态的一部分，不需要再拿一个独立模块去“对口型”。

这种架构选择在工程上很激进。自回归生视频在过去几年一直被嫌“算不动”——你想想每个 patch 都串行预测，时延肯定比并行去噪的扩散方法难看。xAI 的解法是把它扔到 11 万张 GB200 上去训，用 MoE 把激活参数压住，再做大量推理侧优化。结果就是现在 Fast 模式下 25 秒出一段 6 秒 720P，比预览版的 40 秒多砍掉将近一半。

三个升级点，逐个说

1. 音画同步：唇形对得上了

之前测预览版的时候，最直观的感受是“终于不用再后期配音”。xAI 这次重点提了三件事：

单次生成同时输出环境音、音效、对话，不再是先出画面再补声音；
语音清晰度显著提升，预览版偶尔会有那种含混的“AI 嗓”，正式版基本听不到了；
口型同步做到了能上短片级别的程度——不是“看起来差不多”，是逐音节都能对得上。

对要做角色对白、说话头像、产品口播这类应用的开发者来说，这是省后期成本的关键。以前你得用 ElevenLabs 生成语音，再用 SadTalker 或者 Hedra 去对口型，现在一个 API 调用搞定。

2. 物理真实感：人不再扭，物不再飘

视频模型最容易翻车的地方是物理。手指多一根、走路腿穿模、衣服飘得像在水下，这些都是常见笑话。1.5 在这一块的改进具体表现为：

运动连贯性——长镜头里人物动作不会忽然“断片”重置；
重量感与动量——下落物体的加速度曲线接近真实，人物步幅和重心配得上；
次级运动——衣摆、头发、布料这些被动跟随的部分晃动逻辑合理。

这部分是看 demo 最能看出代差的地方。Seedance 2.0 在节拍同步和多素材编排上有自己的强项，但单镜头物理真实感这一块，Grok Imagine Video 1.5 现在确实压过去了。

3. 速度：Fast 档 25 秒一条

这个数字值得拎出来说。

6 秒、720P、25 秒生成。意味着如果你做一个面向 C 端的视频生成工具，用户等待时间已经接近“能忍”的下限。预览版 40 秒勉强算可用，25 秒就是产品体验的另一档。当然 Fast 是有代价的——画质和细节稳定性会比标准档略让一些，做最终交付的项目还是得跑标准档。

API 调用：和 xAI 其它模型一个范式

模型名直接换成 grok-imagine-video-1.5，预览版的 -preview 后缀去掉了。xAI 官方 SDK 的调用大概长这样：

import os
import xai_sdk

client = xai_sdk.Client(api_key=os.getenv("XAI_API_KEY"))

response = client.video.generate(
    prompt="Slow cinematic push-in as embers drift across the battlefield, "
           "the helmet's crest stirs in the wind, faint distant horn",
    model="grok-imagine-video-1.5",
    image_url="https://your-host.com/helmet.jpg",
    duration=10,
    resolution="720p",
)

print(response.url)

参数里有几个细节值得注意：

duration 上限是 15 秒，超出会拒绝；
resolution 接受 480p 和 720p，没有 1080P 档，这一点比 Seedance 2.0 略吃亏；
image_url 是必填——这是个图生视频模型，纯文生视频要走 grok-imagine-video 的另一条路径。

如果你不想直接对接 xAI，OpenAI Hub 这边也已经接上了 grok-imagine-video-1.5，复用 OpenAI 兼容格式，一个 Key 同时调 GPT、Claude、Gemini、DeepSeek 这些主流模型，国内直连不用挂代理。代码大致长这样：

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1",
)

resp = client.videos.generate(
    model="grok-imagine-video-1.5",
    prompt="a girl turns to the camera and says hi with a warm smile",
    image="https://example.com/portrait.jpg",
    duration=6,
    resolution="720p",
)
print(resp.data[0].url)

对国内团队来说，省掉 xAI 账号申请、海外支付、网络抖动这些破事，直接换个 base_url 就能跑，是这类聚合平台存在的意义。

视频续接：把 15 秒撑成一个长镜头

15 秒的硬上限其实有点尴尬——TikTok 一条片子动辄 30 秒，电商口播 60 秒起步。xAI 给的解法是视频续接（video continuation）：从上一段视频的最后一帧继续生成下一段，可以把多个 6–15 秒的镜头串成一个完整序列。

这件事的工程意义是，镜头之间的角色一致性由模型内部维护，不需要你拿参考图去手动锁。配合“参考图引导生成（reference-to-video）”，你可以把同一个角色、同一个产品、同一种画风带到多个镜头里。

更实际的玩法是把它拆成一个流水线：

用 grok-imagine-video-1.5 生第一段，确定整片的调性和角色；
取最后一帧作为下一段的起始图，继续生第二段；
镜头切换的地方在 prompt 里写明（“cut to a wide shot…”）；
最后把所有片段在剪辑端拼起来，音频因为是原生生成的，对接处只需要做轻量 crossfade。

对比 Sora 当年画的那个“一镜到底两分钟”的饼，这种短镜头续接拼长片的做法虽然朴素，但工程上跑得通，成本可控，而且镜头剪辑节奏反而更接近现代短视频审美。

和 Seedance 2.0、Veo、Kling 比一下

现在带原生音频的视频模型不止 Grok 一家。简单横向看一下：

| 模型 | 厂商 | 最长时长 | 最高分辨率 | 原生音频 | 主打 | | --- | --- | --- | --- | --- | --- | | Grok Imagine Video 1.5 | xAI | 15s | 720p | 是 | 图生视频、唇形对白、续接 | | Seedance 2.0 | 字节 | 4–15s | 1080p | 是 | 多素材编排、音乐节拍同步 | | Veo 3 | Google | 8s | 1080p | 是 | 物理真实感、品质稳 | | Kling 3.0 | 快手 | 10s+ | 1080p | 是 | 多镜头、产能优先 |

Grok 这一档的短板是分辨率没到 1080P，对要交付社媒成片的团队来说要么自己上超分，要么忍。长板是图生视频路线下的对白能力——这一点 Seedance 主要靠节拍同步走音乐路线，Grok 走的是角色口播路线，定位上其实错开了。

至于 Sora，那个曾经把整个行业拉进视频生成元年的名字，现在已经从 OpenAI 产品线里下架。一个时代的标志就这么静悄悄过去了。

谁会用它，怎么用

几个看得见的落地方向：

说话角色短片：上传肖像，让人物自然说一句欢迎语，配自然光和环境声，做客服、虚拟主播、教育课件都行；
产品动态广告：电商详情页那种“瓶身缓推、水珠凝结”的镜头，过去要拍要做特效，现在一张产品图加一句 prompt；
音乐 MV 切片：原生音频里可以混入旋律，配合视频续接做整首歌的视觉序列；
分镜转动态预览：游戏、影视的分镜师做提案时，把静态分镜批量动起来给甲方看效果。

这些场景过去要么走 Runway、Pika，要么自己拼一堆开源链路。Grok Imagine Video 1.5 把音频这一环吃掉之后，整个流水线缩短了一大截。

一个判断

xAI 这次发版的节奏很值得玩味。OpenAI 撤掉 Sora、Google 把 Veo 锁在自家生态、字节的 Seedance 主战场偏 B 端，留出来的这块图生视频 + 原生音频的开发者市场，xAI 用两周时间从预览推到 GA，姿态很明确——这条产品线要做长期生意，不是 demo show。

再加上它选了一条和扩散派完全不同的自回归路径，如果 Aurora 这套架构后面能继续往上拉分辨率、时长、并把 multimodal 输入做得更杂，Grok Imagine 系列在视频生成赛道的位置只会越来越靠前。

对开发者来说，今天能做的事很简单：换上 grok-imagine-video-1.5 这个新模型名，把手上的 demo 重新跑一遍，看看 25 秒一条片子能在你的产品里撑起什么样的体验。

参考来源

IT之家：Grok Imagine Video 1.5 模型正式上线，生成 6 秒 720P 视频仅需 25 秒 — xAI 官宣正式版上线的中文报道，包含速度对比、能力描述。

Grok Imagine Video 1.5 转正：6秒720P视频25秒出片