xAI 在没什么动静的情况下放出 Grok Imagine Video 1.5 Preview，720p 输出，直接在 Image-to-Video Arena 上把 Seedance 2.0 拉下马，登顶第一。

Grok Imagine Video 1.5 Preview 悄悄上线，一把把 Seedance 2.0 从图生视频榜首挤了下去

xAI 这次发新模型的方式有点反常。没有发布会，没有 Elon Musk 在 X 上连发十条预热推文，甚至连官方博客都没动静——Grok Imagine Video 1.5 Preview 就这么在 5 月底的某个深夜悄悄上线了。

如果不是榜单跳动，可能没几个人会注意到。但 Image-to-Video Arena 的排行榜已经更新：这个标着"Preview"的 720p 模型，把上个月还稳坐第一的字节 Seedance 2.0 挤了下去，直接登顶。

Grok Imagine Video 1.5 Preview 在 Image-to-Video Arena 榜单截图

一个被低估的赛道，被一个低调的版本翻盘

先把背景捋一下。Grok Imagine 这条产品线，xAI 最早是把它当成"图片 + 短视频"二合一的多模态生成器在做，主打"快"和"易整合"。3 月 24 日那波更新，xAI 给 Grok Imagine API 加了两个能力：多图生成视频（multi-image to video） 和 视频扩展（video extension）——前者解决主体一致性，后者解决时长不够用。当时业界的反应是"有点东西，但还不够打"。

两个月后，1.5 Preview 直接把分数刷到第一。

这里需要给不熟悉这个领域的开发者快速对一下坐标：

Seedance 2.0：字节家的图生视频主力，运动流畅度和指令遵循都是顶级水平，此前长期霸榜。
Veo 3 / Kling 2.5：Google 和快手两家的旗舰，更偏"电影感"路线。
Sora 2 Turbo：OpenAI 这边主打文生视频，图生视频不是它的强项。
Runway Gen-4：偏创意工作流，强在镜头控制。

图生视频（i2v）这个赛道，比文生视频更卷。原因很简单：开发者真正在生产环境里用的，绝大多数是 i2v——先用 SD/Flux/Midjourney 把首帧调到完美，再让视频模型动起来，这是目前最可控的工作流。所以 Image-to-Video Arena 的排名，比单纯的文生视频榜单更接近"真实生产力"。

Grok Imagine 1.5 Preview 能在这个榜上拿第一，含金量不低。

它到底强在哪里？

目前 xAI 官方没有放出技术报告，只能从社区放出的样本和盲测对比里反推。我看了 linux.do 那个帖子下贴出来的对比样本，以及 X 上几位 i2v 老玩家的盲测视频，几个明显的特征：

第一，运动幅度更大但不崩。 这是 i2v 模型最难的部分。很多模型一旦让人物做大动作——跳跃、转身、扔东西——主体就会糊掉或者变形。1.5 Preview 在这一点上明显比上一代激进，转身、奔跑这种动作的保真度接近 Seedance 2.0，但镜头运动更自由。

第二，物理直觉更靠谱。 水流、布料、头发这些经典的物理崩坏重灾区，1.5 Preview 的表现比预期好。有个测试是"一个人推倒一摞书"，多数模型会让书像 NPC 一样原地消失或者穿模，1.5 Preview 能给出还算合理的散落轨迹。

第三，720p 是个有意思的选择。 Seedance 2.0、Veo 3 这些都已经在卷 1080p 甚至 4K，xAI 这次只给到 720p，但帧率和时长上没有妥协。我的判断是，xAI 在 trade-off 里选了"运动质量优先于分辨率"——对短视频、社媒、广告素材这类用例来说，这个取舍是对的。Upscale 是下游可以补的，运动崩了就是崩了。

第四，速度。 这是 Grok Imagine 系列从一开始就在打的差异点。1.5 Preview 的生成速度比 Seedance 2.0 快不少，社区里测出来 5 秒视频大概 20-30 秒能跑完。对要做批量生成的开发者来说，这个数字直接决定单价能压到多低。

API 怎么用

好消息是 xAI 这次把 1.5 Preview 直接接到了 Grok Imagine API 上，不用等。模型 ID 目前是 grok-imagine-video-1.5-preview，调用方式跟之前的图生视频接口一致。

如果你用 OpenAI Hub 聚合接入，可以直接用兼容 OpenAI 格式的 SDK 调，省得单独申请 xAI 的额度（国内直连这点对很多团队挺关键的）：

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

# 图生视频
response = client.videos.generate(
    model="grok-imagine-video-1.5-preview",
    image="https://your-cdn.com/first-frame.jpg",
    prompt="camera slowly pans right, the character turns around and smiles",
    duration=5,
    resolution="720p",
    fps=24
)

print(response.video_url)

如果要做多图生成视频（指定首帧 + 尾帧，或者多个关键帧），参数稍微改一下：

response = client.videos.generate(
    model="grok-imagine-video-1.5-preview",
    images=[
        {"url": "https://your-cdn.com/keyframe-1.jpg", "position": "start"},
        {"url": "https://your-cdn.com/keyframe-2.jpg", "position": "end"}
    ],
    prompt="smooth transition between the two scenes",
    duration=5
)

视频扩展（接着已有的视频继续生成）也是这次延续下来的能力，做长视频的时候很好用：

response = client.videos.extend(
    model="grok-imagine-video-1.5-preview",
    source_video="https://your-cdn.com/seed-clip.mp4",
    prompt="the character continues walking forward, then stops at the door",
    duration=5
)

几个调用上的实战建议：

prompt 写运动，别写外观。 首帧已经把外观锁定了，prompt 应该全部用来描述"动作 + 镜头 + 节奏"。写"a beautiful girl with long hair"是浪费 token，写"she lifts her head, looks at the camera, hair flows in the wind"才有用。
首帧分辨率别给太低。 虽然输出是 720p，但首帧给 1080p 甚至 2K 会明显提升细节保留度。模型在内部会做特征提取，输入信息量越大越好。
duration 别贪。 Preview 阶段建议先 5 秒，需要长视频用 extension 拼接，质量比一次跑 10 秒稳。

为什么是现在？为什么这么低调？

这是我比较感兴趣的一点。

xAI 过去发任何东西，从 Grok 3 到 Grok 4，到 Aurora 图片模型，Musk 本人都会在 X 上铺天盖地预热。Imagine Video 1.5 这次反常地安静，连官方推特都没置顶。我倾向于认为有两个原因：

第一，Preview 就是 Preview。xAI 自己估计也清楚，这个版本在某些 corner case 上还有问题——长镜头、复杂多人交互、文字渲染这些地方，从样本看依然会翻车。先悄悄放出来跑数据、跑反馈，等正式版再敲锣打鼓，是更稳的策略。

第二，视频生成赛道现在不需要再炒了。Sora、Veo、Kling、Seedance 已经把市场教育做完了，开发者关心的不是"AI 能不能生成视频"，而是"哪家便宜、哪家稳、哪家 API 好接"。这种阶段，跑分上去了自然有人来用，不需要发布会。

跟 Seedance 2.0 比，会持续领先吗？

我的判断是——短期内会，长期不一定。

Arena 这种盲测榜单，分数会随着新版本发布反复横跳。Seedance 2.0 几乎肯定在憋 2.5 或者 3.0，Veo 那边 Google I/O 之后也有动作。xAI 这次的优势更多是"产品节奏"上的：在大家以为图生视频赛道暂时稳定的窗口期，悄悄推一个版本上去。

但有一件事是确定的：图生视频已经从"能用"进入了"难分高下"的阶段。不同模型之间的差距，更多体现在风格偏好、特定场景的稳定性、单价和速度上，而不是"谁能做"。这对开发者来说是好事——选型空间大了，议价能力也强了。

对要做视频生成业务的团队，我的建议是：不要把宝押在单一供应商上。Seedance、Grok Imagine、Veo、Kling 这几家保持随时可切换的能力，遇到具体场景用 A/B 测试选最合适的。这也是为什么聚合 API 的需求最近半年涨得很快——一个 Key 调所有模型，比维护四五套 SDK 和账号体系省事得多。

小结

Grok Imagine Video 1.5 Preview 已在 Image-to-Video Arena 登顶，超过 Seedance 2.0
720p、运动质量优先、生成速度快，是这个版本的三个关键词
API 已开放，模型 ID grok-imagine-video-1.5-preview，支持图生视频、多图生视频、视频扩展
xAI 这次罕见地低调，预计正式版才会大规模宣传
图生视频赛道进入"难分高下"的阶段，多模型并用是务实选择

等正式版出来再看一次完整的技术报告和定价吧。Preview 这个阶段，先把活儿跑起来才是要紧事。

参考来源

在无人在意的角落里，Grok Imagine Video 1.5 Preview 发布了 - linux.do —— 社区最早发现并贴出 Arena 榜单截图与样本对比的讨论帖

Grok Imagine Video 1.5 悄悄登顶图生视频榜