Grok Imagine Video 1.5 Preview 悄悄上线,一把把 Seedance 2.0 从图生视频榜首挤了下去
xAI 这次发新模型的方式有点反常。没有发布会,没有 Elon Musk 在 X 上连发十条预热推文,甚至连官方博客都没动静——Grok Imagine Video 1.5 Preview 就这么在 5 月底的某个深夜悄悄上线了。
如果不是榜单跳动,可能没几个人会注意到。但 Image-to-Video Arena 的排行榜已经更新:这个标着"Preview"的 720p 模型,把上个月还稳坐第一的字节 Seedance 2.0 挤了下去,直接登顶。

一个被低估的赛道,被一个低调的版本翻盘
先把背景捋一下。Grok Imagine 这条产品线,xAI 最早是把它当成"图片 + 短视频"二合一的多模态生成器在做,主打"快"和"易整合"。3 月 24 日那波更新,xAI 给 Grok Imagine API 加了两个能力:多图生成视频(multi-image to video) 和 视频扩展(video extension)——前者解决主体一致性,后者解决时长不够用。当时业界的反应是"有点东西,但还不够打"。
两个月后,1.5 Preview 直接把分数刷到第一。
这里需要给不熟悉这个领域的开发者快速对一下坐标:
- Seedance 2.0:字节家的图生视频主力,运动流畅度和指令遵循都是顶级水平,此前长期霸榜。
- Veo 3 / Kling 2.5:Google 和快手两家的旗舰,更偏"电影感"路线。
- Sora 2 Turbo:OpenAI 这边主打文生视频,图生视频不是它的强项。
- Runway Gen-4:偏创意工作流,强在镜头控制。
图生视频(i2v)这个赛道,比文生视频更卷。原因很简单:开发者真正在生产环境里用的,绝大多数是 i2v——先用 SD/Flux/Midjourney 把首帧调到完美,再让视频模型动起来,这是目前最可控的工作流。所以 Image-to-Video Arena 的排名,比单纯的文生视频榜单更接近"真实生产力"。
Grok Imagine 1.5 Preview 能在这个榜上拿第一,含金量不低。
它到底强在哪里?
目前 xAI 官方没有放出技术报告,只能从社区放出的样本和盲测对比里反推。我看了 linux.do 那个帖子下贴出来的对比样本,以及 X 上几位 i2v 老玩家的盲测视频,几个明显的特征:
第一,运动幅度更大但不崩。 这是 i2v 模型最难的部分。很多模型一旦让人物做大动作——跳跃、转身、扔东西——主体就会糊掉或者变形。1.5 Preview 在这一点上明显比上一代激进,转身、奔跑这种动作的保真度接近 Seedance 2.0,但镜头运动更自由。
第二,物理直觉更靠谱。 水流、布料、头发这些经典的物理崩坏重灾区,1.5 Preview 的表现比预期好。有个测试是"一个人推倒一摞书",多数模型会让书像 NPC 一样原地消失或者穿模,1.5 Preview 能给出还算合理的散落轨迹。
第三,720p 是个有意思的选择。 Seedance 2.0、Veo 3 这些都已经在卷 1080p 甚至 4K,xAI 这次只给到 720p,但帧率和时长上没有妥协。我的判断是,xAI 在 trade-off 里选了"运动质量优先于分辨率"——对短视频、社媒、广告素材这类用例来说,这个取舍是对的。Upscale 是下游可以补的,运动崩了就是崩了。
第四,速度。 这是 Grok Imagine 系列从一开始就在打的差异点。1.5 Preview 的生成速度比 Seedance 2.0 快不少,社区里测出来 5 秒视频大概 20-30 秒能跑完。对要做批量生成的开发者来说,这个数字直接决定单价能压到多低。
API 怎么用
好消息是 xAI 这次把 1.5 Preview 直接接到了 Grok Imagine API 上,不用等。模型 ID 目前是 grok-imagine-video-1.5-preview,调用方式跟之前的图生视频接口一致。
如果你用 OpenAI Hub 聚合接入,可以直接用兼容 OpenAI 格式的 SDK 调,省得单独申请 xAI 的额度(国内直连这点对很多团队挺关键的):
from openai import OpenAI
client = OpenAI(
api_key="your-openai-hub-key",
base_url="https://api.openai-hub.com/v1"
)
# 图生视频
response = client.videos.generate(
model="grok-imagine-video-1.5-preview",
image="https://your-cdn.com/first-frame.jpg",
prompt="camera slowly pans right, the character turns around and smiles",
duration=5,
resolution="720p",
fps=24
)
print(response.video_url)
如果要做多图生成视频(指定首帧 + 尾帧,或者多个关键帧),参数稍微改一下:
response = client.videos.generate(
model="grok-imagine-video-1.5-preview",
images=[
{"url": "https://your-cdn.com/keyframe-1.jpg", "position": "start"},
{"url": "https://your-cdn.com/keyframe-2.jpg", "position": "end"}
],
prompt="smooth transition between the two scenes",
duration=5
)
视频扩展(接着已有的视频继续生成)也是这次延续下来的能力,做长视频的时候很好用:
response = client.videos.extend(
model="grok-imagine-video-1.5-preview",
source_video="https://your-cdn.com/seed-clip.mp4",
prompt="the character continues walking forward, then stops at the door",
duration=5
)
几个调用上的实战建议:
- prompt 写运动,别写外观。 首帧已经把外观锁定了,prompt 应该全部用来描述"动作 + 镜头 + 节奏"。写"a beautiful girl with long hair"是浪费 token,写"she lifts her head, looks at the camera, hair flows in the wind"才有用。
- 首帧分辨率别给太低。 虽然输出是 720p,但首帧给 1080p 甚至 2K 会明显提升细节保留度。模型在内部会做特征提取,输入信息量越大越好。
- duration 别贪。 Preview 阶段建议先 5 秒,需要长视频用 extension 拼接,质量比一次跑 10 秒稳。
为什么是现在?为什么这么低调?
这是我比较感兴趣的一点。
xAI 过去发任何东西,从 Grok 3 到 Grok 4,到 Aurora 图片模型,Musk 本人都会在 X 上铺天盖地预热。Imagine Video 1.5 这次反常地安静,连官方推特都没置顶。我倾向于认为有两个原因:
第一,Preview 就是 Preview。xAI 自己估计也清楚,这个版本在某些 corner case 上还有问题——长镜头、复杂多人交互、文字渲染这些地方,从样本看依然会翻车。先悄悄放出来跑数据、跑反馈,等正式版再敲锣打鼓,是更稳的策略。
第二,视频生成赛道现在不需要再炒了。Sora、Veo、Kling、Seedance 已经把市场教育做完了,开发者关心的不是"AI 能不能生成视频",而是"哪家便宜、哪家稳、哪家 API 好接"。这种阶段,跑分上去了自然有人来用,不需要发布会。
跟 Seedance 2.0 比,会持续领先吗?
我的判断是——短期内会,长期不一定。
Arena 这种盲测榜单,分数会随着新版本发布反复横跳。Seedance 2.0 几乎肯定在憋 2.5 或者 3.0,Veo 那边 Google I/O 之后也有动作。xAI 这次的优势更多是"产品节奏"上的:在大家以为图生视频赛道暂时稳定的窗口期,悄悄推一个版本上去。
但有一件事是确定的:图生视频已经从"能用"进入了"难分高下"的阶段。不同模型之间的差距,更多体现在风格偏好、特定场景的稳定性、单价和速度上,而不是"谁能做"。这对开发者来说是好事——选型空间大了,议价能力也强了。
对要做视频生成业务的团队,我的建议是:不要把宝押在单一供应商上。Seedance、Grok Imagine、Veo、Kling 这几家保持随时可切换的能力,遇到具体场景用 A/B 测试选最合适的。这也是为什么聚合 API 的需求最近半年涨得很快——一个 Key 调所有模型,比维护四五套 SDK 和账号体系省事得多。
小结
- Grok Imagine Video 1.5 Preview 已在 Image-to-Video Arena 登顶,超过 Seedance 2.0
- 720p、运动质量优先、生成速度快,是这个版本的三个关键词
- API 已开放,模型 ID
grok-imagine-video-1.5-preview,支持图生视频、多图生视频、视频扩展 - xAI 这次罕见地低调,预计正式版才会大规模宣传
- 图生视频赛道进入"难分高下"的阶段,多模型并用是务实选择
等正式版出来再看一次完整的技术报告和定价吧。Preview 这个阶段,先把活儿跑起来才是要紧事。
参考来源
- 在无人在意的角落里,Grok Imagine Video 1.5 Preview 发布了 - linux.do —— 社区最早发现并贴出 Arena 榜单截图与样本对比的讨论帖