阿里开源HappyHorse视频生成模型：8步推理音画同步，Arena双榜登顶

阿里由P11张迪领衔的新团队开源多模态视频生成模型HappyHorse，采用单Transformer Transfusion架构，仅需8步推理即可生成带音效、旁白的720p视频，曾匿名登顶Artificial Analysis Video Arena双榜。

阿里悄悄干了一件大事。

一个叫 HappyHorse 的视频生成模型，4 月初匿名出现在 Artificial Analysis Video Arena 的盲测榜单上，V1 和 V2 两个版本同时刷新了文生视频和图生视频的 Elo 分数，把 Seedance 2.0、Kling 3.0、PixVerse V6 这些一线选手全部压在身后。几天后 HappyHorse 1.0 又从榜单上消失了，只留下一堆截图和猜测。

现在谜底揭开——这匹黑马来自阿里，由 P11 张迪领衔的新团队打造，而且宣布完全开源。

先说最重要的：它开源了什么

不是那种「开源个 Demo 让你看看」的开源，是真刀真枪的全家桶：

基础模型权重
蒸馏模型权重
超分模块
完整推理代码

这意味着你拿到手就能跑，不用等官方 API，不用猜推理细节。对于一个刚登顶过 Arena 榜单的模型来说，这个开源力度相当罕见。要知道同级别的 Seedance 2.0 和 Kling 3.0 到现在还是纯闭源 API 模式。

架构上的野心：一个 Transformer 搞定一切

HappyHorse 单Transformer Transfusion架构示意图，展示视频帧与音频波形在同一模型中的统一生成流程

HappyHorse 最值得聊的不是分数，是架构选择。

当前主流的视频生成模型，音频和视频通常是两条管线。先生成视频，再用另一个模型配音、配音效，或者反过来。这种「拼装」方案的问题很明显：音画对不上、口型对不上、环境音和画面脱节。你用过就知道，AI 生成的视频里一个人在拍手，声音却晚了半拍，那种违和感比没有声音还难受。

HappyHorse 的做法是把视频和音频塞进同一个 Transformer，用 Transfusion 范式统一处理。简单说就是：模型在生成每一帧画面的同时，就在「想」这一帧该配什么声音。不是后期配音，是原生同步生成。

这个思路并不新鲜，阿里自家的通义万相 Wan2.5 就已经在探索原生多模态架构，能生成和画面匹配的人声、音效和背景音乐。但 HappyHorse 把这件事做得更极致——它连 CFG（Classifier-Free Guidance）都不用了。

做过图像生成的开发者对 CFG 不会陌生。它本质上是用两次前向传播来提升生成质量，代价是推理时间翻倍。HappyHorse 直接砍掉了这一步，只靠 8 步推理就能出片。作为对比，很多扩散模型需要 25-50 步，即使用了各种加速 trick 也很难压到 10 步以下还保持质量。

8 步，无 CFG，单 Transformer。这三个关键词叠在一起，指向一个很实际的好处：推理成本大幅下降。对于想在生产环境跑视频生成的团队来说，这可能比 Elo 分数更有吸引力。

具体能生成什么

参数层面：

| 参数 | 规格 | |------|------| | 分辨率 | 1280×720（720p） | | 帧率 | 24fps | | 生成时长 | 5 秒 | | 推理步数 | 8 步 | | 音频能力 | 音效 / 环境音 / 旁白 | | 支持语言 | 中 / 英 / 日 / 韩 / 德 / 法 |

720p、5 秒、24fps——单看这几个数字，说实话不算惊艳。通义万相 Wan2.5 已经能做 1080p、10 秒。Kling 3.0 和 Seedance 2.0 在分辨率和时长上也更激进。

但 HappyHorse 的差异化不在这些硬参数上，而在两个地方：

第一，音频是原生生成的，不是后挂的。它支持六种语言的旁白生成，加上音效和环境音，这意味着你给一段 prompt，出来的就是一个「能直接发」的视频，不需要再去找配音工具。对于短视频创作者和营销团队来说，这省掉了工作流里最烦人的一环。

第二，它是开源的。720p 5 秒听起来不多，但你可以在自己的机器上跑，可以微调，可以魔改。闭源模型给你 1080p 又怎样？你改不了一行代码，定价权完全在别人手里。

Arena 登顶又消失：一次精心策划的亮相？

回头看 HappyHorse 在 Arena 上的操作，挺有意思的。

4 月初匿名上榜，文生视频 Elo 1333，图生视频 Elo 1392，双双登顶。几天后 1.0 版本从榜单消失。紧接着团队身份曝光，宣布开源。

这个节奏很像是一次有计划的「先证明实力，再揭开面纱」。匿名盲测的好处是排除了品牌偏见——评测者不知道这是阿里的模型，纯粹凭生成质量打分。等分数站稳了再公布身份，说服力比直接发论文强得多。

当然也有人质疑：盲测环境下的表现能否代表真实生产质量？Arena 的评测样本量够不够大？这些都是合理的问题。但至少从方法论上说，这比自己跑 benchmark 然后自己发报告要可信。

跟竞品比，HappyHorse 处在什么位置

把 2026 年 Q1 的视频生成模型排一排：

闭源阵营里，Seedance 2.0、Kling 3.0、Veo 3.1 是第一梯队，分辨率高、时长长、商业化成熟，但都不开源，API 定价不便宜。

开源阵营里，之前基本没有能打的选手。通义万相 Wan 系列开源了不少模型，但主要集中在图像生成和基础视频能力上。HappyHorse 是第一个在 Arena 盲测中证明过自己、同时完全开源的视频生成模型。

这就是它真正的意义：不是说它现在就能替代 Kling 3.0 去做商业项目，而是它把「开源视频生成」的天花板一下子抬高了一大截。

用一个不太恰当的类比：HappyHorse 之于视频生成，有点像当年 Stable Diffusion 之于图像生成。参数不是最强的，但开源这件事本身就改变了游戏规则。

对开发者意味着什么

如果你在做视频相关的产品或功能，HappyHorse 开源带来几个直接的机会：

本地部署和微调。不用依赖第三方 API，数据不出域，适合对隐私敏感的场景。蒸馏模型的提供也意味着你可以在消费级显卡上跑推理，不一定需要 A100 集群。
音画同步的统一管线。之前要实现「生成视频 + 配音 + 配音效」需要串联三四个模型，现在一个模型一次推理就搞定。工程复杂度直接降一个量级。
作为 baseline 进行二次开发。8 步推理、无 CFG 的架构设计本身就是一个很好的研究起点，学术团队和创业公司都可以在这个基础上做文章。

当然，目前权重和代码的具体发布时间还没有最终确认。官方页面上 GitHub 仓库和 Model Hub 链接仍标注为 Coming Soon。建议持续关注官方动态，第一时间拉取代码验证。

如果你想现在就用上视频生成 API

在 HappyHorse 权重正式释出之前，如果你的项目等不了，可以先通过 API 调用已经商用化的视频模型。像 OpenAI Hub 这类聚合平台支持用统一的 OpenAI 兼容格式调用多家模型，等 HappyHorse 上线后切换 model 参数就行，不用重写代码。

一个典型的调用示例：

import requests

# 通过 OpenAI Hub 调用视频生成模型（OpenAI 兼容格式）
response = requests.post(
    "https://api.openai-hub.com/v1/videos/generations",
    headers={
        "Authorization": "Bearer YOUR_OPENAI_HUB_KEY",
        "Content-Type": "application/json"
    },
    json={
        "model": "kling-3.0",  # 未来可切换为 happyhorse-1.0
        "prompt": "一只金色的马在草原上奔跑，阳光洒在鬃毛上，镜头跟随，环境音为风声和马蹄声",
        "size": "1280x720",
        "duration": 5,
        "fps": 24,
        "audio": True
    }
)

print(response.json())

保持工具链中立是个好习惯。把 prompt 模板、审核流程、后处理管线先跑通，模型层面随时可以热切换。

更大的图景：2026 年视频生成的四个趋势

HappyHorse 的出现不是孤立事件，它折射出 2026 年视频生成领域正在发生的几个结构性变化：

单流 Transformer 替代多流复杂结构。以前视频生成模型动辄几个子网络串联，现在越来越多团队在验证「一个 Transformer 搞定一切」的可行性。HappyHorse 和通义万相 Wan2.5 都在走这条路。架构越简单，工程化越容易，社区生态越容易建立。

极少步推理替代几十步去噪。从 50 步到 25 步到 8 步，推理步数的压缩直接决定了部署成本和用户体验。8 步推理如果质量真的能打，那视频生成的实时化就不再是天方夜谭。

匿名上榜替代论文先行。越来越多的团队选择先在盲测中证明自己，再公布身份和技术细节。这种「用结果说话」的发布方式，比动辄几十页的技术报告更有效率，也更难造假。

开源承诺替代闭源 API。这一点最关键。当头部视频模型开始开源，整个生态的创新速度会指数级加快。想想 LLaMA 开源后发生了什么——几个月内社区就搞出了量化、微调、合并的完整工具链。视频生成领域可能正在迎来同样的拐点。

这四个变化任何一个单独出现都不算颠覆，但叠在一起，意味着视频生成正在从「少数大厂的专属游戏」变成「所有开发者都能参与的开放竞技场」。

冷静一下

话说回来，也别太上头。

720p、5 秒的规格在商业场景里确实偏弱。Arena 盲测的样本量和评测维度是否足够全面，还需要更多验证。开源承诺到实际放出权重之间，历史上也不是没有跳票的先例。

而且「登顶后消失」这个操作，虽然从营销角度很聪明，但也让人没法对模型做持续的独立评测。等代码和权重真正放出来，社区能跑起来、能复现 Arena 上的表现，那才是真正的盖棺定论。

不过有一点是确定的：阿里在视频生成上的投入在加速。从通义万相 Wan2.5 的原生多模态架构，到 Wan2.6 的多镜头叙事，再到现在 HappyHorse 的极简推理路线，不同团队在不同方向上同时推进。这种内部赛马的打法，在大模型时代已经被证明是有效的。

对开发者来说，最务实的做法就是：关注官方仓库，等权重放出后第一时间跑个 benchmark，同时保持现有工具链的灵活性，随时准备切换。

这匹快乐的马，值得你给它一个跑起来的机会。

参考来源：

HappyHorse 模型幕后团队曝光 - Linux.do — 社区讨论帖，包含模型基本参数和团队信息
信源：微信公众号原文 — HappyHorse 模型官方信息发布

阿里开源HappyHorse：8步生成音画同步视频

先说最重要的：它开源了什么

架构上的野心：一个 Transformer 搞定一切

具体能生成什么

Arena 登顶又消失：一次精心策划的亮相？

跟竞品比，HappyHorse 处在什么位置

对开发者意味着什么

如果你想现在就用上视频生成 API

更大的图景：2026 年视频生成的四个趋势

冷静一下

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们