阿里 HappyHorse 1.1 来了:开源视频模型再上一档

阿里今日推出视频生成模型 HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力五个维度做了系统性升级。1.0 那一版刚拿下 Artificial Analysis 视频竞技场榜首,1.1 紧跟着压了上来。
阿里 HappyHorse 1.1 上线:开源视频模型这次把油光感修了
6 月 22 日,阿里把 HappyHorse 1.1 推上线了。HappyHorse 官网、阿里云百炼、千问云三条入口同步接入,老用户的工作流不用改,调一下版本号就行。
这事情之所以值得拿出来说,是因为 HappyHorse 1.0 上个月刚以 1333 Elo 分登上 Artificial Analysis 视频竞技场榜首,对 OVI 1.1 的胜率 80%、对 LTX 2.3 的胜率 60.9%——这是目前全球排名最高的开源视频生成模型。1.0 还热乎着,1.1 就压上来了,迭代节奏明显比一般大厂模型快一档。

先说没变的:规格还是那套
这次 1.1 在底层规格上和 1.0 是一致的:
- 单次生成时长:3 到 15 秒
- 分辨率:720p / 1080p
- 宽高比:自由
- 参数量:150 亿(沿用 1.0 架构)
- 结构:40 层统一自注意力 Transformer
- 音视频:原生联合生成,七种语言唇形同步(英、普、粤、日、韩、德、法)
1.0 那张「单 H100 跑 5 秒 1080p 仅需 38 秒」的成绩单,至今在开源阵营里没几个能打的。这意味着 1.1 不是重训了一个新底座,而是在现有架构上做微调和能力修补。从工程角度看,这种迭代代价更小、回归风险更可控,也更像是商用方向的节奏——不破坏既有 pipeline,让企业客户能平滑切换。
五个维度的升级,哪些是真的有用
官方给的升级列表是这五项:动态表现力、主体一致性、指令遵循、视觉质感、音频能力。一项一项看。
1. 动态表现力:解决「PPT 感」
做过视频生成调优的都知道,运动建模和时序一致性是两个不太兼容的目标——想让画面稳,模型就容易"懒",动作变迟缓、运动幅度小,看起来像高级版的图片动效。1.0 在复杂动作场景下就有这个毛病。
1.1 把这一块单独优化了一遍。官方原话是「让人物、物体运动更加自然连贯,呈现更强的视觉张力与力量感」。实测一些舞蹈、动作、运动场景,确实比 1.0 的"飘"感少了,关键帧之间的过渡更紧实。这对短视频、广告、影视分镜这种强动态需求场景来说,是真刀真枪的提升,不是 demo 数字。
2. 主体一致性:商用刚需
这一块是 R2V(Reference-to-Video,多图参考生视频)能力的强化,也是这次升级里最贴近商用落地的一项。
要解决的问题很具体:
- 商品细节和品牌元素能不能精准保持(电商投放最在意的事)
- 角色和场景能不能灵活组合,主体还稳定(剧情类内容刚需)
- 多分镜、N 宫格参考能不能被正确理解(广告、MV 常用结构)
这几个点,过去开源视频模型都做得一般。一旦参考图多了、组合复杂了,模型就开始"猜",生成的商品 logo 走样、角色脸糊掉、场景错位。1.1 在多源参考语义理解和融合上下了功夫,从官方放出的示例看,商品材质和品牌细节的还原度肉眼可见地好了一截。
这是要正面接广告、电商赛道的姿态。
3. 指令遵循:长 Prompt 不再"翻车"
复杂叙事 Prompt 一直是视频模型的难点——文本长了、场景多了、角色关系复杂了,模型就会丢东西、张冠李戴,或者干脆把多段描述压成一个画面。
1.1 强化了三个能力:
- 长上下文语义理解:能消化更长、更复杂的 Prompt
- 场景规划:知道哪一段对应哪个镜头
- 角色关系建模:谁和谁是什么关系、在做什么,不混淆
这一项对接入工作流的开发者来说最重要。AIGC 生产链里,文案-分镜-生成-剪辑是一条流水线,前面的 Prompt 工程做得再好,模型理解不到位也是白搭。1.1 的升级方向是让模型自己具备一定的"叙事编排"能力,相当于把过去需要工程师拆解的工作往模型内部下沉了一层。
4. 视觉质感:终于把油光感和涂抹感修了
这一项可能是开发者社区呼声最高的一项。
AI 视频生成的人物质感一直有几个老毛病:
- 过度锐化,皮肤像贴了反光纸
- 油光感,每个人都像刚从健身房出来
- 涂抹感,磨皮过头,没有真实细节
- 细节失控,要么没有,要么放大成怪物
1.1 在面部细节生成、真实肤质还原、镜头语言理解三个方向同时优化,明确写到「在保留痘印、法令纹、毛孔等真实特征的基础上,避免细节过度放大」。这个表述很有意思——它承认了过去模型在"真实"和"过度"之间的尺度问题,并且明确把分寸感作为优化目标。
对比一下,国外阵营的 Seedance 2.0、可灵 3.0 在质感上各有偏好,HappyHorse 1.1 这次显然是想往"电影感"和"广告级真实"靠拢。
5. 音频能力:原生音视频联合生成的延续
这一项官方没展开细说,但 1.0 时代 HappyHorse 就是全球首个原生支持音视频联合生成的开源视频大模型,唇形同步词错误率在同类开源模型中最低。1.1 在此基础上继续做了优化,七种语言的唇形同步能力延续了下来。
值得一提的是,这种"原生联合"和很多模型"先生成视频再后期对齐音频"的路子是不一样的。后者本质是两个模型拼接,对齐精度有上限;前者在训练阶段就把音视频作为统一模态,理论天花板更高。
横向比一下:和 Seedance、可灵、OVI、LTX 怎么打
按 1.0 的基准成绩:
| 对比维度 | HappyHorse 1.0 vs 对手 | |---------|------------------------| | 文本转视频(无音频) | 超过 Seedance 2.0、可灵 3.0 | | 图像转视频(无音频) | 超过 Seedance 2.0、可灵 3.0 | | 文本转视频(有音频) | 小幅领先 | | 图像转视频(有音频) | 和 Seedance 2.0 打平 | | vs OVI 1.1 | 胜率 80% | | vs LTX 2.3 | 胜率 60.9% |
1.1 这次的升级方向,明显是在「图像转视频(有音频)」这个短板上发力——主体一致性和质感的提升直接对应这条路径。如果新的盲测出来,估计能把这一块的"打平"翻成"领先"。
张迪团队 + 张纪中 + 百万商单:阿里的影像野心
HappyHorse 由前快手副总裁张迪领导团队研发,背景一目了然——这是阿里把短视频赛道的人挖过来,专门做生成式影像的。
这次发版还顺手宣布了和虎鲸文娱集团合办的「Horsepower」AI 影像大赛,评委里有张纪中。这个动作很值得品:
- 传统影视圈背书:张纪中代表的是传统内容生产侧的认可,这对 AIGC 内容进入主流影视体系是关键一步
- 百万商单合作:直接给优胜者真金白银的商业机会,目标显然不是「玩票」用户,而是想把专业创作者拉进来
- 生态闭环:模型 + 评比 + 商单分发,这套打法和当年快手扶持创作者的逻辑一脉相承
开源开放 + 商业生态闭环,这是阿里在大模型领域一贯的路数。和通义千问那套打法对照着看,会发现是同一套方法论在视频模态上的复制。
对开发者意味着什么
几条比较实在的判断:
- 开源是真开源:150 亿参数、40 层 Transformer 的架构细节都公开过,1.0 已经放出来了,1.1 大概率不会例外。这意味着私有化部署、二次微调都有路径
- 推理成本不高:单 H100 跑 5 秒 1080p 只要 38 秒,这个效率在 150 亿参数的视频模型里算很能打的
- R2V 能力可以直接用在电商:1.1 主体一致性的提升对 SKU 视频生成这种典型场景,是立竿见影的
- API 接入路径完整:阿里云百炼和千问云都接了,企业客户走云端、个人开发者走官网,路径清晰
如果你的产品需要调多家视频模型做对比测试,建议直接拉一个 benchmark:同样的 Prompt,分别在 HappyHorse 1.1、Seedance 2.0、可靈 3.0 上跑一遍,看主体一致性和质感这两项。1.0 时代各家差距还很微妙,1.1 之后这个比较可能会出现明显的拐点。
一点判断
视频生成模型这两年的迭代节奏,越来越像 2023 年的语言模型——每两三个月一次大版本,每次都有看得见的能力升级。HappyHorse 从 1.0 到 1.1 不到两个月,节奏明显在跟上。
更关键的是,1.1 这次升级的方向不是堆参数、不是冲长视频、不是搞炫技效果,而是把商用落地路上的几个具体痛点——主体一致性、质感真实度、长 Prompt 理解——挨个修了一遍。这个选择本身说明阿里对这个模型的定位很清楚:不是用来打榜的,是用来挣钱的。
开源阵营里能这么干的不多。值得盯着看。
OpenAI Hub(openai-hub.com)目前已支持主流视频生成模型的调用聚合,HappyHorse 系列也在接入计划内,需要多模型对比测试的可以关注一下。
参考来源
- IT之家:阿里巴巴发布视频生成模型 HappyHorse 1.1 — 官方升级细节和能力描述的一手报道



