阿里今日推出视频生成模型 HappyHorse 1.1，在动态表现力、主体一致性、指令遵循、视觉质感和音频能力五个维度做了系统性升级。1.0 那一版刚拿下 Artificial Analysis 视频竞技场榜首，1.1 紧跟着压了上来。

阿里 HappyHorse 1.1 上线：开源视频模型这次把油光感修了

6 月 22 日，阿里把 HappyHorse 1.1 推上线了。HappyHorse 官网、阿里云百炼、千问云三条入口同步接入，老用户的工作流不用改，调一下版本号就行。

这事情之所以值得拿出来说，是因为 HappyHorse 1.0 上个月刚以 1333 Elo 分登上 Artificial Analysis 视频竞技场榜首，对 OVI 1.1 的胜率 80%、对 LTX 2.3 的胜率 60.9%——这是目前全球排名最高的开源视频生成模型。1.0 还热乎着，1.1 就压上来了，迭代节奏明显比一般大厂模型快一档。

HappyHorse 1.1 官网首页与生成示例

先说没变的：规格还是那套

这次 1.1 在底层规格上和 1.0 是一致的：

单次生成时长：3 到 15 秒
分辨率：720p / 1080p
宽高比：自由
参数量：150 亿（沿用 1.0 架构）
结构：40 层统一自注意力 Transformer
音视频：原生联合生成，七种语言唇形同步（英、普、粤、日、韩、德、法）

1.0 那张「单 H100 跑 5 秒 1080p 仅需 38 秒」的成绩单，至今在开源阵营里没几个能打的。这意味着 1.1 不是重训了一个新底座，而是在现有架构上做微调和能力修补。从工程角度看，这种迭代代价更小、回归风险更可控，也更像是商用方向的节奏——不破坏既有 pipeline，让企业客户能平滑切换。

五个维度的升级，哪些是真的有用

官方给的升级列表是这五项：动态表现力、主体一致性、指令遵循、视觉质感、音频能力。一项一项看。

1. 动态表现力：解决「PPT 感」

做过视频生成调优的都知道，运动建模和时序一致性是两个不太兼容的目标——想让画面稳，模型就容易"懒"，动作变迟缓、运动幅度小，看起来像高级版的图片动效。1.0 在复杂动作场景下就有这个毛病。

1.1 把这一块单独优化了一遍。官方原话是「让人物、物体运动更加自然连贯，呈现更强的视觉张力与力量感」。实测一些舞蹈、动作、运动场景，确实比 1.0 的"飘"感少了，关键帧之间的过渡更紧实。这对短视频、广告、影视分镜这种强动态需求场景来说，是真刀真枪的提升，不是 demo 数字。

2. 主体一致性：商用刚需

这一块是 R2V（Reference-to-Video，多图参考生视频）能力的强化，也是这次升级里最贴近商用落地的一项。

要解决的问题很具体：

商品细节和品牌元素能不能精准保持（电商投放最在意的事）
角色和场景能不能灵活组合，主体还稳定（剧情类内容刚需）
多分镜、N 宫格参考能不能被正确理解（广告、MV 常用结构）

这几个点，过去开源视频模型都做得一般。一旦参考图多了、组合复杂了，模型就开始"猜"，生成的商品 logo 走样、角色脸糊掉、场景错位。1.1 在多源参考语义理解和融合上下了功夫，从官方放出的示例看，商品材质和品牌细节的还原度肉眼可见地好了一截。

这是要正面接广告、电商赛道的姿态。

3. 指令遵循：长 Prompt 不再"翻车"

复杂叙事 Prompt 一直是视频模型的难点——文本长了、场景多了、角色关系复杂了，模型就会丢东西、张冠李戴，或者干脆把多段描述压成一个画面。

1.1 强化了三个能力：

长上下文语义理解：能消化更长、更复杂的 Prompt
场景规划：知道哪一段对应哪个镜头
角色关系建模：谁和谁是什么关系、在做什么，不混淆

这一项对接入工作流的开发者来说最重要。AIGC 生产链里，文案-分镜-生成-剪辑是一条流水线，前面的 Prompt 工程做得再好，模型理解不到位也是白搭。1.1 的升级方向是让模型自己具备一定的"叙事编排"能力，相当于把过去需要工程师拆解的工作往模型内部下沉了一层。

4. 视觉质感：终于把油光感和涂抹感修了

这一项可能是开发者社区呼声最高的一项。

AI 视频生成的人物质感一直有几个老毛病：

过度锐化，皮肤像贴了反光纸
油光感，每个人都像刚从健身房出来
涂抹感，磨皮过头，没有真实细节
细节失控，要么没有，要么放大成怪物

1.1 在面部细节生成、真实肤质还原、镜头语言理解三个方向同时优化，明确写到「在保留痘印、法令纹、毛孔等真实特征的基础上，避免细节过度放大」。这个表述很有意思——它承认了过去模型在"真实"和"过度"之间的尺度问题，并且明确把分寸感作为优化目标。

对比一下，国外阵营的 Seedance 2.0、可灵 3.0 在质感上各有偏好，HappyHorse 1.1 这次显然是想往"电影感"和"广告级真实"靠拢。

5. 音频能力：原生音视频联合生成的延续

这一项官方没展开细说，但 1.0 时代 HappyHorse 就是全球首个原生支持音视频联合生成的开源视频大模型，唇形同步词错误率在同类开源模型中最低。1.1 在此基础上继续做了优化，七种语言的唇形同步能力延续了下来。

值得一提的是，这种"原生联合"和很多模型"先生成视频再后期对齐音频"的路子是不一样的。后者本质是两个模型拼接，对齐精度有上限；前者在训练阶段就把音视频作为统一模态，理论天花板更高。

横向比一下：和 Seedance、可灵、OVI、LTX 怎么打

按 1.0 的基准成绩：

| 对比维度 | HappyHorse 1.0 vs 对手 | |---------|------------------------| | 文本转视频（无音频） | 超过 Seedance 2.0、可灵 3.0 | | 图像转视频（无音频） | 超过 Seedance 2.0、可灵 3.0 | | 文本转视频（有音频） | 小幅领先 | | 图像转视频（有音频） | 和 Seedance 2.0 打平 | | vs OVI 1.1 | 胜率 80% | | vs LTX 2.3 | 胜率 60.9% |

1.1 这次的升级方向，明显是在「图像转视频（有音频）」这个短板上发力——主体一致性和质感的提升直接对应这条路径。如果新的盲测出来，估计能把这一块的"打平"翻成"领先"。

张迪团队 + 张纪中 + 百万商单：阿里的影像野心

HappyHorse 由前快手副总裁张迪领导团队研发，背景一目了然——这是阿里把短视频赛道的人挖过来，专门做生成式影像的。

这次发版还顺手宣布了和虎鲸文娱集团合办的「Horsepower」AI 影像大赛，评委里有张纪中。这个动作很值得品：

传统影视圈背书：张纪中代表的是传统内容生产侧的认可，这对 AIGC 内容进入主流影视体系是关键一步
百万商单合作：直接给优胜者真金白银的商业机会，目标显然不是「玩票」用户，而是想把专业创作者拉进来
生态闭环：模型 + 评比 + 商单分发，这套打法和当年快手扶持创作者的逻辑一脉相承

开源开放 + 商业生态闭环，这是阿里在大模型领域一贯的路数。和通义千问那套打法对照着看，会发现是同一套方法论在视频模态上的复制。

对开发者意味着什么

几条比较实在的判断：

开源是真开源：150 亿参数、40 层 Transformer 的架构细节都公开过，1.0 已经放出来了，1.1 大概率不会例外。这意味着私有化部署、二次微调都有路径
推理成本不高：单 H100 跑 5 秒 1080p 只要 38 秒，这个效率在 150 亿参数的视频模型里算很能打的
R2V 能力可以直接用在电商：1.1 主体一致性的提升对 SKU 视频生成这种典型场景，是立竿见影的
API 接入路径完整：阿里云百炼和千问云都接了，企业客户走云端、个人开发者走官网，路径清晰

如果你的产品需要调多家视频模型做对比测试，建议直接拉一个 benchmark：同样的 Prompt，分别在 HappyHorse 1.1、Seedance 2.0、可靈 3.0 上跑一遍，看主体一致性和质感这两项。1.0 时代各家差距还很微妙，1.1 之后这个比较可能会出现明显的拐点。

一点判断

视频生成模型这两年的迭代节奏，越来越像 2023 年的语言模型——每两三个月一次大版本，每次都有看得见的能力升级。HappyHorse 从 1.0 到 1.1 不到两个月，节奏明显在跟上。

更关键的是，1.1 这次升级的方向不是堆参数、不是冲长视频、不是搞炫技效果，而是把商用落地路上的几个具体痛点——主体一致性、质感真实度、长 Prompt 理解——挨个修了一遍。这个选择本身说明阿里对这个模型的定位很清楚：不是用来打榜的，是用来挣钱的。

开源阵营里能这么干的不多。值得盯着看。

OpenAI Hub（openai-hub.com）目前已支持主流视频生成模型的调用聚合，HappyHorse 系列也在接入计划内，需要多模型对比测试的可以关注一下。

参考来源

IT之家：阿里巴巴发布视频生成模型 HappyHorse 1.1 — 官方升级细节和能力描述的一手报道

阿里 HappyHorse 1.1 来了：开源视频模型再上一档