Stability Audio 3.0 开源三款模型,单曲生成拉到6分钟

模型上新

Stability AI 发布 Audio 3.0 家族,包含四款不同规格模型,最大版本可生成 6 分 20 秒完整歌曲,三款中小型模型权重全面开源,但大模型保留商业授权。

Stability AI 把音乐生成时长拉满到 6 分 20 秒

5 月 20 日,Stability AI 一口气放出了四款新音频模型,统一打包成 Stability Audio 3.0 家族。最大的卖点很直接:顶配版本能一次性吐出 6 分 20 秒的完整歌曲,比 2024 年那版 Stable Audio 2.0 翻了一倍还多。

这是个值得停下来想一想的数字。AI 音乐生成这一两年最大的瓶颈不是音质——音质在 Suno v4、Udio 之后早就过了能听的门槛——而是长时段的结构一致性。3 分钟以内 AI 能糊弄过去,超过 4 分钟基本就是旋律飘移、段落崩坏、副歌找不回来。Stability 这次把可控时长推到 6 分多钟,等于把 AI 生成的歌曲第一次拉到了流行音乐的标准时长区间。

Stability Audio 3.0 模型家族架构示意图

四款模型,三款开源

Stability 这次的产品划分挺清晰,按参数量和定位分了四档:

模型 参数量 定位 开源情况
Small SFX 4.59 亿 设备端音效生成 开源
Small 4.59 亿 设备端音乐生成,2 分钟以内 开源
Medium 14 亿 完整乐曲,最长 6 分 20 秒 开源
Large 27 亿 完整乐曲,最长 6 分 20 秒 闭源,仅 API/付费托管

两款 4.59 亿参数的 Small 模型主打端侧推理,普通笔记本 CPU 都能跑得动,生成 2 分钟以内的音效或短音乐片段。这一档其实是冲着游戏开发者、独立创作者、播客制作这些场景去的——你不需要每次都掏服务器钱,也不用担心数据上云。

中型 14 亿和大型 27 亿参数的版本,则是真正能拿来做完整作品的。两者都支持 6 分 20 秒的生成上限,差别在于细节精度、音色丰富度和指令跟随能力。Stability 自己也很坦白:Large 模型留着不开源,原因很现实——这是他们目前唯一能持续变现的产品。年营收超过 100 万美元(约合 682 万元人民币)的企业用 Large 模型必须购买商业授权,营收门槛之下的开发者可以通过 API 按量付费。

这种「开源中小档、闭源大档」的切法,其实跟现在主流开源厂商的策略越来越像。Mistral 早期也是这么干的,社区拿到能跑的版本,商业客户付钱用最强的版本。比起 Meta 那种把 Llama 全开但禁止超大体量公司商用的协议,Stability 的方案对小团队反而更友好——你不用读三遍 license 才敢用。

时长翻倍背后的工程逻辑

从 2.0 的不到 3 分钟到 3.0 的 6 分 20 秒,时长翻倍听起来简单,做起来不是把上下文窗口直接拉长那么回事。

音乐生成模型卡在长度上的核心问题有三个:

  1. 结构记忆:模型得记住前面写了什么主题、用了什么调,副歌回来时不能跑偏。
  2. 段落规划:4 分钟以上的歌需要有 intro、verse、chorus、bridge、outro 的层级结构,不能从头铺到尾。
  3. 算力成本:音频 token 化之后序列长度远大于文本,6 分钟的 44.1kHz 立体声原始数据量就是天文数字。

Stability 没公布完整的技术报告,但从模型家族的设计能看出端倪——27 亿参数对于一个音频扩散模型来说并不算大,Suno 和 Udio 据传都用了更大的模型。Stability 选择在中等规模上做精,意味着他们大概率在架构控制层做了不少工作,比如把段落规划、和声进行这些音乐先验显式地编码进模型,而不是纯靠扩大参数去 brute force。

官方原话说,中型和大型模型「展现出更强的架构控制力,能够精准维持音乐结构与旋律基调」。这句话翻译过来就是:他们解决了长程一致性问题,而不只是把生成窗口拉长。

数据合规:跟华纳、环球的提前布局开始兑现

这一代模型有一个常被忽略但其实非常关键的点:全量基于合法授权数据训练

Stability AI 在 2024 年就已经分别与华纳音乐、环球音乐谈下了数据合作协议。当时业内没太当回事,觉得是公关动作。现在看下来,那是一次相当有前瞻性的布局。

对比一下 Suno 和 Udio 现在的处境——RIAA 起诉还在打,最高可能面临每首歌 15 万美元的法定赔偿,模型权重能不能继续用都是问题。Stability 这一套「合法数据 + 部分开源 + 商业授权门槛」的组合拳,本质上是在押注:未来 AI 音乐产品能不能进入主流商业渠道(Spotify、Apple Music、影视配乐),数据合规是硬门槛。

他们最近还挖来了伊桑·卡普兰,这位先后在环球音频和 Fender 担任过首席数字官,现在负责领衔 Stability 的专业音乐产品业务。配合这次的模型发布,Stability 明显是要做一套面向专业音乐人的工具链,而不是再做一个文生歌的玩具。

怎么试用

三款开源模型的权重已经放出,开发者可以直接下载部署。Small 系列对硬件要求很低,Medium 模型需要至少 16GB 显存(FP16 推理),Large 模型只能走 API。

本地跑 Medium 的一个典型 prompt 用法:

from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

model, model_config = get_pretrained_model("stabilityai/stable-audio-3-medium")

conditioning = [{
    "prompt": "upbeat synthwave track with driving bassline, 120 BPM, energetic chorus around 1:30",
    "seconds_start": 0,
    "seconds_total": 240
}]

output = generate_diffusion_cond(
    model,
    steps=100,
    cfg_scale=7,
    conditioning=conditioning,
    sample_size=model_config["sample_size"],
    sigma_min=0.3,
    sigma_max=500,
    sampler_type="dpmpp-3m-sde"
)

值得一提的是,Prompt 里 seconds_total 可以拉到 380(也就是 6 分 20 秒上限),这是 3.0 的新能力。2.0 时代这里写超过 190 秒模型基本就开始崩了。

不同时长下生成质量对比图

对开发者意味着什么

说点实在的,这次发布对几类开发者有直接影响:

游戏和应用开发者:Small SFX 模型是个非常合身的工具。游戏里那些「需要一段紧张追逐的背景音乐」「按钮点击的反馈音效」之类的需求,原来要么买素材库要么找外包,现在可以端侧实时生成,4.59 亿参数的体量塞进游戏客户端也不算太离谱。

独立音乐人和创作者:Medium 模型开源 + 6 分钟时长,意味着你可以在自己的工作站上跑一个完整的歌曲生成流水线,不用每次都掏 Suno 的订阅费。质量大概率比不上 Large,但「够用」这件事已经从 30 秒片段升级到了 6 分钟整曲。

做 AI 音乐 SaaS 的团队:Large 模型 + 商业授权这条路提供了一个新选项。如果你不想自己从头训模型,又需要顶级质量,可以走 Stability 的 API;如果业务规模还小,可以先用 Medium 自己部署,规模上来了再切。

模型研究者:三档开源权重是个不错的研究素材,可以用来分析音乐生成模型的 scaling law、不同规模下结构一致性的表现差异。这方面公开可比较的开源资源还非常少。

最后

AI 音乐这条赛道这两年挺微妙——Suno 和 Udio 把消费级体验做到了爆款级别,但官司缠身;Google 的 Lyria 藏在 YouTube 后面不太露面;Meta 的 MusicGen 久未更新。Stability 这次用「合规数据 + 开源策略 + 时长突破」的组合切入,重新把自己摆回了牌桌上。

6 分 20 秒不是终点。但它是 AI 生成音乐从「短视频 BGM」走向「能放进专辑」的一个分水岭。下一步要解决的,是人声生成的自然度、多轨可编辑性,以及和 DAW 工作流的打通——这些才是专业音乐人真正在意的事。

参考来源