Stability AI 把音乐生成时长拉满到 6 分 20 秒
5 月 20 日,Stability AI 一口气放出了四款新音频模型,统一打包成 Stability Audio 3.0 家族。最大的卖点很直接:顶配版本能一次性吐出 6 分 20 秒的完整歌曲,比 2024 年那版 Stable Audio 2.0 翻了一倍还多。
这是个值得停下来想一想的数字。AI 音乐生成这一两年最大的瓶颈不是音质——音质在 Suno v4、Udio 之后早就过了能听的门槛——而是长时段的结构一致性。3 分钟以内 AI 能糊弄过去,超过 4 分钟基本就是旋律飘移、段落崩坏、副歌找不回来。Stability 这次把可控时长推到 6 分多钟,等于把 AI 生成的歌曲第一次拉到了流行音乐的标准时长区间。

四款模型,三款开源
Stability 这次的产品划分挺清晰,按参数量和定位分了四档:
| 模型 | 参数量 | 定位 | 开源情况 |
|---|---|---|---|
| Small SFX | 4.59 亿 | 设备端音效生成 | 开源 |
| Small | 4.59 亿 | 设备端音乐生成,2 分钟以内 | 开源 |
| Medium | 14 亿 | 完整乐曲,最长 6 分 20 秒 | 开源 |
| Large | 27 亿 | 完整乐曲,最长 6 分 20 秒 | 闭源,仅 API/付费托管 |
两款 4.59 亿参数的 Small 模型主打端侧推理,普通笔记本 CPU 都能跑得动,生成 2 分钟以内的音效或短音乐片段。这一档其实是冲着游戏开发者、独立创作者、播客制作这些场景去的——你不需要每次都掏服务器钱,也不用担心数据上云。
中型 14 亿和大型 27 亿参数的版本,则是真正能拿来做完整作品的。两者都支持 6 分 20 秒的生成上限,差别在于细节精度、音色丰富度和指令跟随能力。Stability 自己也很坦白:Large 模型留着不开源,原因很现实——这是他们目前唯一能持续变现的产品。年营收超过 100 万美元(约合 682 万元人民币)的企业用 Large 模型必须购买商业授权,营收门槛之下的开发者可以通过 API 按量付费。
这种「开源中小档、闭源大档」的切法,其实跟现在主流开源厂商的策略越来越像。Mistral 早期也是这么干的,社区拿到能跑的版本,商业客户付钱用最强的版本。比起 Meta 那种把 Llama 全开但禁止超大体量公司商用的协议,Stability 的方案对小团队反而更友好——你不用读三遍 license 才敢用。
时长翻倍背后的工程逻辑
从 2.0 的不到 3 分钟到 3.0 的 6 分 20 秒,时长翻倍听起来简单,做起来不是把上下文窗口直接拉长那么回事。
音乐生成模型卡在长度上的核心问题有三个:
- 结构记忆:模型得记住前面写了什么主题、用了什么调,副歌回来时不能跑偏。
- 段落规划:4 分钟以上的歌需要有 intro、verse、chorus、bridge、outro 的层级结构,不能从头铺到尾。
- 算力成本:音频 token 化之后序列长度远大于文本,6 分钟的 44.1kHz 立体声原始数据量就是天文数字。
Stability 没公布完整的技术报告,但从模型家族的设计能看出端倪——27 亿参数对于一个音频扩散模型来说并不算大,Suno 和 Udio 据传都用了更大的模型。Stability 选择在中等规模上做精,意味着他们大概率在架构控制层做了不少工作,比如把段落规划、和声进行这些音乐先验显式地编码进模型,而不是纯靠扩大参数去 brute force。
官方原话说,中型和大型模型「展现出更强的架构控制力,能够精准维持音乐结构与旋律基调」。这句话翻译过来就是:他们解决了长程一致性问题,而不只是把生成窗口拉长。
数据合规:跟华纳、环球的提前布局开始兑现
这一代模型有一个常被忽略但其实非常关键的点:全量基于合法授权数据训练。
Stability AI 在 2024 年就已经分别与华纳音乐、环球音乐谈下了数据合作协议。当时业内没太当回事,觉得是公关动作。现在看下来,那是一次相当有前瞻性的布局。
对比一下 Suno 和 Udio 现在的处境——RIAA 起诉还在打,最高可能面临每首歌 15 万美元的法定赔偿,模型权重能不能继续用都是问题。Stability 这一套「合法数据 + 部分开源 + 商业授权门槛」的组合拳,本质上是在押注:未来 AI 音乐产品能不能进入主流商业渠道(Spotify、Apple Music、影视配乐),数据合规是硬门槛。
他们最近还挖来了伊桑·卡普兰,这位先后在环球音频和 Fender 担任过首席数字官,现在负责领衔 Stability 的专业音乐产品业务。配合这次的模型发布,Stability 明显是要做一套面向专业音乐人的工具链,而不是再做一个文生歌的玩具。
怎么试用
三款开源模型的权重已经放出,开发者可以直接下载部署。Small 系列对硬件要求很低,Medium 模型需要至少 16GB 显存(FP16 推理),Large 模型只能走 API。
本地跑 Medium 的一个典型 prompt 用法:
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond
model, model_config = get_pretrained_model("stabilityai/stable-audio-3-medium")
conditioning = [{
"prompt": "upbeat synthwave track with driving bassline, 120 BPM, energetic chorus around 1:30",
"seconds_start": 0,
"seconds_total": 240
}]
output = generate_diffusion_cond(
model,
steps=100,
cfg_scale=7,
conditioning=conditioning,
sample_size=model_config["sample_size"],
sigma_min=0.3,
sigma_max=500,
sampler_type="dpmpp-3m-sde"
)
值得一提的是,Prompt 里 seconds_total 可以拉到 380(也就是 6 分 20 秒上限),这是 3.0 的新能力。2.0 时代这里写超过 190 秒模型基本就开始崩了。

对开发者意味着什么
说点实在的,这次发布对几类开发者有直接影响:
游戏和应用开发者:Small SFX 模型是个非常合身的工具。游戏里那些「需要一段紧张追逐的背景音乐」「按钮点击的反馈音效」之类的需求,原来要么买素材库要么找外包,现在可以端侧实时生成,4.59 亿参数的体量塞进游戏客户端也不算太离谱。
独立音乐人和创作者:Medium 模型开源 + 6 分钟时长,意味着你可以在自己的工作站上跑一个完整的歌曲生成流水线,不用每次都掏 Suno 的订阅费。质量大概率比不上 Large,但「够用」这件事已经从 30 秒片段升级到了 6 分钟整曲。
做 AI 音乐 SaaS 的团队:Large 模型 + 商业授权这条路提供了一个新选项。如果你不想自己从头训模型,又需要顶级质量,可以走 Stability 的 API;如果业务规模还小,可以先用 Medium 自己部署,规模上来了再切。
模型研究者:三档开源权重是个不错的研究素材,可以用来分析音乐生成模型的 scaling law、不同规模下结构一致性的表现差异。这方面公开可比较的开源资源还非常少。
最后
AI 音乐这条赛道这两年挺微妙——Suno 和 Udio 把消费级体验做到了爆款级别,但官司缠身;Google 的 Lyria 藏在 YouTube 后面不太露面;Meta 的 MusicGen 久未更新。Stability 这次用「合规数据 + 开源策略 + 时长突破」的组合切入,重新把自己摆回了牌桌上。
6 分 20 秒不是终点。但它是 AI 生成音乐从「短视频 BGM」走向「能放进专辑」的一个分水岭。下一步要解决的,是人声生成的自然度、多轨可编辑性,以及和 DAW 工作流的打通——这些才是专业音乐人真正在意的事。
参考来源
- IT之家 - Stability AI 推出音频模型 Stability Audio 3.0:原始报道,包含模型规格、参数量与商业授权细节
- Hugging Face - Stability AI 模型主页:Stable Audio 3.0 开源模型权重下载与使用文档