Stability Audio 3.0 发布：6分钟音乐生成，三款模型开源

Stability AI 发布 Audio 3.0 家族，包含四款不同规格模型，最大版本可生成 6 分 20 秒完整歌曲，三款中小型模型权重全面开源，但大模型保留商业授权。

Stability AI 把音乐生成时长拉满到 6 分 20 秒

5 月 20 日，Stability AI 一口气放出了四款新音频模型，统一打包成 Stability Audio 3.0 家族。最大的卖点很直接：顶配版本能一次性吐出 6 分 20 秒的完整歌曲，比 2024 年那版 Stable Audio 2.0 翻了一倍还多。

这是个值得停下来想一想的数字。AI 音乐生成这一两年最大的瓶颈不是音质——音质在 Suno v4、Udio 之后早就过了能听的门槛——而是长时段的结构一致性。3 分钟以内 AI 能糊弄过去，超过 4 分钟基本就是旋律飘移、段落崩坏、副歌找不回来。Stability 这次把可控时长推到 6 分多钟，等于把 AI 生成的歌曲第一次拉到了流行音乐的标准时长区间。

Stability Audio 3.0 模型家族架构示意图

四款模型，三款开源

Stability 这次的产品划分挺清晰，按参数量和定位分了四档：

模型	参数量	定位	开源情况
Small SFX	4.59 亿	设备端音效生成	开源
Small	4.59 亿	设备端音乐生成，2 分钟以内	开源
Medium	14 亿	完整乐曲，最长 6 分 20 秒	开源
Large	27 亿	完整乐曲，最长 6 分 20 秒	闭源，仅 API/付费托管

两款 4.59 亿参数的 Small 模型主打端侧推理，普通笔记本 CPU 都能跑得动，生成 2 分钟以内的音效或短音乐片段。这一档其实是冲着游戏开发者、独立创作者、播客制作这些场景去的——你不需要每次都掏服务器钱，也不用担心数据上云。

中型 14 亿和大型 27 亿参数的版本，则是真正能拿来做完整作品的。两者都支持 6 分 20 秒的生成上限，差别在于细节精度、音色丰富度和指令跟随能力。Stability 自己也很坦白：Large 模型留着不开源，原因很现实——这是他们目前唯一能持续变现的产品。年营收超过 100 万美元（约合 682 万元人民币）的企业用 Large 模型必须购买商业授权，营收门槛之下的开发者可以通过 API 按量付费。

这种「开源中小档、闭源大档」的切法，其实跟现在主流开源厂商的策略越来越像。Mistral 早期也是这么干的，社区拿到能跑的版本，商业客户付钱用最强的版本。比起 Meta 那种把 Llama 全开但禁止超大体量公司商用的协议，Stability 的方案对小团队反而更友好——你不用读三遍 license 才敢用。

时长翻倍背后的工程逻辑

从 2.0 的不到 3 分钟到 3.0 的 6 分 20 秒，时长翻倍听起来简单，做起来不是把上下文窗口直接拉长那么回事。

音乐生成模型卡在长度上的核心问题有三个：

结构记忆：模型得记住前面写了什么主题、用了什么调，副歌回来时不能跑偏。
段落规划：4 分钟以上的歌需要有 intro、verse、chorus、bridge、outro 的层级结构，不能从头铺到尾。
算力成本：音频 token 化之后序列长度远大于文本，6 分钟的 44.1kHz 立体声原始数据量就是天文数字。

Stability 没公布完整的技术报告，但从模型家族的设计能看出端倪——27 亿参数对于一个音频扩散模型来说并不算大，Suno 和 Udio 据传都用了更大的模型。Stability 选择在中等规模上做精，意味着他们大概率在架构控制层做了不少工作，比如把段落规划、和声进行这些音乐先验显式地编码进模型，而不是纯靠扩大参数去 brute force。

官方原话说，中型和大型模型「展现出更强的架构控制力，能够精准维持音乐结构与旋律基调」。这句话翻译过来就是：他们解决了长程一致性问题，而不只是把生成窗口拉长。

数据合规：跟华纳、环球的提前布局开始兑现

这一代模型有一个常被忽略但其实非常关键的点：全量基于合法授权数据训练。

Stability AI 在 2024 年就已经分别与华纳音乐、环球音乐谈下了数据合作协议。当时业内没太当回事，觉得是公关动作。现在看下来，那是一次相当有前瞻性的布局。

对比一下 Suno 和 Udio 现在的处境——RIAA 起诉还在打，最高可能面临每首歌 15 万美元的法定赔偿，模型权重能不能继续用都是问题。Stability 这一套「合法数据 + 部分开源 + 商业授权门槛」的组合拳，本质上是在押注：未来 AI 音乐产品能不能进入主流商业渠道（Spotify、Apple Music、影视配乐），数据合规是硬门槛。

他们最近还挖来了伊桑·卡普兰，这位先后在环球音频和 Fender 担任过首席数字官，现在负责领衔 Stability 的专业音乐产品业务。配合这次的模型发布，Stability 明显是要做一套面向专业音乐人的工具链，而不是再做一个文生歌的玩具。

怎么试用

三款开源模型的权重已经放出，开发者可以直接下载部署。Small 系列对硬件要求很低，Medium 模型需要至少 16GB 显存（FP16 推理），Large 模型只能走 API。

本地跑 Medium 的一个典型 prompt 用法：

from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

model, model_config = get_pretrained_model("stabilityai/stable-audio-3-medium")

conditioning = [{
    "prompt": "upbeat synthwave track with driving bassline, 120 BPM, energetic chorus around 1:30",
    "seconds_start": 0,
    "seconds_total": 240
}]

output = generate_diffusion_cond(
    model,
    steps=100,
    cfg_scale=7,
    conditioning=conditioning,
    sample_size=model_config["sample_size"],
    sigma_min=0.3,
    sigma_max=500,
    sampler_type="dpmpp-3m-sde"
)

值得一提的是，Prompt 里 seconds_total 可以拉到 380（也就是 6 分 20 秒上限），这是 3.0 的新能力。2.0 时代这里写超过 190 秒模型基本就开始崩了。

不同时长下生成质量对比图

对开发者意味着什么

说点实在的，这次发布对几类开发者有直接影响：

游戏和应用开发者：Small SFX 模型是个非常合身的工具。游戏里那些「需要一段紧张追逐的背景音乐」「按钮点击的反馈音效」之类的需求，原来要么买素材库要么找外包，现在可以端侧实时生成，4.59 亿参数的体量塞进游戏客户端也不算太离谱。

独立音乐人和创作者：Medium 模型开源 + 6 分钟时长，意味着你可以在自己的工作站上跑一个完整的歌曲生成流水线，不用每次都掏 Suno 的订阅费。质量大概率比不上 Large，但「够用」这件事已经从 30 秒片段升级到了 6 分钟整曲。

做 AI 音乐 SaaS 的团队：Large 模型 + 商业授权这条路提供了一个新选项。如果你不想自己从头训模型，又需要顶级质量，可以走 Stability 的 API；如果业务规模还小，可以先用 Medium 自己部署，规模上来了再切。

模型研究者：三档开源权重是个不错的研究素材，可以用来分析音乐生成模型的 scaling law、不同规模下结构一致性的表现差异。这方面公开可比较的开源资源还非常少。

最后

AI 音乐这条赛道这两年挺微妙——Suno 和 Udio 把消费级体验做到了爆款级别，但官司缠身；Google 的 Lyria 藏在 YouTube 后面不太露面；Meta 的 MusicGen 久未更新。Stability 这次用「合规数据 + 开源策略 + 时长突破」的组合切入，重新把自己摆回了牌桌上。

6 分 20 秒不是终点。但它是 AI 生成音乐从「短视频 BGM」走向「能放进专辑」的一个分水岭。下一步要解决的，是人声生成的自然度、多轨可编辑性，以及和 DAW 工作流的打通——这些才是专业音乐人真正在意的事。

参考来源

IT之家 - Stability AI 推出音频模型 Stability Audio 3.0：原始报道，包含模型规格、参数量与商业授权细节
Hugging Face - Stability AI 模型主页：Stable Audio 3.0 开源模型权重下载与使用文档

Stability Audio 3.0 开源三款模型，单曲生成拉到6分钟