Stability Audio 3.0 发布:6 分钟音乐生成,四款模型全面开源
Stability AI 今天(5 月 20 日)发布了 Stability Audio 3.0 音频生成模型家族,这是继去年 Stable Audio 2.0 之后的重大升级。最大的亮点是顶级版本可以生成长达 6 分钟 20 秒的完整音乐作品,生成长度直接翻倍,并且在音乐结构和旋律连贯性上有明显提升。
这次发布不是单一模型,而是一个完整的产品矩阵:从可以在手机上跑的轻量级版本,到需要 API 调用的 27 亿参数大模型,覆盖了从端侧到云端的全场景需求。更重要的是,Stability AI 这次把三款模型直接开源了,开发者可以自由下载权重、修改架构,这在商业音频生成领域并不常见。

四款模型,各有侧重
Stability Audio 3.0 包含四个版本,参数规模从 4500 万到 27 亿不等:
- 小型 XFS 版:4500 万参数,专为极低延迟场景设计,可以在移动设备上实时生成音效
- 小型版:同样是 4500 万参数,但针对音乐生成优化,能在端侧生成最长 2 分钟的音乐片段
- 中型版:14 亿参数,可以生成 6 分钟 20 秒的完整音乐作品,支持更复杂的结构控制
- 大型版:27 亿参数,架构控制能力最强,同样支持 6 分钟以上的长音频生成,但目前仅通过 API 提供
这个产品线设计很清晰:小型模型解决端侧场景的实时性问题,中型和大型模型则瞄准专业音乐制作。两款小型模型可以在普通笔记本甚至手机上运行,不需要联网,这对游戏音效、短视频配乐这类场景很实用。中型和大型模型的 6 分钟生成能力则直接对标传统音乐制作流程——一首完整的流行歌曲通常在 3 到 5 分钟,6 分钟已经足够覆盖绝大多数商业需求。
开源策略:三款模型权重全部放出
Stability AI 这次把小型 XFS、小型版和中型版三款模型的权重全部开源,开发者可以直接下载、修改、部署。这意味着你可以拿这些模型做二次训练,接入自己的数据集,或者针对特定风格(比如电子音乐、古典音乐)做微调。
唯一不开源的是 27 亿参数的大型版本,它只能通过 API 或付费托管服务使用。Stability AI 的商业化策略也很明确:年营收超过 100 万美元的企业必须购买商业授权才能使用大型模型。这个门槛设置得比较高,基本上是针对唱片公司、游戏大厂、影视制作公司这类有规模化需求的客户。
对比一下竞品:OpenAI 的 Jukebox 和 Google 的 MusicLM 都没有开源,Meta 的 MusicGen 虽然开源但生成长度只有 30 秒,Suno 和 Udio 这类产品则完全是闭源 SaaS。Stability AI 这次的开源力度在音频生成领域算是比较激进的,尤其是中型版本的 14 亿参数规模已经足够做很多事情。
版权问题:提前和唱片巨头谈好了
AI 音乐生成最大的雷区是版权。去年 Suno 和 Udio 被环球音乐、索尼音乐、华纳音乐三大唱片公司集体起诉,理由是未经授权使用版权音乐训练模型。Stability AI 显然吸取了教训,在去年就和华纳音乐集团、环球音乐集团达成了深度合作协议。
官方强调,Stability Audio 3.0 的训练数据集全部来自合法授权的音乐库。这意味着模型不会生成和现有版权作品高度相似的内容,也不会因为训练数据问题被起诉。这个合规策略对 B 端客户很重要——如果你是游戏公司或者广告公司,用一个有版权风险的模型生成配乐,后续可能面临巨额赔偿。
不过,合法授权的数据集也意味着训练成本更高。Stability AI 需要向唱片公司支付授权费,这部分成本最终会体现在 API 定价和商业授权费用上。相比之下,那些用爬虫数据训练的模型成本更低,但法律风险也更高。
技术细节:架构控制和长音频生成
Stability Audio 3.0 的核心改进在于两个方面:架构控制和长音频生成。
传统的音频生成模型(比如 Stable Diffusion 的音频版本)在生成长音频时容易出现结构混乱的问题。比如你让它生成一首 5 分钟的电子音乐,前 2 分钟可能是正常的旋律,但到了 3 分钟之后就开始重复或者跑调。这是因为模型缺乏对音乐整体结构的理解——它不知道什么时候该进入副歌,什么时候该做变奏。
Stability Audio 3.0 通过改进 Transformer 架构和引入音乐结构标注来解决这个问题。中型和大型模型可以精准维持音乐的段落结构(intro、verse、chorus、bridge、outro),并且在 6 分钟的时间跨度内保持旋律基调的一致性。这对专业音乐制作很关键——如果生成的音乐结构混乱,后期编辑的成本会非常高。
长音频生成的另一个难点是计算效率。生成 6 分钟的音频需要处理的 token 数量是 30 秒音频的 12 倍,直接暴力扩展会导致推理时间和显存占用爆炸。Stability AI 在论文中提到使用了分层生成策略:先生成低分辨率的音乐骨架(旋律、和声、节奏),再逐步填充细节(音色、混响、动态)。这种方法可以在保证质量的前提下大幅降低计算成本。
根据官方数据,中型模型在单张 GPU 上生成 3 分钟音频的推理时间低于 2 秒。这个速度已经接近实时生成的水平,对交互式应用(比如游戏中的动态配乐)很有价值。
对标竞品:Suno、Udio、MusicGen
目前市面上的 AI 音乐生成产品主要分为两类:闭源 SaaS(Suno、Udio)和开源模型(MusicGen、AudioCraft)。
Suno 和 Udio 是目前最火的两个产品,都可以根据文本描述生成完整歌曲,包括人声、歌词、伴奏。Suno 的 v4 版本可以生成 4 分钟的音乐,Udio 的最新版本支持 6 分钟。但这两个产品都是完全闭源的,只能通过网页或 API 使用,不支持本地部署,也不能做模型微调。而且它们都面临版权诉讼,法律风险还没有完全解决。
Meta 的 MusicGen 是目前最流行的开源音乐生成模型,参数规模在 15 亿左右,但生成长度只有 30 秒。如果要生成更长的音乐,需要分段生成再拼接,这会导致段落之间的衔接不自然。MusicGen 的优势是完全开源,可以自由修改和部署,但在生成质量和长度上都不如 Stability Audio 3.0。
Google 的 MusicLM 和 OpenAI 的 Jukebox 都是研究项目,没有正式商业化,也没有开源。MusicLM 的生成质量很高,但推理速度慢,不适合生产环境。Jukebox 可以生成长音频,但音质和结构控制都比较弱。
对比下来,Stability Audio 3.0 的优势在于:
- 生成长度:6 分钟 20 秒,目前开源模型中最长
- 开源程度:三款模型权重全部开放,可以本地部署和微调
- 版权合规:和唱片公司达成授权协议,没有法律风险
- 产品矩阵:从端侧到云端全覆盖,适配不同场景
劣势是大型模型不开源,商业授权门槛较高。如果你是个人开发者或者小团队,中型版本已经够用;如果你是大企业,需要评估 API 成本和授权费用。
面向专业音乐人的新产品线
Stability AI 透露正在为专业音乐人打造一套新产品线,但具体功能还没有公布。从招聘动向可以看出一些端倪:前环球音乐和芬达(Fender)首席数字官 Ethan Kaplan 已经加入 Stability AI,负责专业音乐产品业务。
Ethan Kaplan 在音乐行业有 20 多年经验,曾经主导过环球音乐的数字化转型和芬达的在线音乐教育平台。他的加入说明 Stability AI 不只是想做一个 AI 音乐生成工具,而是想深入音乐制作的全流程——从创作、编曲、混音到发行。
可能的产品方向包括:
- AI 辅助编曲工具:根据旋律自动生成和声、鼓点、贝斯线
- 风格迁移和混音:把一首歌的风格转换成另一种风格(比如把流行歌改成爵士版)
- 人声合成和分离:生成虚拟歌手的人声,或者从混音中提取单独的人声轨道
- 版权管理和授权平台:帮助音乐人管理 AI 生成作品的版权和授权
这些功能如果做出来,会直接和 Splice、Soundtrap、BandLab 这类音乐制作平台竞争。不过 Stability AI 的优势是底层模型能力更强,可以做更深度的 AI 集成。
商业化路径:API + 授权 + SaaS
Stability AI 的商业化策略比较清晰:
- API 服务:大型模型只能通过 API 调用,按生成时长计费。这是最直接的变现方式,适合有规模化需求的企业客户。
- 商业授权:年营收超过 100 万美元的企业需要购买授权。这个门槛设置得比较高,主要针对唱片公司、游戏大厂、影视制作公司。
- 托管服务:提供付费的模型托管和部署服务,企业可以在自己的私有云上运行模型,但不需要自己管理基础设施。
- SaaS 产品:未来可能推出面向音乐人的在线制作工具,按订阅收费。
这个商业模式和 Stability AI 在图像生成领域的策略一致:底层模型开源,吸引开发者生态;高级功能和企业服务收费,覆盖研发成本。不过音频生成的市场规模比图像生成小得多,Stability AI 能不能在这个领域复制 Stable Diffusion 的成功还不好说。
行业影响:AI 音乐生成进入工业化阶段
Stability Audio 3.0 的发布标志着 AI 音乐生成从实验阶段进入工业化阶段。6 分钟的生成长度、完整的音乐结构控制、版权合规的训练数据,这些都是专业音乐制作的硬性要求。
对游戏行业来说,这意味着可以用 AI 生成动态配乐,根据玩家的操作实时调整音乐情绪和节奏。对广告行业来说,可以快速生成符合品牌调性的背景音乐,不需要找音乐人定制。对独立音乐人来说,可以用 AI 生成 demo,快速验证创意,降低制作成本。
但 AI 音乐生成也面临一些根本性的问题:
- 创意的同质化:如果大家都用同一个模型生成音乐,风格会不会趋同?
- 音乐人的生存空间:AI 能生成 6 分钟的完整歌曲,音乐人的价值在哪里?
- 版权归属:AI 生成的音乐版权归谁?是模型开发者、使用者,还是训练数据的提供者?
这些问题短期内不会有答案,但会随着技术的普及变得越来越紧迫。Stability AI 和唱片公司的合作是一个积极的信号,说明行业正在尝试建立新的规则和秩序。
总结
Stability Audio 3.0 是 AI 音乐生成领域的一次重要升级。6 分钟的生成长度、四款模型的产品矩阵、三款模型的开源策略,以及和唱片公司的版权合作,这些都显示出 Stability AI 在认真做产品,而不是只做 demo。
对开发者来说,中型版本的开源是个好消息,14 亿参数的规模足够做很多事情。对企业来说,需要评估 API 成本和商业授权费用,看是否值得接入。对音乐人来说,这是一个需要适应的新工具,它不会取代人类的创造力,但会改变音乐制作的流程。
AI 音乐生成的战争才刚刚开始。Suno 和 Udio 在用户体验上领先,MusicGen 在开源社区有广泛支持,Stability Audio 3.0 则在技术能力和版权合规上占优。最终谁能胜出,取决于谁能更好地平衡技术、商业和法律三个维度的挑战。
参考来源
- Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲 - IT之家 - IT之家对 Stability Audio 3.0 发布的详细报道
- Stable Audio 3 - arXiv - Stability Audio 3.0 的技术论文