MiniMax Music 2.6:AI终于听懂了国风的呼吸

模型上新

MiniMax 发布音乐生成模型 Music 2.6,通过对二胡颤音、笛子气口、戏曲唱腔等细微演奏技法的建模,让 AI 国风音乐首次具备真实的"呼吸感",并开放 API 供开发者调用。

MiniMax 今天(4 月 10 日)正式发布了新一代音乐生成模型 Music 2.6。一句话概括:这是目前第一个认真对待国风音乐"演奏细节"的 AI 模型。

不是多加了几种民族乐器音色,而是让 AI 学会了——什么时候该停,什么时候该喘气。

Music 2.6 模型生成国风曲目的界面截图,展示提示词输入与生成结果

过去的 AI 国风音乐,差在哪?

如果你用过 Suno、Udio 或者早期的 MiniMax 音乐模型生成过国风曲目,大概率有过这种感受:旋律是五声音阶的,乐器也确实是二胡和古筝,但听起来就是不对劲。像一个外国人用正确的汉字写了一篇文章,语法没错,但读起来就不是中文。

问题出在哪?

出在"微表情"上。国风音乐最核心的东西,从来不是乐器本身,而是演奏者在乐器上留下的那些细微痕迹:

  • 二胡的颤音不是固定频率的震动,而是演奏者手指情绪的延伸,有快有慢,有深有浅
  • 笛子的气口和呼吸停顿,是乐句之间的"标点符号",去掉它整段旋律就变成了没有断句的长文
  • 古筝扫弦的力度变化,从轻拂到重扫,对应的是情绪从克制到释放
  • 戏曲唱腔里的滑音、顿挫、拖腔,每一个都是几百年打磨出来的表演逻辑

过去的模型处理这些的方式很粗暴:识别到"国风"标签,就把预设的民乐音色贴上去。结果就是该呼吸的地方没有呼吸,该停顿的地方一路平推,像一台缝纫机在绣花——针脚整齐,但没有生气。

这不是音色库的问题,是建模粒度的问题。之前的模型把"乐器种类"当作最小单位,而真正需要建模的最小单位是"演奏技法"。

Music 2.6 做了什么不一样的事

据 MiniMax 官方介绍,Music 2.6 的核心突破在于把建模层级从"乐器"下沉到了"演奏动作"。

具体来说,模型现在能够理解并生成以下层面的细节:

第一,传统戏曲的结构逻辑。不是随机铺音轨,而是理解"开场锣鼓"这套东西——先用打击乐定调,再让弦乐进场铺底,弹拨乐逐层叠加,最后旋律与人声共同推向高潮。这是中国传统音乐几百年沉淀下来的叙事结构,Music 2.6 是第一个把它当回事的 AI 模型。

第二,呼吸感的还原。这是官方反复强调的卖点,也是我认为最有价值的改进。所谓"呼吸感",本质上是音乐中有意为之的"留白"。一段二胡旋律,如果每个音之间的间隔完全均匀,听起来就像 MIDI;但如果在乐句结尾稍微拉长、在下一句开头微微延迟,整段音乐就活了。Music 2.6 声称能够自动在合适的位置插入这些微停顿,而不需要用户在提示词里逐个标注。

第三,氛围铺垫能力。模型现在支持"先铺垫氛围,再引出旋律"的生成逻辑。这听起来简单,但对 AI 音乐生成来说是个不小的挑战——大多数模型倾向于从第一秒就把主旋律甩出来,因为这样在训练时更容易获得正反馈。能忍住不出旋律、先用环境音和和声铺三十秒的底,说明模型对音乐时间结构的理解上了一个台阶。

不只是国风:游戏配乐的低频优化

除了国风这个主打方向,Music 2.6 还针对游戏配乐场景做了专项优化,主要集中在中低频段。

这个改进很实际。游戏配乐里最常见的问题就是低频糊成一团——鼓点和贝斯线挤在同一个频段里互相打架,听起来轰隆隆但什么都分不清。Music 2.6 对此做了专项处理,官方的说法是"低频更深、更紧致"。

更有意思的是提示词层面的改进。开发者现在可以直接用叙事结构来描述想要的配乐,比如:

从压抑氛围开始 → 逐渐觉醒 → 最终爆发无敌感

模型能够按照这个情绪曲线来组织音乐结构,而不是生成一段情绪平坦的循环。这对游戏开发者来说省了大量的后期剪辑工作——以前你得生成十几段素材,手动拼出情绪变化;现在一条提示词就能拿到一段有起承转合的完整配乐。

对独立游戏开发者来说,这可能是目前性价比最高的配乐方案。请一个作曲人写一段两分钟的游戏配乐,市场价几千到几万不等;用 Music 2.6 生成,API 调用成本几乎可以忽略。

免费额度和 API 开放

MiniMax 在定价上给得很大方:

  • 普通用户:每天 500 次免费生成
  • 开发者:在此基础上额外 100 次 API 调用

每天 500 次免费,这个额度在 AI 音乐生成领域算是顶格了。作为对比,Suno 免费版每天的生成次数是个位数级别。当然,MiniMax 这么做大概率是为了快速积累用户反馈和使用数据,这个额度未来大概率会调整,想薅的趁早。

API 方面,Music 2.6 支持通过 MiniMax 开放平台直接调用,文档地址是 platform.minimaxi.com/docs/api-reference/music-generation。

模型还支持智能体模式创作,提供了三个预设指令:

  • minimax-music-gen:基础音乐生成
  • minimax-music-playlist:播放列表批量生成
  • buddy-sings:人声演唱生成

对于已经在用 OpenAI 格式 API 的开发者,通过 OpenAI Hub(openai-hub.com)这类聚合平台也可以用统一的 Key 调用 MiniMax 的模型,不用单独再去注册一套账号体系,国内网络直连就行。

下面是一个通过兼容 OpenAI 格式的方式调用 MiniMax 音乐生成的示例(以 Python 为例):

import requests

# 通过 OpenAI Hub 聚合调用 MiniMax 音乐生成
response = requests.post(
    \"https://openai-hub.com/v1/audio/generations\",
    headers={
        \"Authorization\": \"Bearer YOUR_OPENAI_HUB_API_KEY\",
        \"Content-Type\": \"application/json\"
    },
    json={
        \"model\": \"minimax-music\",
        \"prompt\": \"一段国风古筝曲,以缓慢的泛音铺垫开场,逐渐加入二胡旋律,\"
                  \"中段笛子加入形成对话,尾段所有乐器合奏推向高潮,\"
                  \"全程保留传统戏曲的呼吸停顿感\",
        \"duration\": 120
    }
)

# 获取生成的音频
audio_url = response.json()[\"data\"][\"url\"]
print(f\"生成完成: {audio_url}\")

注意:上述代码为示意性质,实际调用时请参考 MiniMax 和 OpenAI Hub 各自的最新 API 文档,接口路径和参数可能有差异。

放在行业里看:AI 音乐的竞争格局

目前 AI 音乐生成赛道的主要玩家格局大致是这样的:

Suno 和 Udio 占据了英文市场的主流位置,强项是流行音乐和摇滚,生成质量稳定,但对中文歌词和东方音乐风格的支持一直是短板。你让 Suno 生成一段国风,它大概率会给你一段"听起来像中国风的流行乐",而不是真正的传统音乐。

国内这边,MiniMax 算是跑得最快的。从去年的 Music 系列一路迭代到 2.6,每个版本都有明确的改进方向,不是那种换个版本号就发新闻稿的套路。这次 2.6 选择在国风和游戏配乐两个方向上重点突破,策略很聪明——这两个领域恰好是海外模型最弱的地方,也是国内开发者需求最旺盛的场景。

不过也要说实话,AI 音乐生成整体还处于"能用但不够好"的阶段。Music 2.6 在国风呼吸感上的改进确实值得关注,但距离真正替代人类音乐人还有很长的路。目前最现实的使用场景还是:

  • 短视频和自媒体的背景音乐
  • 游戏和应用的原型配乐
  • 音乐人的灵感草稿和 demo 制作
  • 播客和有声内容的片头片尾

指望它直接产出可以上线发行的成品,现阶段还不太现实。但作为生产力工具,它已经能帮创作者省掉大量的前期探索时间。

一个值得思考的方向

Music 2.6 这次最让我觉得有意思的,不是某个具体的技术指标,而是它背后的思路转变:从"模仿音色"到"理解演奏"。

过去几年 AI 音乐的进化路径基本是:更多音色 → 更长时长 → 更高音质。这条路走到一定程度就会撞墙,因为音乐的灵魂不在音色和音质里,在演奏的细节里。同一把二胡,不同的人拉出来完全不同,差别就在那些微妙的颤音、停顿和力度变化上。

Music 2.6 开始往这个方向走了。虽然目前只是在国风这个垂直领域做了尝试,但如果这条路走通了,同样的方法论可以迁移到爵士即兴、弗拉门戈吉他、印度古典音乐等所有强调"演奏表现力"的音乐类型上。

这可能是 AI 音乐从"听起来像那么回事"到"真的有那味儿"的关键一步。

至于 Music 2.6 到底有没有官方说的那么好,每天 500 次免费额度摆在那里,自己试试就知道了。


参考来源: