面壁智能这两天放了个大的——VoxCPM 2 正式开源。
一个 2B 参数的语音合成模型,支持 30 种语言、9 种方言,能做声音克隆,能做创意音色设计,输出 48kHz 录音棚级音质。参数量不大,但野心不小。

先说清楚这东西是什么
VoxCPM 2 是面壁智能 VoxCPM 系列的第二代模型。上一代是去年 9 月发布的 0.5B 版本,当时在 Hugging Face 上拿了超千点赞、5500+ 下载量,在合成自然度和音色相似度上已经做到了同尺寸 SOTA。
这次直接从 0.5B 跳到 2B,底座也从初代 MiniCPM 换成了 MiniCPM-4。训练数据量更夸张——超过 200 万小时的多语言语音数据。作为对比,Meta 的 Voicebox 用了 6 万小时英语数据,微软的 VALL-E 2 用的也是几万小时量级。200 万小时,这个数据规模在开源 TTS 模型里相当激进。
技术路线上,VoxCPM 2 走的是 Tokenizer-Free 的连续表征方案。大多数语音模型会先把音频离散化成 token,再用语言模型的方式去建模。VoxCPM 2 跳过了这一步,直接在连续空间里做生成。好处很直接:避免了离散化带来的信息损失,音质上限更高。这也是它能输出 48kHz 采样率的底气所在——很多开源 TTS 模型还停留在 16kHz 或 24kHz。
三个核心能力,逐个拆
30 语言多语言合成
支持 30 种语言,覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等主流语种,外加 9 种方言(大概率包含粤语、四川话、上海话等中文方言)。
关键是不需要语言标签。你直接丢文本进去,模型自己判断语种然后合成。这在实际使用中省了不少事——做多语言产品的开发者不用再维护一套语种检测逻辑。
跨语言音色迁移也支持。用一段中文参考音频,可以直接合成法语、日语等其他语言的语音,音色保持一致。从 Demo 页面的效果来看,跨语言场景下音色的一致性确实不错,没有出现明显的口音漂移。
创意音色设计
这个功能比较有意思。你用自然语言描述一个声音——比如「30 岁左右的男性,声音低沉温暖,语速偏慢,带一点磁性」——模型就能凭空生成一个符合描述的音色,不需要任何参考音频。
这对内容创作者来说很实用。做有声书、播客、游戏配音的时候,你脑子里有个角色的声音形象,但找不到合适的参考音频,现在可以直接用文字描述来「设计」一个声音。
当然,这类功能的实际效果往往取决于描述的精确度和模型的理解能力。从目前社区的反馈来看,简单直接的描述效果较好,过于抽象的描述(比如「听起来像秋天的风」)模型还不太能 get 到。
高保真声音克隆
给一段短音频,克隆说话人的音色。这不是新鲜事,GPT-SoVITS、CosyVoice、Fish Speech 都能做。VoxCPM 2 的差异点在于「可控克隆」——克隆音色的同时,你可以通过文本指令调整情感、语速、表现力,而音色本身保持不变。
社区里有人拿它复刻郭德纲的贯口《莽撞人》,效果据说相当炸裂。贯口对语速、节奏、气口的要求极高,能扛住这个测试说明模型在韵律建模上确实有两把刷子。
跟竞品比,VoxCPM 2 处在什么位置
开源 TTS 赛道现在相当拥挤。拉一张表来看:
| 模型 | 参数量 | 语言数 | 采样率 | 声音克隆 | 音色设计 | 技术路线 |
|---|---|---|---|---|---|---|
| VoxCPM 2 | 2B | 30 | 48kHz | ✅ | ✅ | 连续表征 |
| CosyVoice 2 | ~1B | 中英日粤韩 | 24kHz | ✅ | ❌ | 离散 token |
| Fish Speech 1.5 | ~1B | 10+ | 44.1kHz | ✅ | ❌ | VQGAN+LM |
| GPT-SoVITS v2 | <1B | 中英日韩粤 | 32kHz | ✅ | ❌ | SoVITS |
| IndexTTS 2.0 | ~1B | 中英 | 24kHz | ✅ | ❌ | 离散 token |
几个明显的优势:
语言覆盖最广。30 种语言在开源模型里目前没有对手。CosyVoice 和 GPT-SoVITS 主要覆盖中日韩英,Fish Speech 稍多但也没到 30 种。如果你的产品面向全球市场,VoxCPM 2 几乎是唯一选择。
音色设计是独家能力。其他开源模型基本都需要参考音频才能定义音色,VoxCPM 2 可以纯文本描述生成,这在创意场景下是质的区别。
48kHz 输出。录音棚标准。大多数竞品还在 24kHz 或 32kHz,这个差距在耳机里听得出来。
但也有需要观察的地方:
2B 参数意味着推理成本更高。CosyVoice、Fish Speech 都在 1B 左右,部署门槛更低。对于需要实时合成的场景(比如语音助手),2B 模型的延迟表现还需要实测。
模型刚开源,生态还在早期。GPT-SoVITS 和 Fish Speech 已经有大量社区工具、训练教程、WebUI 封装,VoxCPM 2 这方面还需要时间积累。
技术架构:为什么选连续表征
稍微展开说一下技术路线的选择。
主流 TTS 模型大多走「音频 → 离散 token → 语言模型生成 → 解码回音频」的路线。这个思路很自然,因为可以直接复用 LLM 的 next-token prediction 范式,训练和推理都有成熟的基础设施。
但离散化有个根本问题:信息瓶颈。把连续的音频信号量化成有限的 codebook,必然丢失细节。尤其是音色的微妙差异、情感的细腻变化,这些高频信息在离散化过程中最容易被抹掉。
VoxCPM 2 选择在连续空间直接建模,用 MiniCPM-4 作为骨干网络,输入输出都是连续的语音表征。这样做的代价是训练难度更大、工程实现更复杂,但上限也更高。
从结果来看,48kHz 的输出质量和社区反馈的高保真克隆效果,说明这条路线是走通了的。
200 万小时的训练数据也值得说一下。语音数据的获取和清洗成本很高,尤其是多语言数据。面壁智能能攒出这个规模的数据集,背后的数据工程投入不小。这也是为什么虽然模型开源了,但想复现训练并不容易——数据壁垒依然存在。
开发者怎么用
VoxCPM 2 已经在 GitHub、Hugging Face 和 ModelScope 三个平台同步开源,提供了在线 Demo 可以直接体验。
本地部署的话,从 README 来看流程比较标准:
# 克隆仓库
git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM
# 安装依赖
pip install -r requirements.txt
# 下载模型权重(从 Hugging Face 或 ModelScope)
# huggingface-cli download openbmb/VoxCPM2 --local-dir ./models/VoxCPM2
2B 模型跑推理,显存需求预估在 6-8GB 左右(FP16),一张消费级显卡就能带动。如果做 INT4 量化,4GB 显存应该也够。这延续了 MiniCPM 系列「端侧可用」的定位。
对于需要通过 API 调用语音合成能力的开发者,目前主流的 TTS API 服务都在逐步接入更多模型。如果你在用 OpenAI Hub 这类 API 聚合平台,可以关注后续是否会上线 VoxCPM 2 的 API 接口——一个 Key 调多个模型的体验在多模型对比测试时确实省事不少。
以 OpenAI 兼容格式调用 TTS API 的通用写法大致如下,供参考:
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.openai-hub.com/v1"
)
# 文本转语音(以 OpenAI 兼容格式为例)
response = client.audio.speech.create(
model="tts-1-hd", # 具体模型名以平台实际支持为准
voice="alloy",
input="你好,这是一段语音合成测试。",
)
response.stream_to_file("output.mp3")
面壁智能的 MiniCPM 生态版图
把 VoxCPM 2 放到面壁智能的整体产品线里看,逻辑就更清楚了。
MiniCPM 系列一直走「小模型、大能力」的路线。文本有 MiniCPM,多模态有 MiniCPM-V(现在到了 4.5 版本,支持实时视频理解),语音现在有 VoxCPM 2。加上之前的 MiniCPM-o 4.5 做即时自由对话,面壁智能正在用一系列 2B 量级的模型,拼出一个完整的多模态能力矩阵。
这个策略很聪明。大模型的竞争已经白热化,但端侧和轻量级部署的需求同样巨大。2B 参数能跑在手机、边缘设备上,这对 IoT、车载、智能硬件等场景来说是刚需。VoxCPM 2 补上了语音合成这块拼图,意味着开发者理论上可以用纯面壁智能的模型栈,搭建一个端到端的多模态应用。
这件事为什么值得关注
说实话,开源 TTS 模型现在不缺。但 VoxCPM 2 有几个点让它不只是「又一个 TTS 模型」:
第一,30 语言覆盖把开源 TTS 的多语言能力拉到了新高度。之前想做多语言语音合成,要么用商业 API(贵),要么拼接多个模型(麻烦)。现在一个 2B 模型就能覆盖,这对出海产品的开发者来说是实打实的利好。
第二,连续表征的技术路线如果被验证可行,可能会影响后续其他团队的技术选型。目前离散 token 是主流,但 VoxCPM 2 的效果如果确实更好,不排除会有更多团队转向连续表征方案。
第三,2B 参数 + 端侧可部署,这个组合在商业化上有想象空间。想想看:一个能在手机上跑的、支持 30 种语言的、能克隆声音的 TTS 模型,能做的事情太多了。
当然,模型刚开源,很多东西还需要社区验证。实际部署的延迟表现、长文本合成的稳定性、各语种的质量是否均匀、声音克隆在极端 case 下的鲁棒性——这些都需要时间来检验。
但至少从目前的信息来看,VoxCPM 2 是近期开源 TTS 领域最值得关注的发布之一。有兴趣的开发者可以先去 Demo 页面听听效果,再决定要不要本地部署折腾一番。
参考来源:
- VoxCPM 2 GitHub 仓库 — 项目源码、模型权重下载与使用文档
- VoxCPM 2 社区讨论 — Linux.do 社区关于 VoxCPM 2 开源的讨论帖
- VoxCPM 声音克隆与语音生成介绍 — 知乎专栏对 VoxCPM 系列的详细解读