面壁智能开源VoxCPM 2：2B参数多语言语音模型，支持30语言与声音克隆

面壁智能开源多语言语音模型VoxCPM 2，基于MiniCPM-4架构仅2B参数，支持30+语言和9种方言，具备声音克隆与创意音色设计能力，输出48kHz录音棚级音质。

面壁智能这两天放了个大的——VoxCPM 2 正式开源。

一个 2B 参数的语音合成模型，支持 30 种语言、9 种方言，能做声音克隆，能做创意音色设计，输出 48kHz 录音棚级音质。参数量不大，但野心不小。

VoxCPM 2 项目首页截图，展示多语言语音合成能力与核心特性

先说清楚这东西是什么

VoxCPM 2 是面壁智能 VoxCPM 系列的第二代模型。上一代是去年 9 月发布的 0.5B 版本，当时在 Hugging Face 上拿了超千点赞、5500+ 下载量，在合成自然度和音色相似度上已经做到了同尺寸 SOTA。

这次直接从 0.5B 跳到 2B，底座也从初代 MiniCPM 换成了 MiniCPM-4。训练数据量更夸张——超过 200 万小时的多语言语音数据。作为对比，Meta 的 Voicebox 用了 6 万小时英语数据，微软的 VALL-E 2 用的也是几万小时量级。200 万小时，这个数据规模在开源 TTS 模型里相当激进。

技术路线上，VoxCPM 2 走的是 Tokenizer-Free 的连续表征方案。大多数语音模型会先把音频离散化成 token，再用语言模型的方式去建模。VoxCPM 2 跳过了这一步，直接在连续空间里做生成。好处很直接：避免了离散化带来的信息损失，音质上限更高。这也是它能输出 48kHz 采样率的底气所在——很多开源 TTS 模型还停留在 16kHz 或 24kHz。

三个核心能力，逐个拆

30 语言多语言合成

支持 30 种语言，覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等主流语种，外加 9 种方言（大概率包含粤语、四川话、上海话等中文方言）。

关键是不需要语言标签。你直接丢文本进去，模型自己判断语种然后合成。这在实际使用中省了不少事——做多语言产品的开发者不用再维护一套语种检测逻辑。

跨语言音色迁移也支持。用一段中文参考音频，可以直接合成法语、日语等其他语言的语音，音色保持一致。从 Demo 页面的效果来看，跨语言场景下音色的一致性确实不错，没有出现明显的口音漂移。

创意音色设计

这个功能比较有意思。你用自然语言描述一个声音——比如「30 岁左右的男性，声音低沉温暖，语速偏慢，带一点磁性」——模型就能凭空生成一个符合描述的音色，不需要任何参考音频。

这对内容创作者来说很实用。做有声书、播客、游戏配音的时候，你脑子里有个角色的声音形象，但找不到合适的参考音频，现在可以直接用文字描述来「设计」一个声音。

当然，这类功能的实际效果往往取决于描述的精确度和模型的理解能力。从目前社区的反馈来看，简单直接的描述效果较好，过于抽象的描述（比如「听起来像秋天的风」）模型还不太能 get 到。

高保真声音克隆

给一段短音频，克隆说话人的音色。这不是新鲜事，GPT-SoVITS、CosyVoice、Fish Speech 都能做。VoxCPM 2 的差异点在于「可控克隆」——克隆音色的同时，你可以通过文本指令调整情感、语速、表现力，而音色本身保持不变。

社区里有人拿它复刻郭德纲的贯口《莽撞人》，效果据说相当炸裂。贯口对语速、节奏、气口的要求极高，能扛住这个测试说明模型在韵律建模上确实有两把刷子。

跟竞品比，VoxCPM 2 处在什么位置

开源 TTS 赛道现在相当拥挤。拉一张表来看：

| 模型 | 参数量 | 语言数 | 采样率 | 声音克隆 | 音色设计 | 技术路线 | |------|--------|--------|--------|----------|----------|----------| | VoxCPM 2 | 2B | 30 | 48kHz | ✅ | ✅ | 连续表征 | | CosyVoice 2 | ~1B | 中英日粤韩 | 24kHz | ✅ | ❌ | 离散 token | | Fish Speech 1.5 | ~1B | 10+ | 44.1kHz | ✅ | ❌ | VQGAN+LM | | GPT-SoVITS v2 | <1B | 中英日韩粤 | 32kHz | ✅ | ❌ | SoVITS | | IndexTTS 2.0 | ~1B | 中英 | 24kHz | ✅ | ❌ | 离散 token |

几个明显的优势：

语言覆盖最广。30 种语言在开源模型里目前没有对手。CosyVoice 和 GPT-SoVITS 主要覆盖中日韩英，Fish Speech 稍多但也没到 30 种。如果你的产品面向全球市场，VoxCPM 2 几乎是唯一选择。

音色设计是独家能力。其他开源模型基本都需要参考音频才能定义音色，VoxCPM 2 可以纯文本描述生成，这在创意场景下是质的区别。

48kHz 输出。录音棚标准。大多数竞品还在 24kHz 或 32kHz，这个差距在耳机里听得出来。

但也有需要观察的地方：

2B 参数意味着推理成本更高。CosyVoice、Fish Speech 都在 1B 左右，部署门槛更低。对于需要实时合成的场景（比如语音助手），2B 模型的延迟表现还需要实测。

模型刚开源，生态还在早期。GPT-SoVITS 和 Fish Speech 已经有大量社区工具、训练教程、WebUI 封装，VoxCPM 2 这方面还需要时间积累。

技术架构：为什么选连续表征

稍微展开说一下技术路线的选择。

主流 TTS 模型大多走「音频 → 离散 token → 语言模型生成 → 解码回音频」的路线。这个思路很自然，因为可以直接复用 LLM 的 next-token prediction 范式，训练和推理都有成熟的基础设施。

但离散化有个根本问题：信息瓶颈。把连续的音频信号量化成有限的 codebook，必然丢失细节。尤其是音色的微妙差异、情感的细腻变化，这些高频信息在离散化过程中最容易被抹掉。

VoxCPM 2 选择在连续空间直接建模，用 MiniCPM-4 作为骨干网络，输入输出都是连续的语音表征。这样做的代价是训练难度更大、工程实现更复杂，但上限也更高。

从结果来看，48kHz 的输出质量和社区反馈的高保真克隆效果，说明这条路线是走通了的。

200 万小时的训练数据也值得说一下。语音数据的获取和清洗成本很高，尤其是多语言数据。面壁智能能攒出这个规模的数据集，背后的数据工程投入不小。这也是为什么虽然模型开源了，但想复现训练并不容易——数据壁垒依然存在。

开发者怎么用

VoxCPM 2 已经在 GitHub、Hugging Face 和 ModelScope 三个平台同步开源，提供了在线 Demo 可以直接体验。

本地部署的话，从 README 来看流程比较标准：

# 克隆仓库
git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM

# 安装依赖
pip install -r requirements.txt

# 下载模型权重（从 Hugging Face 或 ModelScope）
# huggingface-cli download openbmb/VoxCPM2 --local-dir ./models/VoxCPM2

2B 模型跑推理，显存需求预估在 6-8GB 左右（FP16），一张消费级显卡就能带动。如果做 INT4 量化，4GB 显存应该也够。这延续了 MiniCPM 系列「端侧可用」的定位。

对于需要通过 API 调用语音合成能力的开发者，目前主流的 TTS API 服务都在逐步接入更多模型。如果你在用 OpenAI Hub 这类 API 聚合平台，可以关注后续是否会上线 VoxCPM 2 的 API 接口——一个 Key 调多个模型的体验在多模型对比测试时确实省事不少。

以 OpenAI 兼容格式调用 TTS API 的通用写法大致如下，供参考：

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.openai-hub.com/v1"
)

# 文本转语音（以 OpenAI 兼容格式为例）
response = client.audio.speech.create(
    model="tts-1-hd",  # 具体模型名以平台实际支持为准
    voice="alloy",
    input="你好，这是一段语音合成测试。",
)

response.stream_to_file("output.mp3")

面壁智能的 MiniCPM 生态版图

把 VoxCPM 2 放到面壁智能的整体产品线里看，逻辑就更清楚了。

MiniCPM 系列一直走「小模型、大能力」的路线。文本有 MiniCPM，多模态有 MiniCPM-V（现在到了 4.5 版本，支持实时视频理解），语音现在有 VoxCPM 2。加上之前的 MiniCPM-o 4.5 做即时自由对话，面壁智能正在用一系列 2B 量级的模型，拼出一个完整的多模态能力矩阵。

这个策略很聪明。大模型的竞争已经白热化，但端侧和轻量级部署的需求同样巨大。2B 参数能跑在手机、边缘设备上，这对 IoT、车载、智能硬件等场景来说是刚需。VoxCPM 2 补上了语音合成这块拼图，意味着开发者理论上可以用纯面壁智能的模型栈，搭建一个端到端的多模态应用。

这件事为什么值得关注

说实话，开源 TTS 模型现在不缺。但 VoxCPM 2 有几个点让它不只是「又一个 TTS 模型」：

第一，30 语言覆盖把开源 TTS 的多语言能力拉到了新高度。之前想做多语言语音合成，要么用商业 API（贵），要么拼接多个模型（麻烦）。现在一个 2B 模型就能覆盖，这对出海产品的开发者来说是实打实的利好。

第二，连续表征的技术路线如果被验证可行，可能会影响后续其他团队的技术选型。目前离散 token 是主流，但 VoxCPM 2 的效果如果确实更好，不排除会有更多团队转向连续表征方案。

第三，2B 参数 + 端侧可部署，这个组合在商业化上有想象空间。想想看：一个能在手机上跑的、支持 30 种语言的、能克隆声音的 TTS 模型，能做的事情太多了。

当然，模型刚开源，很多东西还需要社区验证。实际部署的延迟表现、长文本合成的稳定性、各语种的质量是否均匀、声音克隆在极端 case 下的鲁棒性——这些都需要时间来检验。

但至少从目前的信息来看，VoxCPM 2 是近期开源 TTS 领域最值得关注的发布之一。有兴趣的开发者可以先去 Demo 页面听听效果，再决定要不要本地部署折腾一番。

参考来源：

VoxCPM 2 GitHub 仓库 — 项目源码、模型权重下载与使用文档
VoxCPM 2 社区讨论 — Linux.do 社区关于 VoxCPM 2 开源的讨论帖
VoxCPM 声音克隆与语音生成介绍 — 知乎专栏对 VoxCPM 系列的详细解读

面壁智能开源VoxCPM 2：2B参数撑起30语言语音合成

先说清楚这东西是什么

三个核心能力，逐个拆

30 语言多语言合成

创意音色设计

高保真声音克隆

跟竞品比，VoxCPM 2 处在什么位置

技术架构：为什么选连续表征

开发者怎么用

面壁智能的 MiniCPM 生态版图

这件事为什么值得关注

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们