Google 发布 Gemini 3.1 Flash TTS:用标签控制 AI 说话方式
Google 今天(2026年4月15日)发布了 Gemini 3.1 Flash TTS,这是一个专门用于语音生成的模型。跟市面上其他 TTS 模型最大的区别是,它引入了细粒度音频标签(granular audio tags)系统,让开发者可以精确控制生成语音的表达方式——不只是选个声音那么简单,而是能指定具体的语速、音高、情绪强度,甚至停顿位置。
这个发布时机值得注意。一个月前(3月26日),Google 刚推出了 Gemini 3.1 Flash Live,那是个实时语音对话模型,主打低延迟和原生音频处理。现在又发布 Flash TTS,两个模型的定位很清晰:Live 负责实时交互场景,TTS 负责需要精确控制的语音生成场景。一个是「听懂你说什么并快速回应」,一个是「按你的要求把文字念出来」。
音频标签系统:把语音生成变成可编程的事
Gemini 3.1 Flash TTS 的核心是它的标签系统。传统 TTS 模型通常只能选择预设的声音风格,比如「专业」「友好」「严肃」这种模糊的描述。Flash TTS 的做法更像是给语音生成加了一套 API 参数。
具体来说,你可以通过标签控制:
- 语速(speaking rate):不是简单的快慢,而是可以在句子级别调整节奏
- 音高(pitch):控制声音的高低起伏,用来表达疑问、强调或情绪变化
- 情绪强度(emotion intensity):从平淡陈述到激动表达的连续调节
- 停顿(pauses):在特定位置插入停顿,控制语句的呼吸感
- 重音(emphasis):标记需要强调的词或短语

这套系统的实用价值在哪?举几个场景:
有声书和播客制作:可以根据内容情绪调整语气。叙述部分用平稳语速,对话部分加快节奏并提高音高变化,悬疑段落降低音调并放慢语速。以前这些细节只能靠人工配音或者反复调试模型参数,现在可以直接在文本里标注。
客服和语音助手:不同场景需要不同的说话方式。处理投诉时用低沉稳定的语调,介绍促销活动时提高语速和情绪强度,解释复杂流程时放慢速度并增加停顿。这些以前要训练多个模型或者切换不同声音,现在一个模型就能搞定。
教育内容:讲解数学题时在关键步骤加重音和停顿,朗读课文时根据标点符号和语境调整语气。对比传统 TTS 那种机械的匀速朗读,这种可控性能显著提升学习体验。
技术实现:标签如何影响生成过程
Google 没有公开 Flash TTS 的完整架构细节,但从发布材料和 Flash Live 的技术路线可以推测一些东西。
Flash Live 采用的是「原生音频处理」架构,音频直接进入模型,模型直接输出音频,中间不经过文字转换。Flash TTS 很可能也是类似思路,但方向相反:文字和标签一起输入,直接生成音频波形。
传统 TTS 的流程是:文字 → 音素序列 → 韵律预测 → 声学特征 → 音频波形。每个环节都是独立模型,标签信息在传递过程中会损失。Flash TTS 如果真的是端到端架构,标签就能在整个生成过程中保持影响力。
这种设计的好处是标签控制更精确,坏处是模型训练难度更高。你需要大量带标注的语音数据,而且标注质量直接影响模型效果。Google 在语音数据积累上有优势——YouTube 上有海量带字幕的视频,Google Assistant 和 Search 积累了大量真实对话数据,这些都是训练素材。
跟 Flash Live 的关系:互补而非替代
很多人可能会疑惑:既然 Flash Live 已经能实时生成语音,为什么还要单独做个 TTS 模型?
关键在于使用场景的差异。Flash Live 的设计目标是「快」和「自然」,延迟低于 300 毫秒,支持全双工对话,能处理打断和上下文切换。但它的语音生成是实时流式的,你没法精确控制每个细节——就像真人对话,你可以调整整体风格,但没法事先规划每个词的语调。
Flash TTS 则是「慢工出细活」。它不需要实时响应,可以花时间生成高质量音频,并且支持精确的标签控制。这更适合内容制作场景:你有完整的文本,知道想要什么效果,愿意花时间调整参数。
两个模型的技术指标也能看出差异:
| 特性 | Flash Live | Flash TTS |
|---|---|---|
| 延迟 | <300ms | 未公开(非实时) |
| 输入 | 音频+文本+图像+视频 | 文本+标签 |
| 输出 | 音频+文本(流式) | 音频(完整) |
| 上下文窗口 | 128K tokens | 未公开 |
| 控制粒度 | 整体风格 | 细粒度标签 |
| 典型场景 | 实时对话、客服 | 内容制作、配音 |
从产品策略看,Google 这是在覆盖语音 AI 的两个主要方向:实时交互和内容生成。OpenAI 的 Realtime API 和 TTS API 也是类似布局,只不过 Google 把两个能力都放在 Gemini 3.1 Flash 这个品牌下,强调它们是同一技术栈的不同变体。
行业对比:可控性成为新战场
语音生成市场这两年的竞争焦点在变化。2023-2024 年大家比的是「像不像真人」,ElevenLabs、Play.ht、Resemble AI 这些公司都在拼音质和自然度。2025 年开始,重点转向「能不能精确控制」。
OpenAI 的 TTS API 支持 6 种预设声音,可以调整语速,但没有更细粒度的控制。ElevenLabs 的 API 支持「stability」和「similarity boost」参数,但这些是全局设置,没法在句子级别调整。
Amazon Polly 有个 SSML(Speech Synthesis Markup Language)系统,可以用 XML 标签控制语音细节,这跟 Flash TTS 的思路接近。但 Polly 的底层还是传统 TTS 架构,标签控制的精度和自然度都有限。
Flash TTS 的优势在于它是端到端模型,标签控制是原生能力而不是后期加上去的。这意味着标签和语音生成是协同优化的,理论上能达到更好的效果。
另一个值得关注的是 xAI 的 Grok TTS。根据 3 月的发布信息,Grok TTS 也支持情绪和风格控制,但具体实现方式和控制粒度还不清楚。考虑到 xAI 在多模态模型上的投入,他们可能也在走端到端路线。
API 接入:如何使用 Flash TTS
Google 还没有公开 Flash TTS 的 API 文档,但根据 Flash Live 的接入方式,可以推测大概的调用逻辑。Flash Live 通过 Google AI Studio 的 Gemini Live API 提供访问,Flash TTS 很可能也会走同样的渠道。
假设 API 设计跟 OpenAI TTS 类似,调用方式可能是这样:
import openai
# 使用 OpenAI Hub 调用 Gemini 3.1 Flash TTS
client = openai.OpenAI(
api_key="your-openai-hub-key",
base_url="https://api.openai-hub.com/v1"
)
response = client.audio.speech.create(
model="gemini-3.1-flash-tts",
voice="nova",
input="欢迎使用 Gemini Flash TTS。<rate speed='slow'>这句话会说得慢一些。</rate><pitch level='high'>这句话音调会提高。</pitch>",
response_format="mp3"
)
response.stream_to_file("output.mp3")
标签语法可能类似 SSML,也可能是 Google 自己设计的格式。关键是要支持嵌套和组合,比如同时控制语速和音高:
<speak>
这是正常语速的文字。
<prosody rate="slow" pitch="+2st">
这句话语速慢,音调高两个半音。
</prosody>
<emphasis level="strong">这句话需要强调。</emphasis>
<break time="500ms"/>
停顿半秒后继续。
</speak>
如果你在用 OpenAI Hub,等 Google 正式开放 API 后,应该能直接通过兼容接口调用。OpenAI Hub 已经支持 Gemini 系列模型,加上 Flash TTS 只是多一个 model 参数的事。
实际应用中的挑战
标签控制听起来很美好,但实际用起来会遇到一些问题。
标签设计的学习成本。要用好 Flash TTS,你需要理解各种标签的效果,知道什么场景用什么参数。这不像选个声音那么简单,更像是在做音频编辑。对于没有音频制作经验的开发者,可能需要一段时间摸索。
Google 如果聪明的话,应该会提供一些预设模板,比如「新闻播报」「故事讲述」「客服对话」这种场景化配置。让开发者先用模板,再根据需求微调。
标签冲突和优先级。如果同一段文字被多个标签覆盖,模型怎么处理?比如外层标签设置了慢速,内层标签又设置了快速,最终效果是什么?这需要明确的优先级规则和文档说明。
生成质量的稳定性。端到端模型的一个问题是,输入的微小变化可能导致输出的显著差异。如果标签参数设置不当,生成的语音可能会出现不自然的断句、音调突变、情绪不连贯等问题。这需要大量测试和调优。
成本和延迟。精确控制通常意味着更高的计算成本。Flash TTS 的定价和生成速度还没公布,但可以参考 OpenAI TTS 的数据:HD 质量的 TTS 是 $15/1M characters,生成 1 分钟音频大约需要 5-10 秒。Flash TTS 如果要支持更复杂的标签处理,成本和延迟可能会更高。
这个发布说明了什么
Flash TTS 的发布反映了几个趋势。
语音 AI 从「能用」到「好用」的转变。早期 TTS 模型解决的是「能不能生成自然语音」的问题,现在这个问题基本解决了,竞争转向「能不能精确控制」。这跟图像生成的发展路径类似:Stable Diffusion 早期版本只能生成图像,现在有 ControlNet、LoRA、Inpainting 这些精确控制工具。
端到端架构成为主流。Flash Live 和 Flash TTS 都强调原生音频处理,不经过文字中转。这是因为串联架构(ASR + LLM + TTS)在延迟和信息损失上有天然劣势。未来的语音模型会越来越多地采用端到端设计,把多个环节融合到一个模型里。
多模态模型的细分。Gemini 3.1 Flash 现在有三个变体:标准版(文本+图像+视频)、Live 版(实时语音对话)、TTS 版(可控语音生成)。这说明即使是同一个基础模型,针对不同场景也需要专门优化。通用模型和专用模型会长期共存,关键是找到合适的平衡点。
Google 在语音 AI 上的全面布局。从 Flash Live 到 Flash TTS,再到之前的 Gemini Live 产品化,Google 这几个月在语音 AI 上的动作很密集。这跟 OpenAI 的 Realtime API、xAI 的 Grok TTS、NVIDIA 的 Nemotron VoiceChat 形成正面竞争。语音 AI 正在成为大模型公司的标配能力,不再是可选项。
对开发者来说,Flash TTS 提供了一个新的工具选项。如果你的场景需要精确控制语音表达,而不只是「把文字念出来」,这个模型值得关注。但要用好它,需要投入时间理解标签系统,测试不同参数的效果,找到适合自己场景的配置。
等 Google 正式开放 API 和定价信息,会更清楚它在市场上的竞争力。现在能确定的是,语音生成这个赛道又多了一个有实力的玩家,而且是带着明确差异化能力来的。
参考来源
由于本文主要参考的 Google DeepMind 官方博客和相关技术文档均为海外站点,暂无国内可访问的镜像链接。文中技术细节和数据来源于 Google 官方发布材料及行业公开信息。