Google 推出 Gemini 3.1 Flash TTS 语音生成模型,通过细粒度音频标签实现对语速、音高、情绪的精确控制,与此前发布的 Flash Live 实时对话模型形成互补。

Google 发布 Gemini 3.1 Flash TTS：用标签控制 AI 说话方式

Google 今天（2026年4月15日）发布了 Gemini 3.1 Flash TTS，这是一个专门用于语音生成的模型。跟市面上其他 TTS 模型最大的区别是，它引入了细粒度音频标签（granular audio tags）系统，让开发者可以精确控制生成语音的表达方式——不只是选个声音那么简单，而是能指定具体的语速、音高、情绪强度，甚至停顿位置。

这个发布时机值得注意。一个月前（3月26日），Google 刚推出了 Gemini 3.1 Flash Live，那是个实时语音对话模型，主打低延迟和原生音频处理。现在又发布 Flash TTS，两个模型的定位很清晰：Live 负责实时交互场景，TTS 负责需要精确控制的语音生成场景。一个是「听懂你说什么并快速回应」，一个是「按你的要求把文字念出来」。

音频标签系统：把语音生成变成可编程的事

Gemini 3.1 Flash TTS 的核心是它的标签系统。传统 TTS 模型通常只能选择预设的声音风格，比如「专业」「友好」「严肃」这种模糊的描述。Flash TTS 的做法更像是给语音生成加了一套 API 参数。

具体来说，你可以通过标签控制：

语速（speaking rate）：不是简单的快慢，而是可以在句子级别调整节奏
音高（pitch）：控制声音的高低起伏，用来表达疑问、强调或情绪变化
情绪强度（emotion intensity）：从平淡陈述到激动表达的连续调节
停顿（pauses）：在特定位置插入停顿，控制语句的呼吸感
重音（emphasis）：标记需要强调的词或短语

Gemini 3.1 Flash TTS 音频标签控制界面示意图

这套系统的实用价值在哪？举几个场景：

有声书和播客制作：可以根据内容情绪调整语气。叙述部分用平稳语速，对话部分加快节奏并提高音高变化，悬疑段落降低音调并放慢语速。以前这些细节只能靠人工配音或者反复调试模型参数，现在可以直接在文本里标注。

客服和语音助手：不同场景需要不同的说话方式。处理投诉时用低沉稳定的语调，介绍促销活动时提高语速和情绪强度，解释复杂流程时放慢速度并增加停顿。这些以前要训练多个模型或者切换不同声音，现在一个模型就能搞定。

教育内容：讲解数学题时在关键步骤加重音和停顿，朗读课文时根据标点符号和语境调整语气。对比传统 TTS 那种机械的匀速朗读，这种可控性能显著提升学习体验。

技术实现：标签如何影响生成过程

Google 没有公开 Flash TTS 的完整架构细节，但从发布材料和 Flash Live 的技术路线可以推测一些东西。

Flash Live 采用的是「原生音频处理」架构，音频直接进入模型，模型直接输出音频，中间不经过文字转换。Flash TTS 很可能也是类似思路，但方向相反：文字和标签一起输入，直接生成音频波形。

传统 TTS 的流程是：文字 → 音素序列 → 韵律预测 → 声学特征 → 音频波形。每个环节都是独立模型，标签信息在传递过程中会损失。Flash TTS 如果真的是端到端架构，标签就能在整个生成过程中保持影响力。

这种设计的好处是标签控制更精确，坏处是模型训练难度更高。你需要大量带标注的语音数据，而且标注质量直接影响模型效果。Google 在语音数据积累上有优势——YouTube 上有海量带字幕的视频，Google Assistant 和 Search 积累了大量真实对话数据，这些都是训练素材。

跟 Flash Live 的关系：互补而非替代

很多人可能会疑惑：既然 Flash Live 已经能实时生成语音，为什么还要单独做个 TTS 模型？

关键在于使用场景的差异。Flash Live 的设计目标是「快」和「自然」，延迟低于 300 毫秒，支持全双工对话，能处理打断和上下文切换。但它的语音生成是实时流式的，你没法精确控制每个细节——就像真人对话，你可以调整整体风格，但没法事先规划每个词的语调。

Flash TTS 则是「慢工出细活」。它不需要实时响应，可以花时间生成高质量音频，并且支持精确的标签控制。这更适合内容制作场景：你有完整的文本，知道想要什么效果，愿意花时间调整参数。

两个模型的技术指标也能看出差异：

| 特性 | Flash Live | Flash TTS | |------|------------|----------| | 延迟 | <300ms | 未公开（非实时） | | 输入 | 音频+文本+图像+视频 | 文本+标签 | | 输出 | 音频+文本（流式） | 音频（完整） | | 上下文窗口 | 128K tokens | 未公开 | | 控制粒度 | 整体风格 | 细粒度标签 | | 典型场景 | 实时对话、客服 | 内容制作、配音 |

从产品策略看，Google 这是在覆盖语音 AI 的两个主要方向：实时交互和内容生成。OpenAI 的 Realtime API 和 TTS API 也是类似布局，只不过 Google 把两个能力都放在 Gemini 3.1 Flash 这个品牌下，强调它们是同一技术栈的不同变体。

行业对比：可控性成为新战场

语音生成市场这两年的竞争焦点在变化。2023-2024 年大家比的是「像不像真人」，ElevenLabs、Play.ht、Resemble AI 这些公司都在拼音质和自然度。2025 年开始，重点转向「能不能精确控制」。

OpenAI 的 TTS API 支持 6 种预设声音，可以调整语速，但没有更细粒度的控制。ElevenLabs 的 API 支持「stability」和「similarity boost」参数，但这些是全局设置，没法在句子级别调整。

Amazon Polly 有个 SSML（Speech Synthesis Markup Language）系统，可以用 XML 标签控制语音细节，这跟 Flash TTS 的思路接近。但 Polly 的底层还是传统 TTS 架构，标签控制的精度和自然度都有限。

Flash TTS 的优势在于它是端到端模型，标签控制是原生能力而不是后期加上去的。这意味着标签和语音生成是协同优化的，理论上能达到更好的效果。

另一个值得关注的是 xAI 的 Grok TTS。根据 3 月的发布信息，Grok TTS 也支持情绪和风格控制，但具体实现方式和控制粒度还不清楚。考虑到 xAI 在多模态模型上的投入，他们可能也在走端到端路线。

API 接入：如何使用 Flash TTS

Google 还没有公开 Flash TTS 的 API 文档，但根据 Flash Live 的接入方式，可以推测大概的调用逻辑。Flash Live 通过 Google AI Studio 的 Gemini Live API 提供访问，Flash TTS 很可能也会走同样的渠道。

假设 API 设计跟 OpenAI TTS 类似，调用方式可能是这样：

import openai

# 使用 OpenAI Hub 调用 Gemini 3.1 Flash TTS
client = openai.OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.audio.speech.create(
    model="gemini-3.1-flash-tts",
    voice="nova",
    input="欢迎使用 Gemini Flash TTS。<rate speed='slow'>这句话会说得慢一些。</rate><pitch level='high'>这句话音调会提高。</pitch>",
    response_format="mp3"
)

response.stream_to_file("output.mp3")

标签语法可能类似 SSML，也可能是 Google 自己设计的格式。关键是要支持嵌套和组合，比如同时控制语速和音高：

<speak>
  这是正常语速的文字。
  <prosody rate="slow" pitch="+2st">
    这句话语速慢，音调高两个半音。
  </prosody>
  <emphasis level="strong">这句话需要强调。</emphasis>
  <break time="500ms"/>
  停顿半秒后继续。
</speak>

如果你在用 OpenAI Hub，等 Google 正式开放 API 后，应该能直接通过兼容接口调用。OpenAI Hub 已经支持 Gemini 系列模型，加上 Flash TTS 只是多一个 model 参数的事。

实际应用中的挑战

标签控制听起来很美好，但实际用起来会遇到一些问题。

标签设计的学习成本。要用好 Flash TTS，你需要理解各种标签的效果，知道什么场景用什么参数。这不像选个声音那么简单，更像是在做音频编辑。对于没有音频制作经验的开发者，可能需要一段时间摸索。

Google 如果聪明的话，应该会提供一些预设模板，比如「新闻播报」「故事讲述」「客服对话」这种场景化配置。让开发者先用模板，再根据需求微调。

标签冲突和优先级。如果同一段文字被多个标签覆盖，模型怎么处理？比如外层标签设置了慢速，内层标签又设置了快速，最终效果是什么？这需要明确的优先级规则和文档说明。

生成质量的稳定性。端到端模型的一个问题是，输入的微小变化可能导致输出的显著差异。如果标签参数设置不当，生成的语音可能会出现不自然的断句、音调突变、情绪不连贯等问题。这需要大量测试和调优。

成本和延迟。精确控制通常意味着更高的计算成本。Flash TTS 的定价和生成速度还没公布，但可以参考 OpenAI TTS 的数据：HD 质量的 TTS 是 $15/1M characters，生成 1 分钟音频大约需要 5-10 秒。Flash TTS 如果要支持更复杂的标签处理，成本和延迟可能会更高。

这个发布说明了什么

Flash TTS 的发布反映了几个趋势。

语音 AI 从「能用」到「好用」的转变。早期 TTS 模型解决的是「能不能生成自然语音」的问题，现在这个问题基本解决了，竞争转向「能不能精确控制」。这跟图像生成的发展路径类似：Stable Diffusion 早期版本只能生成图像，现在有 ControlNet、LoRA、Inpainting 这些精确控制工具。

端到端架构成为主流。Flash Live 和 Flash TTS 都强调原生音频处理，不经过文字中转。这是因为串联架构（ASR + LLM + TTS）在延迟和信息损失上有天然劣势。未来的语音模型会越来越多地采用端到端设计，把多个环节融合到一个模型里。

多模态模型的细分。Gemini 3.1 Flash 现在有三个变体：标准版（文本+图像+视频）、Live 版（实时语音对话）、TTS 版（可控语音生成）。这说明即使是同一个基础模型，针对不同场景也需要专门优化。通用模型和专用模型会长期共存，关键是找到合适的平衡点。

Google 在语音 AI 上的全面布局。从 Flash Live 到 Flash TTS，再到之前的 Gemini Live 产品化，Google 这几个月在语音 AI 上的动作很密集。这跟 OpenAI 的 Realtime API、xAI 的 Grok TTS、NVIDIA 的 Nemotron VoiceChat 形成正面竞争。语音 AI 正在成为大模型公司的标配能力，不再是可选项。

对开发者来说，Flash TTS 提供了一个新的工具选项。如果你的场景需要精确控制语音表达，而不只是「把文字念出来」，这个模型值得关注。但要用好它，需要投入时间理解标签系统，测试不同参数的效果，找到适合自己场景的配置。

等 Google 正式开放 API 和定价信息，会更清楚它在市场上的竞争力。现在能确定的是，语音生成这个赛道又多了一个有实力的玩家，而且是带着明确差异化能力来的。

参考来源

由于本文主要参考的 Google DeepMind 官方博客和相关技术文档均为海外站点，暂无国内可访问的镜像链接。文中技术细节和数据来源于 Google 官方发布材料及行业公开信息。

Google 发布 Gemini 3.1 Flash TTS：用标签控制 AI 说话方式

Google 发布 Gemini 3.1 Flash TTS：用标签控制 AI 说话方式

音频标签系统：把语音生成变成可编程的事

技术实现：标签如何影响生成过程

跟 Flash Live 的关系：互补而非替代

行业对比：可控性成为新战场

API 接入：如何使用 Flash TTS

实际应用中的挑战

这个发布说明了什么

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们