OpenAI 再放三款语音模型,GPT-Realtime-2 带 GPT-5 级推理入场
凌晨,OpenAI 一口气往 API 里塞了三款新语音模型。主角是 GPT-Realtime-2,官方给它的定位是"具有 GPT-5 级推理能力的语音模型";另外两款分别补在转录(ASR)和语音合成(TTS)两端。这是继去年 8 月 GPT-Realtime 首发之后,OpenAI 对语音 Agent 这条产品线的第一次大版本更新——也可以理解为:语音这块,他们开始认真对付 ElevenLabs、Google 的 Gemini Live,以及国内一堆做 Realtime 方案的追赶者了。

先看这次更新到底改了什么
这次发布的三款模型:
- GPT-Realtime-2:端到端的语音对话模型,支持语音进-语音出(S2S),上下文推理能力对齐到 GPT-5 级别;
- gpt-realtime-transcribe-2:新一代 ASR,接替此前的
gpt-4o-transcribe,主打嘈杂环境和多语种混说; - gpt-realtime-tts-2:新一代 TTS,支持更细粒度的情感 / 语速 / 口音控制,延迟据称压到了 230ms 量级。
关键变化不是"又多了几个模型",而是OpenAI 把语音栈重新切了一刀:之前 gpt-4o-realtime 那套是把 ASR、推理、TTS 糅在一个 token 流里跑;这次把三件事拆成了可组合的三颗模型,同时保留了 GPT-Realtime-2 的端到端模式。等于给你两条路走——追求极致延迟就用端到端,追求可控性和成本就把三颗拆开拼。
这是很务实的一个产品决定。去年做过 Realtime API 集成的开发者都知道,端到端模型的"黑盒感"非常强:模型什么时候打断、什么时候沉默、情绪怎么处理,你几乎没抓手,只能靠 prompt 磨。拆开之后,至少 TTS 这一段你可以自己控时序、控 SSML 风格。
GPT-Realtime-2:重点是"推理"两个字
上一代 GPT-Realtime 最被吐槽的点不是音色,是脑子。一旦对话进到需要多步推理、调用工具、处理长上下文的场景,它就会开始犯一代语音模型的通病——答非所问、工具参数瞎填、被用户打断后丢失状态。
GPT-Realtime-2 这次的卖点就是把这块补齐:
- 推理能力对齐 GPT-5:官方给的 benchmark 是在 Big Bench Audio(一个衡量语音模型推理力的新基准)上比 GPT-Realtime 高出 20 个百分点以上;
- 工具调用更稳:支持并行 function calling,函数参数 schema 遵循度显著提升,这对于做客服、点单类 Agent 几乎是刚需;
- 更强的指令遵循:OpenAI 特别提到一个指标——"angry customer 场景保持礼貌语调"的成功率从 61% 提到 89%。这种细节看得出他们是真跑过客服 PoC 的;
- 上下文扩到 32k:对长电话、长会议友好,不用再自己做摘要滚动。
另外一个不大但很实用的改动:支持图像输入进实时对话流。也就是你可以一边说话一边甩图进去,让模型边看边答——官方演示里给的是一个 field service 场景,工程师拍了张电路板问"这个电容烧了没"。这在国内做工业质检、售后服务的团队会很受用。
延迟和价格:没惊喜,但合理
延迟这块,OpenAI 给的官方数字是"首字节音频 < 320ms(p50)",和上一代基本持平。考虑到模型参数量上去了还能守住这条线,算是工程上下了功夫。
价格上没有"炸场"式的降价,但也没涨:
- GPT-Realtime-2:音频输入 $32/百万 token,音频输出 $64/百万 token(比上一代降约 20%)
- gpt-realtime-transcribe-2:$6/百万 token
- gpt-realtime-tts-2:$15/百万 token
横向对比一下:ElevenLabs 的 Conversational AI 套餐折算下来大约在每分钟 $0.08–0.15,GPT-Realtime-2 按典型对话密度估算差不多每分钟 $0.06–0.10,价格没有明显优势,但胜在模型脑子更好。对于"需要真的能完成任务"的语音 Agent,这个交换是划算的。
调用姿势:和 Realtime API 完全兼容
接口层面 OpenAI 没有搞新协议,还是沿用 WebSocket 版的 Realtime API,换模型名就行。下面是一个最小化的调用示例(OpenAI Hub 已同步上线三款模型,兼容 OpenAI 格式,把 base_url 和 key 换掉即可直连):
import asyncio, json, websockets
async def main():
url = "wss://api.openai-hub.com/v1/realtime?model=gpt-realtime-2"
headers = {
"Authorization": "Bearer $OPENAI_HUB_KEY",
"OpenAI-Beta": "realtime=v1",
}
async with websockets.connect(url, extra_headers=headers) as ws:
await ws.send(json.dumps({
"type": "session.update",
"session": {
"voice": "cedar",
"modalities": ["audio", "text"],
"turn_detection": {"type": "server_vad", "threshold": 0.5},
"tools": [{
"type": "function",
"name": "lookup_order",
"parameters": {"type": "object", "properties": {"order_id": {"type": "string"}}}
}]
}
}))
# 之后按 input_audio_buffer.append / commit 推音频帧即可
asyncio.run(main())
如果只想用拆分后的 TTS 或 ASR,就是老熟悉的 REST:
curl https://api.openai-hub.com/v1/audio/speech \
-H "Authorization: Bearer $OPENAI_HUB_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-realtime-tts-2",
"voice": "cedar",
"input": "把这句话用稍微抱歉、语速偏慢的语气念出来。",
"instructions": "tone: apologetic; pace: slow"
}' --output out.mp3
值得注意的是 instructions 字段:这是 TTS-2 新加的自然语言风格控制入口,比 SSML 友好得多,prompt engineer 直接能上手。
转录和 TTS 这两颗,提升在哪
gpt-realtime-transcribe-2 的升级点主要是三个:一是中英混说的 WER 从上一代的 9.2% 降到 5.8%(OpenAI 自测集);二是支持 100+ 语种的自动检测,切换不需要显式传 language 参数;三是开放 word-level timestamp,做字幕的同学可以直接用。
gpt-realtime-tts-2 新加了 4 个音色(cedar、marin、juniper、willow),并且原有 voice 也重新训过一遍。更重要的是情感可控度肉眼可见变强——以前你让它"开心一点",它就把语调整体拉高,听起来很假;现在会在合适的字上做微上扬,接近真人播音员的处理。对有声书、播客类应用是实质性的升级。
谁受影响最大
短期看有几类玩家会被推着走:
- 做语音客服 / 外呼的创业公司:之前靠 ASR+LLM+TTS 三段串的架构,延迟通常在 1.5s 以上。GPT-Realtime-2 这种端到端 + 好脑子的方案,会成为新的事实标准,再不跟就会被客户体验拉开;
- ElevenLabs:情感 TTS 是它的立身之本,GPT-Realtime-TTS-2 这次在情感控制上明显往它的地盘踩了一脚;
- 国内做 Realtime 方案的团队:MiniMax、阶跃、智谱年初都发过各自的实时语音,指标口径不一样,但 GPT-Realtime-2 这次把"推理+语音"的门槛又抬高了一截,国内团队压力会传导到下一轮更新。
一些还没解决的事
把话说回来,这次发布也不是全无槽点:
- 没有开放 voice cloning。OpenAI 继续坚持只给预置音色,出于安全合规考虑可以理解,但这让它在某些 to C 场景(虚拟陪伴、个性化有声书)依然没法和 ElevenLabs 正面打;
- 打断机制仍然是 server VAD:对中文这种有大量停顿、语气词的语言,误触发打断的问题还在,复杂场景建议关 VAD 自己做;
- 中文音色数量偏少:新加的 4 个音色里只有 1 个中文男声比较自然,女声还是上一代的调调。
小结
GPT-Realtime-2 是 OpenAI 在语音这条线上第一次"认真给脑子"的版本。之前的实时语音更像是 demo,展示"我能说话";这一代才真正走向"我能干活"。对已经在做语音 Agent 的团队,建议这周就把 POC 迁一份过去跑对比——模型能力的代差通常就是一次版本更新的事,这次更新值得你花半天。
OpenAI Hub 这边三款模型已经同步上线,沿用同一个 Key,base_url 换掉即可,想直接试可以按上面的代码贴一份跑。
参考来源
- OpenAI 发布了三款新的语音模型 - linux.do:社区关于本次发布的第一手讨论与实测反馈
- OpenAI 一口气发布三个新语音模型 - 知乎:语音 API 的价格与能力分析参考