OpenAI 再放三款语音模型,GPT-Realtime-2 带 GPT-5 级推理入场

模型上新

OpenAI 深夜更新语音家族:GPT-Realtime-2 主打 GPT-5 级推理、低延迟双工对话,另两款分别补齐转录与 TTS 短板,语音 Agent 这条线被重新拉了一档。

OpenAI 再放三款语音模型,GPT-Realtime-2 带 GPT-5 级推理入场

凌晨,OpenAI 一口气往 API 里塞了三款新语音模型。主角是 GPT-Realtime-2,官方给它的定位是"具有 GPT-5 级推理能力的语音模型";另外两款分别补在转录(ASR)和语音合成(TTS)两端。这是继去年 8 月 GPT-Realtime 首发之后,OpenAI 对语音 Agent 这条产品线的第一次大版本更新——也可以理解为:语音这块,他们开始认真对付 ElevenLabs、Google 的 Gemini Live,以及国内一堆做 Realtime 方案的追赶者了。

OpenAI 语音模型 GPT-Realtime-2 发布现场示意图

先看这次更新到底改了什么

这次发布的三款模型:

  • GPT-Realtime-2:端到端的语音对话模型,支持语音进-语音出(S2S),上下文推理能力对齐到 GPT-5 级别;
  • gpt-realtime-transcribe-2:新一代 ASR,接替此前的 gpt-4o-transcribe,主打嘈杂环境和多语种混说;
  • gpt-realtime-tts-2:新一代 TTS,支持更细粒度的情感 / 语速 / 口音控制,延迟据称压到了 230ms 量级。

关键变化不是"又多了几个模型",而是OpenAI 把语音栈重新切了一刀:之前 gpt-4o-realtime 那套是把 ASR、推理、TTS 糅在一个 token 流里跑;这次把三件事拆成了可组合的三颗模型,同时保留了 GPT-Realtime-2 的端到端模式。等于给你两条路走——追求极致延迟就用端到端,追求可控性和成本就把三颗拆开拼。

这是很务实的一个产品决定。去年做过 Realtime API 集成的开发者都知道,端到端模型的"黑盒感"非常强:模型什么时候打断、什么时候沉默、情绪怎么处理,你几乎没抓手,只能靠 prompt 磨。拆开之后,至少 TTS 这一段你可以自己控时序、控 SSML 风格。

GPT-Realtime-2:重点是"推理"两个字

上一代 GPT-Realtime 最被吐槽的点不是音色,是脑子。一旦对话进到需要多步推理、调用工具、处理长上下文的场景,它就会开始犯一代语音模型的通病——答非所问、工具参数瞎填、被用户打断后丢失状态。

GPT-Realtime-2 这次的卖点就是把这块补齐:

  • 推理能力对齐 GPT-5:官方给的 benchmark 是在 Big Bench Audio(一个衡量语音模型推理力的新基准)上比 GPT-Realtime 高出 20 个百分点以上;
  • 工具调用更稳:支持并行 function calling,函数参数 schema 遵循度显著提升,这对于做客服、点单类 Agent 几乎是刚需;
  • 更强的指令遵循:OpenAI 特别提到一个指标——"angry customer 场景保持礼貌语调"的成功率从 61% 提到 89%。这种细节看得出他们是真跑过客服 PoC 的;
  • 上下文扩到 32k:对长电话、长会议友好,不用再自己做摘要滚动。

另外一个不大但很实用的改动:支持图像输入进实时对话流。也就是你可以一边说话一边甩图进去,让模型边看边答——官方演示里给的是一个 field service 场景,工程师拍了张电路板问"这个电容烧了没"。这在国内做工业质检、售后服务的团队会很受用。

延迟和价格:没惊喜,但合理

延迟这块,OpenAI 给的官方数字是"首字节音频 < 320ms(p50)",和上一代基本持平。考虑到模型参数量上去了还能守住这条线,算是工程上下了功夫。

价格上没有"炸场"式的降价,但也没涨:

  • GPT-Realtime-2:音频输入 $32/百万 token,音频输出 $64/百万 token(比上一代降约 20%)
  • gpt-realtime-transcribe-2:$6/百万 token
  • gpt-realtime-tts-2:$15/百万 token

横向对比一下:ElevenLabs 的 Conversational AI 套餐折算下来大约在每分钟 $0.08–0.15,GPT-Realtime-2 按典型对话密度估算差不多每分钟 $0.06–0.10,价格没有明显优势,但胜在模型脑子更好。对于"需要真的能完成任务"的语音 Agent,这个交换是划算的。

调用姿势:和 Realtime API 完全兼容

接口层面 OpenAI 没有搞新协议,还是沿用 WebSocket 版的 Realtime API,换模型名就行。下面是一个最小化的调用示例(OpenAI Hub 已同步上线三款模型,兼容 OpenAI 格式,把 base_url 和 key 换掉即可直连):

import asyncio, json, websockets

async def main():
    url = "wss://api.openai-hub.com/v1/realtime?model=gpt-realtime-2"
    headers = {
        "Authorization": "Bearer $OPENAI_HUB_KEY",
        "OpenAI-Beta": "realtime=v1",
    }
    async with websockets.connect(url, extra_headers=headers) as ws:
        await ws.send(json.dumps({
            "type": "session.update",
            "session": {
                "voice": "cedar",
                "modalities": ["audio", "text"],
                "turn_detection": {"type": "server_vad", "threshold": 0.5},
                "tools": [{
                    "type": "function",
                    "name": "lookup_order",
                    "parameters": {"type": "object", "properties": {"order_id": {"type": "string"}}}
                }]
            }
        }))
        # 之后按 input_audio_buffer.append / commit 推音频帧即可
asyncio.run(main())

如果只想用拆分后的 TTS 或 ASR,就是老熟悉的 REST:

curl https://api.openai-hub.com/v1/audio/speech \
  -H "Authorization: Bearer $OPENAI_HUB_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-realtime-tts-2",
    "voice": "cedar",
    "input": "把这句话用稍微抱歉、语速偏慢的语气念出来。",
    "instructions": "tone: apologetic; pace: slow"
  }' --output out.mp3

值得注意的是 instructions 字段:这是 TTS-2 新加的自然语言风格控制入口,比 SSML 友好得多,prompt engineer 直接能上手。

转录和 TTS 这两颗,提升在哪

gpt-realtime-transcribe-2 的升级点主要是三个:一是中英混说的 WER 从上一代的 9.2% 降到 5.8%(OpenAI 自测集);二是支持 100+ 语种的自动检测,切换不需要显式传 language 参数;三是开放 word-level timestamp,做字幕的同学可以直接用。

gpt-realtime-tts-2 新加了 4 个音色(cedar、marin、juniper、willow),并且原有 voice 也重新训过一遍。更重要的是情感可控度肉眼可见变强——以前你让它"开心一点",它就把语调整体拉高,听起来很假;现在会在合适的字上做微上扬,接近真人播音员的处理。对有声书、播客类应用是实质性的升级。

谁受影响最大

短期看有几类玩家会被推着走:

  1. 做语音客服 / 外呼的创业公司:之前靠 ASR+LLM+TTS 三段串的架构,延迟通常在 1.5s 以上。GPT-Realtime-2 这种端到端 + 好脑子的方案,会成为新的事实标准,再不跟就会被客户体验拉开;
  2. ElevenLabs:情感 TTS 是它的立身之本,GPT-Realtime-TTS-2 这次在情感控制上明显往它的地盘踩了一脚;
  3. 国内做 Realtime 方案的团队:MiniMax、阶跃、智谱年初都发过各自的实时语音,指标口径不一样,但 GPT-Realtime-2 这次把"推理+语音"的门槛又抬高了一截,国内团队压力会传导到下一轮更新。

一些还没解决的事

把话说回来,这次发布也不是全无槽点:

  • 没有开放 voice cloning。OpenAI 继续坚持只给预置音色,出于安全合规考虑可以理解,但这让它在某些 to C 场景(虚拟陪伴、个性化有声书)依然没法和 ElevenLabs 正面打;
  • 打断机制仍然是 server VAD:对中文这种有大量停顿、语气词的语言,误触发打断的问题还在,复杂场景建议关 VAD 自己做;
  • 中文音色数量偏少:新加的 4 个音色里只有 1 个中文男声比较自然,女声还是上一代的调调。

小结

GPT-Realtime-2 是 OpenAI 在语音这条线上第一次"认真给脑子"的版本。之前的实时语音更像是 demo,展示"我能说话";这一代才真正走向"我能干活"。对已经在做语音 Agent 的团队,建议这周就把 POC 迁一份过去跑对比——模型能力的代差通常就是一次版本更新的事,这次更新值得你花半天

OpenAI Hub 这边三款模型已经同步上线,沿用同一个 Key,base_url 换掉即可,想直接试可以按上面的代码贴一份跑。

参考来源