OpenAI 深夜更新语音家族：GPT-Realtime-2 主打 GPT-5 级推理、低延迟双工对话，另两款分别补齐转录与 TTS 短板，语音 Agent 这条线被重新拉了一档。

OpenAI 再放三款语音模型，GPT-Realtime-2 带 GPT-5 级推理入场

凌晨，OpenAI 一口气往 API 里塞了三款新语音模型。主角是 GPT-Realtime-2，官方给它的定位是"具有 GPT-5 级推理能力的语音模型"；另外两款分别补在转录（ASR）和语音合成（TTS）两端。这是继去年 8 月 GPT-Realtime 首发之后，OpenAI 对语音 Agent 这条产品线的第一次大版本更新——也可以理解为：语音这块，他们开始认真对付 ElevenLabs、Google 的 Gemini Live，以及国内一堆做 Realtime 方案的追赶者了。

OpenAI 语音模型 GPT-Realtime-2 发布现场示意图

先看这次更新到底改了什么

这次发布的三款模型：

GPT-Realtime-2：端到端的语音对话模型，支持语音进-语音出（S2S），上下文推理能力对齐到 GPT-5 级别；
gpt-realtime-transcribe-2：新一代 ASR，接替此前的 gpt-4o-transcribe，主打嘈杂环境和多语种混说；
gpt-realtime-tts-2：新一代 TTS，支持更细粒度的情感 / 语速 / 口音控制，延迟据称压到了 230ms 量级。

关键变化不是"又多了几个模型"，而是OpenAI 把语音栈重新切了一刀：之前 gpt-4o-realtime 那套是把 ASR、推理、TTS 糅在一个 token 流里跑；这次把三件事拆成了可组合的三颗模型，同时保留了 GPT-Realtime-2 的端到端模式。等于给你两条路走——追求极致延迟就用端到端，追求可控性和成本就把三颗拆开拼。

这是很务实的一个产品决定。去年做过 Realtime API 集成的开发者都知道，端到端模型的"黑盒感"非常强：模型什么时候打断、什么时候沉默、情绪怎么处理，你几乎没抓手，只能靠 prompt 磨。拆开之后，至少 TTS 这一段你可以自己控时序、控 SSML 风格。

GPT-Realtime-2：重点是"推理"两个字

上一代 GPT-Realtime 最被吐槽的点不是音色，是脑子。一旦对话进到需要多步推理、调用工具、处理长上下文的场景，它就会开始犯一代语音模型的通病——答非所问、工具参数瞎填、被用户打断后丢失状态。

GPT-Realtime-2 这次的卖点就是把这块补齐：

推理能力对齐 GPT-5：官方给的 benchmark 是在 Big Bench Audio（一个衡量语音模型推理力的新基准）上比 GPT-Realtime 高出 20 个百分点以上；
工具调用更稳：支持并行 function calling，函数参数 schema 遵循度显著提升，这对于做客服、点单类 Agent 几乎是刚需；
更强的指令遵循：OpenAI 特别提到一个指标——"angry customer 场景保持礼貌语调"的成功率从 61% 提到 89%。这种细节看得出他们是真跑过客服 PoC 的；
上下文扩到 32k：对长电话、长会议友好，不用再自己做摘要滚动。

另外一个不大但很实用的改动：支持图像输入进实时对话流。也就是你可以一边说话一边甩图进去，让模型边看边答——官方演示里给的是一个 field service 场景，工程师拍了张电路板问"这个电容烧了没"。这在国内做工业质检、售后服务的团队会很受用。

延迟和价格：没惊喜，但合理

延迟这块，OpenAI 给的官方数字是"首字节音频 < 320ms（p50）"，和上一代基本持平。考虑到模型参数量上去了还能守住这条线，算是工程上下了功夫。

价格上没有"炸场"式的降价，但也没涨：

GPT-Realtime-2：音频输入 $32/百万 token，音频输出 $64/百万 token（比上一代降约 20%）
gpt-realtime-transcribe-2：$6/百万 token
gpt-realtime-tts-2：$15/百万 token

横向对比一下：ElevenLabs 的 Conversational AI 套餐折算下来大约在每分钟 $0.08–0.15，GPT-Realtime-2 按典型对话密度估算差不多每分钟 $0.06–0.10，价格没有明显优势，但胜在模型脑子更好。对于"需要真的能完成任务"的语音 Agent，这个交换是划算的。

调用姿势：和 Realtime API 完全兼容

接口层面 OpenAI 没有搞新协议，还是沿用 WebSocket 版的 Realtime API，换模型名就行。下面是一个最小化的调用示例（OpenAI Hub 已同步上线三款模型，兼容 OpenAI 格式，把 base_url 和 key 换掉即可直连）：

import asyncio, json, websockets

async def main():
    url = "wss://api.openai-hub.com/v1/realtime?model=gpt-realtime-2"
    headers = {
        "Authorization": "Bearer $OPENAI_HUB_KEY",
        "OpenAI-Beta": "realtime=v1",
    }
    async with websockets.connect(url, extra_headers=headers) as ws:
        await ws.send(json.dumps({
            "type": "session.update",
            "session": {
                "voice": "cedar",
                "modalities": ["audio", "text"],
                "turn_detection": {"type": "server_vad", "threshold": 0.5},
                "tools": [{
                    "type": "function",
                    "name": "lookup_order",
                    "parameters": {"type": "object", "properties": {"order_id": {"type": "string"}}}
                }]
            }
        }))
        # 之后按 input_audio_buffer.append / commit 推音频帧即可
asyncio.run(main())

如果只想用拆分后的 TTS 或 ASR，就是老熟悉的 REST：

curl https://api.openai-hub.com/v1/audio/speech \
  -H "Authorization: Bearer $OPENAI_HUB_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-realtime-tts-2",
    "voice": "cedar",
    "input": "把这句话用稍微抱歉、语速偏慢的语气念出来。",
    "instructions": "tone: apologetic; pace: slow"
  }' --output out.mp3

值得注意的是 instructions 字段：这是 TTS-2 新加的自然语言风格控制入口，比 SSML 友好得多，prompt engineer 直接能上手。

转录和 TTS 这两颗，提升在哪

gpt-realtime-transcribe-2 的升级点主要是三个：一是中英混说的 WER 从上一代的 9.2% 降到 5.8%（OpenAI 自测集）；二是支持 100+ 语种的自动检测，切换不需要显式传 language 参数；三是开放 word-level timestamp，做字幕的同学可以直接用。

gpt-realtime-tts-2 新加了 4 个音色（cedar、marin、juniper、willow），并且原有 voice 也重新训过一遍。更重要的是情感可控度肉眼可见变强——以前你让它"开心一点"，它就把语调整体拉高，听起来很假；现在会在合适的字上做微上扬，接近真人播音员的处理。对有声书、播客类应用是实质性的升级。

谁受影响最大

短期看有几类玩家会被推着走：

做语音客服 / 外呼的创业公司：之前靠 ASR+LLM+TTS 三段串的架构，延迟通常在 1.5s 以上。GPT-Realtime-2 这种端到端 + 好脑子的方案，会成为新的事实标准，再不跟就会被客户体验拉开；
ElevenLabs：情感 TTS 是它的立身之本，GPT-Realtime-TTS-2 这次在情感控制上明显往它的地盘踩了一脚；
国内做 Realtime 方案的团队：MiniMax、阶跃、智谱年初都发过各自的实时语音，指标口径不一样，但 GPT-Realtime-2 这次把"推理+语音"的门槛又抬高了一截，国内团队压力会传导到下一轮更新。

一些还没解决的事

把话说回来，这次发布也不是全无槽点：

没有开放 voice cloning。OpenAI 继续坚持只给预置音色，出于安全合规考虑可以理解，但这让它在某些 to C 场景（虚拟陪伴、个性化有声书）依然没法和 ElevenLabs 正面打；
打断机制仍然是 server VAD：对中文这种有大量停顿、语气词的语言，误触发打断的问题还在，复杂场景建议关 VAD 自己做；
中文音色数量偏少：新加的 4 个音色里只有 1 个中文男声比较自然，女声还是上一代的调调。

小结

GPT-Realtime-2 是 OpenAI 在语音这条线上第一次"认真给脑子"的版本。之前的实时语音更像是 demo，展示"我能说话"；这一代才真正走向"我能干活"。对已经在做语音 Agent 的团队，建议这周就把 POC 迁一份过去跑对比——模型能力的代差通常就是一次版本更新的事，这次更新值得你花半天。

OpenAI Hub 这边三款模型已经同步上线，沿用同一个 Key，base_url 换掉即可，想直接试可以按上面的代码贴一份跑。

参考来源

OpenAI 发布了三款新的语音模型 - linux.do：社区关于本次发布的第一手讨论与实测反馈
OpenAI 一口气发布三个新语音模型 - 知乎：语音 API 的价格与能力分析参考