OpenAI 正筹备上线代号 GPT-Bidi-1 的双向语音模型，主打边听边说、被插嘴也能顺着接，是 ChatGPT 语音模式自高级语音以来最大规模的一次架构换血。

OpenAI 憋了半年的 GPT-Bidi-1，要让语音模式学会被打断

6 月 17 日，testingcatalog 放出一则爆料：OpenAI 正在为 ChatGPT 语音模式准备一次大动作，代号 GPT-Bidi-1 的新模型已经进入上线筹备阶段。这是自 2024 年高级语音模式（Advanced Voice Mode）问世以来，OpenAI 在语音侧最像样的一次架构升级——不是换个声线、加个情绪，而是把底层的对话机制从「轮流发言」改成了「双向并行」。

这事其实早有伏笔。今年初 The Information 就报过 OpenAI 在搞 BiDi 架构，原计划 Q1 发布，结果原型机持续对话几分钟就开始说胡话、变声，硬生生拖到了年中。现在终于看到要上线的影子，节点掐得也算不晚——毕竟文字模型这边都跑到 GPT-5.5 了，语音还停在一年前的栈上，落差越来越难看。

「轮流发言」到底卡在哪

要理解 BiDi 的意义，先得知道现在的高级语音模式是怎么工作的。本质上，它还是个 half-duplex（半双工） 系统：你说完一段，模型 VAD（语音活动检测）判断你停了，才开始处理音频、生成回复、合成语音播放出去。中间一旦你插一句「等等」「不是这个意思」，模型要么粗暴中断，要么继续把已经规划好的话讲完，然后再切回去听你说什么。

这种模式有几个硬伤：

打断不自然。人类对话里「嗯」「对」「然后呢」这种 backchannel 反馈是常态，现在的模型一听到声音就以为你要抢话，直接闭嘴。
节奏死板。AI 没法在你说话过程中调整自己的回应方向，只能等你说完、想好、一次性输出。
延迟感重。即便端到端延迟做到 300ms，仍然是「等-想-说」三段式，跟真人那种边听边组织语言的并行感差得远。

GPT-Bidi-1 要解决的就是这个事。双向（bidirectional）的核心是同时打开输入和输出两条流，模型在自己说话的同时，依然在持续吸收用户的音频输入，并且能基于新输入实时修改后续要说的内容。换句话说，它不再是「听一段、说一段」，而是「一直在听、一直在说，听到什么就改什么」。

这才是真正的「全双工」

做过实时音频系统的人都知道，全双工对话听起来简单，工程上其实是个深坑。模型得同时维护两个状态：自己正在说什么、用户正在说什么，而且要在毫秒级判断「用户这句是反馈、是补充、是打断、是噪音」。判断错了，要么把用户的「嗯哼」当成新指令，要么把真正的打断当成附和。

从泄露的细节看，GPT-Bidi-1 的能力包括：

持续音频流处理。不再等 VAD 触发，而是一直在解析输入，模型自己决定什么时候该让位、什么时候继续讲。
中途方向调整。一个典型例子：你给 AI 客服打电话说「我要退货」，话到一半改口「算了换货吧」，老模型会卡壳或者跑完退货流程，BiDi 理论上能无缝切换任务分支。
工具调用更顺。OpenAI 之前透露，BiDi 在串接外部工具（function calling）时表现明显更好，这对接入业务系统的语音 agent 是刚需。

OpenAI 内部判断，这才是把 AI 助理从「玩具」推向真正可落地客服、硬件交互的关键一跃。他们也在筹备语音优先的硬件——智能音箱、可穿戴设备这些场景，半双工的体验根本撑不起来。

High / Medium / Instant 三档智能

GPT-Bidi-1 上线后的产品形态也有看点。用户可以在双向模式和现有高级语音模式之间自由切换——这一点很务实，因为 BiDi 虽然自然，但「一直在听一直在说」的开销显然比轮流模式高，不是所有场景都需要。

更有意思的是它支持三档智能等级：

High：复杂任务、推理重的对话用，响应慢但深度足。
Medium：日常问答、信息查询的平衡档。
Instant：快速反应优先，适合 backchannel 密集的闲聊或者控制类指令。

这种分档思路其实跟 OpenAI 现在文本侧 reasoning_effort 的玩法一脉相承，把推理深度暴露给用户自己选。对开发者来说，这意味着你可以根据 SLA 和成本预算去 tune——做语音客服的可以默认 Medium，关键节点切 High，预订餐厅这种简单任务直接 Instant 跑完。

跟 Gemini、Sesame 们比一比

横向看，全双工语音其实不只 OpenAI 一家在卷。Google 的 Gemini Live、Sesame 的 CSM、还有国内几家在做端侧语音的，各自路线略有差异，但目标一致：让 AI 说话像人。

Gemini Live 走的是 native audio 路线，端到端音频建模，节奏感和情绪都不错，但打断的处理还偏保守。Sesame 在小模型上的 voice presence 做得很惊艳，问题是规模和工具调用能力上不去。OpenAI 这次如果真把 BiDi 推稳，最大的优势是把全双工对话能力 + GPT 级别的推理 + 工具调用打通——前两者都有人做，但把三者揉一起且能商用的，目前还真没看到第二家。

当然「能上线」和「能用」中间还隔着距离。原型机几分钟就崩、变声这种问题，说明长上下文音频建模的稳定性还在死磕。我猜首批放出来大概率是有时长限制的灰度，先收数据再说。

对开发者意味着什么

如果你在做语音相关的产品，几个点值得现在就开始想：

现有 Realtime API 的代码要预留切换空间。BiDi 上线后大概率会带新的接口或参数，半双工的 turn detection 逻辑可能直接被废掉。
prompt 设计要变。半双工时代你可以假定「用户讲完一句完整的话」，BiDi 下用户可能在你回答的第三秒就改主意，system prompt 里得显式处理中途变更的策略。
客服、教育、陪伴类场景的体验会被重新定义。原来勉强能用的语音 bot，BiDi 出来后可能直接不能看了，要提前评估升级路径。

顺带说一句，OpenAI Hub（openai-hub.com）这边在 GPT-Bidi-1 正式开放 API 后会第一时间接入，国内直连，一个 Key 调 GPT / Claude / Gemini / DeepSeek，兼容 OpenAI 格式。如果你想在新模型放出来时直接跑通双向语音 demo，调用方式预计跟现在的 Realtime API 类似：

from openai import OpenAI

client = OpenAI(
    base_url="https://api.openai-hub.com/v1",
    api_key="sk-your-hub-key"
)

# 预期接口形态（以官方正式发布为准）
session = client.beta.realtime.sessions.create(
    model="gpt-bidi-1",
    modalities=["audio", "text"],
    voice="alloy",
    turn_detection={
        "type": "bidi",          # 启用双向模式
        "intelligence": "medium" # high / medium / instant
    },
    instructions="你是一个零售客服，需要在用户中途改主意时无缝切换任务。"
)

print(session.client_secret.value)

上面的字段名只是按现有 Realtime API 的风格猜的，最终以 OpenAI 放出的文档为准。但思路八九不离十：把 turn_detection 从 server_vad 换成 bidi，再带一个 intelligence 档位。

写在最后

语音是 AI 交互里最被低估、也最难做对的一块。文本对话再聪明，体验上限就是「打字快慢」；语音如果能做到真人级，整个 AI 助理的渗透率会再上一个台阶——这点 OpenAI 看得很清楚，所以宁愿延期半年也要把 BiDi 磨出来。

至于 GPT-Bidi-1 到底能不能解决「机械感」这个老问题，等正式放出来跑两轮就知道了。但有一点可以肯定：轮流发言时代的语音 AI 要翻篇了，下半年语音 agent 这个赛道会很热闹。

参考来源

IT之家 - ChatGPT 语音最大规模升级：OpenAI 正筹备推出 GPT-Bidi-1 AI 模型：原始爆料报道，给出了 GPT-Bidi-1 的命名和三档智能等级细节。

OpenAI 憋了半年的 GPT-Bidi-1，要让语音模式学会被打断

OpenAI 憋了半年的 GPT-Bidi-1，要让语音模式学会被打断

「轮流发言」到底卡在哪

这才是真正的「全双工」

High / Medium / Instant 三档智能

跟 Gemini、Sesame 们比一比

对开发者意味着什么

写在最后

参考来源

相关推荐

Anthropic踩了刹车：Agent SDK按Token计费暂时搁置

Grok 4.3 登陆 Bedrock，xAI 终于挤进 AWS 模型货架

Grok Imagine Video 1.5 转正：6秒720P视频25秒出片

联系我们