AI 快讯OpenAI 憋了半年的 GPT-Bidi-1,要让语音模式学会被打断
产品更新

OpenAI 憋了半年的 GPT-Bidi-1,要让语音模式学会被打断

2026-06-17T09:05:24.192Z

OpenAI 正筹备上线代号 GPT-Bidi-1 的双向语音模型,主打边听边说、被插嘴也能顺着接,是 ChatGPT 语音模式自高级语音以来最大规模的一次架构换血。

OpenAI 憋了半年的 GPT-Bidi-1,要让语音模式学会被打断

6 月 17 日,testingcatalog 放出一则爆料:OpenAI 正在为 ChatGPT 语音模式准备一次大动作,代号 GPT-Bidi-1 的新模型已经进入上线筹备阶段。这是自 2024 年高级语音模式(Advanced Voice Mode)问世以来,OpenAI 在语音侧最像样的一次架构升级——不是换个声线、加个情绪,而是把底层的对话机制从「轮流发言」改成了「双向并行」。

这事其实早有伏笔。今年初 The Information 就报过 OpenAI 在搞 BiDi 架构,原计划 Q1 发布,结果原型机持续对话几分钟就开始说胡话、变声,硬生生拖到了年中。现在终于看到要上线的影子,节点掐得也算不晚——毕竟文字模型这边都跑到 GPT-5.5 了,语音还停在一年前的栈上,落差越来越难看。

「轮流发言」到底卡在哪

要理解 BiDi 的意义,先得知道现在的高级语音模式是怎么工作的。本质上,它还是个 half-duplex(半双工) 系统:你说完一段,模型 VAD(语音活动检测)判断你停了,才开始处理音频、生成回复、合成语音播放出去。中间一旦你插一句「等等」「不是这个意思」,模型要么粗暴中断,要么继续把已经规划好的话讲完,然后再切回去听你说什么。

这种模式有几个硬伤:

  • 打断不自然。人类对话里「嗯」「对」「然后呢」这种 backchannel 反馈是常态,现在的模型一听到声音就以为你要抢话,直接闭嘴。
  • 节奏死板。AI 没法在你说话过程中调整自己的回应方向,只能等你说完、想好、一次性输出。
  • 延迟感重。即便端到端延迟做到 300ms,仍然是「等-想-说」三段式,跟真人那种边听边组织语言的并行感差得远。

GPT-Bidi-1 要解决的就是这个事。双向(bidirectional)的核心是同时打开输入和输出两条流,模型在自己说话的同时,依然在持续吸收用户的音频输入,并且能基于新输入实时修改后续要说的内容。换句话说,它不再是「听一段、说一段」,而是「一直在听、一直在说,听到什么就改什么」。

这才是真正的「全双工」

做过实时音频系统的人都知道,全双工对话听起来简单,工程上其实是个深坑。模型得同时维护两个状态:自己正在说什么、用户正在说什么,而且要在毫秒级判断「用户这句是反馈、是补充、是打断、是噪音」。判断错了,要么把用户的「嗯哼」当成新指令,要么把真正的打断当成附和。

从泄露的细节看,GPT-Bidi-1 的能力包括:

  1. 持续音频流处理。不再等 VAD 触发,而是一直在解析输入,模型自己决定什么时候该让位、什么时候继续讲。
  2. 中途方向调整。一个典型例子:你给 AI 客服打电话说「我要退货」,话到一半改口「算了换货吧」,老模型会卡壳或者跑完退货流程,BiDi 理论上能无缝切换任务分支。
  3. 工具调用更顺。OpenAI 之前透露,BiDi 在串接外部工具(function calling)时表现明显更好,这对接入业务系统的语音 agent 是刚需。

OpenAI 内部判断,这才是把 AI 助理从「玩具」推向真正可落地客服、硬件交互的关键一跃。他们也在筹备语音优先的硬件——智能音箱、可穿戴设备这些场景,半双工的体验根本撑不起来。

High / Medium / Instant 三档智能

GPT-Bidi-1 上线后的产品形态也有看点。用户可以在双向模式和现有高级语音模式之间自由切换——这一点很务实,因为 BiDi 虽然自然,但「一直在听一直在说」的开销显然比轮流模式高,不是所有场景都需要。

更有意思的是它支持三档智能等级:

  • High:复杂任务、推理重的对话用,响应慢但深度足。
  • Medium:日常问答、信息查询的平衡档。
  • Instant:快速反应优先,适合 backchannel 密集的闲聊或者控制类指令。

这种分档思路其实跟 OpenAI 现在文本侧 reasoning_effort 的玩法一脉相承,把推理深度暴露给用户自己选。对开发者来说,这意味着你可以根据 SLA 和成本预算去 tune——做语音客服的可以默认 Medium,关键节点切 High,预订餐厅这种简单任务直接 Instant 跑完。

跟 Gemini、Sesame 们比一比

横向看,全双工语音其实不只 OpenAI 一家在卷。Google 的 Gemini Live、Sesame 的 CSM、还有国内几家在做端侧语音的,各自路线略有差异,但目标一致:让 AI 说话像人。

Gemini Live 走的是 native audio 路线,端到端音频建模,节奏感和情绪都不错,但打断的处理还偏保守。Sesame 在小模型上的 voice presence 做得很惊艳,问题是规模和工具调用能力上不去。OpenAI 这次如果真把 BiDi 推稳,最大的优势是把全双工对话能力 + GPT 级别的推理 + 工具调用打通——前两者都有人做,但把三者揉一起且能商用的,目前还真没看到第二家。

当然「能上线」和「能用」中间还隔着距离。原型机几分钟就崩、变声这种问题,说明长上下文音频建模的稳定性还在死磕。我猜首批放出来大概率是有时长限制的灰度,先收数据再说。

对开发者意味着什么

如果你在做语音相关的产品,几个点值得现在就开始想:

  • 现有 Realtime API 的代码要预留切换空间。BiDi 上线后大概率会带新的接口或参数,半双工的 turn detection 逻辑可能直接被废掉。
  • prompt 设计要变。半双工时代你可以假定「用户讲完一句完整的话」,BiDi 下用户可能在你回答的第三秒就改主意,system prompt 里得显式处理中途变更的策略。
  • 客服、教育、陪伴类场景的体验会被重新定义。原来勉强能用的语音 bot,BiDi 出来后可能直接不能看了,要提前评估升级路径。

顺带说一句,OpenAI Hub(openai-hub.com)这边在 GPT-Bidi-1 正式开放 API 后会第一时间接入,国内直连,一个 Key 调 GPT / Claude / Gemini / DeepSeek,兼容 OpenAI 格式。如果你想在新模型放出来时直接跑通双向语音 demo,调用方式预计跟现在的 Realtime API 类似:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.openai-hub.com/v1",
    api_key="sk-your-hub-key"
)

# 预期接口形态(以官方正式发布为准)
session = client.beta.realtime.sessions.create(
    model="gpt-bidi-1",
    modalities=["audio", "text"],
    voice="alloy",
    turn_detection={
        "type": "bidi",          # 启用双向模式
        "intelligence": "medium" # high / medium / instant
    },
    instructions="你是一个零售客服,需要在用户中途改主意时无缝切换任务。"
)

print(session.client_secret.value)

上面的字段名只是按现有 Realtime API 的风格猜的,最终以 OpenAI 放出的文档为准。但思路八九不离十:把 turn_detectionserver_vad 换成 bidi,再带一个 intelligence 档位。

写在最后

语音是 AI 交互里最被低估、也最难做对的一块。文本对话再聪明,体验上限就是「打字快慢」;语音如果能做到真人级,整个 AI 助理的渗透率会再上一个台阶——这点 OpenAI 看得很清楚,所以宁愿延期半年也要把 BiDi 磨出来。

至于 GPT-Bidi-1 到底能不能解决「机械感」这个老问题,等正式放出来跑两轮就知道了。但有一点可以肯定:轮流发言时代的语音 AI 要翻篇了,下半年语音 agent 这个赛道会很热闹。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: