OpenAI 前 CTO Mira Murati 创立的 Thinking Machines 正式公布「交互模型」概念,让 AI 能像人类协作者一样实时感知、思考和响应,而不是被动等待指令。

Mira Murati 的新公司要重新定义 AI 交互

OpenAI 前 CTO Mira Murati 创立的 Thinking Machines 本周一正式公布了他们在做的事:「交互模型」(Interaction Models)。这个概念听起来简单,但指向的问题很核心——现在的 AI 模型体验太割裂了。

现在的模型在「等」,不是在「协作」

Thinking Machines 在博客里直接点出了问题所在:今天的模型体验现实的方式是单线程的。用户在打字或说话的时候,模型就在那儿干等着,完全感知不到用户在做什么、怎么做的。直到用户按下回车或停止说话,模型才开始处理。

这种交互方式的本质是「你说完,我再想」,而不是「我们一起想」。对话被切成了一个个离散的回合,每次都要等上一轮彻底结束才能开始下一轮。这跟人类的协作方式完全不一样。

人和人协作的时候,你能看到对方的表情、听到语气的变化、注意到对方停顿或者加快语速。这些信号会实时影响你接下来说什么、怎么说。但现在的 AI 模型完全接收不到这些信号,它们只能看到最终提交的文本或音频,中间过程对它们来说是黑盒。

传统模型交互流程示意图,展示用户输入-模型等待-模型响应的单向流程

交互模型要做什么

Thinking Machines 提出的交互模型想改变这个局面。按照他们的说法,交互模型会:

持续接收多模态输入:不只是文本,还有音频、视频,而且是实时的流式输入
实时感知用户状态:能感知到用户在做什么、怎么做的,而不是等用户做完
同步思考和响应:在用户还在输入的时候就开始处理,可以随时插话、提问或者调整方向
主动采取行动:不只是回答问题,还能主动执行任务、调用工具

这听起来更像是在描述一个真实的协作伙伴,而不是一个问答机器。关键的区别在于「实时」和「双向」——模型不再是被动等待指令的执行者,而是能主动感知、判断和行动的参与者。

从技术实现角度看,这意味着模型需要:

流式处理能力:能处理未完成的、持续变化的输入流
多模态融合:同时理解文本、语音、视觉信号,并且能捕捉它们之间的时序关系
中断和恢复机制:用户可能随时改变主意或者补充信息,模型要能快速调整
状态管理:需要维护更复杂的对话状态,不只是历史消息,还有当前进行中的交互状态

这个方向有多难

交互模型的概念不算新,但实现起来有几个硬骨头:

延迟问题

实时交互对延迟的要求极高。人类对话的自然节奏是几百毫秒级别的,如果 AI 的响应延迟超过 1 秒,交互体验就会变得很奇怪。现在的大模型推理速度虽然在提升,但要做到真正的实时多模态处理,还需要在模型架构和推理优化上下功夫。

OpenAI 的 GPT-4o 和 Gemini 的实时 API 已经在往这个方向走,但它们主要还是在优化「快速响应」,而不是「持续感知」。交互模型需要的是在用户还在说话的时候就开始理解和思考,这对模型的流式处理能力提出了更高要求。

多模态对齐

文本、语音、视觉信号的时序对齐是个复杂问题。用户可能一边说话一边指着屏幕,或者语气和内容传达的信息不一致。模型需要理解这些信号之间的关系,判断哪些是主要信息、哪些是辅助信息,还要处理信号之间的冲突。

现在的多模态模型大多是「理解」多模态输入,但不一定能很好地处理它们的时序关系。比如用户说「不是这个」的时候指向了屏幕上的某个位置,模型需要把语音、手势、屏幕内容、时间点这几个维度的信息关联起来,这比单纯的图文理解要复杂得多。

主动性的边界

AI 什么时候该主动插话、什么时候该等待,这个判断很微妙。插话太频繁会打断用户思路,太被动又失去了实时协作的意义。这需要模型对人类协作的社交规范有深入理解,而这些规范往往是隐性的、依赖上下文的。

更进一步,如果模型能「主动采取行动」,那它的行动边界在哪里?哪些操作需要明确授权、哪些可以自主执行?这不只是技术问题,还涉及到用户信任和安全设计。

跟现有方案的区别

市面上已经有一些产品在尝试类似的方向:

OpenAI 的 Advanced Voice Mode 支持实时语音对话,能打断、能理解语气,但主要还是语音模态,而且交互模式还是偏向「轮流说话」。

Anthropic 的 Claude 在长文本理解和多轮对话上做得不错,但交互方式还是传统的请求-响应模式。

Google 的 Gemini Live 也在做实时语音交互,支持多模态输入,但从目前的表现看,它更像是把多个模态的输入拼接起来处理,而不是真正的实时融合。

Thinking Machines 强调的「持续感知」和「实时协作」,如果真能做到,会是一个质的变化。这不是简单的功能叠加,而是交互范式的转变——从「工具」变成「伙伴」。

交互模型与传统模型的对比示意图,展示实时双向交互 vs 单向请求响应

Mira Murati 的背景

Mira Murati 在 OpenAI 待了六年多,从 VP of Applied AI and Partnerships 一路做到 CTO,主导了 GPT-4、DALL-E、ChatGPT 等产品的开发和发布。她在 OpenAI 内部以执行力强、产品感好著称,Sam Altman 被短暂罢免期间,她还当过几天临时 CEO。

去年 9 月她从 OpenAI 离职,当时外界猜测是因为公司战略分歧。今年 4 月 Thinking Machines 曝光融资消息,投资方包括 Vinod Khosla 等硅谷知名投资人。现在看来,她离开 OpenAI 不是因为不看好 AI,而是想做一些 OpenAI 不会做或者做不了的事情。

OpenAI 的路线是通用大模型 + API + 应用层产品,核心还是在做「更强的模型」。Thinking Machines 选择的方向是「更好的交互」,这是两个不同的技术路径。前者是纵向深挖模型能力,后者是横向拓展交互方式。

从团队背景看,Thinking Machines 吸引了不少前 OpenAI 的人,包括一些在多模态和实时系统方面有经验的工程师。这个团队配置跟他们要做的事情是匹配的。

对开发者意味着什么

如果交互模型这个方向走通了,对开发者来说会有几个变化:

API 设计会更复杂

传统的 LLM API 是无状态的请求-响应模式,开发者只需要构造好 prompt,发送请求,等待响应。交互模型的 API 可能需要维护长连接、处理流式输入输出、管理会话状态,开发复杂度会上升。

但这也意味着能做的事情更多了。比如可以做真正的实时协作应用,AI 助手可以在用户写代码的时候实时提供建议,而不是等用户写完一段再给反馈。

应用场景会扩展

现在的 AI 应用大多是「用户提问 → AI 回答」的模式,适合做搜索、问答、内容生成这类任务。交互模型打开了新的可能性:

实时协作工具:AI 可以在会议中实时记录、总结、提醒,而不是会后生成纪要
教育场景:AI 导师可以观察学生解题过程,在卡壳的时候及时引导,而不是等学生做完再批改
创作辅助:AI 可以在创作者写作、绘画、编曲的过程中提供实时反馈和建议
客服和销售:AI 可以根据用户的语气、停顿、表情调整沟通策略

这些场景的共同点是需要 AI 「参与」而不只是「响应」。

评估标准会改变

现在评估 LLM 主要看准确率、生成质量、推理能力这些指标。交互模型还需要评估:

响应及时性:能不能在合适的时机插话或提供帮助
上下文连贯性:能不能在持续的交互中保持理解的一致性
多模态融合质量:能不能正确理解不同模态信号的组合含义
主动性的合理性:主动行为是不是符合用户预期

这些指标更主观、更依赖场景,评估起来会比传统 benchmark 复杂。

行业会怎么走

Thinking Machines 不是唯一在做这个方向的公司。OpenAI、Google、Anthropic 都在往实时多模态交互上投入,只是路径和侧重点不同。

OpenAI 的优势是模型能力强、生态完善,但他们的重心还是在做更强的通用模型。实时交互更像是产品层的优化,而不是核心战略。

Google 有硬件优势,Pixel 手机、Nest 设备可以作为交互模型的载体,而且 Google 在语音识别、计算机视觉上积累深厚。但 Google 的问题是产品线太多,很难集中资源押注一个方向。

Anthropic 的路线是「安全可控的 AI」,他们可能会从「可解释的交互」这个角度切入,强调用户对 AI 行为的理解和控制。

创业公司的机会在于专注和灵活。Thinking Machines 可以 all-in 交互模型这个方向,不用考虑向后兼容、不用平衡多个产品线的利益。如果他们能在某个垂直场景(比如教育或者协作工具)做出明显优于通用模型的体验,就有机会建立壁垒。

从技术演进的角度看,交互模型是 AI 从「工具」向「Agent」演进的必经之路。现在的 AI Agent 大多还是基于传统的请求-响应模式,只是加了规划、工具调用、多轮对话这些能力。真正的 Agent 应该是能持续感知环境、自主决策、实时调整的,这跟交互模型的目标是一致的。

挑战和风险

技术上的挑战前面提到了,还有几个非技术的风险:

用户接受度

人们习惯了现在的 AI 交互方式,突然换成一个「会主动插话」的 AI,不一定所有人都喜欢。有些用户可能觉得这样更自然,有些可能觉得被打扰。产品设计需要在「主动」和「克制」之间找到平衡。

隐私和安全

持续接收音频、视频意味着 AI 会「看到」和「听到」更多信息,这对隐私保护提出了更高要求。用户需要清楚地知道哪些信息被采集了、怎么使用的、存储在哪里。

而且实时交互意味着更多的边缘计算,如果处理不当,可能会有数据泄露风险。

商业模式

交互模型的计算成本可能比传统模型高,因为需要持续处理流式输入、维护会话状态。如果按 token 计费,成本会很高;如果按时长计费,用户可能不愿意为「等待时间」付费。需要设计新的定价模式。

对 OpenAI Hub 用户的影响

目前 Thinking Machines 还没有公开 API,产品形态也不明确。但如果他们未来提供 API 服务,OpenAI Hub 会第一时间接入。

对于已经在用 OpenAI Hub 的开发者,可以关注几个方向:

实时交互场景:如果你的应用需要实时协作、持续感知,可以开始思考怎么利用交互模型的能力
多模态融合:现在可以用 GPT-4o 或 Gemini 做多模态应用,积累经验,等交互模型成熟后可以快速迁移
流式处理:OpenAI Hub 支持 streaming 模式,可以先用起来,熟悉流式交互的开发模式

交互模型如果真的做出来了,会是 AI 应用开发的一个新范式。现在提前了解和准备,等产品成熟的时候就能快速跟上。

Mira Murati 和 Thinking Machines 选择的这个方向,本质上是在回答「AI 应该以什么方式存在」这个问题。是一个被动的工具,还是一个主动的伙伴?是等待指令的执行者,还是能感知、思考、协作的参与者?

这个问题的答案会决定未来十年 AI 产品的形态。Thinking Machines 的尝试值得关注,不管最后成不成,这个方向都是对的。

参考来源

Thinking Machines 官方博客 - Interaction Models - 官方对交互模型概念的完整阐述
The Verge 报道 - 关于 Thinking Machines 和交互模型的详细报道