谷歌Deep Research换代:Max版来了

模型上新

谷歌于2026年4月推出两款全新Deep Research模型——deep-research-max-preview与deep-research-preview,基于Interactions API调用,标志着其在自主研究智能体赛道的又一次重大升级。

谷歌没打招呼,直接把 Deep Research 的底给换了。

4月21日,不少开发者发现自己的 Gemini Deep Research 功能突然显示"繁忙",还以为是服务又崩了。结果等来的不是故障恢复公告,而是两个全新模型的上线:

  • deep-research-max-preview-04-2026
  • deep-research-preview-04-2026

一个带 Max,一个不带。命名风格跟之前 Gemini 2.5 Pro / Flash 的分层逻辑一脉相承——Max 版本大概率对应更强的推理能力和更长的执行链路,标准版则在速度和成本之间找平衡。谷歌这次没有发布会、没有博客长文,就这么静悄悄地把模型推上了线。

这很谷歌。

从"功能"到"模型":Deep Research 的定位在变

回顾一下时间线。

2025年12月,谷歌发布了 deep-research-pro-preview-12-2025,这是 Deep Research 首次以独立模型的形态出现在 Gemini API 中。在那之前,Deep Research 更像是 Gemini 产品里的一个"高级功能"——你在 Gemini 界面里点一下,它帮你跑一轮深度搜索,最后吐出一份带引用的长报告。

但从去年底开始,谷歌显然想把它做成一个可编程的智能体。独立的模型 ID、独立的 API 接口、独立的调用方式——这意味着开发者可以把 Deep Research 嵌入自己的工作流,而不是只能在谷歌的前端界面里用。

这次的两个新模型延续了这个方向,而且走得更远。

谷歌Deep Research模型演进时间线,从2025年12月的pro-preview到2026年4月的max-preview与preview双版本

Interactions API:不是普通的聊天接口

这次最值得开发者注意的技术细节是:新的 DR 模型仅支持 Interactions API 调用,不走传统的 generateContent 接口。

这不是一个小变化。

Interactions API 是谷歌在新一代 Gemini API 中引入的接口范式,专门为长时间运行的智能体任务设计。和传统的"发一条消息、等一个回复"的请求-响应模式不同,Interactions API 更像是你启动了一个异步任务:模型会自主规划研究路径、分步执行搜索、阅读和分析,中间可能跑几分钟甚至更久,最后返回一份结构化的研究报告。

打个比方:传统 API 调用像发微信语音消息,你说一句它回一句;Interactions API 像是你给一个研究助理发了封邮件,说"帮我调研一下这个课题",然后他花半小时查资料、整理、写报告,最后把成果发回来。

这种设计对 Deep Research 的场景来说是合理的。一次深度研究任务可能涉及几十次网页搜索、上百页文档的阅读和交叉验证,硬塞进一个同步 HTTP 请求里既不现实也不优雅。

从上一代模型的参数来看,Deep Research 支持的输入上下文窗口为 1,048,576 tokens(约100万),输出上限 65,536 tokens,输入端支持文本、图片、PDF、音频和视频。新版本大概率会保持或扩展这些规格,但谷歌暂未公布具体参数。

以下是通过 Interactions API 调用新模型的基本方式(基于谷歌官方文档推断):

import google.genai as genai

client = genai.Client()

# 创建一个 Deep Research 交互任务
interaction = client.interactions.create(
    model=\"deep-research-max-preview-04-2026\",
    messages=[
        {
            \"role\": \"user\",
            \"content\": \"调研2026年Q1全球大模型市场格局变化,重点关注开源与闭源模型的竞争态势,输出一份带引用来源的分析报告。\"
        }
    ]
)

# 轮询或通过回调获取结果
result = client.interactions.get(interaction.id)
print(result.output)

如果你习惯了 OpenAI 兼容格式的 API,也可以通过 OpenAI Hub 等聚合平台来调用 Gemini 系列模型,省去适配不同 SDK 的麻烦——一个 Key 切换不同厂商的模型,对于需要同时对比多家 Deep Research 能力的开发者来说,确实能省不少事。

Max 与标准版:谷歌在押注什么?

两个版本同时发布,谷歌的意图很明确:分层覆盖不同场景。

从命名规律推测:

deep-research-max-preview-04-2026 大概率是"不计成本"的旗舰版。更长的思考链、更多轮的搜索迭代、更强的事实交叉验证能力。适合那些对报告质量要求极高、不在乎等几分钟的场景——比如投研分析、学术文献综述、竞品深度调研。

deep-research-preview-04-2026 则可能是速度和质量的折中。搜索轮次少一些、推理链短一些,但出结果更快、成本更低。适合日常的信息收集和快速摘要。

这种分层策略在大模型行业已经是标配了。OpenAI 有 o3 和 o4-mini,Anthropic 有 Claude Opus 和 Sonnet,谷歌自己的 Gemini 也有 Pro 和 Flash 的区分。但在 Deep Research 这个细分品类里做分层,谷歌是第一个。

这说明谷歌认为 Deep Research 不是一个边缘功能,而是一个值得认真经营的产品线。

竞争格局:Deep Research 赛道已经挤满了人

谷歌加码 Deep Research 的背景是,这条赛道在过去半年里已经变得异常拥挤。

OpenAI 的 Deep Research 由 o3 模型驱动,能处理网页浏览和数据分析,支持文字、图片和 PDF 的多模态输入。从实际使用体验来看,OpenAI 的版本在报告的结构化程度和引用准确性上表现不错,但有时候会陷入"过度搜索"的问题——花了很长时间,最后给你一堆信息但缺乏有效的筛选和判断。

Perplexity 则从搜索引擎的角度切入,它的 Deep Research 更像是"搜索的加强版",速度快但深度有限。Grok 也在做类似的事情,但目前的完成度还差一截。

谷歌的优势在哪?两个字:数据

上一代 Deep Research 模型已经支持接入 Gmail 和 Google Drive 的工作区数据,这意味着它不仅能搜公开网页,还能翻你的邮件和文档。对于企业用户来说,这是一个杀手级的差异化能力——你的研究助理不仅能上网查资料,还能翻你过去三年的邮件往来和内部文档,把相关信息整合进报告里。

另一个优势是 Gemini 3 Pro 的事实准确性。谷歌在上一代 DR 模型的介绍中特别强调了这一点,称其推理核心采用了"迄今为止最具事实准确性的 Gemini 3 Pro 模型"。在 Deep Research 这个场景里,事实准确性比创造性重要得多——你要的是可靠的信息综合,不是天马行空的发散。

当然,谷歌的劣势也很明显:开发者生态。OpenAI 的 API 格式已经成了事实标准,大量工具链和框架都是围绕 OpenAI 的接口设计的。谷歌搞一个独立的 Interactions API,虽然技术上更合理,但无形中增加了开发者的迁移成本。

从技术角度看:Deep Research 智能体的核心挑战

抛开产品竞争不谈,Deep Research 作为一类智能体,面临的核心技术挑战其实很一致:

1. 搜索规划能力

一个好的 Deep Research 智能体,不是搜得多就好,而是要知道该搜什么、按什么顺序搜、什么时候该停。这本质上是一个动态规划问题——模型需要根据已有信息实时调整后续的搜索策略。

2. 信息去重与冲突消解

网上的信息大量重复,而且经常互相矛盾。Deep Research 需要识别哪些是一手来源、哪些是转载,当两个来源说法不一致时该信谁。这比单纯的文本理解难得多。

3. 引用的可靠性

生成带引用的报告听起来简单,但要做到每一条引用都准确指向原文中的具体段落,而不是"幻觉"出一个看似合理但实际不存在的引用,这对模型的忠实度要求极高。

4. 长任务的稳定性

一次 Deep Research 任务可能跑几分钟到十几分钟,中间涉及几十次工具调用。任何一个环节出错——搜索超时、页面解析失败、上下文窗口溢出——都可能导致整个任务失败。这对工程化能力的要求远超普通的聊天模型。

谷歌这次推出 Max 版本,很可能就是在第1和第3个挑战上做了重点优化——更多的搜索轮次意味着更充分的信息覆盖,更强的推理能力意味着更可靠的引用和更准确的事实判断。

对开发者意味着什么?

如果你正在构建任何涉及"自动化信息收集和分析"的应用,这次更新值得关注。

几个具体的场景:

  • 投研和尽调工具:让 Deep Research 自动跑一轮行业调研,生成初稿,人类分析师在此基础上修改和补充。效率提升是数量级的。
  • 竞品监控:定期用 Deep Research 跑竞品分析,自动对比产品变化、定价调整、用户反馈。
  • 学术辅助:文献综述的初步筛选和整理,虽然不能替代人类的学术判断,但能大幅缩短前期的信息收集时间。
  • 客服知识库更新:自动调研行业新动态,更新内部知识库,保持客服回答的时效性。

但也要注意,这两个模型目前都还是 preview 状态,意味着 API 可能会变、定价可能会调、甚至模型本身的行为也可能在后续版本中发生变化。生产环境里用的话,做好兜底方案。

一个值得思考的趋势

从更宏观的视角看,Deep Research 这个品类的崛起反映了一个重要趋势:大模型正在从"对话工具"变成"工作代理"。

2024年,我们讨论的还是"这个模型聊天聊得怎么样"。2025年,话题变成了"这个模型能不能帮我干活"。到了2026年,问题已经变成了"这个模型能不能独立完成一整个工作流"。

Deep Research 就是这个趋势的典型代表。它不是在跟你聊天,它是在替你工作——自主规划、自主执行、自主整合,最后交付一个成果物。

谷歌、OpenAI、Perplexity 在这条赛道上的竞争,本质上是在争夺"AI 工作代理"这个巨大市场的入口。谁的智能体更可靠、更准确、更易集成,谁就能在下一个阶段占据优势。

谷歌这次的更新,算不上惊天动地,但方向是对的。把 Deep Research 做成分层的、可编程的、可集成的智能体产品线,比把它藏在 Gemini 界面里当一个花哨功能要有前途得多。

至于 Max 版本到底比标准版强多少、跟 OpenAI 的 Deep Research 比起来谁更好用,还得等更多开发者实测之后才能下结论。Preview 阶段,一切都还有变数。


参考来源: