Google NotebookLM 升级 Gemini 3.5：胜率 +15 个百分点

Google 把 NotebookLM 底层换成 Gemini 3.5，叠加 Antigravity 技术，新增推理步骤可视化与 XLSX、PPTX 等多格式输出，内部评估平均胜率超 65%，目前面向 AI Ultra 与 Workspace 付费用户开放。

Google 今天给 NotebookLM 推了一次相当激进的版本迭代：底层模型整体切到 Gemini 3.5，再叠加上不久前刚被官方拿出来当招牌的 Antigravity 技术栈，同时把一直被用户吐槽的"黑盒推理"问题摆到台面上来——聊天界面里现在能直接看到模型每一步是怎么从资料里抠信息、怎么串成结论的。

这不是一次小修小补。Google 在博客里给出的内部对比数据是：新版相对旧版本，在五个核心维度上的平均胜率超过 65%，比基线高出 15 个百分点。其中大型文档分析胜率 69.9%，高级网页研究与信息源发现胜率 78.2%——后一项被 Google 自己形容为"卓越表现"。

对一个去年还被当成"研究生论文神器"的小工具来说，这次升级野心明显大了一圈。

NotebookLM 新版界面展示推理步骤与多格式导出面板

从 Gemini 2.x 直接跳到 3.5，跳过的不只是版本号

熟悉 NotebookLM 这一年走向的开发者大概都有体感：它从去年的 Audio Overviews（音频总结），到 Mind Maps（思维导图），再到 Video Overviews，每隔几个月就被塞进一个新形态的产出方式。但底层模型这块其实一直追得不算激进，前阵子 Threads 上还有人吐槽用 Gemini 3.5 Flash 连两个问题就吃掉 22% 的额度，可见底层调度还在调试期。

这次直接把整套服务搬到 Gemini 3.5 之上，再挂上 Antigravity——后者是 Google 11 月前后开始对外提的一套"自主代理执行框架"，简单说就是让模型可以多步规划、调用工具、自我验证，特别适合长链路任务。把它放进 NotebookLM 的语境里，意思很明确：研究类任务不再是"问一句、答一段"的单次召回，而是真的让模型像一个研究助理那样去拆解问题、跨文档检索、交叉验证。

所以那个 78.2% 的高级研究胜率，不是单纯模型变聪明的结果。它更像是 Gemini 3.5 的推理深度 + Antigravity 的任务规划，在 NotebookLM 这个以"封闭语料"为前提的产品形态里，第一次完整跑通了。

推理步骤可视化：迟到，但比 Deep Research 那套要克制

推理透明度这事，是这次升级里我个人最在意的一点。

NotebookLM 过去的体验是这样的：你丢进去几十个 PDF，它给你一段回答外加几个 citation 角标。citation 是好东西，但中间那段"它是怎么从这几篇里得出这个判断的"完全是黑盒。对一般用户没问题，对真要拿这玩意做学术研究、法律检索、市调分析的人就很煎熬——你不能凭一句话和几个链接就把结论搬走。

新版本现在会在聊天界面里展示"推理步骤"，明确告诉你：第一步抽取了哪些段落、第二步做了什么对比、第三步基于什么判断给出结论。和 OpenAI、Anthropic 那套 reasoning trace 的呈现风格不太一样——Google 这次的做法更偏"研究方法说明"，不是把 chain-of-thought 原汁原味倒出来，而是结构化地告诉你"我是怎么做研究的"。

这点克制其实挺关键。原始 CoT 直接暴露对普通用户来说是噪音，对竞品来说则是免费的训练语料。Google 这次做了一层抽象，既给了透明度，也守住了内容护城河。

输出格式终于补齐：XLSX、PPTX 直接吐

如果说前面两点是"内功"，这次输出格式的扩展就是肉眼可见的实用主义。

新版本支持的导出格式列一下：

数据可视化：PNG、SVG
文档：PDF、DOCX、Markdown、纯文本
图像：PNG、JPG、GIF
结构化数据：JSON、CSV
办公文档：Microsoft Excel（XLSX）、PowerPoint（PPTX）直接输出

最后一项是真正击中痛点的。过去你让 NotebookLM 帮你做一份调研报告，最后还得自己复制到 Word、再手动整理成 PPT。现在直接能吐 XLSX 和 PPTX，对企业用户来说意味着流程闭环——从资料库到最终交付物，中间不用再过 ChatGPT 或者本地脚本。

而且这些导出文件不是一次性的 snapshot：用户在生成结果后还能继续修改，通过"工作室面板"（Studio Panel）下载对应文件。这套交互比 ChatGPT 那种"再生成一次新版本"的逻辑更接近办公场景的实际用法。

SVG 支持也值得单独说一句。意味着 NotebookLM 生成的图表是矢量的，扔进 Keynote、Figma 里二次编辑不会糊。这种细节，Google 这次明显是按 to B 的标准在做。

多语言混合工作流：跨语料库研究的新姿势

另一个被低估的能力是多语言混合。

官方原话是："用户不仅可以用一种语言下达指令、再以另一种语言生成结果"。听起来像翻译功能，实际上不是。它真正的应用场景是这样的——

你在做一份关于某个海外公司的尽调，资料库里既有中文新闻、又有英文财报、还有几篇日文行业报告。过去你得先翻译、再喂模型、再让模型用中文回答。新版本里你可以直接用中文提问，模型从混合语料里抽信息，再用中文给你结论，中间不需要任何翻译中转。

更进一步，在你还没有完整资料清单的时候，NotebookLM 可以反过来主动帮你发掘——比如你只丢一个关键词"日本中古车出口政策变化"，它会主动帮你找日文一手资料、找相关作者的其他研究、找不同语言下的不同视角。这一步其实就是 Antigravity 那套自主代理在背后干活。

对做跨境研究、海外市场分析、学术综述的人来说，这个能力比换模型本身还更有杀伤力。

谁能用上，怎么用上

按 Google 的说法，这次更新先开给两类用户：

订阅了 Google AI Ultra 的个人用户
符合资格的 Google Workspace 企业客户

免费版用户暂时还在用旧版本。考虑到 Gemini 3.5 + Antigravity 的算力成本，这个分级策略不意外。但参考过去一年 NotebookLM 的下放节奏，预计 Plus 和免费版会在几周到一两个月内陆续拿到部分能力。

横向对比：和 ChatGPT、Claude Projects 的差距在哪

聊到这里得对比一下：现在做"基于私有语料的 AI 研究助理"，主流选择有 ChatGPT 的 Projects、Claude 的 Projects、Perplexity 的 Spaces，以及 NotebookLM。

各家定位其实不太一样：

ChatGPT Projects 偏个人工作流管理，强在长期记忆和自定义指令
Claude Projects 偏长文档理解，200K context 的优势在做单篇深度分析时很明显
Perplexity Spaces 偏实时检索 + 协作
NotebookLM 这次升级后，明显把自己往"研究类任务的端到端平台"上推

XLSX/PPTX 直接导出、跨语言资料发掘、可视化推理步骤——这三个点组合起来，是其他几家目前都不完整具备的。Google 这次没去卷 context length 或者通用对话能力，而是把研究场景的工作流闭环做到了——这是个挺聪明的差异化策略。

一点冷静的判断

当然，胜率 65%、78.2% 这些数字都是 Google 自己的内部评估。AI 厂商发版自评从来都不算靠谱参考，等社区跑出独立 benchmark 才能见真章。Antigravity 的代理能力在长链路任务上稳不稳定，也需要时间验证——这套东西在 demo 里漂亮、在生产环境翻车的案例这两年见得太多。

但有一点是确定的：NotebookLM 已经从一个"PDF 阅读器加强版"变成了一个真正意义上的研究工作台。对开发者来说，这意味着如果你在做 RAG、做 agent 框架、做知识库产品，NotebookLM 现在的产品形态值得反复研究——它代表的是 Google 内部对"AI 研究助理"这个赛道的当下最优解。

顺带一提，国内开发者如果想直接调 Gemini 3.5 做对比测试，可以通过 OpenAI Hub 用兼容 OpenAI 格式的接口拿到，省得折腾代理。同一个 Key 调 GPT、Claude、Gemini 几家横评，相对方便。

至于 NotebookLM 这条产品线接下来会往哪走，我赌一把：Audio Overviews 那条交互被证明跑通了之后，下一步大概率是 Video Overviews 和实时协作的进一步融合。研究类工具的天花板还远没到。