NotebookLM 换上 Gemini 3.5,胜率提升 15 个百分点

Google 把 NotebookLM 底层换成 Gemini 3.5,叠加 Antigravity 技术,新增推理步骤可视化与 XLSX、PPTX 等多格式输出,内部评估平均胜率超 65%,目前面向 AI Ultra 与 Workspace 付费用户开放。
Google 今天给 NotebookLM 推了一次相当激进的版本迭代:底层模型整体切到 Gemini 3.5,再叠加上不久前刚被官方拿出来当招牌的 Antigravity 技术栈,同时把一直被用户吐槽的"黑盒推理"问题摆到台面上来——聊天界面里现在能直接看到模型每一步是怎么从资料里抠信息、怎么串成结论的。
这不是一次小修小补。Google 在博客里给出的内部对比数据是:新版相对旧版本,在五个核心维度上的平均胜率超过 65%,比基线高出 15 个百分点。其中大型文档分析胜率 69.9%,高级网页研究与信息源发现胜率 78.2%——后一项被 Google 自己形容为"卓越表现"。
对一个去年还被当成"研究生论文神器"的小工具来说,这次升级野心明显大了一圈。

从 Gemini 2.x 直接跳到 3.5,跳过的不只是版本号
熟悉 NotebookLM 这一年走向的开发者大概都有体感:它从去年的 Audio Overviews(音频总结),到 Mind Maps(思维导图),再到 Video Overviews,每隔几个月就被塞进一个新形态的产出方式。但底层模型这块其实一直追得不算激进,前阵子 Threads 上还有人吐槽用 Gemini 3.5 Flash 连两个问题就吃掉 22% 的额度,可见底层调度还在调试期。
这次直接把整套服务搬到 Gemini 3.5 之上,再挂上 Antigravity——后者是 Google 11 月前后开始对外提的一套"自主代理执行框架",简单说就是让模型可以多步规划、调用工具、自我验证,特别适合长链路任务。把它放进 NotebookLM 的语境里,意思很明确:研究类任务不再是"问一句、答一段"的单次召回,而是真的让模型像一个研究助理那样去拆解问题、跨文档检索、交叉验证。
所以那个 78.2% 的高级研究胜率,不是单纯模型变聪明的结果。它更像是 Gemini 3.5 的推理深度 + Antigravity 的任务规划,在 NotebookLM 这个以"封闭语料"为前提的产品形态里,第一次完整跑通了。
推理步骤可视化:迟到,但比 Deep Research 那套要克制
推理透明度这事,是这次升级里我个人最在意的一点。
NotebookLM 过去的体验是这样的:你丢进去几十个 PDF,它给你一段回答外加几个 citation 角标。citation 是好东西,但中间那段"它是怎么从这几篇里得出这个判断的"完全是黑盒。对一般用户没问题,对真要拿这玩意做学术研究、法律检索、市调分析的人就很煎熬——你不能凭一句话和几个链接就把结论搬走。
新版本现在会在聊天界面里展示"推理步骤",明确告诉你:第一步抽取了哪些段落、第二步做了什么对比、第三步基于什么判断给出结论。和 OpenAI、Anthropic 那套 reasoning trace 的呈现风格不太一样——Google 这次的做法更偏"研究方法说明",不是把 chain-of-thought 原汁原味倒出来,而是结构化地告诉你"我是怎么做研究的"。
这点克制其实挺关键。原始 CoT 直接暴露对普通用户来说是噪音,对竞品来说则是免费的训练语料。Google 这次做了一层抽象,既给了透明度,也守住了内容护城河。
输出格式终于补齐:XLSX、PPTX 直接吐
如果说前面两点是"内功",这次输出格式的扩展就是肉眼可见的实用主义。
新版本支持的导出格式列一下:
- 数据可视化:PNG、SVG
- 文档:PDF、DOCX、Markdown、纯文本
- 图像:PNG、JPG、GIF
- 结构化数据:JSON、CSV
- 办公文档:Microsoft Excel(XLSX)、PowerPoint(PPTX)直接输出
最后一项是真正击中痛点的。过去你让 NotebookLM 帮你做一份调研报告,最后还得自己复制到 Word、再手动整理成 PPT。现在直接能吐 XLSX 和 PPTX,对企业用户来说意味着流程闭环——从资料库到最终交付物,中间不用再过 ChatGPT 或者本地脚本。
而且这些导出文件不是一次性的 snapshot:用户在生成结果后还能继续修改,通过"工作室面板"(Studio Panel)下载对应文件。这套交互比 ChatGPT 那种"再生成一次新版本"的逻辑更接近办公场景的实际用法。
SVG 支持也值得单独说一句。意味着 NotebookLM 生成的图表是矢量的,扔进 Keynote、Figma 里二次编辑不会糊。这种细节,Google 这次明显是按 to B 的标准在做。
多语言混合工作流:跨语料库研究的新姿势
另一个被低估的能力是多语言混合。
官方原话是:"用户不仅可以用一种语言下达指令、再以另一种语言生成结果"。听起来像翻译功能,实际上不是。它真正的应用场景是这样的——
你在做一份关于某个海外公司的尽调,资料库里既有中文新闻、又有英文财报、还有几篇日文行业报告。过去你得先翻译、再喂模型、再让模型用中文回答。新版本里你可以直接用中文提问,模型从混合语料里抽信息,再用中文给你结论,中间不需要任何翻译中转。
更进一步,在你还没有完整资料清单的时候,NotebookLM 可以反过来主动帮你发掘——比如你只丢一个关键词"日本中古车出口政策变化",它会主动帮你找日文一手资料、找相关作者的其他研究、找不同语言下的不同视角。这一步其实就是 Antigravity 那套自主代理在背后干活。
对做跨境研究、海外市场分析、学术综述的人来说,这个能力比换模型本身还更有杀伤力。
谁能用上,怎么用上
按 Google 的说法,这次更新先开给两类用户:
- 订阅了 Google AI Ultra 的个人用户
- 符合资格的 Google Workspace 企业客户
免费版用户暂时还在用旧版本。考虑到 Gemini 3.5 + Antigravity 的算力成本,这个分级策略不意外。但参考过去一年 NotebookLM 的下放节奏,预计 Plus 和免费版会在几周到一两个月内陆续拿到部分能力。
横向对比:和 ChatGPT、Claude Projects 的差距在哪
聊到这里得对比一下:现在做"基于私有语料的 AI 研究助理",主流选择有 ChatGPT 的 Projects、Claude 的 Projects、Perplexity 的 Spaces,以及 NotebookLM。
各家定位其实不太一样:
- ChatGPT Projects 偏个人工作流管理,强在长期记忆和自定义指令
- Claude Projects 偏长文档理解,200K context 的优势在做单篇深度分析时很明显
- Perplexity Spaces 偏实时检索 + 协作
- NotebookLM 这次升级后,明显把自己往"研究类任务的端到端平台"上推
XLSX/PPTX 直接导出、跨语言资料发掘、可视化推理步骤——这三个点组合起来,是其他几家目前都不完整具备的。Google 这次没去卷 context length 或者通用对话能力,而是把研究场景的工作流闭环做到了——这是个挺聪明的差异化策略。
一点冷静的判断
当然,胜率 65%、78.2% 这些数字都是 Google 自己的内部评估。AI 厂商发版自评从来都不算靠谱参考,等社区跑出独立 benchmark 才能见真章。Antigravity 的代理能力在长链路任务上稳不稳定,也需要时间验证——这套东西在 demo 里漂亮、在生产环境翻车的案例这两年见得太多。
但有一点是确定的:NotebookLM 已经从一个"PDF 阅读器加强版"变成了一个真正意义上的研究工作台。对开发者来说,这意味着如果你在做 RAG、做 agent 框架、做知识库产品,NotebookLM 现在的产品形态值得反复研究——它代表的是 Google 内部对"AI 研究助理"这个赛道的当下最优解。
顺带一提,国内开发者如果想直接调 Gemini 3.5 做对比测试,可以通过 OpenAI Hub 用兼容 OpenAI 格式的接口拿到,省得折腾代理。同一个 Key 调 GPT、Claude、Gemini 几家横评,相对方便。
至于 NotebookLM 这条产品线接下来会往哪走,我赌一把:Audio Overviews 那条交互被证明跑通了之后,下一步大概率是 Video Overviews 和实时协作的进一步融合。研究类工具的天花板还远没到。
参考来源
- Google NotebookLM 迎来重要更新 新增多格式输出与更强研究能力 - linux.do:社区对此次 NotebookLM 升级的完整功能盘点与讨论



