谷歌 Gemini Spark 曝光:能清理邮件、修改文档的真·智能体

产品更新

谷歌 Gemini 即将推出名为 Spark 的智能体功能,不再只是回答问题,而是能直接执行任务——清理 Gmail、整理笔记、生成新闻摘要,甚至创建可复用的自动化工作流。

谷歌 Gemini Spark 曝光:能清理邮件、修改文档的真·智能体

谷歌终于要在智能体这条赛道上动真格了。今天曝光的 Gemini Spark 不再是那个只会聊天的助手,而是能替你干活的执行者——清理邮件、整理会议笔记、生成定制化新闻摘要,甚至可以跨应用执行多步骤工作流。

这次升级的核心逻辑很清楚:从对话式 AI 转向任务执行型智能体。用户不需要手把手教它怎么做,只需要说清楚要什么结果,Spark 会自己调用 Gmail、Docs、Calendar 等谷歌全家桶完成操作。

Gemini Spark 界面截图,显示溢出菜单中的 Spark 启用选项

Spark 能做什么?

根据 Android Authority 和多位爆料者披露的信息,Spark 的能力范围比预期更广:

基础任务执行

  • 清理 Gmail 收件箱里的垃圾邮件和推广内容
  • 在重要会议前自动整理相关笔记和文档
  • 生成个性化的每日新闻摘要
  • 跨应用索引信息并执行操作

可复用的自动化工作流

Spark 最值得关注的是"技能"(Skills)功能。用户可以创建一套指令模板,通过变量输入处理重复性任务。举个例子:你可以设置一个"周报生成"技能,每周五自动从 Calendar 提取会议记录、从 Gmail 筛选重要邮件、从 Docs 汇总项目进度,最后生成一份结构化的周报草稿。

这个逻辑和 Claude 的 Projects 功能类似,但 Spark 的优势在于深度整合了谷歌生态。Claude Projects 需要用户手动上传上下文,Spark 可以直接调用你的 Gmail、Drive、Calendar 数据。

多步骤工作流与跨应用协作

目前曝光的截图显示,Spark 已经能调用 Google Workspace 全家桶(Gmail、Docs、Sheets、Calendar 等)。未来不排除支持第三方应用的可能,但谷歌大概率会先把自家生态跑通再说。

更激进的是,用户可以选择让 Spark 在无需人工审核的情况下自动运行。这意味着你可以设置一个"每天早上 8 点清理收件箱"的任务,Spark 会自己执行,不需要你确认每一步操作。这对效率提升明显,但也带来了新的信任成本——你得相信 Spark 不会误删重要邮件。

浏览器控制与文件调用

爆料者 Testing Catalog 提到,Spark 可能会像智能体一样控制 Chrome 浏览器,并调用本地或云端文件。不过目前看,Spark 还做不到像 OpenClaw 或 Claude Cowork 那样完全接管整台电脑。谷歌的策略更保守:先在自家应用内验证可行性,再逐步扩展权限范围。

Spark 技能创建界面示意图

Spark 和 Remy 是什么关系?

这里需要澄清一个容易混淆的点:Spark 和此前曝光的 Remy 不是同一个东西,但它们都是谷歌智能体战略的一部分。

Remy 是谷歌内部代号,目前仅在员工内部测试,定位是"全天候个人智能体"。它的能力更底层,可以主动监控用户需要关注的事项、学习用户偏好、处理复杂任务。Remy 的名字来自拉丁语"Remigius"(桨手),也是《美食总动员》里那只会做菜的老鼠——谷歌的命名风格一贯如此,既有文化梗又有功能隐喻。

Spark 则是面向普通用户的产品化版本,功能相对聚焦,主要解决日常工作流自动化问题。可以理解为:Remy 是谷歌内部的实验田,Spark 是对外发布的商业化产品。

从时间线看,Remy 在 5 月初曝光,Spark 在 5 月中旬曝光,谷歌 I/O 大会即将在本月晚些时候举行。大概率是谷歌在 I/O 上会正式发布 Spark,同时透露 Remy 的更多细节。

对标 Claude Cowork 和 OpenClaw

智能体这条赛道今年突然热起来,核心原因是 OpenClaw 在年初的病毒式传播。OpenClaw 能代替用户回复消息、进行网络搜索,甚至控制整台电脑,一度成为现象级产品。不过 OpenClaw 的创始团队已经在 2 月加入 OpenAI,产品本身也停止更新。

Anthropic 随后推出了 Claude Cowork,能在 IDE 里自动写代码、调试、提交 PR,直接切入开发者工作流。相比之下,Spark 的定位更偏向普通用户的日常任务自动化,而不是开发者工具链。

三者的核心差异在于权限范围:

  • OpenClaw:完全接管电脑,权限最大,风险也最高
  • Claude Cowork:聚焦开发环境,权限受限于 IDE 和代码仓库
  • Spark:聚焦谷歌生态,权限受限于 Workspace 应用

谷歌的策略更保守,但也更现实。完全接管电脑的智能体听起来很酷,但实际使用中误操作的成本太高。Spark 把权限范围限制在谷歌应用内,既能解决大部分日常任务,又能降低出错风险。

技术实现:可能使用独立模型

有意思的是,爆料信息提到 Spark 可能会使用独立的 AI 模型来完成任务。这意味着 Spark 不一定完全依赖 Gemini 主模型,而是针对特定任务调用专门优化的小模型。

这个设计很合理。智能体的核心不是对话能力,而是任务规划和执行能力。对话需要大模型,但执行任务(比如筛选邮件、提取日程)用小模型就够了,成本更低、响应更快。谷歌很可能会用 Gemini 做任务理解和规划,用专门的小模型做具体执行。

这也解释了为什么 Spark 可以"无需人工审核自动运行"——小模型的输出更可控,出错概率更低。

什么时候能用上?

目前 Spark 还在早期预览阶段,只有部分用户能在 Android 版 Gemini 的溢出菜单里看到启用选项。谷歌 I/O 大会将在本月晚些时候举行,外界普遍预期 Spark 会在大会上正式发布。

不过即使发布,初期也大概率是灰度测试,逐步开放给更多用户。谷歌在 AI 产品上一向谨慎,尤其是涉及用户数据和自动化操作的功能,肯定会先小范围验证再全量推广。

从产品成熟度看,Spark 目前只支持 Google Workspace 应用,第三方应用支持还没影。如果要对标 Claude Cowork 或 OpenClaw,谷歌还需要开放更多 API 和权限接口,这需要时间。

智能体的下一步:从执行到决策

智能体这条赛道的终局不是"帮你做事",而是"替你决策"。现在的 Spark、Claude Cowork、OpenClaw 都还停留在执行层面:你告诉它做什么,它去做。但真正的智能体应该能主动发现问题、提出方案、做出决策。

举个例子:现在的 Spark 可以"每天早上清理收件箱",但它不会主动判断哪些邮件重要、哪些可以删。未来的智能体应该能分析你的邮件习惯,自动归类重要邮件、标记待办事项、甚至代你回复常规邮件。

这需要更强的上下文理解能力和更高的用户信任度。谷歌现在的策略是先把执行层做扎实,再逐步往决策层渗透。Spark 的"技能"功能就是一个过渡方案:用户先定义规则,智能体按规则执行,慢慢积累信任,最后再放开让智能体自主决策。

从这个角度看,Spark 不是终点,而是谷歌智能体战略的第一步。


参考来源