谷歌Gemini Spark上线:第一个真正24/7在线的AI Agent

产品更新

谷歌在I/O 2026上推出首款消费级常驻AI Agent——Gemini Spark,即便你关掉设备它也能在云端继续干活。实测能力惊艳,但订阅费和隐私代价同样不容忽视。

谷歌把AI Agent做成了"全天候员工"

5月19日的Google I/O 2026主题演讲上,谷歌正式发布了Gemini Spark——这是它第一款面向消费者的"常开式"(always-on)AI Agent。简单说,你关机走人,它在云端继续替你干活。

这件事比听上去更重要。过去两年里,所谓AI Agent几乎都是"会话级"的:你打开一个聊天窗口,给它任务,等它跑完,关窗口就结束了。OpenAI的Operator、Anthropic的Computer Use、谷歌自家早期的Project Mariner,本质上都是这个范式——它们是"被调用"的工具,而不是"在岗"的助手。Gemini Spark是第一个把这道边界跨过去的产品。

据《The Verge》上周拿到的实测体验,Spark能跑多步任务:从筛选收件箱、订餐厅,到比价购物、整理日程,整个过程像一个真人助理在后台帮你处理事务。关键的差别在于:你不需要盯着它。

Gemini Spark在手机端的任务面板,显示后台正在执行的多个长任务

从代号Remy到Gemini Spark

这个产品的开发其实持续了至少一年。它内部代号叫Remy,灵感来自《料理鼠王》里那只藏在厨师帽下指挥厨房的小老鼠——隐喻很到位:在幕后操控,但你感觉不到它的存在。

5月13日到14日的某个夜里,谷歌应用的beta版里"Remy"这个名字悄悄消失了,被换成了"Gemini Spark"。9to5Google的APK Insight最早发现了这次替换,随后一位X用户泄露的onboarding截图坐实了这件事——距离I/O主题演讲只剩五天。

命名层面,Spark比此前候选的"Gemini Agent"要轻盈得多。Agent这个词在2026年已经被用烂了,几乎所有大厂都在做Agent,叫多了反而模糊。Spark带有"火花、触发"的暗示,呼应它"主动出击"的产品定位,这是营销上的小聪明。

技术栈:Gemini 3.x专属变体 + 视觉增强

beta版的模型选择器透露了一些底层信息:

  • 基础模型:Gemini 3.x的一个专属变体,针对长时长tool use和多步"thinking"做了优化。这意味着它不是简单调用通用Gemini API,而是一套专门针对Agent场景训练的checkpoint。
  • 视觉模型:内部名称"Spark Robin",专门负责在网页浏览过程中解读截图、PDF、复杂表单。这点很关键——长任务里最容易卡住的就是"看不懂页面",比如订机票时遇到一个奇怪的弹窗、购物时验证码挑战,过去的Agent就在这里掉链子。
  • 运行位置:目前还没明确Spark是否完全跑在云端。考虑到"24/7运行"这个核心卖点,云端是必然的;但谷歌可能为新一代Googlebook(被定位为Chromebook接班人,搭载Gemini Intelligence)预留了本地组件。

另一个值得关注的细节:Spark和DeepMind的Magic Pointer——那个用Gemini重新定义鼠标光标的项目——大概率会做整合。两者瞄准的都是"AI-first交互范式",技术栈也是同源的。

# Gemini Spark 通过 OpenAI Hub 调用示例(兼容 OpenAI 格式)
from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

# 启动一个后台长任务
response = client.chat.completions.create(
    model="gemini-spark",
    messages=[
        {"role": "system", "content": "You are a persistent agent. Continue tasks across sessions."},
        {"role": "user", "content": "监控我的收件箱,把发票类邮件自动归档并提取金额到表格"}
    ],
    extra_body={
        "agent_mode": "persistent",
        "max_steps": 50,
        "require_confirmation": ["purchase", "send_email"]
    }
)

print(response.choices[0].message.content)

实测:好得有点吓人,但不便宜

《The Verge》的记者上周拿到了Spark的访问权。原话是:"shockingly good at doing things on your behalf"——做事好得让人有点惊讶。多步任务、跨应用切换、需要等待的流程(比如等回邮件再继续操作),Spark处理得都比预期顺畅。

但记者也直接泼了冷水:不确定它的财务成本和隐私代价值不值得

这两点都很现实:

1. 价格还没公布,但不会便宜。 一个7×24小时跑在谷歌云上的Agent,连接30多个应用、随时待命,背后是持续的算力消耗。无论是包月还是按token,定价大概率会高于Gemini Advanced现有的19.99美元/月档位。业内推测在40-60美元区间是合理的。

2. 隐私权限是核心矛盾。 Spark要真正发挥价值,必须接入你的邮箱、日历、支付、购物账户——这是它能"主动"的前提。但谷歌长期以来在数据使用上的口碑就是一笔糊涂账。Spark网站顶部赫然写着"始终在你的指挥下"、"由你开启"、"重大操作前会与你确认"——这种过度强调反而暴露了用户的疑虑有多大。

监管雷区:欧洲AI Act怎么办

谷歌在Spark的服务条款里明确写了一句很关键的话:"Spark不应被用于医疗、法律、金融或其他形式的专业咨询。"

这不是免责声明那么简单。欧盟AI Act将于2026年8月2日全面生效,它把在金融或医疗领域做出自主决策的AI系统归类为"高风险"。一个能不经确认就完成购买的Agent,技术上正好踩在这条线上。

所以可以预期的是:欧洲版的Spark大概率会比美国版功能更受限——可能去掉自动购物、自动支付,把更多操作降级到"必须人工确认"。这种地区差异化已经在GPT-4o的语音功能、Meta AI的训练数据使用上出现过,Spark只是把它带到Agent层面。

它跟竞品差在哪

横向比一下当下的Agent产品:

产品 形态 持续运行 接入应用数
OpenAI Operator 浏览器代理 否,会话级 通用网页
Anthropic Computer Use 桌面代理 否,会话级 通用桌面
Microsoft Copilot Agents 嵌入式 部分常驻 M365生态
Gemini Spark 云端常驻 是,24/7 30+应用

Spark的差异化点很清楚:"在岗"而非"被调用"。这是产品定位上的一次跳跃,不是功能升级。

但这种差异化也有它的脆弱面。常驻Agent的难点不是技术,是信任——你要把邮箱、日历、信用卡都交给它,前提是你相信它不会乱来。OpenAI做Operator时刻意保守,每一步都要确认;Anthropic做Computer Use也是定位"开发者预览",反复强调实验性质。谷歌这次直接推消费级常驻Agent,胆子是更大,但翻车的成本也更高。

对开发者意味着什么

几个值得关注的方向:

  • Agent调度框架会变热。 Spark上线后,多步任务编排、长时记忆、跨会话上下文管理这些工程问题会从研究话题变成生产话题。LangGraph、CrewAI这类框架的需求会上一个台阶。
  • "工具调用"标准会被重新审视。 Spark对接30多个应用,谷歌大概率有一套自己的tool calling规范。这会和Anthropic的MCP、OpenAI的Function Calling形成三足鼎立,可能催生新的事实标准。
  • 本地Agent的机会窗口在收窄。 Spark的云端模式如果跑通,依赖本地算力的Agent产品差异化会越来越难讲——除非主打"数据不出本机"这条隐私牌。

OpenAI Hub已经支持Gemini系列模型的统一调用,一个Key就能切换GPT、Claude、Gemini、DeepSeek等主流模型,国内直连,兼容OpenAI格式。Spark的API一旦开放,预计也会第一时间适配。

写在最后

Gemini Spark是2026年到目前为止最有产品野心的一次发布。它不是参数更大、benchmark更高的模型,而是一次形态上的跨越——把AI从"工具"变成"在岗员工"。

但它也是矛盾最集中的产品:

  • 能力越强,权限越大,风险越高
  • 越是"常驻",越是无法回避监管
  • 越是"自主",用户对透明度的需求越强

《The Verge》记者那句"不确定值不值得",可能就是大多数普通用户看完发布会后的真实感受。Spark能不能从"演示惊艳"走到"日常依赖",要看接下来三个月谷歌在定价、欧洲版本、隐私机制上怎么落地。

Agent这场仗,从今天开始才算真的打响。

参考来源