Chrome 推出 AI Skills:把 Gemini Prompt 变成一键工作流
Google 刚在 Chrome 桌面版推出了 Skills 功能,让你把反复使用的 Gemini 提示词保存成可复用的工作流,跨标签页一键执行。这不是简单的快捷指令,而是浏览器从被动响应到主动执行的转变——Chrome 正在从「AI 助手」变成「AI Agent」。
解决的是真实痛点
如果你用过 Chrome 内置的 Gemini,应该遇到过这种场景:在多个菜谱网站上反复输入「把这个食谱改成纯素版本」,或者在不同产品页面重复问「总结用户评价的优缺点」。每次都要重新打字,效率低得让人怀疑 AI 的意义。
Skills 就是冲着这个问题来的。Chrome 产品经理 Hafsah Ismail 在公告里说得很直白:「以前重复执行 AI 任务意味着在不同页面重新输入相同的提示词,现在你可以把最有用的提示词保存下来,一键运行。」

怎么用?三步搞定
使用逻辑很简单:
- 创建 Skill:在 Chrome 侧边栏打开 Gemini,输入你常用的提示词(比如「提取这篇文章的关键论点并生成思维导图」),点击保存按钮,给这个 Skill 起个名字
- 选择目标:打开多个标签页,选中需要处理的页面
- 一键执行:点击保存的 Skill,Gemini 会自动在选中的所有标签页上运行这个提示词
Google 还提供了预制的 Skills 库,涵盖常见场景:总结文章、对比产品、提取联系信息、生成会议纪要等。你可以直接用,也可以在此基础上修改成自己的版本。
技术上有什么不同?
表面看 Skills 像是「保存提示词」,但实际实现比这复杂。它需要解决几个问题:
跨页面上下文管理:传统的 AI 对话是单线程的,一个会话对应一个上下文。Skills 要在多个标签页并行执行,意味着 Chrome 需要为每个页面维护独立的上下文,同时保证提示词的一致性。这涉及到浏览器层面的进程隔离和内存管理。
动态内容适配:同一个 Skill 在不同网站上运行,页面结构、内容格式可能完全不同。Gemini 需要自动识别页面类型(文章、产品页、表单等),提取相关内容,然后应用提示词逻辑。这背后是 Chrome 的页面解析能力和 Gemini 的多模态理解能力的结合。
权限和隐私控制:Skills 可以访问页面内容,这涉及敏感数据。Chrome 的实现是:只有用户主动点击 Skill 时才会读取页面内容,并且会在侧边栏明确显示哪些标签页被选中。数据处理遵循 Gemini 的隐私政策,用户可以在活动记录中管理和删除。
对比竞品:浏览器 AI 的三种路径
把 Skills 放到行业里看,能看出不同公司对「浏览器 AI」的理解差异:
Microsoft Edge 的 Copilot:集成在侧边栏,主要做对话式辅助。你可以问它问题,但每次都是独立会话,没有工作流的概念。优势是和 Microsoft 365 生态打通,劣势是缺乏自动化能力。
Arc Browser 的 AI Command:通过快捷键唤起 AI,执行预设的浏览器操作(比如「关闭右侧所有标签页」)。这更像是用自然语言控制浏览器,而不是处理页面内容。
Chrome 的 Skills:介于两者之间,既能处理页面内容(像 Copilot),又能批量执行(有点像 Arc 的自动化思路)。更重要的是,它把「提示词工程」变成了用户可以掌握的技能——你不需要懂代码,只需要会写提示词,就能定制自己的浏览器工作流。
从产品策略看,Google 的打法更激进。Edge 和 Arc 都在小心翼翼地试探用户接受度,Chrome 直接把 Gemini 深度集成进浏览器核心功能。这背后是 Google 在 AI 领域的技术自信,也是对搜索业务被 AI 颠覆的焦虑。
开发者视角:Skills 的可能性
对开发者来说,Skills 有两个值得关注的点:
Prompt 即工具:以前我们写浏览器插件需要懂 JavaScript、Chrome Extension API,现在你只需要写好提示词,就能实现类似功能。比如一个「提取页面所有邮箱地址」的 Skill,用传统方式需要写正则表达式、处理 DOM,用 Skills 只需要一句话:「找出这个页面上所有的邮箱地址,以列表形式返回」。
这降低了工具开发的门槛,但也带来新问题:提示词的质量直接决定工具的可靠性。Google Chrome 团队的工程经理 Addy Osmani 最近开源了一套 AI 编程技能集,把资深工程师的工作流程编码成 19 个可复用的 Skills。这种「提示词工程最佳实践」会成为新的知识领域。
API 集成的想象空间:虽然 Google 还没公开 Skills 的 API,但从技术架构看,未来很可能支持第三方集成。想象一下:你在 Notion 里保存了一套项目管理的提示词模板,可以直接同步到 Chrome Skills;或者企业内部的知识库可以发布标准化的 Skills,员工一键安装。
如果 Google 开放 Skills API,开发者可以这样调用(假设使用 OpenAI 兼容格式):
// 通过 OpenAI Hub 调用 Gemini API 创建 Skill
const response = await fetch('https://openai-hub.com/v1/chat/completions', {
method: 'POST',
headers: {
'Content-Type': 'application/json',
'Authorization': 'Bearer YOUR_OPENAI_HUB_KEY'
},
body: JSON.stringify({
model: 'gemini-2.0-flash',
messages: [
{
role: 'system',
content: '你是一个网页内容分析助手,专门提取和总结关键信息'
},
{
role: 'user',
content: `请分析以下网页内容,提取产品的核心卖点、价格区间和用户评价倾向:\n\n${pageContent}`
}
],
temperature: 0.3
})
});
const result = await response.json();
console.log(result.choices[0].message.content);
这个例子展示了如何用统一的 API 格式调用 Gemini,实现类似 Skills 的功能。OpenAI Hub 的优势是一个 Key 就能接入所有主流模型,开发者可以快速切换不同模型测试效果,不用为每个 AI 服务单独申请账号。
真正的挑战:从工具到 Agent
Skills 的推出,标志着 Chrome 从「AI 工具」向「AI Agent」演进。但这条路还很长。
当前的 Skills 本质上还是「增强版快捷指令」:你定义输入(提示词)和触发条件(选中的标签页),Gemini 执行并返回结果。它不会主动判断、不会多步推理、不会跨应用协作。
真正的 Agent 应该是这样的:你告诉它「帮我找三家评分最高的意大利餐厅,预订今晚 7 点的位置,把确认信息发到我邮箱」,它会自动搜索、对比、预订、发邮件,中间遇到问题会问你,但不需要你手动执行每一步。
Google 在公告里提到,Skills 是「向全面 AI Agent 迈进的一步」。从代码层面看,Chrome 团队已经在测试更高级的功能:给 Skills 命名、设置自定义指令、定义执行条件。这些都是 Agent 化的前置能力。
但技术只是一方面,更大的挑战是用户信任。让 AI 自动执行操作,意味着要授予它更高的权限——访问你的邮箱、日历、支付信息。这需要极其严格的安全机制和透明的权限管理。Google 在隐私问题上的历史记录并不完美,这会是 Skills 推广的最大障碍。
对行业的影响
浏览器重新成为创新中心:过去十年,浏览器的创新主要在性能优化和开发者工具。Skills 让浏览器重新变成「平台」——不是运行网页的平台,而是运行 AI 工作流的平台。这会吸引更多开发者围绕浏览器构建工具和服务。
提示词工程师的新战场:以前提示词工程主要在 ChatGPT、Claude 这些对话界面里,现在浏览器成了新场景。如何写出在不同网站都能稳定工作的提示词?如何平衡通用性和针对性?这些会成为新的专业技能。
AI API 聚合服务的价值凸显:Skills 目前只支持 Gemini,但用户需求是多样的——有些任务 GPT-4 更擅长,有些场景 Claude 的长文本能力更强。如果 Google 开放 Skills 的模型选择,或者第三方开发类似工具,AI API 聚合平台(比如 OpenAI Hub)的价值就体现出来了:一个接口,根据任务类型自动选择最合适的模型,国内直连无需翻墙。
现在能用吗?
可用性:Skills 目前在美国地区的 Windows、macOS 和 Chromebook Plus 上推出,Chrome 语言设置需要是英文。Google 表示会「尽快支持更多语言和地区」,但没给具体时间表。
使用门槛:需要 Google 账号,并且开启 Chrome 的 Gemini 功能。免费用户可以使用基础功能,但高级特性(比如跨应用协作)需要 Google One AI Premium 订阅(每月 19.99 美元)。
国内用户怎么办:由于网络限制,国内用户直接使用 Chrome 内置 Gemini 会遇到问题。变通方案是通过 OpenAI Hub 这类 API 聚合平台调用 Gemini,自己实现类似 Skills 的功能。虽然没有原生集成那么顺滑,但胜在灵活——你可以自由选择模型,也可以把工作流部署到自己的服务器上。
值得关注的后续动向
Skills 市场:Google 会不会像 Chrome 插件商店一样,推出 Skills 市场?让用户分享和下载别人创建的工作流?这会极大加速 Skills 的普及,但也会带来质量控制和安全审核的问题。
企业版功能:对企业用户来说,标准化的工作流是刚需。Google Workspace 会不会推出企业级 Skills 管理?IT 部门可以为员工预装标准 Skills,确保合规性和效率。
开放 API:这是最关键的。如果 Google 开放 Skills 的创建和执行 API,第三方开发者可以构建更强大的工具。比如结合 Zapier 实现跨平台自动化,或者接入企业内部系统。
移动端支持:目前 Skills 只在桌面版 Chrome 上可用。移动端的使用场景不同(更碎片化、更即时),Skills 的交互设计需要重新思考。但如果做好了,移动端的想象空间更大——比如在手机上浏览商品时,一键对比价格、提取优惠信息、生成购物清单。
写在最后
Skills 不是革命性的功能,但它代表了一个重要趋势:AI 正在从「回答问题」变成「执行任务」,从「被动响应」变成「主动协作」。
Google 的策略很明确:把 Gemini 深度绑定到 Chrome,让用户在浏览器里就能完成大部分 AI 工作流,减少对第三方工具的依赖。这对 ChatGPT、Claude 这些独立 AI 产品是直接威胁——当用户习惯了在浏览器里用 AI,为什么还要单独打开一个网页或 App?
但 Google 也有软肋:Gemini 的能力还不如 GPT-4 和 Claude 3.5 Sonnet 稳定,尤其在复杂推理和代码生成上。如果 Skills 的体验不够好,用户还是会回到更强大的模型。这也是为什么 AI API 聚合平台有价值——它让开发者和高级用户可以自由选择最合适的模型,而不是被单一生态锁定。
对开发者来说,现在是关注和实验的好时机。即使 Skills 本身还不完善,它展示的方向是对的:把 AI 能力封装成可复用的工作流,降低使用门槛,提高执行效率。无论是用 Chrome 原生的 Skills,还是通过 API 自己实现,这都是未来几年 AI 应用的主流形态。
参考来源
- AI写代码总出错?Google大神这套方法让AI像资深程序员一样靠谱 - 掘金 - 介绍 Google Chrome 团队开源的 AI 编程技能集
- Chrome 中的Gemini 即将获得「技能」,向全面AI 代理迈进 - 知乎 - 从早期代码分析 Skills 功能的技术实现