Google 在 Chrome 桌面版上线 Skills 功能，让用户把常用的 Gemini 提示词保存为可复用工作流，一键跨标签页执行。这是浏览器从 AI 助手向 AI Agent 演进的关键一步。

Chrome 推出 AI Skills：把 Gemini Prompt 变成一键工作流

Google 刚在 Chrome 桌面版推出了 Skills 功能，让你把反复使用的 Gemini 提示词保存成可复用的工作流，跨标签页一键执行。这不是简单的快捷指令，而是浏览器从被动响应到主动执行的转变——Chrome 正在从「AI 助手」变成「AI Agent」。

解决的是真实痛点

如果你用过 Chrome 内置的 Gemini，应该遇到过这种场景：在多个菜谱网站上反复输入「把这个食谱改成纯素版本」，或者在不同产品页面重复问「总结用户评价的优缺点」。每次都要重新打字，效率低得让人怀疑 AI 的意义。

Skills 就是冲着这个问题来的。Chrome 产品经理 Hafsah Ismail 在公告里说得很直白：「以前重复执行 AI 任务意味着在不同页面重新输入相同的提示词，现在你可以把最有用的提示词保存下来，一键运行。」

Chrome Skills 界面展示，显示保存的提示词列表和一键执行按钮

怎么用？三步搞定

使用逻辑很简单：

创建 Skill：在 Chrome 侧边栏打开 Gemini，输入你常用的提示词（比如「提取这篇文章的关键论点并生成思维导图」），点击保存按钮，给这个 Skill 起个名字
选择目标：打开多个标签页，选中需要处理的页面
一键执行：点击保存的 Skill，Gemini 会自动在选中的所有标签页上运行这个提示词

Google 还提供了预制的 Skills 库，涵盖常见场景：总结文章、对比产品、提取联系信息、生成会议纪要等。你可以直接用，也可以在此基础上修改成自己的版本。

技术上有什么不同？

表面看 Skills 像是「保存提示词」，但实际实现比这复杂。它需要解决几个问题：

跨页面上下文管理：传统的 AI 对话是单线程的，一个会话对应一个上下文。Skills 要在多个标签页并行执行，意味着 Chrome 需要为每个页面维护独立的上下文，同时保证提示词的一致性。这涉及到浏览器层面的进程隔离和内存管理。

动态内容适配：同一个 Skill 在不同网站上运行，页面结构、内容格式可能完全不同。Gemini 需要自动识别页面类型（文章、产品页、表单等），提取相关内容，然后应用提示词逻辑。这背后是 Chrome 的页面解析能力和 Gemini 的多模态理解能力的结合。

权限和隐私控制：Skills 可以访问页面内容，这涉及敏感数据。Chrome 的实现是：只有用户主动点击 Skill 时才会读取页面内容，并且会在侧边栏明确显示哪些标签页被选中。数据处理遵循 Gemini 的隐私政策，用户可以在活动记录中管理和删除。

对比竞品：浏览器 AI 的三种路径

把 Skills 放到行业里看，能看出不同公司对「浏览器 AI」的理解差异：

Microsoft Edge 的 Copilot：集成在侧边栏，主要做对话式辅助。你可以问它问题，但每次都是独立会话，没有工作流的概念。优势是和 Microsoft 365 生态打通，劣势是缺乏自动化能力。

Arc Browser 的 AI Command：通过快捷键唤起 AI，执行预设的浏览器操作（比如「关闭右侧所有标签页」）。这更像是用自然语言控制浏览器，而不是处理页面内容。

Chrome 的 Skills：介于两者之间，既能处理页面内容（像 Copilot），又能批量执行（有点像 Arc 的自动化思路）。更重要的是，它把「提示词工程」变成了用户可以掌握的技能——你不需要懂代码,只需要会写提示词，就能定制自己的浏览器工作流。

从产品策略看，Google 的打法更激进。Edge 和 Arc 都在小心翼翼地试探用户接受度，Chrome 直接把 Gemini 深度集成进浏览器核心功能。这背后是 Google 在 AI 领域的技术自信，也是对搜索业务被 AI 颠覆的焦虑。

开发者视角：Skills 的可能性

对开发者来说，Skills 有两个值得关注的点：

Prompt 即工具：以前我们写浏览器插件需要懂 JavaScript、Chrome Extension API，现在你只需要写好提示词，就能实现类似功能。比如一个「提取页面所有邮箱地址」的 Skill，用传统方式需要写正则表达式、处理 DOM，用 Skills 只需要一句话：「找出这个页面上所有的邮箱地址，以列表形式返回」。

这降低了工具开发的门槛，但也带来新问题：提示词的质量直接决定工具的可靠性。Google Chrome 团队的工程经理 Addy Osmani 最近开源了一套 AI 编程技能集，把资深工程师的工作流程编码成 19 个可复用的 Skills。这种「提示词工程最佳实践」会成为新的知识领域。

API 集成的想象空间：虽然 Google 还没公开 Skills 的 API，但从技术架构看，未来很可能支持第三方集成。想象一下：你在 Notion 里保存了一套项目管理的提示词模板,可以直接同步到 Chrome Skills；或者企业内部的知识库可以发布标准化的 Skills，员工一键安装。

如果 Google 开放 Skills API，开发者可以这样调用（假设使用 OpenAI 兼容格式）：

// 通过 OpenAI Hub 调用 Gemini API 创建 Skill
const response = await fetch('https://openai-hub.com/v1/chat/completions', {
  method: 'POST',
  headers: {
    'Content-Type': 'application/json',
    'Authorization': 'Bearer YOUR_OPENAI_HUB_KEY'
  },
  body: JSON.stringify({
    model: 'gemini-2.0-flash',
    messages: [
      {
        role: 'system',
        content: '你是一个网页内容分析助手，专门提取和总结关键信息'
      },
      {
        role: 'user',
        content: `请分析以下网页内容，提取产品的核心卖点、价格区间和用户评价倾向：\n\n${pageContent}`
      }
    ],
    temperature: 0.3
  })
});

const result = await response.json();
console.log(result.choices[0].message.content);

这个例子展示了如何用统一的 API 格式调用 Gemini，实现类似 Skills 的功能。OpenAI Hub 的优势是一个 Key 就能接入所有主流模型，开发者可以快速切换不同模型测试效果，不用为每个 AI 服务单独申请账号。

真正的挑战：从工具到 Agent

Skills 的推出，标志着 Chrome 从「AI 工具」向「AI Agent」演进。但这条路还很长。

当前的 Skills 本质上还是「增强版快捷指令」：你定义输入（提示词）和触发条件（选中的标签页），Gemini 执行并返回结果。它不会主动判断、不会多步推理、不会跨应用协作。

真正的 Agent 应该是这样的：你告诉它「帮我找三家评分最高的意大利餐厅，预订今晚 7 点的位置，把确认信息发到我邮箱」，它会自动搜索、对比、预订、发邮件，中间遇到问题会问你，但不需要你手动执行每一步。

Google 在公告里提到，Skills 是「向全面 AI Agent 迈进的一步」。从代码层面看，Chrome 团队已经在测试更高级的功能：给 Skills 命名、设置自定义指令、定义执行条件。这些都是 Agent 化的前置能力。

但技术只是一方面，更大的挑战是用户信任。让 AI 自动执行操作，意味着要授予它更高的权限——访问你的邮箱、日历、支付信息。这需要极其严格的安全机制和透明的权限管理。Google 在隐私问题上的历史记录并不完美，这会是 Skills 推广的最大障碍。

对行业的影响

浏览器重新成为创新中心：过去十年，浏览器的创新主要在性能优化和开发者工具。Skills 让浏览器重新变成「平台」——不是运行网页的平台，而是运行 AI 工作流的平台。这会吸引更多开发者围绕浏览器构建工具和服务。

提示词工程师的新战场：以前提示词工程主要在 ChatGPT、Claude 这些对话界面里，现在浏览器成了新场景。如何写出在不同网站都能稳定工作的提示词？如何平衡通用性和针对性？这些会成为新的专业技能。

AI API 聚合服务的价值凸显：Skills 目前只支持 Gemini，但用户需求是多样的——有些任务 GPT-4 更擅长，有些场景 Claude 的长文本能力更强。如果 Google 开放 Skills 的模型选择，或者第三方开发类似工具，AI API 聚合平台（比如 OpenAI Hub）的价值就体现出来了：一个接口，根据任务类型自动选择最合适的模型，国内直连无需翻墙。

现在能用吗？

可用性：Skills 目前在美国地区的 Windows、macOS 和 Chromebook Plus 上推出，Chrome 语言设置需要是英文。Google 表示会「尽快支持更多语言和地区」，但没给具体时间表。

使用门槛：需要 Google 账号，并且开启 Chrome 的 Gemini 功能。免费用户可以使用基础功能，但高级特性（比如跨应用协作）需要 Google One AI Premium 订阅（每月 19.99 美元）。

国内用户怎么办：由于网络限制，国内用户直接使用 Chrome 内置 Gemini 会遇到问题。变通方案是通过 OpenAI Hub 这类 API 聚合平台调用 Gemini，自己实现类似 Skills 的功能。虽然没有原生集成那么顺滑，但胜在灵活——你可以自由选择模型，也可以把工作流部署到自己的服务器上。

值得关注的后续动向

Skills 市场：Google 会不会像 Chrome 插件商店一样，推出 Skills 市场？让用户分享和下载别人创建的工作流？这会极大加速 Skills 的普及，但也会带来质量控制和安全审核的问题。
企业版功能：对企业用户来说，标准化的工作流是刚需。Google Workspace 会不会推出企业级 Skills 管理？IT 部门可以为员工预装标准 Skills，确保合规性和效率。
开放 API：这是最关键的。如果 Google 开放 Skills 的创建和执行 API，第三方开发者可以构建更强大的工具。比如结合 Zapier 实现跨平台自动化，或者接入企业内部系统。
移动端支持：目前 Skills 只在桌面版 Chrome 上可用。移动端的使用场景不同（更碎片化、更即时），Skills 的交互设计需要重新思考。但如果做好了，移动端的想象空间更大——比如在手机上浏览商品时，一键对比价格、提取优惠信息、生成购物清单。

写在最后

Skills 不是革命性的功能，但它代表了一个重要趋势：AI 正在从「回答问题」变成「执行任务」，从「被动响应」变成「主动协作」。

Google 的策略很明确：把 Gemini 深度绑定到 Chrome，让用户在浏览器里就能完成大部分 AI 工作流，减少对第三方工具的依赖。这对 ChatGPT、Claude 这些独立 AI 产品是直接威胁——当用户习惯了在浏览器里用 AI，为什么还要单独打开一个网页或 App?

但 Google 也有软肋：Gemini 的能力还不如 GPT-4 和 Claude 3.5 Sonnet 稳定，尤其在复杂推理和代码生成上。如果 Skills 的体验不够好，用户还是会回到更强大的模型。这也是为什么 AI API 聚合平台有价值——它让开发者和高级用户可以自由选择最合适的模型，而不是被单一生态锁定。

对开发者来说，现在是关注和实验的好时机。即使 Skills 本身还不完善,它展示的方向是对的：把 AI 能力封装成可复用的工作流，降低使用门槛，提高执行效率。无论是用 Chrome 原生的 Skills，还是通过 API 自己实现，这都是未来几年 AI 应用的主流形态。

参考来源

AI写代码总出错？Google大神这套方法让AI像资深程序员一样靠谱 - 掘金 - 介绍 Google Chrome 团队开源的 AI 编程技能集
Chrome 中的Gemini 即将获得「技能」，向全面AI 代理迈进 - 知乎 - 从早期代码分析 Skills 功能的技术实现

Chrome 推出 AI Skills：把 Gemini Prompt 变成一键工作流

Chrome 推出 AI Skills：把 Gemini Prompt 变成一键工作流

解决的是真实痛点

怎么用？三步搞定

技术上有什么不同？

对比竞品：浏览器 AI 的三种路径

开发者视角：Skills 的可能性

真正的挑战：从工具到 Agent

对行业的影响

现在能用吗？

值得关注的后续动向

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们