WWDC26 上苹果发布全新 Siri AI 和第二代 Apple Intelligence 架构，底层引入谷歌 Gemini，支持系统级屏幕感知、文件交互，并首次推出独立 App。

两年磨一剑，苹果终于把 Siri 重做了

2026 年 6 月 8 日的 WWDC 主题演讲，库克把舞台留给了 Craig Federighi。后者用接近半小时的时间，把过去两年苹果在 AI 上的尴尬清账——Siri AI 正式亮相，Apple Intelligence 进入第二代架构，底层引入谷歌 Gemini，同时全平台铺开屏幕感知和文件交互。

这是 Siri 自 2011 年发布以来最大规模的一次重构，也很可能是库克任内最后一次重磅产品发布。压力不小：过去两年，用户已经把任务习惯迁移到 ChatGPT、Claude 和 Gemini，苹果手里只剩硬件和系统权限这两张底牌。这次能不能把入口拿回来，Federighi 给出的答案是——做一个真正“住”在系统里的 AI 伙伴，而不是一个被唤醒后只会查天气的语音助手。

WWDC26 主题演讲现场 Craig Federighi 介绍 Siri AI

不再只是语音助手：Siri AI 的三种形态

苹果这次给 Siri AI 的定义是“entirely new version of Siri”，强调它是 AI companion 而不是 voice assistant。落到产品上，新 Siri 至少有三种存在形态。

第一种是常驻灵动岛。 唤醒“Siri”或长按电源键，灵动岛会膨胀成一个大气泡，里面是全新的动效和对话界面。这和过去那种铺满底部的半透明蒙层不一样——Siri AI 被设计成可以随时进入、随时退出的浮层，不打断你当前的任务流。从屏幕顶部中央向下滑，还能直接调出“搜索或提问”界面，支持打字和语音双模，相当于把 Spotlight 和 Siri 合并成了一个入口。

第二种是独立 App。 这个改动很关键。过去 Siri 没有自己的“家”，对话用完即焚。新版 Siri 有了独立 App，界面逻辑和 ChatGPT、Claude 几乎一样：左侧对话历史列表、中间多轮会话、底部支持上传文档和图片的附件选择器。在 Siri 浮层结果界面继续下滑，就能进入完整对话视图。这意味着苹果终于承认了一件事：AI 助手就是要按 chatbot 的范式去做，过去那种“一问一答即结束”的设计已经被市场验证为错的。

第三种是系统级代理。 Siri AI 能读取屏幕上的任何内容，也能与第三方 App 交互。在演示里，Mike 让 Siri 帮他查询一场演唱会的门票信息并提醒他报名抽奖；又让 Siri 搜索“和孩子们一起旅行的照片”——这两个例子都跨越了多个 App，Siri 需要同时调用日历、邮件、照片以及网页搜索来完成任务。

语音侧也有大幅升级。新 Siri 的声音表现更生动，用户可以自定义语速、表现力（expressivity）和口音。CarPlay 和 AirPods 同步获得这套能力，意味着在车里和耳机里，Siri 的对话感会明显接近一个真人。

Apple Intelligence 第二代：苹果终于服软，引入 Gemini

比 Siri 本身更值得说的，是底层架构。

苹果正式宣布 Apple Intelligence 与谷歌达成合作，引入 Gemini 作为云端大模型。这是一个相当克制但务实的决定——过去两年苹果一直试图用自研模型撑起 Apple Intelligence，结果是发布会上画的饼一个都没准时端上桌。Gemini 的完整版本参数规模达到万亿级别，苹果的 Private Cloud Compute 基础设施无法独立承载，所以部分复杂查询会直接走谷歌云。

隐私这一块苹果没让步。为了在谷歌云上跑模型还能维持“无人能访问你的数据”的承诺，苹果引入了英伟达的 Confidential Compute 机密计算技术，对处理中的数据和模型进行加密。代价是云端推理速度略有下降，但品牌表述上仍然沿用 Private Cloud Compute。

端侧也有重要更新。第二代设备端模型接管了一系列基础能力：

听写（dictation）
自然语言理解
更生动的语音表达
屏幕感知（screen awareness）

屏幕感知是这次架构升级里最实用的一块。Siri 能理解你屏幕上正在发生什么——一条短信里的地址、一封邮件里的航班号、一张图片里的商品——然后据此发起动作。这个能力两年前 WWDC 就承诺过，但当时只是 demo，这次终于真的端到端跑通了。

Apple Intelligence 第二代架构示意图，端云协同

端云路由的逻辑和上一代一致：Apple Intelligence 先分析请求能否在设备端完成，如果不行再走 Private Cloud Compute 或 Gemini。区别在于，第二代设备端模型能搞定的事情明显更多了，这也意味着大多数日常请求不会出端。

macOS 27：Control + 点选，文件成为 Siri 的上下文

macOS 27 上的整合更具生产力气质。

苹果把 Siri AI 直接塞进了 Spotlight（聚焦）。操作逻辑非常苹果：按住 Control 键，点选图像、文件或文本，就能向 Siri 发起提问。窗口可以自由拖放调整大小，意味着 Siri 在 Mac 上不再是浮在屏幕中央的对话框，而是一个可以并排放在你工作区域里的常驻面板。

更关键的是 Siri 可以调用 Mac 上的文件来回答问题。你可以同时选中多个文件——一份 PDF 合同、一张参考截图、一段会议录音——调出关键菜单，让 Siri 综合理解后回答。这套交互对开发者和创作者意义重大：过去要把多个本地文件喂给 ChatGPT，你得一个个上传；现在系统级的 Siri 可以直接访问，省掉了搬运成本。

隐私层面，文件内容默认在设备端模型里处理，只有当任务复杂度超过端侧能力时才会走加密的云端路径。

iOS 27 相机端：Siri 进入取景框

iOS 27 上，Siri 被集成进了相机应用。

演示里苹果给了一个相当生活化的例子：用相机记录每天摄入的食物。打开相机，启用 Siri，对着餐盘按下快门，Siri 自动识别盘子里有什么、保存到 Siri App 里，作为一条饮食记录。这个功能取代了过去叫做“视觉智能”（Visual Intelligence）的体验，背后由第二代设备端模型处理，不需要把照片上传到云端。

这是个很典型的“AI 找场景”案例。相机本来就是 iPhone 用户最高频打开的应用之一，把 Siri 嵌进去意味着 AI 进入了一个最自然的入口——你看到什么，AI 就理解什么。竞争对手 Google Lens 已经做了多年，但优势在于和系统级 Siri 打通，识别结果可以直接触发后续动作（记录、提醒、搜索）。

iPhone 17 相机中启用 Siri 识别食物并保存的演示画面

相册应用也获得了两个 AI 工具：

Reframe（重构）：调整照片视角
Extend（拓展）：用生成式 AI 补全被截断的画面，比如把照片里被裁掉的建筑下半部分画回来

这两个功能 Google Photos 早就有了，苹果这次算是补课。

苹果的算盘：AI 入口能不能兑换成服务利润

抛开技术细节，Siri AI 这次重构在商业上的赌注非常清晰。

苹果 2025 财年的收入结构里，产品收入 3070 亿美元占 74%，服务收入 1092 亿美元占 26%。但服务的毛利率高达 75.4%，远超产品端的 36.8%。服务业务已经贡献了苹果约 42% 的总毛利。

从 Siri AI 这次的产品设计能看出几条潜在变现路径：

Apple Intelligence Pro 订阅：高级模型能力分层收费
默认模型路由费：类似 Google 给 Safari 默认搜索付费的逻辑，未来可能向 OpenAI、Anthropic 收取“默认 AI 助手”的费用
代理式电商抽成：Siri 帮你下单后从 App Store 抽佣
Apple Pay 路由费：AI 代理触发的支付
代理结果中的广告

美银的分析里点出过最大的不确定性：如果用户已经把核心任务习惯迁移到了 ChatGPT、Gemini、Claude，那么哪怕苹果掌控硬件和系统权限，能截留的 AI 价值也会大幅缩水。这次 Siri AI 的重构，本质上是苹果在抢回入口。

几个值得开发者关注的点

对开发者来说，这次 WWDC 至少有几件事需要重新评估：

App Intents 框架的重要性陡增。Siri AI 要跨 App 执行操作，依赖的就是 App Intents。如果你的 App 没有暴露足够细粒度的 Intents，就会被 Siri 的代理能力边缘化。
屏幕感知改变了交互假设。过去 App 设计假设用户的注意力都在你的界面上，现在 Siri 可能正在“看”用户的屏幕并提供操作建议，UI 的可解析性变得重要。
独立 Siri App 是一个新流量入口。它会像 ChatGPT 一样积累用户对话历史，意味着用户的搜索路径正在从 Safari 转向对话框。

苹果给出的时间表是：iOS 27、iPadOS 27 和 macOS 27 的开发者测试版即日起开放，公测 7 月，正式版随秋季 iPhone 18 Pro 一起推送。Siri AI 的完整能力首发支持 iPhone 15 Pro 及以后机型，以及 M1 及以后的 iPad 和 Mac。

值得一提的是，Gemini 模型同步在 OpenAI Hub 上线已久——一个 Key 就能在 GPT、Claude、Gemini、DeepSeek 之间自由切换，国内直连且兼容 OpenAI 格式。如果你想在自己产品里复刻类似 Siri AI 的多模型路由架构，可以直接参考。

写在最后

两年前 WWDC24 上，Apple Intelligence 第一次亮相，苹果许下了一堆当时没兑现的承诺。这次 Siri AI 终于把那些 PPT 变成了能用的产品，但代价是接受现实——自研模型撑不起来，谷歌 Gemini 来填坑。这是苹果罕见的低头，也是务实的选择。

对苹果来说，硬件和系统权限仍然是它最强的护城河。问题是，当 AI 助手这个新时代的入口已经被 ChatGPT 占了两年的心智，苹果还有没有机会用一个“住在系统里、能看屏幕、能动文件”的 Siri 把用户拉回来？答案要等到今年秋天 iPhone 18 Pro 出货之后才能看清。

参考来源

苹果 iOS 27 版 Siri 已集成至相机应用，iPhone 17 等用户可记录饮食 - IT之家：相机端 Siri 集成细节
苹果 macOS 27 整合 Siri AI 至「聚焦」 - IT之家：Mac 上 Control + 点选交互的演示
苹果 Apple Intelligence 与谷歌达成合作：引入 Gemini - IT之家：第二代架构和端云协同方案
苹果推出 Siri AI：独立 App，为灵动岛优化 - IT之家：Siri AI 产品形态详解

两年磨一剑，苹果终于把 Siri 重做了

两年磨一剑，苹果终于把 Siri 重做了

不再只是语音助手：Siri AI 的三种形态

Apple Intelligence 第二代：苹果终于服软，引入 Gemini

macOS 27：Control + 点选，文件成为 Siri 的上下文

iOS 27 相机端：Siri 进入取景框

苹果的算盘：AI 入口能不能兑换成服务利润

几个值得开发者关注的点

写在最后

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们