苹果或推跨平台AI智能体，Siri将自主操作iPhone和Mac应用

古尔曼放话苹果正在憋一套智能体系统，让Siri全权代理iPhone、iPad和Mac上的App操作。Siri工程主管罗克韦尔在WWDC26后释放信号，新Siri底层架构已为此预留空间，但费德里吉口风谨慎，承认这条赛道还在试验阶段。

苹果的Agent，终于从嘴里漏出来了

上周WWDC26主题演讲结束之后，彭博社的马克·古尔曼在《Power On》专栏里抛了个判断：苹果最终会推出一套智能体AI系统，能代用户自主操作iPhone、iPad和Mac上的各类软件。换句话说，对标的就是OpenAI Operator、Anthropic Computer Use这一挂的东西，只不过苹果把它做进自家操作系统里。

这事的契机，是Siri工程主管迈克·罗克韦尔（Mike Rockwell，没错，就是从Vision Pro调过来收拾Siri烂摊子的那位）在主题演讲结束后说的那番话。古尔曼觉得他的措辞耐人寻味，因为罗克韦尔几乎是公开承认——目前的Siri还只是"被动响应"的助手，但底层已经为"主动执行"留好了路。

WWDC26主题演讲现场，Craig Federighi在介绍Siri AI新架构

罗克韦尔到底说了什么

原话翻译过来大致是这样：

智能体的运行逻辑是持续接收信息、做出判断、执行操作，形成循环。而我们的Siri目前仍主要依靠用户主动发起指令运行。但支撑Siri的底层架构已经是全新的现代化架构，因此我们未来拓展相关能力的空间十分充足。

这话听起来像是公关辞令，但放在苹果一贯的语境里，已经算是相当大尺度的表态。过去苹果谈Siri，要么是"更自然的对话"，要么是"更深的App集成"，从来不会用"持续接收信息、做出判断、执行操作"这种带循环逻辑的词。这套表述基本就是Agent领域的标准定义——感知（perceive）、推理（reason）、行动（act），然后形成闭环。

苹果软件工程高级副总裁克雷格·费德里吉的口风明显更紧。他承认Agent是一个新兴赛道，但用词非常保守："这个领域尚处于试验阶段，打造适配的用户体验仍是首要目标。"翻译一下就是：我们在看，但不会马上做，做了也不会让你失望——前提是别催。

为什么现在才说

要理解苹果这次表态的微妙，得先回顾一下他们这两年在AI上踩的坑。

2024年WWDC，苹果端出Apple Intelligence，宣称"个性化Siri"会在2025年随iOS 18.4落地，结果一路跳票到现在。今年WWDC26上，苹果终于把这个东西重新包装成"Siri AI"，号称底层已经基于大语言模型完成了重构。但有一说一，发布会上演示的Siri AI还是以"用户主动指令"为主：

在相机App里识别物品、给出营养信息
根据屏幕内容回答问题
跨App搜索照片、邮件、信息
在信息App里给出建议回复

这些都是"你问我答"或者"你点我做"，本质上还没有跨越到"我替你决定该做什么"的Agent范畴。这也是为什么古尔曼说苹果"最终"会推出智能体——意思是现在这版Siri AI还不算。

跨平台Agent难在哪

如果苹果真的要做跨iPhone、iPad、Mac的Agent，技术门槛比单独一个浏览器Agent要高得多。

第一道坎是权限模型。Anthropic的Computer Use和OpenAI的Operator目前主要在沙盒里跑，本质上是"模拟用户点击"。但苹果如果要让Siri直接操作系统级App，就绕不开权限弹窗、隐私授权、Keychain访问这些东西。苹果自己定下的隐私规矩，到时候会反过来卡自己。

第二道坎是App Intents的覆盖度。早在iOS 16，苹果就推出了App Intents框架，让第三方App把功能暴露给系统级AI调用。问题是，这套东西过去三年的开发者采用率很低，大多数热门App根本懒得适配。Siri想跨App编排任务流，但App那边没有给它"把手"，结果就是Siri只能在自家应用之间转圈。

第三道坎是判断什么时候该停。Agent的本质是循环——感知、判断、执行、再感知。但循环跑飞了怎么办？误删邮件、误发信息、误买东西，谁来兜底？这也是为什么费德里吉强调"用户体验"——苹果的产品哲学决定了它不能容忍一个"大多数时候有用但偶尔搞砸"的Siri。

iPhone 17 Pro上展示Siri AI跨App操作的概念示意图

跟竞品比，苹果的位置在哪

横向看一眼现在Agent这条赛道：

OpenAI Operator：基于Computer Use Agent，浏览器里跑得最熟，能订机票、点外卖、填表单，但仅限网页
Anthropic Claude Computer Use：开放给开发者用API调用，能操作整个桌面，但稳定性和速度还在迭代
Google Project Mariner / Gemini Agent：深度集成在Chrome和Android里，主打浏览器和Workspace内的多步任务
微软 Copilot Vision + Actions：押注Windows层面，已经开始在Edge和Office里跑

苹果的位置很特殊。它不像Google那样有全栈搜索+浏览器数据，也不像微软那样有Office这种生产力闭环。但它的优势是——iPhone上几乎所有用户行为都发生在苹果自己的操作系统里。理论上，Siri Agent一旦做成，就是离用户最近的Agent，没有之一。

问题在于"做成"这两个字。古尔曼用词是"最终"（eventually），暗示这事可能不是2026年的事，甚至可能不是iOS 27的事。

罗克韦尔的工程逻辑

值得多说一句的是Rockwell为什么会在主题演讲后专门说这番话。这位老兄是从Vision Pro团队调过来收拾Siri的，背景是硬件+系统架构，不是传统的AI研究员。他选择用"架构"作为切入点谈Agent，其实是在透露苹果内部的工程节奏：

先把底层换成LLM驱动的现代化架构（这一步WWDC26已经完成）
在新架构上做"被动响应"的Siri AI（这是今年要上线的）
再在被动响应之上加"主动循环"，做成Agent（这是下一步）

这个路径是合理的。先把脚下的地基打稳，再往上盖楼。比起OpenAI那种"先发出来再说"的打法，苹果这套节奏慢，但出错的概率也低。当然代价是——市场不等你。

对开发者意味着什么

如果苹果真的把Agent这条路走下去，开发者要提前准备的事情其实挺多：

App Intents适配会变成必修课。过去你可以不做，反正Siri也调不动你。但Agent时代，没有Intents暴露的App相当于Siri眼里的盲区，意味着用户用Siri做事的时候会自动绕开你
深链接（Deep Link）和Universal Link的设计要更精细。Agent需要明确的入口和参数，模糊的导航逻辑会让Agent卡壳
状态可观测性。Agent需要知道"我做完没""做成什么样了"，所以App要提供更清晰的状态回调

这些东西不是苹果Agent独有的——Google、微软、OpenAI那边也在推类似的标准。本质上整个生态正在从"人去操作App"过渡到"AI代理人去操作App"，App必须重新被设计成机器可读、机器可调用的。

一点判断

苹果这次放话，更像是给市场一个心理预期，而不是真要在短期内交货。从罗克韦尔的措辞和费德里吉的谨慎来看，2026年内大概率是看不到完整Agent版本的Siri的。但好消息是，苹果终于愿意承认这是它必须要做的事——过去两年它对Agent这个词几乎是回避状态。

顺便提一下，如果你现在就想在自己的应用里试试Agent能力，Claude的Computer Use、GPT的Operator相关API在OpenAI Hub上都能直接调，一个Key切换，省得到处申请——比等苹果家的快很多。

至于Siri Agent本体什么时候来，参考过去Apple Intelligence的跳票记录，建议大家把期待值放在iOS 28甚至更靠后。

参考来源

古尔曼：苹果有望推出 AI 智能体，让 Siri 自主操作 iPhone 和 Mac 软件 - IT之家 — 彭博社记者古尔曼最新专栏，提到苹果Siri工程主管Rockwell关于Agent架构的表态
苹果将Siri人工智能延迟归咎于欧盟规则的讨论 - Reddit — 关于Apple Intelligence跳票原因和苹果与第三方模型合作策略的社区讨论

苹果想让Siri替你操作App，但还没造好

苹果的Agent，终于从嘴里漏出来了

罗克韦尔到底说了什么

为什么现在才说

跨平台Agent难在哪

跟竞品比，苹果的位置在哪

罗克韦尔的工程逻辑

对开发者意味着什么

一点判断

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们