苹果想让Siri替你操作App,但还没造好

古尔曼放话苹果正在憋一套智能体系统,让Siri全权代理iPhone、iPad和Mac上的App操作。Siri工程主管罗克韦尔在WWDC26后释放信号,新Siri底层架构已为此预留空间,但费德里吉口风谨慎,承认这条赛道还在试验阶段。
苹果的Agent,终于从嘴里漏出来了
上周WWDC26主题演讲结束之后,彭博社的马克·古尔曼在《Power On》专栏里抛了个判断:苹果最终会推出一套智能体AI系统,能代用户自主操作iPhone、iPad和Mac上的各类软件。换句话说,对标的就是OpenAI Operator、Anthropic Computer Use这一挂的东西,只不过苹果把它做进自家操作系统里。
这事的契机,是Siri工程主管迈克·罗克韦尔(Mike Rockwell,没错,就是从Vision Pro调过来收拾Siri烂摊子的那位)在主题演讲结束后说的那番话。古尔曼觉得他的措辞耐人寻味,因为罗克韦尔几乎是公开承认——目前的Siri还只是"被动响应"的助手,但底层已经为"主动执行"留好了路。

罗克韦尔到底说了什么
原话翻译过来大致是这样:
智能体的运行逻辑是持续接收信息、做出判断、执行操作,形成循环。而我们的Siri目前仍主要依靠用户主动发起指令运行。但支撑Siri的底层架构已经是全新的现代化架构,因此我们未来拓展相关能力的空间十分充足。
这话听起来像是公关辞令,但放在苹果一贯的语境里,已经算是相当大尺度的表态。过去苹果谈Siri,要么是"更自然的对话",要么是"更深的App集成",从来不会用"持续接收信息、做出判断、执行操作"这种带循环逻辑的词。这套表述基本就是Agent领域的标准定义——感知(perceive)、推理(reason)、行动(act),然后形成闭环。
苹果软件工程高级副总裁克雷格·费德里吉的口风明显更紧。他承认Agent是一个新兴赛道,但用词非常保守:"这个领域尚处于试验阶段,打造适配的用户体验仍是首要目标。"翻译一下就是:我们在看,但不会马上做,做了也不会让你失望——前提是别催。
为什么现在才说
要理解苹果这次表态的微妙,得先回顾一下他们这两年在AI上踩的坑。
2024年WWDC,苹果端出Apple Intelligence,宣称"个性化Siri"会在2025年随iOS 18.4落地,结果一路跳票到现在。今年WWDC26上,苹果终于把这个东西重新包装成"Siri AI",号称底层已经基于大语言模型完成了重构。但有一说一,发布会上演示的Siri AI还是以"用户主动指令"为主:
- 在相机App里识别物品、给出营养信息
- 根据屏幕内容回答问题
- 跨App搜索照片、邮件、信息
- 在信息App里给出建议回复
这些都是"你问我答"或者"你点我做",本质上还没有跨越到"我替你决定该做什么"的Agent范畴。这也是为什么古尔曼说苹果"最终"会推出智能体——意思是现在这版Siri AI还不算。
跨平台Agent难在哪
如果苹果真的要做跨iPhone、iPad、Mac的Agent,技术门槛比单独一个浏览器Agent要高得多。
第一道坎是权限模型。Anthropic的Computer Use和OpenAI的Operator目前主要在沙盒里跑,本质上是"模拟用户点击"。但苹果如果要让Siri直接操作系统级App,就绕不开权限弹窗、隐私授权、Keychain访问这些东西。苹果自己定下的隐私规矩,到时候会反过来卡自己。
第二道坎是App Intents的覆盖度。早在iOS 16,苹果就推出了App Intents框架,让第三方App把功能暴露给系统级AI调用。问题是,这套东西过去三年的开发者采用率很低,大多数热门App根本懒得适配。Siri想跨App编排任务流,但App那边没有给它"把手",结果就是Siri只能在自家应用之间转圈。
第三道坎是判断什么时候该停。Agent的本质是循环——感知、判断、执行、再感知。但循环跑飞了怎么办?误删邮件、误发信息、误买东西,谁来兜底?这也是为什么费德里吉强调"用户体验"——苹果的产品哲学决定了它不能容忍一个"大多数时候有用但偶尔搞砸"的Siri。

跟竞品比,苹果的位置在哪
横向看一眼现在Agent这条赛道:
- OpenAI Operator:基于Computer Use Agent,浏览器里跑得最熟,能订机票、点外卖、填表单,但仅限网页
- Anthropic Claude Computer Use:开放给开发者用API调用,能操作整个桌面,但稳定性和速度还在迭代
- Google Project Mariner / Gemini Agent:深度集成在Chrome和Android里,主打浏览器和Workspace内的多步任务
- 微软 Copilot Vision + Actions:押注Windows层面,已经开始在Edge和Office里跑
苹果的位置很特殊。它不像Google那样有全栈搜索+浏览器数据,也不像微软那样有Office这种生产力闭环。但它的优势是——iPhone上几乎所有用户行为都发生在苹果自己的操作系统里。理论上,Siri Agent一旦做成,就是离用户最近的Agent,没有之一。
问题在于"做成"这两个字。古尔曼用词是"最终"(eventually),暗示这事可能不是2026年的事,甚至可能不是iOS 27的事。
罗克韦尔的工程逻辑
值得多说一句的是Rockwell为什么会在主题演讲后专门说这番话。这位老兄是从Vision Pro团队调过来收拾Siri的,背景是硬件+系统架构,不是传统的AI研究员。他选择用"架构"作为切入点谈Agent,其实是在透露苹果内部的工程节奏:
- 先把底层换成LLM驱动的现代化架构(这一步WWDC26已经完成)
- 在新架构上做"被动响应"的Siri AI(这是今年要上线的)
- 再在被动响应之上加"主动循环",做成Agent(这是下一步)
这个路径是合理的。先把脚下的地基打稳,再往上盖楼。比起OpenAI那种"先发出来再说"的打法,苹果这套节奏慢,但出错的概率也低。当然代价是——市场不等你。
对开发者意味着什么
如果苹果真的把Agent这条路走下去,开发者要提前准备的事情其实挺多:
- App Intents适配会变成必修课。过去你可以不做,反正Siri也调不动你。但Agent时代,没有Intents暴露的App相当于Siri眼里的盲区,意味着用户用Siri做事的时候会自动绕开你
- 深链接(Deep Link)和Universal Link的设计要更精细。Agent需要明确的入口和参数,模糊的导航逻辑会让Agent卡壳
- 状态可观测性。Agent需要知道"我做完没""做成什么样了",所以App要提供更清晰的状态回调
这些东西不是苹果Agent独有的——Google、微软、OpenAI那边也在推类似的标准。本质上整个生态正在从"人去操作App"过渡到"AI代理人去操作App",App必须重新被设计成机器可读、机器可调用的。
一点判断
苹果这次放话,更像是给市场一个心理预期,而不是真要在短期内交货。从罗克韦尔的措辞和费德里吉的谨慎来看,2026年内大概率是看不到完整Agent版本的Siri的。但好消息是,苹果终于愿意承认这是它必须要做的事——过去两年它对Agent这个词几乎是回避状态。
顺便提一下,如果你现在就想在自己的应用里试试Agent能力,Claude的Computer Use、GPT的Operator相关API在OpenAI Hub上都能直接调,一个Key切换,省得到处申请——比等苹果家的快很多。
至于Siri Agent本体什么时候来,参考过去Apple Intelligence的跳票记录,建议大家把期待值放在iOS 28甚至更靠后。
参考来源
- 古尔曼:苹果有望推出 AI 智能体,让 Siri 自主操作 iPhone 和 Mac 软件 - IT之家 — 彭博社记者古尔曼最新专栏,提到苹果Siri工程主管Rockwell关于Agent架构的表态
- 苹果将Siri人工智能延迟归咎于欧盟规则的讨论 - Reddit — 关于Apple Intelligence跳票原因和苹果与第三方模型合作策略的社区讨论

