苹果iOS 27把Gemini蒸馏进了iPhone

产品更新

The Information爆料苹果用Gemini蒸馏端侧AI模型,部分Siri云端请求转发至Google Cloud,同时引入NVIDIA机密计算守住隐私底线。

苹果终于摊牌:iOS 27 的端侧 AI,是 Gemini 蒸馏出来的

库克最不愿意承认的事,被 The Information 捅了出来。

5 月 28 日,The Information 一篇深度披露把苹果和谷歌在 AI 上的合作底裤扒了个干净:iOS 27 上那个号称"自研、隐私优先、本地运行"的端侧 AI 模型,本质上是用谷歌 Gemini 当老师、蒸馏出来的学生模型。更刺激的是,Siri 的部分云端请求会直接转发给 Google Cloud 上的授权版 Gemini 来处理。

这事不算完全意外。今年 1 月苹果和谷歌官宣合作的时候,业内就猜到 Gemini 会深度介入 Apple Intelligence 体系,3 月也有过苹果"拆解 Gemini"的传闻。但直到这次,外界才看清楚苹果到底是怎么把谷歌的模型"洗"成自己的。

iOS 27 Siri 与 Gemini 合作示意图

端侧那一套:知识蒸馏,把万亿参数压成几 B

苹果做端侧 AI 的执念,是写进 DNA 里的。从 A 系列芯片里的 Neural Engine,到 WWDC 上每年必讲的 Private Cloud Compute,苹果在公开叙事里几乎不允许自己说出"我们把用户数据传上云"这种话。

但现实是,做大模型这件事苹果实在没追上。Apple Intelligence 在过去两年画的饼,几乎没有按时兑现过——延期的个性化 Siri、被砍掉的功能、被外媒嘲讽"不如三年前的 ChatGPT"。再坚持完全自研,2026 年的 iOS 27 就要彻底没看头。

所以苹果选了一条妥协路线:用别人最强的模型,蒸馏出自己能跑在 iPhone 上的小模型

知识蒸馏(Knowledge Distillation)不是新东西。简单说,就是把一个大模型当老师,让一个小模型反复模仿老师的输出分布,最后小模型在特定任务上的表现可以无限逼近老师,但参数量可能只有老师的几十分之一甚至几百分之一。DeepSeek、Qwen 在做小模型时都用过类似套路,连 Google 自家 Gemma 系列也是这么蒸馏出来的。

苹果的做法是:

  • 大量调用 Gemini API,构造海量"问题—回答"对
  • 用这些数据训练自己的小模型(业界推测在 3B~7B 量级)
  • 针对 iPhone 的 Neural Engine 做架构裁剪和量化
  • 最后塞进 iOS 27,号称"在设备上本地运行"

严格意义上讲,这个端侧模型确实可以叫"苹果自研"——架构、训练流程、推理引擎都是苹果的。但模型的"灵魂",那一套对自然语言的理解和生成偏好,毫无疑问来自 Gemini。这就好比一个学生把老师讲的内容全背下来,可以说是自己的笔记,但知识本身是老师的。

苹果还在到处找帮手压缩模型。报道里提到苹果曾经认真考虑收购 Liquid AI——这家位于剑桥的初创公司专门做让 AI 跑在端侧的轻量化方案,技术路线和苹果的需求几乎完美匹配。

云端那一套:Siri 请求直接发给 Google Cloud

如果说端侧蒸馏还能算"半自研",那么云端这一块就更彻底了。

The Information 的消息源说得很直白:完整的 Gemini 模型参数量在万亿级别,苹果自家的 Private Cloud Compute 那点 M 系列芯片堆出来的基础设施,根本扛不住所有用户的 Siri 请求。所以在 iOS 27 版 Siri 里,部分复杂请求会被路由到 Google Cloud,调用授权版的完整 Gemini 处理

这对苹果来说是相当难堪的。Private Cloud Compute 发布的时候,苹果把它包装成"云端隐私的新范式",对比的潜台词就是"谷歌、微软那些云端 AI 都不安全"。结果两年不到,自己就要把请求转发给 Google Cloud。

为了在公关上守住隐私底线,苹果最近几周据称批准采用 NVIDIA 的机密计算(Confidential Computing)技术。这套方案的核心是:GPU 在处理数据和模型时,显存里的内容是加密的,连云服务商本身(在这里是 Google)也无法直接读到。代价是查询速度会略微变慢,但敏感信息的保护强度确实上了一个档次。

机密计算这条路其实是 NVIDIA 在 H100 时代就铺好的——H100 和后续的 Blackwell 系列都内置了 TEE(Trusted Execution Environment)支持,允许在 GPU 内部建立加密飞地。苹果选这条路,本质是在"用别人的模型"和"守住隐私话术"之间找一个公关上能交代的方案。

所以最终 iOS 27 的云端 AI 架构可能是这样的:

用户 Siri 请求
   ↓
苹果设备端轻量模型(蒸馏自 Gemini)
   ├─ 能本地处理 → 直接返回
   └─ 需要云端 → Private Cloud Compute(Apple M 系列)
                    ├─ 能处理 → 返回
                    └─ 复杂请求 → Google Cloud(NVIDIA GPU + 机密计算)
                                    └─ 完整 Gemini → 加密返回

三层路由,越往下越强,但也越远离"纯苹果"。

为什么是 Gemini,不是 GPT 或 Claude?

这是个值得展开的问题。

苹果其实早就和 OpenAI 合作过——iOS 18 上 Siri 接 ChatGPT 的方案大家都见过。但那只是"问 ChatGPT"的入口,模型本身没进入 Apple Intelligence 的核心架构。这次和 Google 的合作完全是另一个层级的:Gemini 是 Apple 基础模型的训练老师,也是 Siri 云端的实际执行者。

选 Google 的理由其实挺现实:

一是钱。 苹果和谷歌之间有那个每年两百多亿美元的 Safari 默认搜索引擎合作。AI 合作大概率是搭着这条管道一起谈下来的,商务上熟门熟路。

二是云。 苹果一直有相当一部分服务跑在 Google Cloud 上(iCloud 早年就用过 GCP)。要把 Siri 请求转发出去,Google Cloud 是阻力最小的选择。

三是模型。 Gemini 2 系列的多模态能力、长上下文窗口和工具调用,在当下确实是第一梯队。对苹果想做的"个性化 Siri + 屏幕理解 + 跨应用操作"这套场景,Gemini 比 GPT 系列在多模态上更对口。

四是谈判筹码。 OpenAI 背后是微软,苹果不可能把核心 AI 能力建在竞争对手的体系上。Anthropic 体量小、商业化能力还不足以支撑十亿台 iPhone 的并发。算来算去,Google 是唯一能同时提供"顶级模型 + 顶级云 + 商务关系"的对象。

这件事对开发者意味着什么

如果你是 iOS 生态的开发者,iOS 27 的 AI 能力可能会有几个变化值得关注:

  • 端侧模型调用接口大概率会重新设计。苹果在 WWDC 2024 给的那套 Foundation Models framework 估计要升级,毕竟底层模型换了。
  • 延迟和能耗特征会变。蒸馏模型的体积和推理速度跟苹果之前那套自研模型不一样,需要重新测。
  • 云端 fallback 会成为常态。这意味着"AI 功能可用性"将取决于网络,离线场景需要单独设计。
  • 隐私合规话术要更新。如果你的 App 调用 Apple Intelligence 处理敏感数据,得知道这些请求可能跑到 Google Cloud 上,相关的用户协议措辞要跟上。

对于直接调用大模型 API 的开发者来说,这件事其实更像一次"祛魅":连苹果都没能力从零做出能用的端侧大模型,只能蒸馏 Gemini。中小团队就别再幻想"自己训一个"了,老老实实用现成的模型,把工程能力花在产品上才是正道。顺带一提,OpenAI Hub 这边 Gemini 2 系列、GPT、Claude 都能用同一个 OpenAI 兼容接口调用,国内直连,省去了挨个申请 API Key 和处理网络的麻烦——对要做多模型对比、或者想蒸馏一个垂直小模型的团队,是个相对省事的选择。

苹果的 AI 故事,进入下半场

苹果这次的妥协,其实标志着一个时代的结束。

过去十年,苹果讲的故事是"垂直整合"——芯片、操作系统、应用、服务全部自己做,每一层都要捏在手里。这套打法在硬件时代是无敌的,但在大模型时代第一次撞墙。训练一个前沿大模型需要的算力、数据、人才储备,不是靠 M 系列芯片堆 cluster 能解决的,库克这两年挖了一堆 AI 人才,也没能把 Apple Intelligence 推到第一梯队。

承认做不过,去找 Google 合作,对苹果这种企业文化来说已经是巨大的让步。蒸馏 + 云端转发的方案,本质上是承认:模型这一层我做不了第一,但用户体验、设备分发、隐私话术这些苹果传统优势项,还能撑场子。

iOS 27 预计在 6 月 9 日的 WWDC 上正式亮相。届时官方会怎么包装这套"Gemini 蒸馏 + Google Cloud 转发 + NVIDIA 机密计算"的方案,是一个值得提前准备爆米花的看点。大概率不会有任何一张 PPT 出现 Gemini 的名字,但每个看懂的人都知道那里有它的影子。

参考来源