苹果回应套壳质疑:AFM 是蒸馏 Gemini,但不是 Gemini

WWDC26 主题演讲结束后,苹果高管罕见集体出面澄清:新一代 Apple Foundation Models 虽借助 Google Gemini 做蒸馏训练,但模型代码、数据体系与推理栈完全自研,并首次公布了 5 个模型的完整产品线。
WWDC 主题演讲结束才几个小时,苹果几位 AI 高管就被记者堵在了 Apple Park 的休息区。问题只有一个:你们昨天发布的 Apple Foundation Models(下简称 AFM),到底是不是 Gemini 套了个壳?
这场临时的群访发生在 6 月 8 日深夜——也就是 Cupertino 时间的 WWDC26 当天。Appleinsider 在 6 月 9 日把高管的原话整理成稿,苹果给出的答案毫无意外:不是。但有意思的是,他们承认了之前外界讨论最多的那部分细节——AFM 的训练确实用了 Google Gemini 做蒸馏(distillation)。
这就让事情变得微妙。一个用 Gemini 蒸出来的模型,凭什么说自己不是套壳?
关于「套壳」这件事,苹果第一次说清楚了
时间倒回去年。彭博社、The Information 先后爆料,苹果在自研路线推进缓慢之后,准备掏 15 亿美元一年向 Google 租用一个定制版 Gemini,用来支撑 2026 年那个被反复跳票的「新 Siri」。当时所有人都默认:苹果的 AI 牌面要由 Mountain View 来托底了。
这次 WWDC 的演示效果并不差。新 Siri 终于能跨 App 完成多步任务,能基于屏幕上下文做操作,图像生成的速度也比 Image Playground 那一代快了一截。但「套壳」的传闻没有因为效果好就消散,反而因为效果好被强化了——大家都默认这是 Gemini 在干活。
苹果这次给出的解释,逻辑上其实挺清楚的:Gemini 是教师,AFM 是学生。蒸馏只是训练阶段借用了 Gemini 的输出分布来对齐学生模型,但最终交付给用户的模型,无论是参数、推理代码、还是 serving 基础设施,都跟 Gemini 没关系。用苹果高管的原话说,「用户调用 AFM 时,不会接触谷歌代码,不会接触 Gemini 智能体,更不会直接触达 Google Search」。
这个说法在技术上是站得住的。蒸馏出来的模型架构由学生方决定,参数也是学生方训练的,跟教师模型完全是两套权重。业内类似的做法早就有——比如 DeepSeek-R1 之后,一堆开源小模型用 R1 的轨迹做蒸馏,但没人会说那些小模型是 R1 的套壳。
但「不是套壳」也不等于「完全独立」。一旦 Google 那边收紧 Gemini 的访问权限或者大幅涨价,苹果下一代模型的训练成本立刻起飞——这层依赖关系是结构性的,至少在短期内绕不开。

AFM 家族的 5 个模型,第一次完整露面
这次 WWDC 之前,外界对苹果模型矩阵的理解一直停留在「一个端侧 + 一个云端」的二元结构上,那是 2024 年苹果 Machine Learning Research 博客里披露的版本。今年苹果把家族扩到了 5 个:
- AFM Core:端侧基础模型,负责本地最常见的语言任务,比如系统通知摘要、邮件改写、Spotlight 语义检索这些场景。3B 量级,2-bit 量化后塞进 A 系列和 M 系列的 NPU 里。
- AFM Core Advanced:仍然是端侧,但加入了原生多模态能力,并且采用稀疏架构(应该是某种端侧版 MoE)。承载相对复杂的本地任务,比如视频帧理解、跨 App 的视觉上下文 Reasoning。
- AFM Cloud:通用云端模型,处理本地难以承载的高负载请求。延续了苹果 2025 年那篇论文里的 Parallel-Track MoE 架构思路。
- AFM Cloud Image:专门做图像生成和编辑。Image Playground 和 Genmoji 后续基本由它接管。
- AFM Cloud Pro:面向 Agent 工具调用和重型任务的旗舰版本,也是这次最值得说的一个。
关键是 AFM Cloud Pro 的基础设施细节。苹果承认这个最大的模型不再跑在自家 Apple Silicon 服务器上,而是用 Google Cloud 的服务器 + NVIDIA 的 GPU。但苹果同时强调,这套部署仍然通过了 Private Cloud Compute(PCC)的认证流程。
这是这次发布里信息量最大的一处。要知道 PCC 当年是苹果拿来当 AI 隐私旗帜的核心叙事——所有云端 AI 推理必须跑在苹果定制的 Apple Silicon 服务器上,硬件可远程证明、软件镜像可审计、不留任何用户数据。现在苹果承认,到了 Pro 级别的负载,自家芯片扛不住了,得借 Google 的机房和老黄的 H100/B200。但苹果同时坚持,PCC 的安全模型仍然成立。
怎么成立的?苹果没说细节,但合理的推测是:PCC 的核心机制是「远程可验证的飞地(attestable enclave)」+「无状态计算 + 端到端加密」,理论上只要 attestation 链能延伸到 NVIDIA Confidential Computing 或者 GCP 的 Confidential VM,再叠加苹果的镜像签名,就可以保留同样的安全声明。但这本质上是把信任根从「苹果硬件」扩展成了「苹果硬件 + Google 数据中心物理安全 + NVIDIA 固件」,信任面是变大了的。
端侧模型的看点:稀疏架构 + Apple Silicon 定制
相比云端的妥协,端侧这一侧苹果反而更舍得下功夫。
AFM Core Advanced 是这次端侧的重头戏。「稀疏架构」这个词苹果说得很轻,但实际意义不小——这意味着端侧也开始用某种形式的 MoE 或条件计算。在 16GB 内存的 iPhone 17 Pro 上跑 MoE,工程上是一个相当挑战的事,因为 MoE 的传统问题就是显存占用高、专家路由开销大。苹果能塞进去,多半是用了类似 MoE-only-in-FFN + 共享 attention 的结构,配合自家 ANE 的稀疏调度指令做了硬件协同。
苹果机器学习团队 2025 年那篇 update 里就提过一个细节:端侧模型用了 KV-cache sharing + 2-bit QAT(量化感知训练)。2-bit 在端侧 LLM 里已经是激进选择,传统做法都是 4-bit 起步。苹果敢上 2-bit,前提是有 ANE 的硬件支持和大量定制 kernel 兜底——这是 Google、Microsoft 在 Pixel、Surface 上很难复刻的护城河。
AFM Core 和 Advanced 的分工也很有意思。Core 跑高频低延迟任务,Advanced 在用户主动触发复杂请求时才唤起。这意味着 iOS 27 里很可能存在一个动态调度层,根据任务复杂度在两个端侧模型之间路由,必要时再 fallback 到 AFM Cloud。这套三级调度跟 Gemini Nano/Flash/Pro 的路由逻辑挺像,但苹果可以做得更激进,因为它对 OS、硬件、电源管理有完全控制权。
给开发者的实际影响
对第三方开发者来说,AFM 体系最重要的入口仍然是去年 WWDC25 上推出的 Foundation Models 框架。这个框架今年应该会同步升级,新增对 Cloud 模型的访问能力,以及更完善的 tool calling 支持。
从 WWDC25 已经公开的接口看,开发者调用本地模型的方式大致是这样的:
import FoundationModels
@Generable
struct Itinerary {
@Guide(description: "目的地城市")
let city: String
let days: [DayPlan]
}
let session = LanguageModelSession()
let response = try await session.respond(
to: "为我规划一次约书亚树国家公园 3 天行程",
generating: Itinerary.self
)
苹果押注的方向很明确:结构化生成 + 工具调用 + 本地隐私。@Generable 宏直接把 Swift struct 当成输出 schema,模型负责填空;Tool 协议让模型调用外部数据源。这套东西的设计哲学跟 OpenAI 的 Structured Outputs、Anthropic 的 Tool Use 是同一拨思路,只是苹果借助 Swift 的类型系统和宏,做得更原生。
AFM Cloud Pro 是否会向第三方开发者开放,目前苹果没明确说。从过往策略看,第三方很可能只能用端侧模型,Cloud 系列继续保留给系统 App 和 Apple Intelligence 自身。这跟苹果一贯「先保自己用爽再说」的节奏是一致的。
这件事说明了什么
苹果这次的姿态值得玩味。一年前 Tim Cook 和 Craig Federighi 在 WWDC24 上说 Apple Intelligence 时还信誓旦旦「全部跑在 Apple Silicon 上」,一年后悄悄给最重的模型上了 Google Cloud + NVIDIA。这是承认了一个事实:在 frontier model 的训练和推理上,苹果短期内追不上头部玩家。
但苹果选择的应对方式也很苹果——把别人的能力吸收成自己的模型,再用自己的产品体验和隐私故事把它包起来。蒸馏 Gemini、租 Google Cloud、用 NVIDIA GPU,这些都是手段;交付到用户面前的,依然是带苹果商标的 AFM、带苹果框架的 SDK、带苹果 PCC 标签的隐私承诺。
这种「能力外购,体验自营」的策略,跟微软在 Copilot 上跟 OpenAI 的关系有点像,但又不完全一样。微软是直接把 GPT-4 包成产品卖;苹果是把别人模型的知识蒸进自家小模型,再大规模分发到 20 亿台设备上。前者是租赁,后者更像是「合法的技术转移」。
至于「套壳」这个词到底贴不贴切,技术上苹果赢了——蒸馏出来的模型确实不是套壳。但产品叙事上苹果输了一半——它的最强模型仍然跑在 Google 的机器上,最强能力的源头仍然指向 Gemini。
值得一提的是,对国内开发者而言,AFM 的能力短期内只能通过苹果设备本身体验到。如果想在自己的产品里横向对比 Gemini、Claude、GPT 等多家闭源模型的实际效果,OpenAI Hub 这类聚合平台仍然是更现实的方案,一个 Key 同时调通主流模型,省去逐家申请、海外支付、网络绕路的麻烦。
WWDC 接下来几天还有十几场 session 会深入讲 AFM 的训练数据、安全对齐和框架细节。等那些细节出来,我们再回头看苹果今天这套澄清是不是经得起推敲。
参考来源
- IT之家:苹果回应「套壳 Gemini」猜测:iOS 27 版 Siri AI AFM 自研打造 — Appleinsider 报道 WWDC 主题演讲后苹果高管群访的中文整理稿,包含 5 个 AFM 模型的完整命名和分工说明。



