苹果发布CoreAI接棒CoreML：端侧大模型推理实测翻倍

WWDC 2026上，苹果用CoreAI替换了服役九年的CoreML，专门为端侧大语言模型推理设计。首批基准测试显示，M4 Mac跑Qwen3 0.6B时，CoreAI解码速度是MLX的2.47倍，但模型一旦上到8B，优势就只剩5%。

苹果在 WWDC 2026 上把 CoreML 送进了博物馆。

6 月 10 日，库比蒂诺正式发布了 CoreAI 推理引擎，接替服役了整整九年的 CoreML 框架。这不是一次例行版本号迭代，而是底层架构换血——CoreML 当年是给 iOS 11 的图像分类、人脸识别这类小型静态任务准备的，2017 年的算力假设拿到 2026 年看大语言模型，已经是两个时代的产物。CoreAI 的目标只有一个：让端侧大模型在 Apple Silicon 上跑得动、跑得快。

从首批第三方基准来看，苹果这次没有完全交白卷，但也算不上交了一份惊艳的卷子。

小模型场景：CoreAI 把 MLX 按在地上

先说最亮眼的数据。在 M4 芯片的 Mac 上运行 Qwen3 0.6B，CoreAI 的解码速度大约是 MLX 的 2.47 倍。换到 iPhone 17 Pro 上，这个优势收窄到 1.6 倍，但依旧明显。

解码速度（tok/s）这个指标对开发者来说不用解释——它直接决定了用户按下回车后，到底要等屏幕一个字一个字蹦多久。0.6B 这种规模的模型，在端侧的典型场景是文本补全、邮件摘要、本地搜索意图理解，对延迟敏感、调用频率高。CoreAI 在这个量级上能拉开 2 倍多的差距，意味着同样的产品体验，可以省下一半电量，或者让一台 M1 时代的旧设备也能跑得起来。

这里要插一句 MLX 的定位。MLX 是苹果 2023 年底推出的机器学习框架，但它从一开始就更偏研究和训练侧，开发者社区拿它来跑本地大模型，多少有点"借来的车开高速"的意思。CoreAI 是专门为推理而生的，针对苹果统一内存架构、Metal 后端、ANE 神经引擎做了端到端优化，跑赢 MLX 在工程上属于预期内。

大模型场景：优势曲线急速收窄

但故事到了 8B 量级就开始变味。

在 M4 Max 上跑 Qwen3 8B，CoreAI 只比 MLX 快了 5%。这个数字在统计意义上几乎可以忽略——任何一次系统后台进程的扰动都能吃掉这 5% 的优势。

这意味着什么？意味着 CoreAI 当前版本的优化红利集中在小模型路径上，可能跟它对动态形状、KV cache 复用、小批量推理的针对性优化有关。一旦模型规模上去，矩阵乘法本身的带宽和算力成为瓶颈，框架层面能做的文章就少了，大家都在拼底层硬件的极限。

这其实给苹果的产品策略画出了一条清晰的边界：苹果的算盘是把 0.5B-3B 这个区间的模型做成系统级能力——Apple Intelligence 的本地模型、写作工具、Siri 的本地推理路径，全部落在 CoreAI 擅长的甜蜜点上。至于开发者想在 Mac 上跑 8B、14B 甚至更大的模型，老老实实用 MLX 也不会吃太多亏。

ANE 还是 GPU？iPhone 17 Pro 暴露的温控老问题

更有意思的一组数据来自持续负载测试。iPhone 17 Pro 在长时间推理后，GPU 路线会比较快触发温控降频，吞吐量明显回落。而 CoreML 配合 ANE（Apple Neural Engine，苹果神经引擎）的老组合，反倒在性能保持率上完成了反超。

这是一个老生常谈但被反复忽略的问题：在手机上跑大模型，峰值性能不重要，稳态性能才重要。用户问一个长问题，模型要连续生成 30 秒文本，前 5 秒飞快、后 25 秒像便秘的体验，比从头到尾稳定中速更糟糕。

ANE 路线为什么稳？因为它是定点低精度计算单元，功耗墙天花板低、单位算力的发热量小；GPU 走的是浮点高吞吐路线，跑得快但热得也快。CoreAI 当前主推 GPU 路径换取吞吐，但在移动设备这个发热敏感的场景，可能需要把 ANE 重新纳入调度策略，做成"短任务上 GPU、长任务回落 ANE"的混合方案。

CoreAI 与 MLX、CoreML+ANE 在不同模型规模下的解码速度对比示意图

横向对比：谷歌 LiteRT-LM 才是真正的隐藏王者

如果只看苹果自家的内卷，CoreAI 算是交差了。但拉到行业坐标系里看，问题就出来了。

谷歌的 LiteRT-LM 在 iPhone 17 Pro 上跑 Gemma 模型，每秒 55.4 tokens，内存占用仅 641 MB。作为对照，苹果 MLX 跑同等规模的负载，内存占用 2900 MB，是前者的 4.5 倍。

这是一个相当尴尬的对比。一个跨平台框架，在苹果自家的硬件上，做出了比苹果自家工具链更高效的内存表现。原因也不复杂——LiteRT-LM 是针对 Gemma 系列做深度定制的"模型专用引擎"，量化策略、算子融合、KV cache 布局全部为 Gemma 量身打造。CoreAI 和 MLX 走的是通用路线，要照顾任意模型结构，必然要在普适性和极限性能之间妥协。

这件事的潜台词是：端侧 AI 的下一个战场不是通用框架，而是"模型-引擎"垂直一体化优化。面壁智能的 MiniCPM4 用自研 CPM.cu 框架配合 InfLLMv2 稀疏注意力，把长文本推理加速做到 5 倍；小米小爱团队用投机推理在端侧做到 7-10 倍解码加速。这些方案都不通用，但都比通用方案快得多。

苹果如果想在端侧 AI 上真正领跑，CoreAI 之外可能还需要做出"苹果自家模型 + CoreAI"的深度绑定组合——就像谷歌 Pixel 上 Gemini Nano 的那种紧耦合关系。

开发者视角：CoreAI 值不值得迁移

对正在做端侧 AI 应用的开发者来说，这次更换的实际影响有几条值得划重点：

模型格式更灵活：CoreAI 放宽了对模型格式的支持，CoreML 时代那种"必须先转 .mlmodel"的痛苦工作流大概率能简化。
内存上限提高：CoreML 早期对大模型的内存映射支持有限，CoreAI 在这块明显是冲着 7B-13B 模型设计的。
MLX 不会被废弃：苹果在大会上明确 MLX 继续作为研究和训练侧的工具链存在，CoreAI 主打推理部署。两套体系并行，类似 PyTorch 训练 + ONNX Runtime 部署的关系。
小模型迁移收益最大：如果你的产品恰好在 1B 以下规模、对延迟敏感，迁移 CoreAI 大概率立刻能拿到 1.6 倍以上的性能提升。8B 及以上规模，迁不迁差别不大。

一个略显克制的进步

平心而论，CoreAI 不是革命，是补课。苹果在 2024-2025 这两年里端侧 AI 战略一直被外界批评"雷声大雨点小"——Apple Intelligence 跳票、Siri 升级延期、第三方开发者拿不到趁手的工具。CoreAI 至少把开发者侧的工具链欠账还上了一部分。

但要把这件事说成"苹果重新定义端侧推理"，就有点过誉了。小模型上的 2.47 倍优势，是对自家 MLX 的胜利，不是对行业最优解的胜利；持续负载下被自家老框架 CoreML+ANE 反超，更说明 GPU 路线在移动端的天花板真实存在。

苹果端侧 AI 的真正考验，是 iOS 19 上线后，那些跑在 CoreAI 上的系统级 AI 功能能不能让普通用户感受到"哦，我的 iPhone 真的变聪明了"。框架性能再漂亮，最后都要落到产品体验上接受用户用脚投票。

顺带一提，开发者如果想在端侧部署 Qwen3、Gemma 这类模型之前，先用云端 API 跑通业务逻辑、做产品原型，OpenAI Hub（openai-hub.com）兼容 OpenAI 格式、一个 Key 同时调 GPT、Claude、Gemini、DeepSeek 和 Qwen 系列，国内直连不用折腾代理，可以省掉前期对比选型的不少时间。端侧和云端的协同，本来就是未来的常态。

参考来源

苹果 CoreAI 端侧 AI 架构测试：M4 Mac 上 Qwen3 0.6B 解码速度是 MLX 的 2.47 倍 - IT之家 — IT之家关于 WWDC 2026 CoreAI 发布及首批基准测试结果的详细报道

苹果把CoreML埋了，CoreAI接棒押注端侧大模型

小模型场景：CoreAI 把 MLX 按在地上

大模型场景：优势曲线急速收窄

ANE 还是 GPU？iPhone 17 Pro 暴露的温控老问题

横向对比：谷歌 LiteRT-LM 才是真正的隐藏王者

开发者视角：CoreAI 值不值得迁移

一个略显克制的进步

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们