AI 快讯四台Mac Studio跑万亿参数:LM Studio在WWDC上的硬核演示
模型上新

四台Mac Studio跑万亿参数:LM Studio在WWDC上的硬核演示

2026-06-20T11:03:29.767Z
四台Mac Studio跑万亿参数:LM Studio在WWDC上的硬核演示

WWDC 2026压轴环节,LM Studio与苹果联手用四台Mac Studio组成集群,本地跑起月之暗面1万亿参数的Kimi K2.6,还能从MacBook Neo和iPhone远程访问。这是消费级硬件第一次摸到前沿模型的门槛。

苹果把万亿模型塞进了客厅

WWDC 2026 已经过去几天,但社区还在反复回味最后那一幕:四台 Mac Studio 摞在桌上,本地跑起了月之暗面 4 月发布的 Kimi K2.6——一个 1 万亿参数的 MoE 模型。演示者用 MacBook Neo 和 iPhone 通过 LM Link 远程接入,整个过程数据不出本地网络。

这不是一个跑分演示,更像是一次姿态宣告:前沿规模的开源模型,今天可以装在一个工作室里跑起来,不需要 H100 集群,不需要 IDC,甚至不需要一根万兆网线。

四台Mac Studio堆叠组成的本地集群,连接Thunderbolt 5线缆

这套配置到底是怎么回事

先把账算清楚。Kimi K2.6 总参数 1T,MoE 架构,激活 320 亿,要把全参数加载进显存(或者苹果这里的统一内存),按 4-bit 量化算下来也得 500GB 起步,加上 KV cache 和长上下文缓冲,正经跑起来 1TB 是底线。

现役顶配 Mac Studio 单机统一内存上限按 384GB 算,四台正好凑出约 1.5TB 统一内存。这就是为什么是「四台」而不是两台或者八台——苹果把模型参数刚好切到能容纳的最小单元。

关键技术叫 RDMA over Thunderbolt 5,苹果在 macOS Tahoe 26.2 里引进的新特性。简单说,就是让多台 Mac 之间能像访问本机内存一样直接读写彼此的统一内存,延迟做到微秒级。这是过去只有 InfiniBand、NVLink 那个量级互联才能干的事。

  • 互联带宽:Thunderbolt 5 单口 80Gbps,对称模式下能拉到 120Gbps
  • 延迟:RDMA 绕过内核协议栈,端到端延迟低于 10μs
  • 拓扑:四台机器走全连接拓扑,每台占用 3 个 TB5 口

开发者实测,这套配置跑 K2.6 在特定推理模式下能到 28 tokens/s 左右。这个数字不算亮眼——一台 8 卡 H100 跑同模型轻松 100+——但你得看功耗:四台 Mac Studio 满载也就 1500W 出头,相比传统 GPU 集群动辄 8-10kW,差着一个数量级。

LM Studio 这次干了什么

LM Studio 一直定位是本地模型运行平台,过去主要面向单机用户。这次和苹果合作的 preview 版本,干了几件以前没干过的事:

  1. 模型分片调度:把 MoE 的专家层按机器切分,激活时按需路由。MoE 的特性决定了 token 级别只激活少数专家,所以集群间的通信压力比 Dense 模型小得多——这也是 Kimi K2.6 能在这套配置上跑起来的关键。
  2. 统一内存抽象:四台机器的 1.5TB 内存对模型来说像一块连续空间,路由层负责处理跨机访问。
  3. LM Link 远程访问:iPhone 和 MacBook 通过端到端加密通道连进集群,本质上是把 Mac Studio 集群当成私有 OpenAI 兼容 endpoint 用。

LM Link 这个功能 6 月初已经更新到了 Mac 应用和 Locally AI 的 iOS 版本里。原本是为了让用户在外出时也能用上家里的本地模型,现在被苹果拿来当 WWDC 的压轴道具,正好顺势把「分布式推理 + 远程访问」整条链路秀完。

为什么是 Kimi K2.6

苹果在 WWDC 这种场合选模型很讲究。前两年是 Llama,今年压轴是月之暗面,这个选择本身就有意思。

Kimi K2.6 是月之暗面 4 月 20 日发布的迭代版本,相对 K2 主打三件事:代码能力升级、长程任务执行、Agent 集群协作。它的 MoE 设计偏「工程原生」,不是为榜单刷分而生,而是冲着 Agent workflow 去的——这跟苹果在 WWDC 上同步秀的 Apple Intelligence 新工具链(一句 prompt 生成带 3D 动画和 Visual Intelligence 的完整 App)正好咬合。

选 K2.6 还有两个现实考虑:

  • 开源可商用:闭源模型不可能允许苹果在 keynote 上做这种深度集成演示
  • MoE 适配集群:稀疏激活天然适合分布式部署,Dense 万亿参数想跑出可用速度几乎不可能

换句话说,目前市面上能塞进 1.5TB 统一内存、能跑出可用速度、又能让苹果公开演示的万亿模型,K2.6 几乎是唯一选项。

这件事对开发者意味着什么

往乐观了说,这是「私有前沿模型」走向可行的标志。在此之前,想本地跑 100B 以上的模型,要么上多卡服务器,要么忍受极慢的 CPU 推理。现在四台 Mac Studio——按当前定价大约 25-30 万人民币——能跑 1T 模型,对小团队、对注重数据隐私的金融/医疗/法律场景,这是一个全新的选项。

但也别太兴奋,几个现实问题摆在那:

  • 28 tokens/s 的速度只适合单用户对话或者异步 Agent 任务,承载多并发请求还是吃力
  • RDMA over Thunderbolt 需要 macOS Tahoe 26.2 以上,而且对线缆和拓扑很挑
  • Kimi K2.6 的量化版本在长上下文场景下精度损失需要进一步测试,演示里没看到 200K+ 上下文的实测
  • 维护成本:四台机器的集群调度、故障恢复,LM Studio 当前 preview 版还没暴露足够的运维接口

更现实的用法可能是:本地集群跑 Kimi K2.6 做敏感数据处理,云端 API 跑通用任务,两套并行。

顺便说一下

如果你只是想快速接入 Kimi K2.6 做评估,不一定非得自己搭集群。OpenAI Hub 已经接入了 Kimi K2.6 的 API,和 GPT、Claude、Gemini、DeepSeek 共用一个 Key,兼容 OpenAI 格式,国内直连。先用 API 把业务跑通,验证模型能力匹配业务场景,再决定是不是上 Mac Studio 集群做私有部署,这个路径更稳。

一点判断

苹果这次的演示,技术上没有太多新东西——RDMA、统一内存、MoE 分片都是已有概念的组合。真正值得关注的是产品化的完成度:从硬件互联(Thunderbolt 5 RDMA)、操作系统支持(Tahoe 26.2)、应用层调度(LM Studio)、到终端访问(LM Link iOS/Mac),整条链路是闭环的。

NVIDIA 在数据中心那一头扎得很深,但消费端的本地大模型这块,苹果用 M 系列芯片的统一内存架构走出了一条完全不同的路。当年用 M1 颠覆笔记本性能预期的那套打法,现在轮到了 AI 推理。

万亿参数本地跑这件事,三年前还是 paper 上的设想,今天变成了 WWDC 上的现场演示。下一步该问的不是「能不能跑」,而是「跑起来之后做什么」——这才是开发者真正要回答的问题。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: