群联电子与联发科在天玑9500平台上实现手机端单机运行20B大语言模型，仅需12GB内存。通过aiDAPTIV Hybrid UFS技术动态卸载MoE模型权重至存储层，这是端侧AI从玩具到工具的关键一步。

手机跑20B大模型成真：群联+联发科打破内存墙

群联电子和联发科今天在联发科天玑开发者大会（MDDC 2026）上展示了全球首个手机端单机运行20B参数大语言模型的方案。这不是PPT演示，是在天玑9500芯片上跑起来的实物demo。

关键突破在于：12GB DRAM就能跑20B模型。要知道，按常规算法，20B模型的FP16权重就要40GB显存，即使用INT4量化也需要10GB+。群联的方案把这个数字压到了12GB手机内存的范围内。

联发科天玑开发者大会现场展示群联与联发科合作的手机端20B大模型运行演示

技术核心：把模型"藏"进闪存

群联的aiDAPTIV Hybrid UFS技术是这次突破的核心。简单说，就是把MoE（Mixture of Experts，混合专家）模型的权重动态卸载到UFS存储层，需要哪个专家模块就调哪个，不需要把整个模型都塞进内存。

MoE模型本身就是为这种场景设计的。一个20B的MoE模型可能有几十个专家模块，但每次推理只激活其中几个。传统做法是把所有专家都加载到内存，群联的方案是把不活跃的专家权重放在UFS里，用的时候再换进来。

这听起来像虚拟内存的思路，但难度完全不在一个量级。UFS的读取延迟是纳秒级，DRAM是皮秒级，差了三个数量级。如何在保证推理速度的前提下做权重换入换出，需要在调度算法、预取策略、存储控制器层面做深度优化。

群联作为存储控制器厂商，在这个领域有积累。他们的专利技术能在硬件层面做权重调度，而不是简单的软件swap。联发科的天玑9500提供了足够的NPU算力和内存带宽，两家的配合让这个方案成为可能。

为什么是20B而不是7B或70B

20B这个参数规模不是随便选的。

7B模型太小，能力上限明显。你可以在手机上跑Llama 3.1 8B或Qwen2.5 7B,但这些模型在复杂推理、多轮对话、代码生成等任务上表现一般，更像是demo而不是生产力工具。

70B模型太大，即使用群联的技术也很难在手机上跑起来。70B模型的INT4量化权重就要35GB,加上KV cache和中间激活值,对内存和算力的要求都超出了手机的承受范围。

20B是个甜蜜点。DeepSeek-V3、Qwen2.5-32B这些模型证明了,20-30B参数的MoE模型在很多任务上已经接近GPT-4的水平。如果能在手机上跑20B模型,意味着端侧AI可以处理真正有价值的任务,而不只是语音助手和图片美化。

不同参数规模大模型在手机端运行的内存占用对比图

这个方案的实际体验如何

现场demo没有公布推理速度,这是个关键指标。如果首token延迟超过5秒,后续token生成速度低于10 tokens/s,用户体验就会很差。

从技术原理推测,这个方案的瓶颈在UFS读取速度。UFS 4.0的顺序读取速度是4GB/s,但随机读取会慢很多。如果每次推理都要从UFS换入几GB权重,延迟会很明显。群联的优化应该是在预取和缓存策略上做文章,提前预判需要哪些专家模块,减少实时换入的开销。

另一个问题是功耗。频繁读写UFS会增加功耗,如果持续运行大模型导致手机发热降频,体验也会打折扣。天玑9500的NPU能效比是关键,联发科在这方面一直比较激进,但实际表现还要看量产机型的测试。

端侧大模型的真正价值

手机跑大模型不是为了炫技,而是为了解决云端模型的几个痛点:

隐私。敏感数据不用上传到云端,在本地处理完成。这对企业用户和隐私敏感场景很重要。

延迟。云端模型的网络延迟至少几百毫秒,端侧模型可以做到毫秒级响应。对于实时交互场景(比如AI助手打断对话、实时翻译),这个差异是质变。

成本。云端模型按token计费,重度用户每月开销可能上百美元。端侧模型是一次性成本,用多少都不额外收费。

离线可用。飞机上、地铁里、偏远地区,没有网络也能用AI。这听起来是小众需求,但对很多场景是刚需。

但端侧模型也有明显短板:模型能力上限、无法实时更新知识、多模态能力受限。群联和联发科的方案把端侧模型的能力上限从7B推到20B,缩小了与云端模型的差距,但没有消除。

更现实的场景是混合部署:常用任务在端侧处理,复杂任务调用云端模型。20B端侧模型可以覆盖80%的日常需求,剩下20%再上云。这样既保证了体验,又控制了成本和隐私风险。

产业链的连锁反应

群联和联发科的合作会带来几个连锁反应:

存储厂商的新战场。以前手机存储只是容量竞争,现在要比AI性能。群联的aiDAPTIV技术如果成为标配,其他存储控制器厂商(慧荣、得一微)也得跟进。UFS 5.0标准可能会加入AI优化的规格。

芯片厂商的压力。联发科抢先发布,高通和苹果会加速跟进。高通的骁龙8 Gen 4已经在强调端侧AI,苹果的A19芯片传闻也会大幅提升NPU性能。端侧大模型会成为旗舰芯片的标配能力。

手机厂商的差异化。小米、OPPO、vivo都在做自己的端侧大模型方案,但受限于内存和算力,只能跑7B模型。群联的技术如果开放授权,可以让更多厂商跑20B模型,拉平硬件差距,竞争会转向模型调优和应用场景。

开源模型的机会。云端大模型是闭源巨头的天下,端侧大模型是开源模型的主场。Llama、Qwen、DeepSeek这些开源模型可以针对端侧场景做优化,不用担心API调用成本和数据隐私。群联的方案降低了部署门槛,会加速开源模型在端侧的普及。

端侧AI产业链示意图,展示芯片、存储、模型、应用各环节的关系

还有哪些技术路线

群联的方案不是唯一路线,业界还有几个方向:

模型压缩。通过剪枝、蒸馏、量化把大模型压缩到更小尺寸。比如把70B模型蒸馏成20B,保留90%能力但只用30%参数。这个方向的问题是压缩有损,而且需要大量算力做蒸馏训练。

专用硬件。设计专门的AI加速器,提升推理效率。苹果的Neural Engine、谷歌的TPU都是这个思路。但专用硬件开发周期长、成本高,只有头部厂商玩得起。

混合精度。不同层用不同精度,关键层用FP16,非关键层用INT4甚至INT2。这个方向的难点是如何自动识别关键层,以及混合精度对模型精度的影响。

分布式推理。把模型拆分到多个设备上协同推理。比如手机+手表+耳机组成一个分布式系统,共同运行一个大模型。这个方向很科幻,但设备间通信延迟和同步开销是大问题。

群联的方案本质上是用存储换内存,是在现有硬件架构下的工程优化。这个路线的优势是可以快速落地,不需要等芯片迭代或模型重训。但长期看,还是要靠芯片算力提升和模型架构创新。

开发者能用上吗

群联和联发科没有公布这个技术的开放计划。如果只是芯片厂商和手机厂商的内部方案,开发者短期内用不上。

但从产业趋势看,端侧大模型的基础设施会逐步开放。苹果的Core ML、谷歌的MediaPipe、高通的AI Engine都在降低端侧AI的开发门槛。联发科如果想在端侧AI市场占据主导,必然会开放工具链和SDK。

对开发者来说,更实际的问题是:什么场景值得用端侧20B模型?

个人助手。处理日程、邮件、笔记等个人数据,隐私敏感且需要实时响应。20B模型可以做复杂的多轮对话和任务规划。

内容创作。写作辅助、代码补全、图片描述生成。这些任务需要一定的语言理解和生成能力,7B模型勉强够用,20B模型会明显更好。

实时翻译。语音实时翻译对延迟要求极高,云端模型的网络延迟不可接受。20B模型可以做高质量的多语言翻译。

离线知识库。把企业知识库、技术文档、法律条文等数据打包成端侧模型,在没有网络的环境下也能查询和问答。

这些场景的共同特点是:对隐私、延迟、离线可用有强需求,对模型能力有一定要求但不需要GPT-4级别。20B端侧模型正好卡在这个位置。

云端模型会被取代吗

不会。端侧模型和云端模型是互补关系,不是替代关系。

云端模型的优势在于:

模型规模。GPT-4、Claude 3.5这些模型有上千亿参数,能力远超20B模型。
实时更新。云端模型可以随时更新知识和能力,端侧模型更新需要重新下载几十GB权重。
多模态。云端模型可以调用海量算力做图像、视频、语音的多模态处理,端侧模型受限于算力只能做轻量级任务。
联网能力。云端模型可以实时搜索、调用API、访问最新信息,端侧模型只能用本地数据。

端侧模型的价值是覆盖云端模型的盲区:隐私敏感、低延迟、离线场景。两者会长期共存,形成"端云协同"的格局。

对开发者来说,选择端侧还是云端取决于具体场景。如果你在做企业内部工具、隐私敏感应用、离线优先产品,端侧模型是更好的选择。如果你在做需要最强能力、最新知识、多模态交互的产品,云端模型不可替代。

OpenAI Hub这类API聚合平台的价值也会延续。即使端侧模型普及,开发者仍然需要在不同场景下灵活切换不同模型,统一的API接口可以降低集成成本。端侧模型解决了一部分问题,但没有解决所有问题。

什么时候能用上

群联和联发科没有公布商用时间表。按照芯片行业的节奏,天玑9500预计在2026年下半年量产,搭载这颗芯片的手机最快2027年初上市。

但首批机型未必会开放20B模型能力。手机厂商需要时间做系统集成、应用适配、用户体验优化。更可能的情况是,2027年旗舰机会预装一些基于20B模型的AI功能(比如智能助手、实时翻译),但不会开放给第三方开发者。

真正的开放生态可能要等到2027年下半年或2028年。到那时,开发工具、模型库、应用商店都会成熟,开发者可以像今天调用云端API一样调用端侧20B模型。

在那之前,开发者可以用现有的7B端侧模型做原型验证,提前布局端侧AI应用。等20B模型普及,只需要替换模型文件,应用逻辑不用大改。

写在最后

群联和联发科的这个demo,意义不在于技术本身有多炫,而在于它证明了一件事:端侧大模型不再是玩具,可以成为真正的生产力工具。

从7B到20B,不只是参数规模的提升,而是能力的质变。7B模型只能做简单的文本生成和问答,20B模型可以做复杂推理、代码生成、多轮对话。这个差距,决定了端侧AI能不能从demo走向日常使用。

当然,这只是开始。20B模型在很多任务上仍然比不过云端的GPT-4或Claude 3.5。但技术进步是指数级的,今天的20B端侧模型,可能就是三年前的GPT-3.5。再过两年,端侧模型可能就能达到今天GPT-4的水平。

到那时,AI的格局会彻底改变。云端模型不再是唯一选择,端侧模型会成为标配能力。开发者需要重新思考产品架构:哪些功能放在端侧,哪些功能放在云端,如何做端云协同。

这个未来不远了。群联和联发科的demo,是一个信号。

参考来源

全球首款:群联电子与联发科在天玑9500平台实现手机端单机运行20B大语言模型 - IT之家 - IT之家对联发科天玑开发者大会的报道
睡前新闻大盘点2026513 - Linux.do - 科技行业每日新闻汇总