三星砸出UFS 5.0:10.8GB/s,端侧大模型读条时代要结束了

三星今日发布行业首款UFS 5.0存储方案,连续读取速度飙至10.8GB/s,是上代UFS 4.1的两倍以上,能效提升超40%,专为端侧大模型推理而生,Q4量产。
三星砸出UFS 5.0:10.8GB/s,端侧大模型读条时代要结束了
6月23日,三星电子今天宣布拿下UFS 5.0的首发权,号称行业最快的移动存储方案,最高带宽 10.8GB/s,是目前旗舰机普遍搭载的 UFS 4.1(4.64GB/s)的两倍多。Q4 启动量产,最高容量 1TB,目标客户是下一代旗舰手机、XR 头显和 AI 可穿戴。
这是去年 10 月 JEDEC 基本敲定 UFS 5.0 规范之后,第一家把产品摆上桌面的原厂。铠侠虽然今年 2 月已经在 EE Times Japan 喊过话,但要拿出可量产的产品,三星还是抢到了第一波话语权。

不再是数据仓库,存储成了AI推理的瓶颈
为什么一颗闪存芯片这次值得专门写一篇?因为端侧大模型把存储从配角逼成了主角。
过去手机存储更多被当成相册和 App 安装目录,性能够用就行,发布会上一笔带过。但生成式 AI 把规则改了——本地跑一个 3B、4B 参数的 LLM,权重就是 3 到 4GB,每次冷启动都要把这堆东西从 UFS 搬到 DRAM,SoC 才能开始算第一个 token。
这就是行业一直在念叨的 Time to First Token(TTFT)。云端 API 卡的是网络往返,端侧 AI 卡的是闪存带宽。UFS 4.1 读 3~4GB 大概在 1 秒内能搞定,用户还能忍;但如果端侧模型一路涨到 7B、10B 级别(按 INT8 量化也得 7~10GB),瓶颈立刻就出来了——你不能让用户点开「智能助手」之后等三秒看进度条。
三星这次拿出 10.8GB/s 的读速度,意味着 10GB 量级的模型也能在 1 秒左右完成加载。按铠侠之前的说法,UFS 5.0 把可适用的端侧 LLM 容量上限从 3~4GB 直接抬到了 10GB 左右。这不是数字游戏,这是手机本地能不能跑得动「真正有用」的大模型的分水岭。
规格拆解:物理层、协议层全升级
三星这次的产品参数:
- 连续读取:最高 10.8GB/s
- 连续写入:最高 9.5GB/s
- 能效:相比 UFS 4.1 提升超 40%
- 封装尺寸:7.5 × 13 × 0.9 毫米,体积比上代缩小 16.7%
- 容量:最高 1TB,多版本可选
- 量产时间:2026 年 Q4
UFS 5.0 的底层换了一波东西。物理层走的是 MIPI Alliance 的 M-PHY v6.0,协议层是 UniPro v3.0,这是带宽翻倍的根基。三星在能效上动了几把刀:时钟门控(clock gating)、多电压域设计——简单说就是闲的模块就断开时钟、不同模块按需供电。同等数据传输量下功耗大幅下降,这对续航本来就紧张、还要塞下 NPU 和大容量 DRAM 的旗舰机型很关键。
封装缩小 16.7% 这件事,看起来不性感,但放到 XR 头显里就有意义了——头戴设备每一立方毫米的内部空间都在抢,存储能让出来一点,光学模组和散热就能多一点。
RAG 也要搬进手机:闪存的新定位
UFS 5.0 真正有意思的地方,是它打开了一种新的端侧 AI 架构思路。
传统玩法是:模型权重存在 UFS,运行时全部搬进 DRAM,SoC 从 DRAM 里取参数算。问题是手机 DRAM 撑死十几 GB,还要留给系统和 App,模型规模天花板很低。
铠侠提出了另一种玩法——把「思考」和「知识」分开。LLM 负责推理放在 GPU/NPU 里,但 RAG 检索增强用的向量数据库直接留在 UFS 里,按需读取,不占 DRAM。铠侠那个开源的 AiSAQ 软件就是干这个的,原本面向数据中心,现在已经在手机端做完了技术验证。
这套架构能成立的前提,就是闪存读得够快。UFS 4.1 时代,从存储里实时检索向量这种事基本不敢想,延迟会让用户体验崩盘。10.8GB/s 把这个门槛踩了下去——本地装一个几十 GB 的个人 RAG 数据库(聊天记录、文档、照片元数据),让端侧大模型基于这些做个性化回答,从技术上变得可行。
这也是为什么我说 UFS 5.0 不是一次例行升级。它在重新定义手机存储的角色:从「装 App 的硬盘」变成「AI 推理 pipeline 的一环」。
跟竞品比怎么样
横向看,铠侠手上同样有 UFS 5.0 的牌——基于第 8 代 BiCS FLASH 加 CBA 键合工艺,控制器自研,对外宣称的指标也对齐到 10.8GB/s。SK 海力士、美光这边目前还没有同档次产品公开亮相。三星这次「行业最快」的表述基本是抢首发的修辞,真正的差距得等 Q4 量产、第三方实测后才能见分晓。
但三星有一个铠侠暂时比不上的优势:它自己是手机厂。Galaxy S 系列和折叠屏可以直接吃下首批产能,Galaxy AI 那套端侧功能也有动力去匹配新硬件。预计 2027 年的 Galaxy S27 系列大概率会是 UFS 5.0 落地的第一个旗舰平台,紧接着是国产旗舰跟进。
XR 那边的窗口可能比手机还快一步。三星和 Google、高通合作的 XR 头显 Project Moohan 系列今年迭代到第二代,本地大模型推理是核心卖点之一,UFS 5.0 的小封装和高带宽是天然契合的。
给开发者的几个判断
做端侧 AI 应用的同学,可以开始把这些变量放进 2027 年的产品规划里:
- 模型尺寸上限会上探。原本 4B 参数已经是端侧的舒适区,UFS 5.0 之后 7B~10B 量级会变成新旗舰的标配选项,对应的量化策略和模型蒸馏方案要提前准备。
- 冷启动延迟不再是借口。TTFT 从 1 秒级压到 300~500ms 后,端侧 AI 的交互设计要重新打磨,那种「请稍等,正在思考」的过渡动画可以省了。
- 本地 RAG 真的会来。手机里塞个人知识库这件事,硬件层面已经备好了,应用层要不要做、怎么做隐私保护,是接下来一两年的产品命题。
- 混合架构是过渡态。云端大模型 + 端侧小模型协同会持续一段时间,但端侧能跑的事情会越来越多,调用策略的动态切换会成为基础能力。
顺便说一句,做端云协同的同学如果还在纠结多家模型 API 怎么统一接入,OpenAI Hub 这种聚合平台是个省事的选项——一个 Key 调 GPT、Claude、Gemini、DeepSeek,兼容 OpenAI 格式,国内直连,跟端侧模型并存做 fallback 也方便。
写在最后
存储行业过去两年的剧本相当一致:HBM 抢光产能、QLC eSSD 在数据中心大爆发、消费级被持续挤压。MemoryS 2026 大会上各家原厂的口径都是「2027 年之前供需都紧」。在这种背景下,UFS 5.0 的推出节奏其实是被 AI 需求拽着往前跑的——铠侠那位渡边匠的原话是「以往是标准制定先行,传输速度约每四年翻倍一次。但近年来,随着端侧技术的演进,智能手机制造商对高速化的要求日益迫切」。
标准被需求倒逼着加速,原厂被旗舰机型催着量产,开发者被新硬件推着重做产品。这套链条一旦跑起来,端侧 AI 的硬件天花板会被一年一年抬上去。今天的 UFS 5.0,只是这条曲线上的一个节点。
参考来源
- 三星推出行业最快 UFS 5.0 解决方案:带宽达 10.8GB/s,赋能端侧 AI - IT之家 — 三星官方发布信息与产品规格细节



