三星今日发布行业首款UFS 5.0存储方案，连续读取速度飙至10.8GB/s，是上代UFS 4.1的两倍以上，能效提升超40%，专为端侧大模型推理而生，Q4量产。

三星砸出UFS 5.0：10.8GB/s，端侧大模型读条时代要结束了

6月23日，三星电子今天宣布拿下UFS 5.0的首发权，号称行业最快的移动存储方案，最高带宽 10.8GB/s，是目前旗舰机普遍搭载的 UFS 4.1（4.64GB/s）的两倍多。Q4 启动量产，最高容量 1TB，目标客户是下一代旗舰手机、XR 头显和 AI 可穿戴。

这是去年 10 月 JEDEC 基本敲定 UFS 5.0 规范之后，第一家把产品摆上桌面的原厂。铠侠虽然今年 2 月已经在 EE Times Japan 喊过话，但要拿出可量产的产品，三星还是抢到了第一波话语权。

三星UFS 5.0芯片产品图，超小封装规格

不再是数据仓库，存储成了AI推理的瓶颈

为什么一颗闪存芯片这次值得专门写一篇？因为端侧大模型把存储从配角逼成了主角。

过去手机存储更多被当成相册和 App 安装目录，性能够用就行，发布会上一笔带过。但生成式 AI 把规则改了——本地跑一个 3B、4B 参数的 LLM，权重就是 3 到 4GB，每次冷启动都要把这堆东西从 UFS 搬到 DRAM，SoC 才能开始算第一个 token。

这就是行业一直在念叨的 Time to First Token（TTFT）。云端 API 卡的是网络往返，端侧 AI 卡的是闪存带宽。UFS 4.1 读 3~4GB 大概在 1 秒内能搞定，用户还能忍；但如果端侧模型一路涨到 7B、10B 级别（按 INT8 量化也得 7~10GB），瓶颈立刻就出来了——你不能让用户点开「智能助手」之后等三秒看进度条。

三星这次拿出 10.8GB/s 的读速度，意味着 10GB 量级的模型也能在 1 秒左右完成加载。按铠侠之前的说法，UFS 5.0 把可适用的端侧 LLM 容量上限从 3~4GB 直接抬到了 10GB 左右。这不是数字游戏，这是手机本地能不能跑得动「真正有用」的大模型的分水岭。

规格拆解：物理层、协议层全升级

三星这次的产品参数：

连续读取：最高 10.8GB/s
连续写入：最高 9.5GB/s
能效：相比 UFS 4.1 提升超 40%
封装尺寸：7.5 × 13 × 0.9 毫米，体积比上代缩小 16.7%
容量：最高 1TB，多版本可选
量产时间：2026 年 Q4

UFS 5.0 的底层换了一波东西。物理层走的是 MIPI Alliance 的 M-PHY v6.0，协议层是 UniPro v3.0，这是带宽翻倍的根基。三星在能效上动了几把刀：时钟门控（clock gating）、多电压域设计——简单说就是闲的模块就断开时钟、不同模块按需供电。同等数据传输量下功耗大幅下降，这对续航本来就紧张、还要塞下 NPU 和大容量 DRAM 的旗舰机型很关键。

封装缩小 16.7% 这件事，看起来不性感，但放到 XR 头显里就有意义了——头戴设备每一立方毫米的内部空间都在抢，存储能让出来一点，光学模组和散热就能多一点。

RAG 也要搬进手机：闪存的新定位

UFS 5.0 真正有意思的地方，是它打开了一种新的端侧 AI 架构思路。

传统玩法是：模型权重存在 UFS，运行时全部搬进 DRAM，SoC 从 DRAM 里取参数算。问题是手机 DRAM 撑死十几 GB，还要留给系统和 App，模型规模天花板很低。

铠侠提出了另一种玩法——把「思考」和「知识」分开。LLM 负责推理放在 GPU/NPU 里，但 RAG 检索增强用的向量数据库直接留在 UFS 里，按需读取，不占 DRAM。铠侠那个开源的 AiSAQ 软件就是干这个的，原本面向数据中心，现在已经在手机端做完了技术验证。

这套架构能成立的前提，就是闪存读得够快。UFS 4.1 时代，从存储里实时检索向量这种事基本不敢想，延迟会让用户体验崩盘。10.8GB/s 把这个门槛踩了下去——本地装一个几十 GB 的个人 RAG 数据库（聊天记录、文档、照片元数据），让端侧大模型基于这些做个性化回答，从技术上变得可行。

这也是为什么我说 UFS 5.0 不是一次例行升级。它在重新定义手机存储的角色：从「装 App 的硬盘」变成「AI 推理 pipeline 的一环」。

跟竞品比怎么样

横向看，铠侠手上同样有 UFS 5.0 的牌——基于第 8 代 BiCS FLASH 加 CBA 键合工艺，控制器自研，对外宣称的指标也对齐到 10.8GB/s。SK 海力士、美光这边目前还没有同档次产品公开亮相。三星这次「行业最快」的表述基本是抢首发的修辞，真正的差距得等 Q4 量产、第三方实测后才能见分晓。

但三星有一个铠侠暂时比不上的优势：它自己是手机厂。Galaxy S 系列和折叠屏可以直接吃下首批产能，Galaxy AI 那套端侧功能也有动力去匹配新硬件。预计 2027 年的 Galaxy S27 系列大概率会是 UFS 5.0 落地的第一个旗舰平台，紧接着是国产旗舰跟进。

XR 那边的窗口可能比手机还快一步。三星和 Google、高通合作的 XR 头显 Project Moohan 系列今年迭代到第二代，本地大模型推理是核心卖点之一，UFS 5.0 的小封装和高带宽是天然契合的。

给开发者的几个判断

做端侧 AI 应用的同学，可以开始把这些变量放进 2027 年的产品规划里：

模型尺寸上限会上探。原本 4B 参数已经是端侧的舒适区，UFS 5.0 之后 7B~10B 量级会变成新旗舰的标配选项，对应的量化策略和模型蒸馏方案要提前准备。
冷启动延迟不再是借口。TTFT 从 1 秒级压到 300~500ms 后，端侧 AI 的交互设计要重新打磨，那种「请稍等，正在思考」的过渡动画可以省了。
本地 RAG 真的会来。手机里塞个人知识库这件事，硬件层面已经备好了，应用层要不要做、怎么做隐私保护，是接下来一两年的产品命题。
混合架构是过渡态。云端大模型 + 端侧小模型协同会持续一段时间，但端侧能跑的事情会越来越多，调用策略的动态切换会成为基础能力。

顺便说一句，做端云协同的同学如果还在纠结多家模型 API 怎么统一接入，OpenAI Hub 这种聚合平台是个省事的选项——一个 Key 调 GPT、Claude、Gemini、DeepSeek，兼容 OpenAI 格式，国内直连，跟端侧模型并存做 fallback 也方便。

写在最后

存储行业过去两年的剧本相当一致：HBM 抢光产能、QLC eSSD 在数据中心大爆发、消费级被持续挤压。MemoryS 2026 大会上各家原厂的口径都是「2027 年之前供需都紧」。在这种背景下，UFS 5.0 的推出节奏其实是被 AI 需求拽着往前跑的——铠侠那位渡边匠的原话是「以往是标准制定先行，传输速度约每四年翻倍一次。但近年来，随着端侧技术的演进，智能手机制造商对高速化的要求日益迫切」。

标准被需求倒逼着加速，原厂被旗舰机型催着量产，开发者被新硬件推着重做产品。这套链条一旦跑起来，端侧 AI 的硬件天花板会被一年一年抬上去。今天的 UFS 5.0，只是这条曲线上的一个节点。