谷歌 Gemma 4 12B 发布：无编码器多模态模型登陆笔记本

谷歌发布 Gemma 4 12B，采用无编码器统一架构，120 亿参数能在普通笔记本本地跑多模态推理，性能逼近 26B MoE 版本，记忆体占用不到一半。

谷歌把 Gemma 4 的最后一块拼图补上了

6 月 10 日，谷歌正式公开 Gemma 4 12B——Gemma 4 家族里最新、也是最关键的一块拼图。这事的意思很明确：之前的 E2B、E4B 是给手机和边缘设备的，26B MoE 和 31B Dense 是给工作站和服务器的，中间那一段——也就是绝大多数开发者天天在用的「普通笔记本」——一直没有合适的型号。12B 就是填这个坑的。

按谷歌官方博客的说法，到这次发布为止，Gemma 4 全家的累计下载量已经突破 1.5 亿次。开源开放模型这条路，DeepMind 是真的在认真做。

Gemma 4 12B 在 MacBook 上本地运行多模态推理的演示截图

最大的看点是「无编码器」

先说技术，再说性能，最后说能用来干什么。

传统多模态模型的做法你应该很熟悉——上一个视觉编码器（比如 ViT/SigLIP），上一个音频编码器（比如 Whisper 的 encoder），把图像和音频先转成 token-like 的表示，再喂给 LLM。这套路的好处是模块化清晰，坏处是显存吃得猛、延迟高，还得跨模态对齐两次。

Gemma 4 12B 干掉了这一层。谷歌把它叫做 Encoder-Free Architecture：视觉和音频输入通过一个极轻量的 embedding 模块，直接进入 LLM 主干。没有独立的 vision tower，也没有独立的 audio tower。

这件事的工程意义比听上去大。Encoder-free 不是没人尝试过，去年到今年已经有几篇论文在做（Fuyu 那一脉的延伸），但能做到「12B 参数、多模态对齐、benchmark 不掉队」这个水位的，开源社区里 Gemma 4 12B 算是头一个能拿出手的。

架构上还有一个细节值得提：MTP（Multi-Token Prediction）drafter。这是 DeepSeek-V3 那一波带火的技巧，本质上是模型自己当自己的投机解码草稿模型。Gemma 4 12B 把它原生集成进来，端侧推理延迟降得很明显——这对笔记本本地跑 agent 来说是刚需，因为你不可能让用户每点一下要等 5 秒。

性能：12B 打出了 27B 甚至 70B 的水位

谷歌放的 benchmark 数字挺狠的，挑几个有意思的：

推理、数学（AIME）、代码：超过参数大一倍以上的上一代 Gemma 3 27B
GPQA 和 AIME（考逻辑推理）：超过同量级 Llama 3 8B，甚至超过体积大 6 倍的 Llama 3 70B
综合表现：逼近 Gemma 4 26B MoE，但总显存占用不到一半

第二条要打个小问号——拿 12B 打 Llama 3 70B 在 GPQA 上赢，这种对比放出来当然好看，但 Llama 3 已经是去年的事了。真正的对手是 Qwen3 14B、Mistral 的最新 dense 模型，以及 Llama 4 的小尺寸版。这些谷歌没贴对比，多少有点回避。

但有一点是实打实的：16GB 内存的消费级笔记本能跑。这个门槛意味着 M1/M2 MacBook Air、主流 Windows 轻薄本都能上，不是「能加载」而是「能流畅跑 agent 工作流」。这个区间过去基本是 7B/8B 模型的天下，12B 进来抢地盘，效果还能打——意义就在这里。

部署：苹果生态先吃到肉

这次首发的端侧体验，谷歌明显是先照顾了 Apple Silicon：

Google AI Edge Gallery（macOS 版）：原来只在移动端，这次上桌面，直接调用 Apple Silicon GPU 跑 Gemma 4 12B，自带一个沙盒化的 Python 执行环境，可以在对话框里画科学图表
Google AI Edge Eloquent（macOS 版）：偏语音交互场景
LiteRT-LM CLI：命令行工具，跨平台
LM Studio、Ollama：第三方开源生态当天就支持
Hugging Face、Kaggle：预训练版和指令微调版都已经放出，Apache 2.0 协议，商用无障碍

Apache 2.0 这一点要表扬。Llama 系列的 license 一直被吐槽不够干净，Gemma 4 这次直接放开，对企业落地是大利好。

这玩意儿到底拿来干什么

说实话，本地多模态模型这个赛道，过去两年大家喊得多、用得少。原因很简单：要么模型太弱不堪用，要么硬件门槛太高跑不动。

Gemma 4 12B 这个尺寸卡得很巧妙，几个场景是真有戏的：

本地 Agent：截屏理解 + 工具调用 + 代码执行，全程不联网。隐私敏感行业（法律、医疗、金融）的合规需求摆在那里
离线文档处理：扫描件 OCR + 表格理解 + 摘要生成，一个模型搞定整条链路
音频转写 + 理解：会议录音直接进模型，不用先 Whisper 再 LLM
教育和科研工具：那个内嵌 Python 执行的 chat bubble 设计，给学生做数据可视化作业其实挺合适

场景说完，泼一盆冷水。本地模型有个永远绕不开的问题——生态。云端 API 你换个模型就是改个 endpoint，本地模型你得管模型下载、量化版本、硬件适配、用户体验。Ollama 和 LM Studio 把这事简化了不少，但离「拿来就用」还有距离。

和 Gemma 4 家族的关系

顺便把整条产品线理一下，省得你混乱：

| 型号 | 定位 | 适配硬件 | |------|------|----------| | E2B | 极致边缘 | 手机、IoT | | E4B | 边缘旗舰 | 高端手机、嵌入式 | | 12B | 日常笔记本 | 16GB 内存消费级本 | | 26B MoE | 工作站 | 桌面 GPU | | 31B Dense | 生产环境 | 服务器、云端 |

12B 之前是空缺的，这次补上之后，整条线就完整了：从 2B 到 31B，从手机到服务器，每个硬件层级都有对应的 SKU。这种打法很「谷歌」——产品矩阵思维，不靠单点爆款。

一些没说出来的话

最后聊点行业层面的。

谷歌今年在开源开放模型上的节奏明显加快。Gemma 4 4 月发布，6 月就把中间档补齐，配套的 AI Edge 工具链同步迭代。对比一下 Meta 的 Llama 4 节奏（被吐槽延迟、跳票多次），DeepMind 的执行力反而显得清爽。

但 12B 这个尺寸在中国开发者眼里其实有点尴尬——Qwen3 一直在卷这个区间，DeepSeek 的小模型也来势汹汹。Gemma 4 12B 的优势在于多模态原生和端侧工具链成熟，劣势在于中文能力。中文场景下要不要用，建议先在自己的业务数据上跑一轮再说，别看 benchmark 数字下结论。

如果你想直接在云端 API 里调主流模型做对比测试，OpenAI Hub（openai-hub.com）一个 Key 就能同时调 GPT、Claude、Gemini、DeepSeek，国内直连，兼容 OpenAI 格式——拿来横评 Gemma 4 12B 跟闭源大模型在你业务上的真实差距，比看官方榜单靠谱多了。

模型权重已经在 Hugging Face 上了，趁周末跑一把。

参考来源

iThome：Google 公布可在笔电执行的 AI 模型 Gemma 4 12B — 中文媒体对发布会的完整报道，含 benchmark 细节
Hugging Face：google/gemma-4-12B 模型卡 — 官方模型卡，含使用方式、多模态能力说明
Reddit r/LocalLLM：Google introduces Gemma 4 12B 讨论帖 — 本地部署开发者社区的第一手反馈和量化版本讨论

谷歌甩出 Gemma 4 12B：把多模态塞进 16GB 笔记本

谷歌把 Gemma 4 的最后一块拼图补上了

最大的看点是「无编码器」

性能：12B 打出了 27B 甚至 70B 的水位

部署：苹果生态先吃到肉

这玩意儿到底拿来干什么

和 Gemma 4 家族的关系

一些没说出来的话

参考来源

相关推荐

英特尔砍掉BigDL：开源AI框架6月底归档

长安甩出"天枢领航"：把VLM塞进辅助驾驶，启源Q06九月上市

华为发了个 DevEco Code，把鸿蒙开发塞进了 Agent

联系我们