谷歌甩出 Gemma 4 12B:把多模态塞进 16GB 笔记本

谷歌发布 Gemma 4 12B,采用无编码器统一架构,120 亿参数能在普通笔记本本地跑多模态推理,性能逼近 26B MoE 版本,记忆体占用不到一半。
谷歌把 Gemma 4 的最后一块拼图补上了
6 月 10 日,谷歌正式公开 Gemma 4 12B——Gemma 4 家族里最新、也是最关键的一块拼图。这事的意思很明确:之前的 E2B、E4B 是给手机和边缘设备的,26B MoE 和 31B Dense 是给工作站和服务器的,中间那一段——也就是绝大多数开发者天天在用的「普通笔记本」——一直没有合适的型号。12B 就是填这个坑的。
按谷歌官方博客的说法,到这次发布为止,Gemma 4 全家的累计下载量已经突破 1.5 亿次。开源开放模型这条路,DeepMind 是真的在认真做。

最大的看点是「无编码器」
先说技术,再说性能,最后说能用来干什么。
传统多模态模型的做法你应该很熟悉——上一个视觉编码器(比如 ViT/SigLIP),上一个音频编码器(比如 Whisper 的 encoder),把图像和音频先转成 token-like 的表示,再喂给 LLM。这套路的好处是模块化清晰,坏处是显存吃得猛、延迟高,还得跨模态对齐两次。
Gemma 4 12B 干掉了这一层。谷歌把它叫做 Encoder-Free Architecture:视觉和音频输入通过一个极轻量的 embedding 模块,直接进入 LLM 主干。没有独立的 vision tower,也没有独立的 audio tower。
这件事的工程意义比听上去大。Encoder-free 不是没人尝试过,去年到今年已经有几篇论文在做(Fuyu 那一脉的延伸),但能做到「12B 参数、多模态对齐、benchmark 不掉队」这个水位的,开源社区里 Gemma 4 12B 算是头一个能拿出手的。
架构上还有一个细节值得提:MTP(Multi-Token Prediction)drafter。这是 DeepSeek-V3 那一波带火的技巧,本质上是模型自己当自己的投机解码草稿模型。Gemma 4 12B 把它原生集成进来,端侧推理延迟降得很明显——这对笔记本本地跑 agent 来说是刚需,因为你不可能让用户每点一下要等 5 秒。
性能:12B 打出了 27B 甚至 70B 的水位
谷歌放的 benchmark 数字挺狠的,挑几个有意思的:
- 推理、数学(AIME)、代码:超过参数大一倍以上的上一代 Gemma 3 27B
- GPQA 和 AIME(考逻辑推理):超过同量级 Llama 3 8B,甚至超过体积大 6 倍的 Llama 3 70B
- 综合表现:逼近 Gemma 4 26B MoE,但总显存占用不到一半
第二条要打个小问号——拿 12B 打 Llama 3 70B 在 GPQA 上赢,这种对比放出来当然好看,但 Llama 3 已经是去年的事了。真正的对手是 Qwen3 14B、Mistral 的最新 dense 模型,以及 Llama 4 的小尺寸版。这些谷歌没贴对比,多少有点回避。
但有一点是实打实的:16GB 内存的消费级笔记本能跑。这个门槛意味着 M1/M2 MacBook Air、主流 Windows 轻薄本都能上,不是「能加载」而是「能流畅跑 agent 工作流」。这个区间过去基本是 7B/8B 模型的天下,12B 进来抢地盘,效果还能打——意义就在这里。
部署:苹果生态先吃到肉
这次首发的端侧体验,谷歌明显是先照顾了 Apple Silicon:
- Google AI Edge Gallery(macOS 版):原来只在移动端,这次上桌面,直接调用 Apple Silicon GPU 跑 Gemma 4 12B,自带一个沙盒化的 Python 执行环境,可以在对话框里画科学图表
- Google AI Edge Eloquent(macOS 版):偏语音交互场景
- LiteRT-LM CLI:命令行工具,跨平台
- LM Studio、Ollama:第三方开源生态当天就支持
- Hugging Face、Kaggle:预训练版和指令微调版都已经放出,Apache 2.0 协议,商用无障碍
Apache 2.0 这一点要表扬。Llama 系列的 license 一直被吐槽不够干净,Gemma 4 这次直接放开,对企业落地是大利好。
这玩意儿到底拿来干什么
说实话,本地多模态模型这个赛道,过去两年大家喊得多、用得少。原因很简单:要么模型太弱不堪用,要么硬件门槛太高跑不动。
Gemma 4 12B 这个尺寸卡得很巧妙,几个场景是真有戏的:
- 本地 Agent:截屏理解 + 工具调用 + 代码执行,全程不联网。隐私敏感行业(法律、医疗、金融)的合规需求摆在那里
- 离线文档处理:扫描件 OCR + 表格理解 + 摘要生成,一个模型搞定整条链路
- 音频转写 + 理解:会议录音直接进模型,不用先 Whisper 再 LLM
- 教育和科研工具:那个内嵌 Python 执行的 chat bubble 设计,给学生做数据可视化作业其实挺合适
场景说完,泼一盆冷水。本地模型有个永远绕不开的问题——生态。云端 API 你换个模型就是改个 endpoint,本地模型你得管模型下载、量化版本、硬件适配、用户体验。Ollama 和 LM Studio 把这事简化了不少,但离「拿来就用」还有距离。
和 Gemma 4 家族的关系
顺便把整条产品线理一下,省得你混乱:
| 型号 | 定位 | 适配硬件 | |------|------|----------| | E2B | 极致边缘 | 手机、IoT | | E4B | 边缘旗舰 | 高端手机、嵌入式 | | 12B | 日常笔记本 | 16GB 内存消费级本 | | 26B MoE | 工作站 | 桌面 GPU | | 31B Dense | 生产环境 | 服务器、云端 |
12B 之前是空缺的,这次补上之后,整条线就完整了:从 2B 到 31B,从手机到服务器,每个硬件层级都有对应的 SKU。这种打法很「谷歌」——产品矩阵思维,不靠单点爆款。
一些没说出来的话
最后聊点行业层面的。
谷歌今年在开源开放模型上的节奏明显加快。Gemma 4 4 月发布,6 月就把中间档补齐,配套的 AI Edge 工具链同步迭代。对比一下 Meta 的 Llama 4 节奏(被吐槽延迟、跳票多次),DeepMind 的执行力反而显得清爽。
但 12B 这个尺寸在中国开发者眼里其实有点尴尬——Qwen3 一直在卷这个区间,DeepSeek 的小模型也来势汹汹。Gemma 4 12B 的优势在于多模态原生和端侧工具链成熟,劣势在于中文能力。中文场景下要不要用,建议先在自己的业务数据上跑一轮再说,别看 benchmark 数字下结论。
如果你想直接在云端 API 里调主流模型做对比测试,OpenAI Hub(openai-hub.com)一个 Key 就能同时调 GPT、Claude、Gemini、DeepSeek,国内直连,兼容 OpenAI 格式——拿来横评 Gemma 4 12B 跟闭源大模型在你业务上的真实差距,比看官方榜单靠谱多了。
模型权重已经在 Hugging Face 上了,趁周末跑一把。
参考来源
- iThome:Google 公布可在笔电执行的 AI 模型 Gemma 4 12B — 中文媒体对发布会的完整报道,含 benchmark 细节
- Hugging Face:google/gemma-4-12B 模型卡 — 官方模型卡,含使用方式、多模态能力说明
- Reddit r/LocalLLM:Google introduces Gemma 4 12B 讨论帖 — 本地部署开发者社区的第一手反馈和量化版本讨论



