谷歌发布 Gemma 4 开源模型：Apache 2.0 协议，四款规格，31B 杀入开源前三

谷歌发布 Gemma 4 系列四款开源模型，首次采用 Apache 2.0 协议，从树莓派到工作站全覆盖，31B Dense 杀入开源前三，26B MoE 以极低激活参数逼近千亿级模型表现。

谷歌终于把「开源」两个字写实了

北京时间 4 月 3 日凌晨，谷歌正式发布 Gemma 4 系列模型。四款规格，Apache 2.0 协议，全面开源。

这句话值得拆开说。Gemma 系列已经迭代两年，下载量超过 4 亿次，衍生模型变体超 10 万个——数字很好看，但圈内一直有个心照不宣的共识：之前的 Gemma 只能算「开放」，不算「开源」。你能下载，能本地跑，但再分发受限，修改后也不能随便传播。对于想基于它做商业产品的开发者来说，这些限制是实打实的绊脚石。

这次 Apache 2.0 一步到位，意味着你可以随便改、随便用、随便卖。谷歌在开源协议上的态度转变，与其说是慷慨，不如说是被 Llama 和 DeepSeek 逼到了墙角——Meta 的 Llama 系列早就在开源社区建立了深厚的开发者心智，DeepSeek 更是以极致性价比在国内市场攻城略地。谷歌如果继续在协议上扭扭捏捏，Gemma 的生态位只会越来越尴尬。

所以这次不是谷歌变大方了，是市场不给它犹豫的空间了。

Gemma 4 四款模型规格对比图，包含 E2B、E4B、26B MoE、31B Dense 的参数量、激活参数、上下文长度、适用场景

四款模型，四个定位

Gemma 4 这次一口气放出四个规格，覆盖从 IoT 设备到开发工作站的完整硬件光谱。逐个看：

E2B / E4B：手机和边缘设备的「本地大脑」

这两款是专门为端侧场景设计的。E2B 是高效 20 亿参数版，E4B 是高效 40 亿参数版。谷歌和 Pixel 团队、高通、联发科做了深度联合优化。

关键参数：

128K 上下文窗口
支持图片、视频和原生音频输入
可在 Pixel 手机、树莓派、Jetson Orin Nano 上完全离线运行
延迟接近于零

「树莓派上跑大模型」这个说法听起来像噱头，但如果你做过 IoT 项目就知道，边缘设备上能跑一个支持多模态输入、128K 上下文的模型，意味着很多之前必须联网回传云端的场景可以完全本地化了。工厂质检、智能家居、车载语音——这些场景对延迟和隐私的要求极高，E2B/E4B 正好切中这个需求。

而且别忽略「原生音频输入」这个能力。不是先 ASR 转文字再喂给模型，而是模型直接理解音频。这在端侧场景里省掉了一整个 pipeline 的延迟和算力开销。

26B MoE：精算师型选手

26B 混合专家模型（MoE），总参数 260 亿，但推理时只激活 3.8B。

这个架构的好处很直观：你拥有 26B 模型的知识容量，但只付 3.8B 的推理账单。对于日调用量在十万次以上的生产场景，这个差距是真金白银。

性能方面，Arena AI 文本评分 1441，开源模型排名第六。更值得注意的是，这个分数接近 Qwen3.5-397B-A17B——后者的总参数量是它的 15 倍。用不到二十分之一的参数量逼近对手的效果，MoE 架构的效率优势在这里体现得淋漓尽致。

上下文窗口拉到了 256K，支持 140+ 语言，原生支持函数调用（function calling）和结构化输出。函数调用让模型能直接对接外部工具——查数据库、调 API、执行代码；结构化输出则确保返回的 JSON 格式严格可控，方便下游系统解析。这两个能力组合在一起，基本就是为 Agent 工作流量身定做的。

31B Dense：暴力美学

310 亿参数，全部激活，不玩花活。

Arena AI 文本评分 1452，开源模型排名第三。这个分数和体量在 600B 以上的 GLM-5 处于同一梯队。Google DeepMind CEO Demis Hassabis 在 X 上只发了一条简短消息，但 31B Dense 的榜单表现替他把话说完了。

同样是 256K 上下文、140+ 语言、函数调用和结构化输出。和 26B MoE 的区别在于：Dense 架构每次推理都全量激活所有参数，推理成本更高，但上限也更高。如果你的场景对质量要求极致——比如复杂的多步推理、长文档分析、高难度代码生成——31B Dense 是更稳的选择。

26B MoE vs 31B Dense：选错了，账单或延迟总有一个让你难受

这两个模型参数量差距不到 20%，但跑起来完全是两回事。

简单算一笔账：

26B MoE 推理时激活 3.8B 参数，31B Dense 激活 31B 参数
同样的 GPU，MoE 的吞吐量大约是 Dense 的 5-8 倍
MoE 的单次推理延迟大约是 Dense 的 1/4 到 1/3

但 MoE 不是万能的。混合专家架构的特点是「术业有专攻」——不同的 token 会被路由到不同的专家网络处理。对于标准化任务（摘要、分类、简单代码生成、信息提取），MoE 的路由机制能高效匹配合适的专家，性价比极高。但对于需要全局深度推理的复杂任务，Dense 架构的「所有参数一起想」反而更有优势。

给个简单的决策框架：

日调用量 > 10 万次，任务相对标准化，延迟敏感 → 26B MoE
任务复杂度高，对输出质量要求极致，调用量可控 → 31B Dense
预算有限但想要最好的质量 → 先用 MoE 跑通 pipeline，把省下来的钱投到 Dense 处理关键任务

实际上，很多团队最终会两个都用：MoE 做初筛和批量处理，Dense 做精细任务和兜底。这也是为什么兼容 OpenAI 格式的 API 聚合服务越来越重要——你需要在不同模型之间灵活切换，甚至配置「主模型挂了自动降级」的策略，而不是为每个模型维护一套独立的调用逻辑。

技术细节：Gemini 3 的技术下放

谷歌明确表示，Gemma 4 基于与 Gemini 3 相同的研究和技术体系构建。这不是客套话——从实际表现看，Gemma 4 确实继承了 Gemini 3 的几个核心能力：

多步规划与复杂逻辑推理：这是 Agent 场景的基础能力。模型需要理解目标、拆解步骤、在执行过程中根据反馈调整计划。Gemma 4 在这方面的表现，从 Arena AI 的评分来看，已经达到了和闭源模型竞争的水平。

原生多模态：不是后期拼接的多模态，而是训练阶段就融合了文本、图像、视频、音频的理解能力。E2B/E4B 支持音频直接输入，26B 和 31B 支持文本和图像输入。

140+ 语言支持：对于做国际化产品的团队来说，这意味着一个模型就能覆盖绝大多数语言市场，不需要为每种语言单独微调。

函数调用与结构化输出：这两个能力是 2025 年以来开源模型竞争的关键战场。函数调用让模型从「只能聊天」进化到「能干活」，结构化输出让模型的输出可以被程序可靠地解析和使用。Gemma 4 在这两项上的原生支持，大幅降低了开发者构建 Agent 应用的门槛。

开源生态的格局变化

Gemma 4 的发布，让开源模型的竞争格局又热闹了一层。

目前开源模型的第一梯队大致是这样的：

Meta Llama 系列：社区最大，生态最成熟，但最新版本在推理能力上开始被追赶
DeepSeek 系列：性价比之王，在国内开发者中渗透率极高
Qwen 系列：阿里出品，中文场景表现突出，参数规格覆盖广
Mistral 系列：欧洲代表，MoE 架构的先行者
Gemma 系列：之前因为协议限制一直在「开放」和「开源」之间暧昧，现在终于站到了开源阵营

Gemma 4 的加入，最直接的冲击对象是 Qwen 和 Mistral。在 30B 左右的参数量级，31B Dense 的 Arena AI 评分已经是开源第三，这个位置之前属于 Qwen 系列。而 26B MoE 的架构和定位，则和 Mistral 的 Mixtral 系列形成正面竞争。

但更深层的变化在于：谷歌终于愿意把自己最好的技术（Gemini 3 同源）以真正开源的方式释放出来。这对整个开源 AI 生态是利好——竞争越激烈，开发者的选择越多，模型的质量提升越快。

对开发者意味着什么

如果你正在做 AI 应用开发，Gemma 4 值得认真评估的场景包括：

边缘部署：E2B/E4B 是目前开源模型里端侧能力最强的选项之一。如果你的产品需要在手机、IoT 设备上离线运行 AI 能力，这两个模型应该进入你的候选列表。

Agent 工作流：原生函数调用 + 结构化输出 + 256K 上下文 + 多步推理，这套组合对于构建 Agent 应用来说几乎是标配。26B MoE 和 31B Dense 都能胜任。

多模型架构：在生产环境中，越来越多的团队采用多模型混合架构——不同任务路由到不同模型，主模型故障时自动降级到备选模型。Gemma 4 兼容 OpenAI 格式的 API 接口，可以无缝接入现有的调用链路。通过 OpenAI Hub 这类 API 聚合平台，一个 Key 就能调用 Gemma 4 和其他主流模型，在模型之间切换的成本几乎为零。

成本优化：如果你目前在用闭源模型（GPT-4o、Claude Sonnet 等）处理大量标准化任务，26B MoE 的性价比值得测试。激活参数只有 3.8B，但效果逼近百亿级模型，迁移过来可能省下一大笔推理费用。

冷静看几个问题

说了这么多好的，也得泼点冷水。

第一，Arena AI 的评分不是万能指标。它主要反映模型在对话场景下的综合表现，但你的实际任务可能是代码生成、数据提取、长文档分析——这些细分场景的表现需要自己跑 benchmark 验证。

第二，MoE 架构虽然推理便宜，但微调成本不低。如果你需要在 Gemma 4 26B MoE 上做全量微调，实际需要加载的参数量还是 26B，显存需求并不比 31B Dense 少多少。LoRA 微调倒是可以只动部分参数，但效果能不能达到预期，取决于你的具体任务。

第三，E2B/E4B 在端侧的实际表现，还需要等更多开发者的真实反馈。「树莓派上能跑」和「树莓派上跑得好用」是两回事。128K 上下文在端侧设备上的实际推理速度、内存占用、发热情况，这些都需要实测数据。

第四，谷歌的开源模型生态建设一直是短板。Llama 有 Meta 持续投入的社区运营，DeepSeek 有国内开发者的自发传播，Gemma 之前虽然下载量大，但社区活跃度和二次开发的深度都不算突出。Apache 2.0 协议是个好的开始，但生态的繁荣需要的不只是一个协议。

写在最后

Gemma 4 是谷歌在开源模型赛道上迟来但有诚意的一步。Apache 2.0 协议解决了最大的合规顾虑，四款规格覆盖了从树莓派到工作站的完整场景，31B Dense 的性能直接杀入开源前三。

但开源模型的竞争从来不只是跑分。生态、社区、工具链、微调便利性——这些「软实力」才是决定一个开源模型能不能真正被用起来的关键。谷歌有技术，有资源，现在也有了正确的协议。接下来就看它愿不愿意像 Meta 经营 Llama 那样，真正投入精力去建设 Gemma 的开发者社区。

对开发者来说，多一个强力选手入场永远是好事。建议先在自己的实际任务上跑一轮对比测试，用数据说话，别被榜单牵着走。

参考来源

以小小小小胜大！Google 最强小模型刚刚发布 — 详细解读 Gemma 4 四款模型的定位与性能对比
Google 开源模型参数差 8 倍，开发者选哪个栽了 — 26B MoE vs 31B Dense 的选型分析
谷歌推出最强手机端开源模型 Gemma4 E2B/E4B — 端侧模型能力解读
新华社：谷歌发布开源模型 Gemma 4 — 官方发布信息
Gemma 4 现已发布：同等规模下性能最强的开放模型 — 谷歌官方博客中文翻译
谷歌发布 Gemma 4 开源大模型（新浪财经） — 四种规格概览

Gemma 4：谷歌开源模型的真正成人礼