谷歌发布 AI Edge Gallery for macOS：Gemma 4 12B 本地多模态登陆 Mac

谷歌将原本只在 Android、iOS 上跑的 AI Edge Gallery 搬到了 macOS，同时发布 12B 参数的 Gemma 4，号称 16GB 内存的笔记本就能本地跑多模态——这次终于不用再装 Ollama 了。

谷歌官方的本地 AI 客户端，终于补齐了 Mac 这块拼图

6 月 3 日，谷歌把 AI Edge Gallery 推上了 macOS。这款一年前先在 Android 上低调上线、几个月前才登陆 iOS 的本地模型运行器，现在终于补齐了桌面端最重要的那一块。一同发布的还有两样东西：一款叫 Gemma 4 12B 的新模型，以及 Mac 版的 AI Edge Eloquent 离线听写应用。

做本地大模型这件事，过去基本被 Ollama 和 LM Studio 这种第三方工具垄断。Mac 用户想跑 Gemma、Llama、Qwen，惯常路径是装 Ollama、拉 GGUF、写两行命令。谷歌这次出官方客户端，意思非常明确：自家的模型，自家的渠道，自家来兜底体验。

不是开放平台，是谷歌精选店

先把 AI Edge Gallery 跟 Ollama、LM Studio 的差异讲清楚，因为这决定了它的目标用户是谁。

Ollama 和 LM Studio 走的是"模型仓库"路线，你想跑什么就跑什么，Hugging Face 上几千个开源模型基本通吃。AI Edge Gallery 不是，它目前只提供 5 个模型，全是谷歌自家的，名字里都带 "it"——instruct 的缩写，意味着这些权重都做过指令微调，能听懂"帮我总结一下这段文字"这种自然语言指令，而不是单纯做文本续写。

这种封闭策略有得有失。好处是体验稳定，模型与运行时是同一拨人调优过的，不会出现某些 GGUF 量化版本在 Metal 后端跑飞了温度的尴尬。坏处也明显：你想试试 Qwen3 或 DeepSeek 的本地版？对不起，这里没有。

所以 AI Edge Gallery 真正的对标对象不是 Ollama，而是苹果未来的 Apple Intelligence——同样是"官方调优、隐私保障、开箱即用"那条路。区别在于，谷歌把生态押在了开放权重的 Gemma 上，苹果则把模型藏在系统里。

Gemma 4 12B：120 亿参数对标 260 亿 MoE

这次最值得说的不是客户端，是同步发布的 Gemma 4 12B。

谷歌的官方说法是：这款模型"专为将代理式（agentic）多模态智能直接带到笔记本电脑而设计"。看几个关键数字：

参数量 120 亿，定位在当下消费级本地模型的高端线
性能对标 260 亿参数的 MoE 模型——这是谷歌自己说的，但即使打个折，也意味着比上一代 Gemma 3 12B 进步明显
16GB 内存的消费级笔电就能跑，这是它和 70B 级别开源模型最大的区别
多模态：文本、图像、音频三路输入都支持
强调编程能力

参数规模这一档其实卡得很妙。当前面向消费者的本地模型，主流参数量集中在 2B–9B 之间，太小了能力上限很低；30B 起步又对内存和显存有要求，一般 MacBook Air 根本扛不动。12B 像是一条"刚好够用又跑得动"的中线。

根据 Reddit 上的实测反馈，要顺畅跑 3-4B 模型，至少需要 16GB 统一内存；10B 这一档的模型，建议 24GB 起步。换句话说，Gemma 4 12B 在 16GB 机器上能跑，但要追求生成速度和稍长的上下文，24GB 的 M 系列 Mac 才是真正甜区。

实测层面，香港媒体 unwire 用 Mac mini M4 + 24GB 统一内存跑了一条"建立日本京都 4 日行程"的提示词，结果是：模型思考约 8 秒后开始输出，完整回答约 40 秒。比云端 Gemini 慢，但对于本地、离线、隐私优先的场景，这个延迟可以接受。

真正有意思的是"多模态本地化"

如果只是文本生成，本地模型这事儿已经卷了两年了，没什么新鲜感。Gemma 4 这次值得看的，是它把视觉理解放进了本地能跑的范围。

AI Edge Gallery 里有个叫 Ask Image 的功能：左侧菜单点进去，可以同时上传多张图片让模型分析。第一次用要先下载视觉模型，比如 Gemma-4-E2B-it 这个更轻量的版本作为视觉引擎。

实测一次性丢 6 张 Computex 2026 的展会截图进去，问"请从图片总结今年 Computex"，约 5 秒内就能给出结构化的归纳——汽车科技、新能源、AI 计算平台之类的条目分类。重点是：全程断网。

这个能力对一些行业是降维打击。律师扫描合同截图、医生看影像参考、记者整理素材、企业内部审计——所有那些"不能上传到云端"的视觉数据处理场景，本地多模态模型可以直接接住。在这之前你能选的只有更小、更弱的方案，或者上 70B 级别的怪兽。

音频也是一样的逻辑。谷歌没有详细公布 Gemma 4 12B 在音频上的具体测评数据，但官方明确表示三模态都支持。配合同一天发布的 AI Edge Eloquent，这条产品线的意图就很清楚了。

AI Edge Eloquent：把听写做成完全本地的

顺手说一下这款听写应用。

Eloquent 几个月前先上的 iOS，这次随 macOS 客户端一起补齐桌面端。功能不复杂：

实时录音 + 转写
自动去除"嗯"、"啊"、"那个"这类口语填充词
轻度润色，让文本读起来更通顺
支持选择不同写作风格
支持自定义词汇表（人名、专业术语、行业黑话）

所有处理在设备本地完成，不走云。

这块谷歌算是后来者。Whisper 已经把开源语音识别卷得差不多了，Mac 上 Wispr Flow、Superwhisper 之类的工具早就把"本地听写 + LLM 润色"做成了订阅生意。Eloquent 的优势是免费，加上和 AI Edge 生态绑得紧。但要打动现有 Whisper 用户，谷歌还得证明它的转写准确率不落下风。

这事对开发者意味着什么

几个判断：

第一，端侧 AI 这盘棋，谷歌终于把桌面端补齐了。 谷歌在端侧 AI 上其实押注很重——Pixel 上的 Gemini Nano、Android 上的 ML Kit、现在的 AI Edge——但 Mac 一直是缺口。Apple 自己有 Apple Intelligence，但开源生态被 Ollama 抢了先。谷歌出官方客户端是补这一刀。

第二，Gemma 4 12B 是开发者要重点测的模型。 12B 参数 + 多模态 + 16GB 内存可跑，这套配置在 Mac 用户群里覆盖面非常广。如果你在做本地 AI 应用、隐私敏感场景、离线工具，Gemma 4 12B 大概率会成为新的默认选项之一。建议拿一份你常用的 benchmark 跑一遍，重点关注它在编程任务、长上下文、视觉理解三块的实际表现，再决定要不要从 Llama 3.x 或 Qwen3 切过来。

第三，封闭客户端 vs 开放运行时的取舍。 AI Edge Gallery 只让你跑谷歌自家的 5 个模型，对纯粹折腾的开发者来说不够爽。但反过来，如果你做的是 ToB 产品，需要给一线员工部署本地 AI，AI Edge Gallery 这种"官方背书、不用配置、模型经过精调"的方案，运维成本远低于让大家自己装 Ollama。

第四，云端 vs 本地的边界在快速移动。 一年前我们还觉得本地模型只能跑跑聊天、写写邮件。现在 12B 多模态、5 秒内分析 6 张图片，这种能力已经能接住大量真实业务场景了。继续往后看，等 Gemma 5、Llama 5 这一批出来，云端模型的护城河只剩下"超长上下文 + 顶级推理"这两块。中间地带正在被本地侵蚀。

一些细节槽点

实话说，AI Edge Gallery 第一版还是有些粗糙：

模型选择面太窄。只有 5 个谷歌自家模型，没法跨厂商比较。
没有 OpenAI 兼容 API。Ollama 起一个本地服务器就能让 LangChain、LlamaIndex 直接接上，AI Edge Gallery 目前更像一个独立的 GUI 应用，开发者集成路径不清晰。
量化策略不透明。在 Ollama 里你可以挑 Q4、Q5、Q8，AI Edge Gallery 直接给你装好就用，懂行的人想抠性能可能不太够。

这些问题大概率会在后续版本逐步解决。但短期内，AI Edge Gallery 更适合普通用户和企业部署，不适合需要深度定制的 AI 工程师。

对国内开发者的实际建议

如果你日常工作主要靠 Claude、GPT 这类闭源大模型，本地模型的角色其实是补充而非替代——处理敏感数据、做离线 demo、跑测试集都用得上。Gemma 4 12B 这次的更新值得装一份留着备用。

顺带一提，如果你需要在不同云端模型之间切换、对比效果，OpenAI Hub 这边一个 Key 就能调 GPT、Claude、Gemini、DeepSeek 这些主流模型，国内直连，OpenAI 格式兼容。本地跑 Gemma 4 处理隐私数据，云端模型负责复杂推理，两边搭配着用是目前比较成熟的工程实践。

写在最后

谷歌这次的更新没有 keynote，没有发布会，9to5Mac 把它形容为"launches to macOS"——一种典型的低调上线。但放在端侧 AI 的大趋势下看，这其实是一个标志性节点：官方厂商开始正面下场做本地 AI 客户端。Apple Intelligence 已经在路上，谷歌的 AI Edge 也铺开了 Android、iOS、macOS 三端，微软的 Copilot+PC 在 Windows 上也在做类似的事。

再过一年，普通用户在自己的电脑上跑一个 12B 多模态模型，可能会像今天打开浏览器一样自然。

参考来源

Reddit r/MacOS 关于 AI Edge Gallery 登陆 macOS 的讨论 - 包含本地运行 Gemma 4 不同参数版本的内存要求实测数据
Hugging Face 上的 Gemma 系列模型 - 谷歌官方在 Hugging Face 维护的 Gemma 开源模型权重仓库

谷歌把 Gemma 4 塞进 Mac：AI Edge Gallery 登陆 macOS

谷歌官方的本地 AI 客户端，终于补齐了 Mac 这块拼图

不是开放平台，是谷歌精选店

Gemma 4 12B：120 亿参数对标 260 亿 MoE

真正有意思的是"多模态本地化"

AI Edge Eloquent：把听写做成完全本地的

这事对开发者意味着什么

一些细节槽点

对国内开发者的实际建议

写在最后

参考来源

相关推荐

支付宝要塞进一个叫"阿宝"的Agent，蚂蚁这次想抄AI原生的近路

小米 MIX Fold 5 首发澎湃 OS4：AI 不再是噱头层的事

Sub2API 实战：把你散落的 AI 订阅拧成一根管子

联系我们