谷歌把 Gemma 4 塞进 Mac:AI Edge Gallery 登陆 macOS
谷歌将原本只在 Android、iOS 上跑的 AI Edge Gallery 搬到了 macOS,同时发布 12B 参数的 Gemma 4,号称 16GB 内存的笔记本就能本地跑多模态——这次终于不用再装 Ollama 了。
谷歌官方的本地 AI 客户端,终于补齐了 Mac 这块拼图
6 月 3 日,谷歌把 AI Edge Gallery 推上了 macOS。这款一年前先在 Android 上低调上线、几个月前才登陆 iOS 的本地模型运行器,现在终于补齐了桌面端最重要的那一块。一同发布的还有两样东西:一款叫 Gemma 4 12B 的新模型,以及 Mac 版的 AI Edge Eloquent 离线听写应用。
做本地大模型这件事,过去基本被 Ollama 和 LM Studio 这种第三方工具垄断。Mac 用户想跑 Gemma、Llama、Qwen,惯常路径是装 Ollama、拉 GGUF、写两行命令。谷歌这次出官方客户端,意思非常明确:自家的模型,自家的渠道,自家来兜底体验。
不是开放平台,是谷歌精选店
先把 AI Edge Gallery 跟 Ollama、LM Studio 的差异讲清楚,因为这决定了它的目标用户是谁。
Ollama 和 LM Studio 走的是"模型仓库"路线,你想跑什么就跑什么,Hugging Face 上几千个开源模型基本通吃。AI Edge Gallery 不是,它目前只提供 5 个模型,全是谷歌自家的,名字里都带 "it"——instruct 的缩写,意味着这些权重都做过指令微调,能听懂"帮我总结一下这段文字"这种自然语言指令,而不是单纯做文本续写。
这种封闭策略有得有失。好处是体验稳定,模型与运行时是同一拨人调优过的,不会出现某些 GGUF 量化版本在 Metal 后端跑飞了温度的尴尬。坏处也明显:你想试试 Qwen3 或 DeepSeek 的本地版?对不起,这里没有。
所以 AI Edge Gallery 真正的对标对象不是 Ollama,而是苹果未来的 Apple Intelligence——同样是"官方调优、隐私保障、开箱即用"那条路。区别在于,谷歌把生态押在了开放权重的 Gemma 上,苹果则把模型藏在系统里。
Gemma 4 12B:120 亿参数对标 260 亿 MoE
这次最值得说的不是客户端,是同步发布的 Gemma 4 12B。
谷歌的官方说法是:这款模型"专为将代理式(agentic)多模态智能直接带到笔记本电脑而设计"。看几个关键数字:
- 参数量 120 亿,定位在当下消费级本地模型的高端线
- 性能对标 260 亿参数的 MoE 模型——这是谷歌自己说的,但即使打个折,也意味着比上一代 Gemma 3 12B 进步明显
- 16GB 内存的消费级笔电就能跑,这是它和 70B 级别开源模型最大的区别
- 多模态:文本、图像、音频三路输入都支持
- 强调编程能力
参数规模这一档其实卡得很妙。当前面向消费者的本地模型,主流参数量集中在 2B–9B 之间,太小了能力上限很低;30B 起步又对内存和显存有要求,一般 MacBook Air 根本扛不动。12B 像是一条"刚好够用又跑得动"的中线。
根据 Reddit 上的实测反馈,要顺畅跑 3-4B 模型,至少需要 16GB 统一内存;10B 这一档的模型,建议 24GB 起步。换句话说,Gemma 4 12B 在 16GB 机器上能跑,但要追求生成速度和稍长的上下文,24GB 的 M 系列 Mac 才是真正甜区。
实测层面,香港媒体 unwire 用 Mac mini M4 + 24GB 统一内存跑了一条"建立日本京都 4 日行程"的提示词,结果是:模型思考约 8 秒后开始输出,完整回答约 40 秒。比云端 Gemini 慢,但对于本地、离线、隐私优先的场景,这个延迟可以接受。
真正有意思的是"多模态本地化"
如果只是文本生成,本地模型这事儿已经卷了两年了,没什么新鲜感。Gemma 4 这次值得看的,是它把视觉理解放进了本地能跑的范围。
AI Edge Gallery 里有个叫 Ask Image 的功能:左侧菜单点进去,可以同时上传多张图片让模型分析。第一次用要先下载视觉模型,比如 Gemma-4-E2B-it 这个更轻量的版本作为视觉引擎。
实测一次性丢 6 张 Computex 2026 的展会截图进去,问"请从图片总结今年 Computex",约 5 秒内就能给出结构化的归纳——汽车科技、新能源、AI 计算平台之类的条目分类。重点是:全程断网。
这个能力对一些行业是降维打击。律师扫描合同截图、医生看影像参考、记者整理素材、企业内部审计——所有那些"不能上传到云端"的视觉数据处理场景,本地多模态模型可以直接接住。在这之前你能选的只有更小、更弱的方案,或者上 70B 级别的怪兽。
音频也是一样的逻辑。谷歌没有详细公布 Gemma 4 12B 在音频上的具体测评数据,但官方明确表示三模态都支持。配合同一天发布的 AI Edge Eloquent,这条产品线的意图就很清楚了。
AI Edge Eloquent:把听写做成完全本地的
顺手说一下这款听写应用。
Eloquent 几个月前先上的 iOS,这次随 macOS 客户端一起补齐桌面端。功能不复杂:
- 实时录音 + 转写
- 自动去除"嗯"、"啊"、"那个"这类口语填充词
- 轻度润色,让文本读起来更通顺
- 支持选择不同写作风格
- 支持自定义词汇表(人名、专业术语、行业黑话)
所有处理在设备本地完成,不走云。
这块谷歌算是后来者。Whisper 已经把开源语音识别卷得差不多了,Mac 上 Wispr Flow、Superwhisper 之类的工具早就把"本地听写 + LLM 润色"做成了订阅生意。Eloquent 的优势是免费,加上和 AI Edge 生态绑得紧。但要打动现有 Whisper 用户,谷歌还得证明它的转写准确率不落下风。
这事对开发者意味着什么
几个判断:
第一,端侧 AI 这盘棋,谷歌终于把桌面端补齐了。 谷歌在端侧 AI 上其实押注很重——Pixel 上的 Gemini Nano、Android 上的 ML Kit、现在的 AI Edge——但 Mac 一直是缺口。Apple 自己有 Apple Intelligence,但开源生态被 Ollama 抢了先。谷歌出官方客户端是补这一刀。
第二,Gemma 4 12B 是开发者要重点测的模型。 12B 参数 + 多模态 + 16GB 内存可跑,这套配置在 Mac 用户群里覆盖面非常广。如果你在做本地 AI 应用、隐私敏感场景、离线工具,Gemma 4 12B 大概率会成为新的默认选项之一。建议拿一份你常用的 benchmark 跑一遍,重点关注它在编程任务、长上下文、视觉理解三块的实际表现,再决定要不要从 Llama 3.x 或 Qwen3 切过来。
第三,封闭客户端 vs 开放运行时的取舍。 AI Edge Gallery 只让你跑谷歌自家的 5 个模型,对纯粹折腾的开发者来说不够爽。但反过来,如果你做的是 ToB 产品,需要给一线员工部署本地 AI,AI Edge Gallery 这种"官方背书、不用配置、模型经过精调"的方案,运维成本远低于让大家自己装 Ollama。
第四,云端 vs 本地的边界在快速移动。 一年前我们还觉得本地模型只能跑跑聊天、写写邮件。现在 12B 多模态、5 秒内分析 6 张图片,这种能力已经能接住大量真实业务场景了。继续往后看,等 Gemma 5、Llama 5 这一批出来,云端模型的护城河只剩下"超长上下文 + 顶级推理"这两块。中间地带正在被本地侵蚀。
一些细节槽点
实话说,AI Edge Gallery 第一版还是有些粗糙:
- 模型选择面太窄。只有 5 个谷歌自家模型,没法跨厂商比较。
- 没有 OpenAI 兼容 API。Ollama 起一个本地服务器就能让 LangChain、LlamaIndex 直接接上,AI Edge Gallery 目前更像一个独立的 GUI 应用,开发者集成路径不清晰。
- 量化策略不透明。在 Ollama 里你可以挑 Q4、Q5、Q8,AI Edge Gallery 直接给你装好就用,懂行的人想抠性能可能不太够。
这些问题大概率会在后续版本逐步解决。但短期内,AI Edge Gallery 更适合普通用户和企业部署,不适合需要深度定制的 AI 工程师。
对国内开发者的实际建议
如果你日常工作主要靠 Claude、GPT 这类闭源大模型,本地模型的角色其实是补充而非替代——处理敏感数据、做离线 demo、跑测试集都用得上。Gemma 4 12B 这次的更新值得装一份留着备用。
顺带一提,如果你需要在不同云端模型之间切换、对比效果,OpenAI Hub 这边一个 Key 就能调 GPT、Claude、Gemini、DeepSeek 这些主流模型,国内直连,OpenAI 格式兼容。本地跑 Gemma 4 处理隐私数据,云端模型负责复杂推理,两边搭配着用是目前比较成熟的工程实践。
写在最后
谷歌这次的更新没有 keynote,没有发布会,9to5Mac 把它形容为"launches to macOS"——一种典型的低调上线。但放在端侧 AI 的大趋势下看,这其实是一个标志性节点:官方厂商开始正面下场做本地 AI 客户端。Apple Intelligence 已经在路上,谷歌的 AI Edge 也铺开了 Android、iOS、macOS 三端,微软的 Copilot+PC 在 Windows 上也在做类似的事。
再过一年,普通用户在自己的电脑上跑一个 12B 多模态模型,可能会像今天打开浏览器一样自然。
参考来源
- Reddit r/MacOS 关于 AI Edge Gallery 登陆 macOS 的讨论 - 包含本地运行 Gemma 4 不同参数版本的内存要求实测数据
- Hugging Face 上的 Gemma 系列模型 - 谷歌官方在 Hugging Face 维护的 Gemma 开源模型权重仓库



