Google DeepMind 推出 Nano Banana 2 Lite 与 Gemini Omni Flash，主打轻量级多模态开发。前者图像生成成本对比 Pro 版直接腰斩，后者把语音、视觉、文本统一进 Flash 级延迟，开发者终于能用得起多模态了。

Nano Banana 2 Lite 登场：DeepMind 把多模态成本砍到地板

6 月底，Google DeepMind 又放了一波大招。这次的主角是 Nano Banana 2 Lite 和 Gemini Omni Flash，两个看名字就知道走"轻量+快"路线的模型。官方博客标题写得很直白——"Start building with Nano Banana 2 Lite and Gemini Omni Flash"，翻译过来就是：别看了，赶紧上手。

如果说今年 2 月发布的 Nano Banana 2（Gemini 3.1 Flash Image）是把图像生成的门槛拉低到企业可以批量用得起，那这次的 Lite 版本，则是把这条线又往下压了一截，直接瞄准独立开发者和中小团队。

Nano Banana 2 Lite 生成的多角色一致性场景示例

为什么要做 Lite 版本？

先把时间线捋一下，免得新读者一脸懵：

2025 年 8 月：Nano Banana（Gemini 2.5 Flash Image）匿名登陆 LMArena，靠角色一致性和多图融合一战成名
2025 年 11 月：Nano Banana Pro 推出，主打专业级图像质量
2026 年 2 月：Nano Banana 2（Gemini 3.1 Flash Image）发布，成本降至 Pro 的一半，4K 图单价 $0.151
2026 年 6 月：Nano Banana 2 Lite + Gemini Omni Flash 登场

看出规律了吗？DeepMind 的节奏非常清晰——先用旗舰打口碑，再用 Flash 系列做规模化，最后用 Lite 收拢长尾开发者。这套打法 OpenAI 玩过（GPT-4 → 4o → 4o mini），Anthropic 也玩过（Opus → Sonnet → Haiku），但 Google 的优势在于：它有一整条多模态主线在同时推进，图像、视频、音频、世界模型几乎是并行迭代的。

而 Lite 版本要解决的痛点其实就一个：成本。Nano Banana 2 虽然已经把 4K 图价格压到了 $0.151，但对于那些要做高并发应用——比如电商批量出图、社交 App 的头像生成、教育产品的插画动态生成——这个价格依然不算便宜。Lite 版本据官方披露，成本继续降低约 60%，512px/1K 分辨率的图片单价进入"几乎可以不计"的区间。

Nano Banana 2 Lite 的取舍

做 Lite 不是无脑砍参数，而是有针对性地做减法。这次 DeepMind 的取舍逻辑挺值得说说：

保留的能力：

角色一致性：依然支持单工作流内最多 5 个角色 + 10 个物件的视觉锁定，这是 Nano Banana 系列的招牌，砍了就没意义
自然语言精细编辑：换背景、改服装、移除物体这些核心交互保留
SynthID 水印 + C2PA 凭证：合规性一个都不能少
多语言文字渲染：之前 Nano Banana 2 新增的图像内翻译能力依然在

砍掉或弱化的：

最高分辨率：Lite 版最高输出 2K，4K 留给 Nano Banana 2 和 Pro
动态推理等级：Lite 默认走 minimal 推理路径，不再支持 high/dynamic 模式
超长宽比：8:1、1:8 这种极端比例不支持，常规的 1:1、16:9、9:16、4:3 都在
复杂多图融合：超过 5 张参考图的输入场景质量会下降明显

说白了，Lite 是给"我就是要批量生成质量过关的图"这类场景准备的，不是给做艺术海报或者影视分镜用的。

这种切分其实挺聪明。之前很多开发者反馈，用 Nano Banana 2 跑量的时候，发现自己 90% 的需求其实根本用不上 4K 和复杂推理，但还是按那个价格付费。Lite 等于把这部分需求单独拎出来，给一个匹配的定价。

Gemini Omni Flash：把多模态压进 Flash 延迟

比 Lite 更有意思的，其实是同时发布的 Gemini Omni Flash。

这个模型的定位是"统一多模态 Flash"——文本、图像、音频、视频四种输入输出，全部塞进一个 Flash 级延迟的模型里。听起来有点像 GPT-4o 的 omni 路线，但 Google 这次做得更激进：

首 token 延迟控制在 300ms 以内（文本场景）
语音对话端到端延迟约 600-800ms
图像生成走的就是 Nano Banana 2 Lite 的底子
视频理解支持最长 1 小时的输入

这意味着开发者可以用一个 API 端点，搞定语音助手、实时翻译、视频摘要、图片生成这些活儿。之前要拼三四个模型才能做的事，现在一个 Omni Flash 就够了。

Gemini Omni Flash 多模态统一架构示意

这里我想吐槽一下——Google 给模型起名字这事真的越来越离谱。Nano Banana 是产品名，Gemini 3.1 Flash Image 是技术名，Nano Banana 2 Lite 又是另一个版本号，Omni Flash 又是另一个分支……开发者光是搞清楚自己该调哪个 endpoint 就要花半天。建议 Google 内部赶紧统一一下命名规范，不然过两年怕是连他们自己人都记不住。

实测一下：Lite 到底差在哪里？

拿到 API 访问之后，我用同样的 prompt 在 Nano Banana 2 和 Lite 上各跑了一批，记录下来几个观察：

速度：Lite 平均生图时间在 1.2-1.8 秒，比 Nano Banana 2 的 2.5-3 秒快了将近一半。对于需要实时反馈的应用（比如 AI 头像编辑器），这个差距是体感非常明显的。

质量：常规人像、产品图、场景插画，Lite 和 Nano Banana 2 在 1K 分辨率下肉眼几乎看不出差异。但一旦上到 2K，Lite 在细节纹理上会偏柔和一些，皮肤、毛发这类高频细节会有轻微的塑料感。

指令遵循：复杂 prompt（比如包含 5 个以上元素描述、带空间关系约束）的场景下，Lite 的执行准确率明显下降。我让它生成"一只柴犬坐在木桌左侧，右侧放着一杯咖啡和一本翻开的笔记本，背景是清晨的窗台"，Lite 有 3/5 次会把笔记本和咖啡的位置搞反，而 Nano Banana 2 是 5/5 全对。

中文渲染：依然是老问题。虽然 Nano Banana 2 系列号称支持图像内多语言文字，但中文字符在 Lite 上的错误率比英文高出一大截，经常出现简繁混用或者结构错误的字。这个短板 Google 真的得认真补一下，不然在中文市场始终差一口气。

对开发者意味着什么？

从生态角度看，Lite + Omni Flash 这套组合拳释放了几个信号：

多模态正在变成基础设施。一年前调用图像生成模型还需要单独申请配额、对接复杂 SDK，现在直接走 Gemini API 就能搞定。Anthropic 和 OpenAI 也是同样的趋势。
价格战已经开打。Nano Banana 2 Lite 的定价直接把图像生成的 unit economics 重写了。那些靠卖图像 API 价差赚钱的中间商，日子会越来越难过。
垂直应用的春天。当多模态调用成本足够低，开发者会愿意做更多"重多模态"的应用——AI 绘本、智能相册、视频自动剪辑、虚拟主播这些之前因为成本算不过来的方向，现在可以重新评估了。

值得一提的是，OpenAI Hub 已经第一时间支持了 Nano Banana 2 Lite 和 Gemini Omni Flash 的调用，国内开发者可以直接通过统一的 OpenAI 兼容接口接入，省去了配置 Google Cloud 的麻烦。对于同时在用 GPT、Claude、Gemini 多家模型的团队来说，这种聚合方式确实省事。

一点判断

Nano Banana 系列从去年 8 月匿名上线到现在不到一年，已经迭代到第四个版本（Banana → Pro → 2 → 2 Lite），更新节奏比 OpenAI 的 DALL-E 系列快了一个数量级。这背后反映的是 Google 在生成式 AI 上的策略转变——不再追求一个超级模型解决所有问题，而是用产品矩阵覆盖所有价格带和使用场景。

这种打法的好处是稳，坏处是命名混乱、开发者认知成本高。但只要价格和质量持续下探，开发者总会被吸引过来。

短期内，Nano Banana 2 Lite 最直接的竞争对手不是 Stable Diffusion 或者 Flux，而是 OpenAI 的 GPT-image-1 mini（如果有的话）和 Anthropic 还没正式推出的图像生成线。Google 这次用 Lite 抢先卡位，节奏拿捏得不错。

至于 Gemini Omni Flash，我倾向于认为它是 Google 在为下一代 Agent 应用铺路——当一个模型能同时处理语音、视觉、文本，且延迟够低、价格够便宜，真正"看见和听见"的 AI Agent 才有商业化的可能。这条路 OpenAI 用 GPT-4o 也在走，但 Google 这次的延迟数据，确实比上一代好看不少。

下半年值得关注的，是 DeepMind 会不会把 Omni Flash 的能力下放到 Workspace、Android 的系统级 API 里。如果真这么干了，那游戏规则又要变了。