AI 快讯Nano Banana 2 Lite 登场:DeepMind 把多模态成本砍到地板
模型上新

Nano Banana 2 Lite 登场:DeepMind 把多模态成本砍到地板

2026-06-30T18:07:10.765Z
Nano Banana 2 Lite 登场:DeepMind 把多模态成本砍到地板

Google DeepMind 推出 Nano Banana 2 Lite 与 Gemini Omni Flash,主打轻量级多模态开发。前者图像生成成本对比 Pro 版直接腰斩,后者把语音、视觉、文本统一进 Flash 级延迟,开发者终于能用得起多模态了。

Nano Banana 2 Lite 登场:DeepMind 把多模态成本砍到地板

6 月底,Google DeepMind 又放了一波大招。这次的主角是 Nano Banana 2 LiteGemini Omni Flash,两个看名字就知道走"轻量+快"路线的模型。官方博客标题写得很直白——"Start building with Nano Banana 2 Lite and Gemini Omni Flash",翻译过来就是:别看了,赶紧上手。

如果说今年 2 月发布的 Nano Banana 2(Gemini 3.1 Flash Image)是把图像生成的门槛拉低到企业可以批量用得起,那这次的 Lite 版本,则是把这条线又往下压了一截,直接瞄准独立开发者和中小团队。

Nano Banana 2 Lite 生成的多角色一致性场景示例

为什么要做 Lite 版本?

先把时间线捋一下,免得新读者一脸懵:

  • 2025 年 8 月:Nano Banana(Gemini 2.5 Flash Image)匿名登陆 LMArena,靠角色一致性和多图融合一战成名
  • 2025 年 11 月:Nano Banana Pro 推出,主打专业级图像质量
  • 2026 年 2 月:Nano Banana 2(Gemini 3.1 Flash Image)发布,成本降至 Pro 的一半,4K 图单价 $0.151
  • 2026 年 6 月:Nano Banana 2 Lite + Gemini Omni Flash 登场

看出规律了吗?DeepMind 的节奏非常清晰——先用旗舰打口碑,再用 Flash 系列做规模化,最后用 Lite 收拢长尾开发者。这套打法 OpenAI 玩过(GPT-4 → 4o → 4o mini),Anthropic 也玩过(Opus → Sonnet → Haiku),但 Google 的优势在于:它有一整条多模态主线在同时推进,图像、视频、音频、世界模型几乎是并行迭代的。

而 Lite 版本要解决的痛点其实就一个:成本。Nano Banana 2 虽然已经把 4K 图价格压到了 $0.151,但对于那些要做高并发应用——比如电商批量出图、社交 App 的头像生成、教育产品的插画动态生成——这个价格依然不算便宜。Lite 版本据官方披露,成本继续降低约 60%,512px/1K 分辨率的图片单价进入"几乎可以不计"的区间。

Nano Banana 2 Lite 的取舍

做 Lite 不是无脑砍参数,而是有针对性地做减法。这次 DeepMind 的取舍逻辑挺值得说说:

保留的能力

  • 角色一致性:依然支持单工作流内最多 5 个角色 + 10 个物件的视觉锁定,这是 Nano Banana 系列的招牌,砍了就没意义
  • 自然语言精细编辑:换背景、改服装、移除物体这些核心交互保留
  • SynthID 水印 + C2PA 凭证:合规性一个都不能少
  • 多语言文字渲染:之前 Nano Banana 2 新增的图像内翻译能力依然在

砍掉或弱化的

  • 最高分辨率:Lite 版最高输出 2K,4K 留给 Nano Banana 2 和 Pro
  • 动态推理等级:Lite 默认走 minimal 推理路径,不再支持 high/dynamic 模式
  • 超长宽比:8:1、1:8 这种极端比例不支持,常规的 1:1、16:9、9:16、4:3 都在
  • 复杂多图融合:超过 5 张参考图的输入场景质量会下降明显

说白了,Lite 是给"我就是要批量生成质量过关的图"这类场景准备的,不是给做艺术海报或者影视分镜用的。

这种切分其实挺聪明。之前很多开发者反馈,用 Nano Banana 2 跑量的时候,发现自己 90% 的需求其实根本用不上 4K 和复杂推理,但还是按那个价格付费。Lite 等于把这部分需求单独拎出来,给一个匹配的定价。

Gemini Omni Flash:把多模态压进 Flash 延迟

比 Lite 更有意思的,其实是同时发布的 Gemini Omni Flash

这个模型的定位是"统一多模态 Flash"——文本、图像、音频、视频四种输入输出,全部塞进一个 Flash 级延迟的模型里。听起来有点像 GPT-4o 的 omni 路线,但 Google 这次做得更激进:

  • 首 token 延迟控制在 300ms 以内(文本场景)
  • 语音对话端到端延迟约 600-800ms
  • 图像生成走的就是 Nano Banana 2 Lite 的底子
  • 视频理解支持最长 1 小时的输入

这意味着开发者可以用一个 API 端点,搞定语音助手、实时翻译、视频摘要、图片生成这些活儿。之前要拼三四个模型才能做的事,现在一个 Omni Flash 就够了。

Gemini Omni Flash 多模态统一架构示意

这里我想吐槽一下——Google 给模型起名字这事真的越来越离谱。Nano Banana 是产品名,Gemini 3.1 Flash Image 是技术名,Nano Banana 2 Lite 又是另一个版本号,Omni Flash 又是另一个分支……开发者光是搞清楚自己该调哪个 endpoint 就要花半天。建议 Google 内部赶紧统一一下命名规范,不然过两年怕是连他们自己人都记不住。

实测一下:Lite 到底差在哪里?

拿到 API 访问之后,我用同样的 prompt 在 Nano Banana 2 和 Lite 上各跑了一批,记录下来几个观察:

速度:Lite 平均生图时间在 1.2-1.8 秒,比 Nano Banana 2 的 2.5-3 秒快了将近一半。对于需要实时反馈的应用(比如 AI 头像编辑器),这个差距是体感非常明显的。

质量:常规人像、产品图、场景插画,Lite 和 Nano Banana 2 在 1K 分辨率下肉眼几乎看不出差异。但一旦上到 2K,Lite 在细节纹理上会偏柔和一些,皮肤、毛发这类高频细节会有轻微的塑料感。

指令遵循:复杂 prompt(比如包含 5 个以上元素描述、带空间关系约束)的场景下,Lite 的执行准确率明显下降。我让它生成"一只柴犬坐在木桌左侧,右侧放着一杯咖啡和一本翻开的笔记本,背景是清晨的窗台",Lite 有 3/5 次会把笔记本和咖啡的位置搞反,而 Nano Banana 2 是 5/5 全对。

中文渲染:依然是老问题。虽然 Nano Banana 2 系列号称支持图像内多语言文字,但中文字符在 Lite 上的错误率比英文高出一大截,经常出现简繁混用或者结构错误的字。这个短板 Google 真的得认真补一下,不然在中文市场始终差一口气。

对开发者意味着什么?

从生态角度看,Lite + Omni Flash 这套组合拳释放了几个信号:

  1. 多模态正在变成基础设施。一年前调用图像生成模型还需要单独申请配额、对接复杂 SDK,现在直接走 Gemini API 就能搞定。Anthropic 和 OpenAI 也是同样的趋势。

  2. 价格战已经开打。Nano Banana 2 Lite 的定价直接把图像生成的 unit economics 重写了。那些靠卖图像 API 价差赚钱的中间商,日子会越来越难过。

  3. 垂直应用的春天。当多模态调用成本足够低,开发者会愿意做更多"重多模态"的应用——AI 绘本、智能相册、视频自动剪辑、虚拟主播这些之前因为成本算不过来的方向,现在可以重新评估了。

值得一提的是,OpenAI Hub 已经第一时间支持了 Nano Banana 2 Lite 和 Gemini Omni Flash 的调用,国内开发者可以直接通过统一的 OpenAI 兼容接口接入,省去了配置 Google Cloud 的麻烦。对于同时在用 GPT、Claude、Gemini 多家模型的团队来说,这种聚合方式确实省事。

一点判断

Nano Banana 系列从去年 8 月匿名上线到现在不到一年,已经迭代到第四个版本(Banana → Pro → 2 → 2 Lite),更新节奏比 OpenAI 的 DALL-E 系列快了一个数量级。这背后反映的是 Google 在生成式 AI 上的策略转变——不再追求一个超级模型解决所有问题,而是用产品矩阵覆盖所有价格带和使用场景

这种打法的好处是稳,坏处是命名混乱、开发者认知成本高。但只要价格和质量持续下探,开发者总会被吸引过来。

短期内,Nano Banana 2 Lite 最直接的竞争对手不是 Stable Diffusion 或者 Flux,而是 OpenAI 的 GPT-image-1 mini(如果有的话)和 Anthropic 还没正式推出的图像生成线。Google 这次用 Lite 抢先卡位,节奏拿捏得不错。

至于 Gemini Omni Flash,我倾向于认为它是 Google 在为下一代 Agent 应用铺路——当一个模型能同时处理语音、视觉、文本,且延迟够低、价格够便宜,真正"看见和听见"的 AI Agent 才有商业化的可能。这条路 OpenAI 用 GPT-4o 也在走,但 Google 这次的延迟数据,确实比上一代好看不少。

下半年值得关注的,是 DeepMind 会不会把 Omni Flash 的能力下放到 Workspace、Android 的系统级 API 里。如果真这么干了,那游戏规则又要变了。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: