Gemini 3.2 Flash Lite Live 现身 Google Cloud,I/O 前两天放风

模型上新

距离 Google I/O 2026 还有两天,Gemini 3.2 Flash Lite Live 已悄然出现在 Google Cloud 后台。这个名字信息量很大:3.2 代次、Flash Lite 体量、Live 实时多模态——三个标签拼在一起,谷歌想干什么已经写在脸上了。

Gemini 3.2 Flash Lite Live 现身 Google Cloud,谷歌在 I/O 前夜泄了底

距离 Google I/O 2026 开幕还有不到 48 小时,谷歌又一次"提前剧透"了自己。5 月 17 日,开发者社区 linux.do 上有人贴出截图,Gemini 3.2 Flash Lite Live 这个模型条目已经出现在 Google Cloud 的后台模型列表中。条目随后被悄悄撤下,但截图已经在 X 和 Reddit 上跑了一圈。

这不是孤立事件。5 月初就有 iOS 端 Gemini App 的模型选择器泄出过 "Gemini 3.2 Flash" 字样,AI Studio 也短暂出现过相关条目,加上 LM Arena 上那个匿名跑分凶猛的神秘模型——谷歌在 I/O 2026 前的小范围灰度测试,基本已经盖戳。

Google Cloud 控制台模型列表中出现的 Gemini 3.2 Flash Lite Live 条目截图

名字拆开看,信息量很大

先别急着讨论"到底是 3.2 还是 3.5"。光"Gemini 3.2 Flash Lite Live"这一串后缀,就把谷歌的产品策略写得明明白白:

  • 3.2:代次号。Gemini 3 Pro / 3 Flash 已经在去年底到今年初陆续上线,3.1 Pro 在 iOS 端被瞥见过,3.2 是顺理成章的小版本迭代,不是架构大换代。
  • Flash Lite:体量定位。Flash 之下还有 Lite,对标的是 GPT-5 nano、Claude Haiku 这一档,主打极低延迟、极低单价、面向高 QPS 的轻量任务。
  • Live:这是最关键的一个词。在谷歌的产品语境里,Live 几乎专指实时双向多模态流式接口,也就是 Gemini Live API 那一套——音频流入、音频流出、视频帧实时理解、低于一秒级延迟。

把三个标签合起来读:一个便宜、轻、专为实时多模态交互优化的 Gemini 3.2 衍生型号。这不是用来跑长文档总结的模型,是用来塞进 AR 眼镜、客服机器人、车载语音、实时翻译耳机里的那种东西。

谷歌在补哪个洞

看看现在的实时多模态市场:OpenAI 有 Realtime API + GPT-4o/GPT-5 Realtime;谷歌自己有 Gemini Live;但真正能打到"廉价、规模化部署"这档的,目前没有。GPT-5 Realtime 单价依然在 $32/1M 音频输入这个量级,跑客服中心每分钟成本算下来肉疼。

Gemini 3.2 Flash Lite Live 卡的就是这个位置。参考 Gemini 2.5 Flash Lite 的定价(输入 $0.10/1M,输出 $0.40/1M),3.2 这一代即便价格略涨,也大概率压在 GPT-5 mini Realtime 的一半以下。对于"语音 agent、实时翻译、视频流监控、语音外呼"这类场景,单价直接决定项目能不能上量。

谷歌这两年的产品打法已经很清晰了——Pro 用来打榜,Flash 用来铺量,Lite 用来抢 API 调用市场份额。3 Flash 上线时官方明说"取代 2.5 Flash 成为 Gemini App 默认模型",把全球免费用户的 token 流量一口气接过来;现在 3.2 Flash Lite Live 顶上来,承接的是开发者市场里那块"既要实时又要便宜"的硬需求。

为什么是 3.2,不是 3.5

linux.do 上有人在问,谷歌的版本号到底怎么数。我的判断是:3.5 短期不会来。

原因很简单——Gemini 3 Pro 去年底才发,Gemini 3 Flash 今年 Q1 才全量。一个新世代模型从训练完成到产品矩阵铺齐,谷歌内部大概需要两到三个季度。3.2 在时间点上更合理,它是在 3 系基座模型之上做后训练优化和能力裁剪,而不是重新预训练。

这也解释了为什么会有 3.2 Flash、3.2 Flash Lite、3.2 Flash Lite Live 这种分叉。同一个 backbone,蒸馏出不同的体量版本,再针对实时流式场景做专门的 RLHF 和延迟优化——谷歌 DeepMind 这套流水线在 Gemini 2 时代就已经跑得很熟了。

GPT-5.5 据说会在 6 月出,谷歌在 I/O 提前两周放出 3.2 系列,舆论窗口的算计味儿很重

Gemini 模型家族在 2026 年 5 月的层级结构示意图

开发者该关心什么

如果你已经在用 Gemini API,几个实际建议:

  1. 别在 3 Flash 上做强耦合。5 月 19 日的 keynote 之后,3.2 系列大概率会很快开放预览,default 模型也会跟着切换。任何写死 model name 的代码要么走配置化,要么准备一周内改一遍。
  2. Live 接口的 SDK 改动可能不小。Gemini Live 现在用的是 WebSocket + 自定义协议,3.2 Flash Lite Live 如果要进一步压延迟,端到端协议可能会动。看 release note 时重点关注 BidiGenerateContent 这块。
  3. 关注上下文窗口。LM Arena 那个候选模型在 80 万 token 上下文里没明显掉质量,这意味着 3.2 系列可能把长上下文能力下放到 Flash Lite。对 RAG 场景是利好。

OpenAI Hub 这边已经在跟进 3.2 系列的接入,3 Flash 目前可以直接通过兼容 OpenAI 格式的接口调用,3.2 Flash Lite Live 一旦开放预览会同步上线。对于不想折腾 Vertex AI 鉴权和区域限制的开发者,一个 Key 切 GPT-5、Claude、Gemini 的方式确实省事——尤其是做模型对比测试的时候。

基础调用示例(待 3.2 Flash Lite Live 正式开放后替换 model 名即可):

from openai import OpenAI

client = OpenAI(
    api_key=\"your-openai-hub-key\",
    base_url=\"https://api.openai-hub.com/v1\"
)

resp = client.chat.completions.create(
    model=\"gemini-3-flash\",  # 待替换为 gemini-3.2-flash-lite-live
    messages=[
        {\"role\": \"system\", \"content\": \"你是一个实时语音助手。\"},
        {\"role\": \"user\", \"content\": \"用一句话解释 Gemini Live 和 Realtime API 的区别。\"}
    ],
    temperature=0.3,
)
print(resp.choices[0].message.content)

实时流式(Live)接口形态目前在各家都还没有完全统一的 OpenAI 兼容标准,3.2 Flash Lite Live 正式发布后,预计会同时提供原生 Gemini Live 协议和 Realtime 兼容协议两条路径。

还有一个变量:定价分层

谷歌从 2.5 这一代起,开始在输出 token 上做差异化定价——同样是 Flash,长输出场景比短输出场景贵得多。这套打法的好处是:把"长上下文短回答"的 RAG/搜索类客户和"短上下文长生成"的内容创作类客户区分开收费。

3.2 Flash Lite Live 如果延续这套定价逻辑,对实时音频场景反而是利好——语音回答天然短,输出 token 用量低,单分钟成本可能比表面上的 per-token 价格看起来更低。

5 月 19 日见

Google I/O 2026 在加州山景城的 Shoreline Amphitheater,5 月 19 日和 20 日两天。按谷歌这两年的节奏,开场 keynote 大概率会一口气放出:

  • Gemini 3.2 系列(Pro / Flash / Flash Lite / Flash Lite Live)的完整阵容
  • 价格表更新
  • 新版 AI Studio 和 Antigravity 的集成
  • 至少一个面向 Android 的端侧 Gemini Nano 更新

至于 3.2 到底能不能在跑分上压过 GPT-5 mini、能不能在 Live 场景里把 OpenAI Realtime 的成本拉下马,48 小时后见分晓。

参考来源