距离 Google I/O 2026 还有两天，Gemini 3.2 Flash Lite Live 已悄然出现在 Google Cloud 后台。这个名字信息量很大：3.2 代次、Flash Lite 体量、Live 实时多模态——三个标签拼在一起，谷歌想干什么已经写在脸上了。

Gemini 3.2 Flash Lite Live 现身 Google Cloud，谷歌在 I/O 前夜泄了底

距离 Google I/O 2026 开幕还有不到 48 小时，谷歌又一次"提前剧透"了自己。5 月 17 日，开发者社区 linux.do 上有人贴出截图，Gemini 3.2 Flash Lite Live 这个模型条目已经出现在 Google Cloud 的后台模型列表中。条目随后被悄悄撤下，但截图已经在 X 和 Reddit 上跑了一圈。

这不是孤立事件。5 月初就有 iOS 端 Gemini App 的模型选择器泄出过 "Gemini 3.2 Flash" 字样，AI Studio 也短暂出现过相关条目，加上 LM Arena 上那个匿名跑分凶猛的神秘模型——谷歌在 I/O 2026 前的小范围灰度测试，基本已经盖戳。

Google Cloud 控制台模型列表中出现的 Gemini 3.2 Flash Lite Live 条目截图

名字拆开看，信息量很大

先别急着讨论"到底是 3.2 还是 3.5"。光"Gemini 3.2 Flash Lite Live"这一串后缀，就把谷歌的产品策略写得明明白白：

3.2：代次号。Gemini 3 Pro / 3 Flash 已经在去年底到今年初陆续上线，3.1 Pro 在 iOS 端被瞥见过，3.2 是顺理成章的小版本迭代，不是架构大换代。
Flash Lite：体量定位。Flash 之下还有 Lite，对标的是 GPT-5 nano、Claude Haiku 这一档，主打极低延迟、极低单价、面向高 QPS 的轻量任务。
Live：这是最关键的一个词。在谷歌的产品语境里，Live 几乎专指实时双向多模态流式接口，也就是 Gemini Live API 那一套——音频流入、音频流出、视频帧实时理解、低于一秒级延迟。

把三个标签合起来读：一个便宜、轻、专为实时多模态交互优化的 Gemini 3.2 衍生型号。这不是用来跑长文档总结的模型，是用来塞进 AR 眼镜、客服机器人、车载语音、实时翻译耳机里的那种东西。

谷歌在补哪个洞

看看现在的实时多模态市场：OpenAI 有 Realtime API + GPT-4o/GPT-5 Realtime；谷歌自己有 Gemini Live；但真正能打到"廉价、规模化部署"这档的，目前没有。GPT-5 Realtime 单价依然在 $32/1M 音频输入这个量级，跑客服中心每分钟成本算下来肉疼。

Gemini 3.2 Flash Lite Live 卡的就是这个位置。参考 Gemini 2.5 Flash Lite 的定价（输入 $0.10/1M，输出 $0.40/1M），3.2 这一代即便价格略涨，也大概率压在 GPT-5 mini Realtime 的一半以下。对于"语音 agent、实时翻译、视频流监控、语音外呼"这类场景，单价直接决定项目能不能上量。

谷歌这两年的产品打法已经很清晰了——Pro 用来打榜，Flash 用来铺量，Lite 用来抢 API 调用市场份额。3 Flash 上线时官方明说"取代 2.5 Flash 成为 Gemini App 默认模型"，把全球免费用户的 token 流量一口气接过来；现在 3.2 Flash Lite Live 顶上来，承接的是开发者市场里那块"既要实时又要便宜"的硬需求。

为什么是 3.2，不是 3.5

linux.do 上有人在问，谷歌的版本号到底怎么数。我的判断是：3.5 短期不会来。

原因很简单——Gemini 3 Pro 去年底才发，Gemini 3 Flash 今年 Q1 才全量。一个新世代模型从训练完成到产品矩阵铺齐，谷歌内部大概需要两到三个季度。3.2 在时间点上更合理，它是在 3 系基座模型之上做后训练优化和能力裁剪，而不是重新预训练。

这也解释了为什么会有 3.2 Flash、3.2 Flash Lite、3.2 Flash Lite Live 这种分叉。同一个 backbone，蒸馏出不同的体量版本，再针对实时流式场景做专门的 RLHF 和延迟优化——谷歌 DeepMind 这套流水线在 Gemini 2 时代就已经跑得很熟了。

GPT-5.5 据说会在 6 月出，谷歌在 I/O 提前两周放出 3.2 系列，舆论窗口的算计味儿很重。

Gemini 模型家族在 2026 年 5 月的层级结构示意图

开发者该关心什么

如果你已经在用 Gemini API，几个实际建议：

别在 3 Flash 上做强耦合。5 月 19 日的 keynote 之后，3.2 系列大概率会很快开放预览，default 模型也会跟着切换。任何写死 model name 的代码要么走配置化，要么准备一周内改一遍。
Live 接口的 SDK 改动可能不小。Gemini Live 现在用的是 WebSocket + 自定义协议，3.2 Flash Lite Live 如果要进一步压延迟，端到端协议可能会动。看 release note 时重点关注 BidiGenerateContent 这块。
关注上下文窗口。LM Arena 那个候选模型在 80 万 token 上下文里没明显掉质量，这意味着 3.2 系列可能把长上下文能力下放到 Flash Lite。对 RAG 场景是利好。

OpenAI Hub 这边已经在跟进 3.2 系列的接入，3 Flash 目前可以直接通过兼容 OpenAI 格式的接口调用，3.2 Flash Lite Live 一旦开放预览会同步上线。对于不想折腾 Vertex AI 鉴权和区域限制的开发者，一个 Key 切 GPT-5、Claude、Gemini 的方式确实省事——尤其是做模型对比测试的时候。

基础调用示例（待 3.2 Flash Lite Live 正式开放后替换 model 名即可）：

from openai import OpenAI

client = OpenAI(
    api_key=\"your-openai-hub-key\",
    base_url=\"https://api.openai-hub.com/v1\"
)

resp = client.chat.completions.create(
    model=\"gemini-3-flash\",  # 待替换为 gemini-3.2-flash-lite-live
    messages=[
        {\"role\": \"system\", \"content\": \"你是一个实时语音助手。\"},
        {\"role\": \"user\", \"content\": \"用一句话解释 Gemini Live 和 Realtime API 的区别。\"}
    ],
    temperature=0.3,
)
print(resp.choices[0].message.content)

实时流式（Live）接口形态目前在各家都还没有完全统一的 OpenAI 兼容标准，3.2 Flash Lite Live 正式发布后，预计会同时提供原生 Gemini Live 协议和 Realtime 兼容协议两条路径。

还有一个变量：定价分层

谷歌从 2.5 这一代起，开始在输出 token 上做差异化定价——同样是 Flash，长输出场景比短输出场景贵得多。这套打法的好处是：把"长上下文短回答"的 RAG/搜索类客户和"短上下文长生成"的内容创作类客户区分开收费。

3.2 Flash Lite Live 如果延续这套定价逻辑，对实时音频场景反而是利好——语音回答天然短，输出 token 用量低，单分钟成本可能比表面上的 per-token 价格看起来更低。

5 月 19 日见

Google I/O 2026 在加州山景城的 Shoreline Amphitheater，5 月 19 日和 20 日两天。按谷歌这两年的节奏，开场 keynote 大概率会一口气放出：

Gemini 3.2 系列（Pro / Flash / Flash Lite / Flash Lite Live）的完整阵容
价格表更新
新版 AI Studio 和 Antigravity 的集成
至少一个面向 Android 的端侧 Gemini Nano 更新

至于 3.2 到底能不能在跑分上压过 GPT-5 mini、能不能在 Live 场景里把 OpenAI Realtime 的成本拉下马，48 小时后见分晓。

参考来源

linux.do：新模型 Gemini 3.2 Flash Lite Live 已经出现在 Google 云端平台 —— 国内开发者社区首发爆料，附后台截图

Gemini 3.2 Flash Lite Live 现身 Google Cloud，I/O 前两天放风