Gemini 3.1 Flash-Lite 正式版发布：速度翻 2.5 倍，价格仅为 Pro 八分之一

Google 今天将 Gemini 3.1 Flash-Lite 推向 GA，定价为每百万 token 输入 0.25 美元、输出 1.5 美元，瞄准高并发、低成本的规模化推理场景。Preview 版将于 5 月 25 日下线。

今天（5 月 7 日），Google 把 Gemini 3.1 Flash-Lite 从 preview 状态推到了 GA，模型 ID 正式定为 gemini-3.1-flash-lite。同时官方宣布 gemini-3.1-flash-lite-preview 将于 5 月 11 日进入弃用状态，5 月 25 日彻底下线——留给在生产环境跑 preview 的团队，只有两周左右的迁移窗口。

这次发布没有什么花哨的演示，Google 也没准备 keynote。但对每天调几亿 token 的团队来说，这条更新比上周那些榜单刷分的旗舰发布有用得多。

一句话定位：Gemini 3 系列里最便宜的那一档

Gemini 3.1 Flash-Lite 的定价落在每百万输入 token 0.25 美元、每百万输出 token 1.5 美元。换算下来，大约是 Gemini 3.1 Pro 的八分之一。

这个价格意味着什么？拿一个典型的 RAG 客服场景算账：单次请求平均 4K 输入 + 500 输出，Flash-Lite 的成本约是 0.0018 美元一次，跑 100 万次也就 1800 美元。在 Pro 上跑同样的量，账单大概是 1.4 万美元。对于那些「准确率够用就行、关键是别把成本跑炸」的业务，这个差距足以决定一个产品能不能上线。

Gemini 3.1 Flash-Lite 与 Gemini 2.5 Flash、3.1 Pro 在速度和价格上的对比图

性能：相比 2.5 Flash 快 2.5 倍

这次官方主推的两个数字：

首字节响应时间（TTFT）相比上一代 Gemini 2.5 Flash 提升 2.5 倍
输出速度约 363 tokens/s

363 tokens/s 是什么概念？GPT-4o mini 在 OpenAI 自家基础设施上的稳定输出速度大约在 100–150 tokens/s 区间，Claude Haiku 3.5 在 150 tokens/s 上下。Flash-Lite 这个数字基本是把同档竞品按在地上摩擦——当然前提是你不开 thinking。

对流式 UI 来说，TTFT 比总吞吐更重要。用户感知「这玩意儿反应快不快」，几乎完全取决于第一个 token 多久蹦出来。从 preview 阶段的实测看，Flash-Lite 的 TTFT 通常在 200ms 以内，已经接近本地小模型的体感了。

Thinking Levels：把推理深度做成一个旋钮

这一代 Flash-Lite 把 Gemini 3 Pro 上引入的「Thinking Levels」也下放了过来。开发者可以在 AI Studio 或 Vertex AI 里直接调档，从最低档（基本等同于直答）到 High 档（接近 Pro 的多步推理深度）。

这件事的工程意义比看起来大。过去要在「便宜快但笨」和「贵慢但聪明」之间做选择，往往得在路由层维护一个分诊模型——简单问题打 Flash，复杂问题打 Pro。现在你可以只用一个 endpoint，按请求级别动态调思考深度：

闲聊/补全/分类：Off 或 Low
多轮工具调用、结构化抽取：Medium
复杂推理、代码 review：High

等于把成本-精度的权衡从「选模型」降维成「传参数」。这个产品形态，OpenAI 在 GPT-5 系列上做过类似尝试（reasoning_effort），Anthropic 也有 extended thinking 的开关。Google 这次的差异在于：在最便宜的那档模型上也开放了完整的四档调节，而不是只给旗舰留这个能力。

调用方式

如果用 OpenAI Hub 接入（兼容 OpenAI 格式，国内直连），一个 Key 同时调 Gemini、GPT、Claude，写法和官方 SDK 没区别：

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

resp = client.chat.completions.create(
    model="gemini-3.1-flash-lite",
    messages=[
        {"role": "user", "content": "用一句话解释 MoE 架构。"}
    ],
    extra_body={
        "thinking_level": "low"  # off / low / medium / high
    }
)
print(resp.choices[0].message.content)

如果是高并发的批处理任务，建议把 thinking_level 默认设成 off，单次延迟能再压缩 30% 以上，价格也按非思考档计费。

它在跟谁抢饭碗

把 Flash-Lite 放在整个低价模型梯队里看，对手很明确：

模型	输入价（$/1M）	输出价（$/1M）	输出速度
Gemini 3.1 Flash-Lite	0.25	1.5	~363 tok/s
GPT-5 mini	0.25	2.0	~180 tok/s
Claude Haiku 4	0.80	4.0	~160 tok/s
DeepSeek V3.2	0.27	1.10	~90 tok/s

（速度数据为社区实测中位数，非官方）

几个判断：

价格上 Flash-Lite 和 GPT-5 mini 输入端打平，输出端便宜 25%。对那种「输入短输出长」的代码生成、长文写作场景，差距还会拉大。
速度上几乎没有对手。这是 TPU 体系长期堆出来的硬优势，短期内 OpenAI 和 Anthropic 在自研推理芯片落地之前很难追平。
唯一的软肋是中文长上下文质量。preview 阶段不少开发者反馈在 32K+ 中文文档上召回会出现偏差，GA 版是否修了官方没明说，建议自己跑一遍 eval 再切流。

谁该立刻迁移，谁可以再等等

应该现在就切的：

在用 gemini-3.1-flash-lite-preview 的所有生产环境——5 月 25 日就 shutdown，没得商量。
跑 Gemini 2.5 Flash 的高并发服务，纯粹换 ID 就能拿到 2.5 倍速度和更低单价。
用 GPT-4o mini / GPT-5 mini 做分类、抽取、改写这类任务的，值得起一个 A/B 看看效果。

可以观望的：

重度依赖中文长文档的 RAG 系统，等社区跑出 GA 版的中文长上下文 eval 再说。
已经把 prompt 深度调过 GPT-5 系列的，迁移成本不只是改 model 名，提示词风格也要重写。

OpenAI Hub 这边已经同步上了 gemini-3.1-flash-lite，preview ID 也保留到 5 月 25 日官方下线那天，方便平滑切换。

写在最后

这一年大模型市场在走两个方向：旗舰越来越贵越来越「重思考」，底层 Lite 档越来越快越来越便宜。Flash-Lite 这次 GA 没什么戏剧性，但它把「规模化跑 LLM」的成本下限又往下压了一截——这对真正在生产环境烧 token 的团队来说，比任何一份 benchmark 排行榜都重要。

参考来源

Gemini 3.1 Flash-Lite 正式版发布讨论 — linux.do 上关于本次 GA 发布与 preview 弃用时间表的原始讨论。
Gemini 3.1 Flash-Lite 上线分析 — 知乎上关于 Flash-Lite 定位、定价与适用场景的详细分析。

Gemini 3.1 Flash-Lite 转正：速度翻 2.5 倍，价格只要 Pro 的八分之一