Gemini 3.1 Flash-Lite 转正:速度翻 2.5 倍,价格只要 Pro 的八分之一

产品更新

Google 今天将 Gemini 3.1 Flash-Lite 推向 GA,定价为每百万 token 输入 0.25 美元、输出 1.5 美元,瞄准高并发、低成本的规模化推理场景。Preview 版将于 5 月 25 日下线。

今天(5 月 7 日),Google 把 Gemini 3.1 Flash-Lite 从 preview 状态推到了 GA,模型 ID 正式定为 gemini-3.1-flash-lite。同时官方宣布 gemini-3.1-flash-lite-preview 将于 5 月 11 日进入弃用状态,5 月 25 日彻底下线——留给在生产环境跑 preview 的团队,只有两周左右的迁移窗口。

这次发布没有什么花哨的演示,Google 也没准备 keynote。但对每天调几亿 token 的团队来说,这条更新比上周那些榜单刷分的旗舰发布有用得多。

一句话定位:Gemini 3 系列里最便宜的那一档

Gemini 3.1 Flash-Lite 的定价落在每百万输入 token 0.25 美元、每百万输出 token 1.5 美元。换算下来,大约是 Gemini 3.1 Pro 的八分之一。

这个价格意味着什么?拿一个典型的 RAG 客服场景算账:单次请求平均 4K 输入 + 500 输出,Flash-Lite 的成本约是 0.0018 美元一次,跑 100 万次也就 1800 美元。在 Pro 上跑同样的量,账单大概是 1.4 万美元。对于那些「准确率够用就行、关键是别把成本跑炸」的业务,这个差距足以决定一个产品能不能上线。

Gemini 3.1 Flash-Lite 与 Gemini 2.5 Flash、3.1 Pro 在速度和价格上的对比图

性能:相比 2.5 Flash 快 2.5 倍

这次官方主推的两个数字:

  • 首字节响应时间(TTFT)相比上一代 Gemini 2.5 Flash 提升 2.5 倍
  • 输出速度约 363 tokens/s

363 tokens/s 是什么概念?GPT-4o mini 在 OpenAI 自家基础设施上的稳定输出速度大约在 100–150 tokens/s 区间,Claude Haiku 3.5 在 150 tokens/s 上下。Flash-Lite 这个数字基本是把同档竞品按在地上摩擦——当然前提是你不开 thinking。

对流式 UI 来说,TTFT 比总吞吐更重要。用户感知「这玩意儿反应快不快」,几乎完全取决于第一个 token 多久蹦出来。从 preview 阶段的实测看,Flash-Lite 的 TTFT 通常在 200ms 以内,已经接近本地小模型的体感了。

Thinking Levels:把推理深度做成一个旋钮

这一代 Flash-Lite 把 Gemini 3 Pro 上引入的「Thinking Levels」也下放了过来。开发者可以在 AI Studio 或 Vertex AI 里直接调档,从最低档(基本等同于直答)到 High 档(接近 Pro 的多步推理深度)。

这件事的工程意义比看起来大。过去要在「便宜快但笨」和「贵慢但聪明」之间做选择,往往得在路由层维护一个分诊模型——简单问题打 Flash,复杂问题打 Pro。现在你可以只用一个 endpoint,按请求级别动态调思考深度:

  • 闲聊/补全/分类:Off 或 Low
  • 多轮工具调用、结构化抽取:Medium
  • 复杂推理、代码 review:High

等于把成本-精度的权衡从「选模型」降维成「传参数」。这个产品形态,OpenAI 在 GPT-5 系列上做过类似尝试(reasoning_effort),Anthropic 也有 extended thinking 的开关。Google 这次的差异在于:在最便宜的那档模型上也开放了完整的四档调节,而不是只给旗舰留这个能力。

调用方式

如果用 OpenAI Hub 接入(兼容 OpenAI 格式,国内直连),一个 Key 同时调 Gemini、GPT、Claude,写法和官方 SDK 没区别:

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

resp = client.chat.completions.create(
    model="gemini-3.1-flash-lite",
    messages=[
        {"role": "user", "content": "用一句话解释 MoE 架构。"}
    ],
    extra_body={
        "thinking_level": "low"  # off / low / medium / high
    }
)
print(resp.choices[0].message.content)

如果是高并发的批处理任务,建议把 thinking_level 默认设成 off,单次延迟能再压缩 30% 以上,价格也按非思考档计费。

它在跟谁抢饭碗

把 Flash-Lite 放在整个低价模型梯队里看,对手很明确:

模型 输入价($/1M) 输出价($/1M) 输出速度
Gemini 3.1 Flash-Lite 0.25 1.5 ~363 tok/s
GPT-5 mini 0.25 2.0 ~180 tok/s
Claude Haiku 4 0.80 4.0 ~160 tok/s
DeepSeek V3.2 0.27 1.10 ~90 tok/s

(速度数据为社区实测中位数,非官方)

几个判断:

  1. 价格上 Flash-Lite 和 GPT-5 mini 输入端打平,输出端便宜 25%。对那种「输入短输出长」的代码生成、长文写作场景,差距还会拉大。
  2. 速度上几乎没有对手。这是 TPU 体系长期堆出来的硬优势,短期内 OpenAI 和 Anthropic 在自研推理芯片落地之前很难追平。
  3. 唯一的软肋是中文长上下文质量。preview 阶段不少开发者反馈在 32K+ 中文文档上召回会出现偏差,GA 版是否修了官方没明说,建议自己跑一遍 eval 再切流。

谁该立刻迁移,谁可以再等等

应该现在就切的:

  • 在用 gemini-3.1-flash-lite-preview 的所有生产环境——5 月 25 日就 shutdown,没得商量。
  • 跑 Gemini 2.5 Flash 的高并发服务,纯粹换 ID 就能拿到 2.5 倍速度和更低单价。
  • 用 GPT-4o mini / GPT-5 mini 做分类、抽取、改写这类任务的,值得起一个 A/B 看看效果。

可以观望的:

  • 重度依赖中文长文档的 RAG 系统,等社区跑出 GA 版的中文长上下文 eval 再说。
  • 已经把 prompt 深度调过 GPT-5 系列的,迁移成本不只是改 model 名,提示词风格也要重写。

OpenAI Hub 这边已经同步上了 gemini-3.1-flash-lite,preview ID 也保留到 5 月 25 日官方下线那天,方便平滑切换。

写在最后

这一年大模型市场在走两个方向:旗舰越来越贵越来越「重思考」,底层 Lite 档越来越快越来越便宜。Flash-Lite 这次 GA 没什么戏剧性,但它把「规模化跑 LLM」的成本下限又往下压了一截——这对真正在生产环境烧 token 的团队来说,比任何一份 benchmark 排行榜都重要。

参考来源