Gemini API 五档定价上线,半价推理来了

产品更新

谷歌今日更新 Gemini API 定价策略,新增 Standard、Flex、Priority、Batch、Caching 五个服务档位,开发者可按延迟和可靠性需求灵活选择,最低半价即可调用。

谷歌今天动了 Gemini API 的价格表。

不是简单调个数字,而是把整个计费架构重新设计了一遍——从原来相对单一的按量付费,拆成了五个明确的服务档位:Standard(标准)、Flex(弹性)、Priority(优先)、Batch(批量)和 Caching(缓存)。核心逻辑很清晰:你愿意等多久、需要多稳定,决定你付多少钱。

这是 API 定价领域一个值得关注的信号。它意味着大模型推理服务正在从"一口价"走向"分级服务",就像云计算当年从按需实例演化出竞价实例、预留实例一样。

Gemini API 五档定价策略对比示意图,横轴为延迟从低到高,纵轴为价格从低到高,标注五个档位的位置关系

五档到底怎么分的

先说结论:对大多数开发者影响最大的是 Flex 和 Batch 两个档位,因为它们直接把价格砍到了标准价的一半。

逐个拆解:

Standard(标准)

基准档位,没什么好说的。延迟和可靠性都是默认水平,价格就是官网标的那个数。它存在的意义更多是作为其他档位的参照系。

Flex(弹性)—— 半价,但得等

Flex 是这次更新里最有意思的一档。

原理不复杂:谷歌把非高峰时段的闲置 GPU 算力拿出来,以标准价 50% 的价格卖给你。代价是延迟不可控——目标范围是 1 到 15 分钟,而且明确写了"不提供延迟保证"。

熟悉云计算的开发者一眼就能认出来,这就是 AI 推理领域的"竞价实例"(Spot Instance)。AWS 十几年前用这个模式把闲置算力变成了一门大生意,现在谷歌在推理层复刻了同样的思路。

什么场景适合用 Flex?谷歌给了几个例子:CRM 数据批量更新、大规模研究模拟、Agent 工作流中模型在后台做复杂推理的环节。简单说,只要你的任务不需要用户盯着屏幕等结果,Flex 就值得考虑。

举个更具体的场景:你在做一个内容审核系统,白天积攒了几万条待审内容,晚上用 Flex 跑一遍,成本直接减半。或者你的 Agent 系统里有一个"深度思考"步骤,用户提交任务后可以去喝杯咖啡再回来看结果——这种异步链路天然适合 Flex。

但要注意一个细节:Flex 走的是同步接口,不是 Batch API 那种异步提交。也就是说,你的请求发出去之后连接是保持的,只是响应可能要等几分钟。这在架构设计上需要考虑超时设置和重试策略。

Priority(优先)—— 贵,但稳

和 Flex 完全相反的方向。Priority 档位的定价比标准价高出 75% 到 100%,换来的是毫秒到秒级的延迟,以及在平台高负载时的优先处理权。

这里有一个设计细节值得注意:如果你的 Priority 流量超过了配额,超出的请求不会直接报错返回 429,而是自动降级到 Standard 层级继续处理。这个"优雅降级"的机制比硬限流友好得多——至少你的线上服务不会因为流量突增就直接挂掉。

而且 API 返回结果里会标明实际使用的服务层级,你可以据此做监控和告警。比如发现某段时间大量请求被降级了,说明该加配额了。

谷歌建议的使用场景包括:实时客服聊天机器人、在线欺诈检测、业务关键型智能助手。总结一句话:凡是用户在屏幕前等着、每多一秒延迟都在损失体验或者金钱的场景,Priority 就是为你准备的。

贵不贵?贵。但对于一个实时风控系统来说,模型推理慢 2 秒可能意味着一笔欺诈交易已经完成了。这笔账很好算。

Batch(批量)—— 同样半价,延迟更宽松

Batch 和 Flex 的折扣力度一样,都是标准价的 50%。区别在于 Batch 是传统的异步批处理模式,延迟上限放宽到了 24 小时。

如果说 Flex 是"我可以等几分钟",Batch 就是"明天给我结果就行"。

典型场景:每天凌晨跑一批数据标注任务、周末批量处理一周积累的用户反馈、定期对历史数据做分类和摘要。这些任务的共同特点是量大、不急、对成本敏感。

Batch 模式在 OpenAI 的 API 里早就有了,开发者应该不陌生。谷歌这次跟进,更多是补齐产品矩阵。

Caching(缓存)—— 按存储计费

Caching 档位的计费逻辑和前面四个都不一样。它不是按请求计费,而是按缓存的 Token 数量和存储时长收费。

适用场景很明确:

  • 对话机器人挂载了很长的系统提示词(System Prompt),每次请求都要重复发送
  • 同一个长视频需要反复分析不同片段
  • 大规模文档集的重复查询

本质上,Caching 解决的是"重复输入"的成本问题。如果你的应用里有大量请求共享相同的上下文前缀,开启缓存后这部分 Token 只需要处理一次,后续请求直接复用,输入成本会显著下降。

这个能力 Anthropic 的 Claude API 也提供了类似的 Prompt Caching 功能,Google 这边算是对齐竞品。

一张表看清五档差异

档位 价格(相对标准) 延迟 适用场景
Standard 1x 默认 通用场景
Flex 0.5x 1-15 分钟(不保证) 后台任务、异步 Agent 推理
Priority 1.75x - 2x 毫秒至秒级 实时客服、风控、关键业务
Batch 0.5x 最长 24 小时 大规模离线数据处理
Caching 按缓存量和时长 - 长 Prompt 复用、重复分析

对开发者意味着什么

这次更新最大的价值不在于某个具体档位便宜了多少,而在于它给了开发者一个清晰的成本优化框架。

过去调 Gemini API,所有请求都是同一个价格、同一个优先级。你的实时聊天和后台数据处理走的是同一条管道,付的是同一份钱。这显然不合理——一个需要 200ms 内返回的客服对话,和一个明天出结果就行的数据标注任务,凭什么付一样的价格?

现在有了分档,开发者可以在架构层面做更精细的成本控制。一个典型的优化思路是:

  1. 面向用户的实时链路走 Standard 或 Priority
  2. Agent 内部的"思考"步骤走 Flex
  3. 每日/每周的批处理任务走 Batch
  4. 共享长上下文的场景开 Caching

同样的业务逻辑,换一种调用方式,推理成本可能直接砍掉 30%-50%。对于日调用量在百万级以上的应用来说,这是实打实的真金白银。

怎么用:一个参数的事

从接入角度看,谷歌把切换档位做得很轻量——只需要在请求参数里加一个 service_tier 字段就行,适用于 GenerateContentInteractions 接口。

不需要换 endpoint,不需要改 SDK 版本,不需要重新申请 API Key。这意味着你可以在同一个应用里,根据不同的业务场景动态切换档位。

如果你通过 OpenAI Hub 这类兼容 OpenAI 格式的聚合平台调用 Gemini,切换起来同样方便。下面是一个示例,展示如何在请求中指定不同的服务档位:

import openai

client = openai.OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

# 实时场景:使用 Priority 档位,确保低延迟
realtime_response = client.chat.completions.create(
    model="gemini-2.5-pro",
    messages=[
        {"role": "system", "content": "你是一个实时客服助手。"},
        {"role": "user", "content": "我的订单什么时候发货?"}
    ],
    extra_body={
        "service_tier": "priority"
    }
)
print(realtime_response.choices[0].message.content)

# 后台任务:使用 Flex 档位,成本减半
background_response = client.chat.completions.create(
    model="gemini-2.5-pro",
    messages=[
        {"role": "system", "content": "请对以下文本进行分类和摘要。"},
        {"role": "user", "content": "[一段很长的待处理文本...]"}
    ],
    extra_body={
        "service_tier": "flex"
    }
)
print(background_response.choices[0].message.content)
// Node.js 示例
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'your-openai-hub-key',
  baseURL: 'https://api.openai-hub.com/v1',
});

// Batch 场景:大规模离线处理
const batchResponse = await client.chat.completions.create({
  model: 'gemini-2.5-pro',
  messages: [
    { role: 'system', content: '请对以下用户评论进行情感分析。' },
    { role: 'user', content: '[批量评论数据...]' },
  ],
  service_tier: 'batch',
});

console.log(batchResponse.choices[0].message.content);

核心就是那个 service_tier 参数。设成 flex 就是半价慢速,设成 priority 就是加价快速,不设就是默认的 Standard。简单粗暴。

放在行业里看

谷歌这次定价更新,放在整个大模型 API 市场的竞争格局里看,更像是一次"补课"。

OpenAI 早就有了 Batch API(同样是半价、24 小时延迟),Anthropic 有 Prompt Caching 和不同的优先级选项。谷歌之前在这方面相对落后,现在一口气把五个档位都补齐了,而且 Flex 这个"利用闲置算力的同步半价推理"确实有一定差异化——它比 Batch 的异步模式更灵活,比 Standard 便宜一半,填补了一个中间地带。

但更大的趋势是:大模型推理正在变成一种基础设施级的服务,而基础设施的定价从来都不是一刀切的。

想想 AWS 的 EC2 定价体系:按需实例、预留实例、竞价实例、Savings Plans……十几种计费方式,本质上都是在帮用户用不同的"承诺"换取不同的"折扣"。大模型 API 正在走同样的路。你愿意承诺更高的延迟容忍度,就能换来更低的价格;你愿意承诺更高的消费额度,未来大概率也会有类似预留实例的折扣方案。

对于同时使用多家模型 API 的开发者来说,这种分档机制也让成本优化变得更复杂了。不同厂商的档位设计、折扣力度、延迟表现都不一样,需要根据实际业务场景做更细致的选型。这也是为什么越来越多团队选择通过 API 聚合平台来统一管理多模型调用——用一套接口对接所有厂商,在上层做路由和成本优化,比逐个对接要高效得多。

几个值得注意的细节

第一,Flex 的"不保证延迟"需要认真对待。1 到 15 分钟是目标范围,不是 SLA。在平台负载特别高的时候,实际延迟可能更长。如果你的业务对"最迟什么时候出结果"有硬性要求,Flex 可能不适合。

第二,Priority 的自动降级机制是个双刃剑。好处是服务不会中断,坏处是你可能在不知情的情况下,部分请求实际上是以 Standard 的延迟在跑。一定要在监控里加上对返回的 service_tier 字段的追踪,及时发现降级情况。

第三,Caching 的成本收益需要算清楚。缓存本身要按 Token 数和时长付费,如果你的请求量不够大、或者上下文前缀不够长,缓存的存储成本可能反而超过节省的输入成本。建议先用小规模流量测试,算清楚盈亏平衡点再全量开启。

第四,这五个档位目前适用于 GenerateContentInteractions 接口。如果你在用 Gemini 的其他能力(比如 Embedding、Code Execution),需要确认是否支持。

总结

谷歌这次把 Gemini API 的定价从"一口价"拆成了五档,本质上是在告诉开发者:不是所有推理请求都值得付同样的价格。

对于已经在用 Gemini API 的团队,建议尽快梳理一下现有的调用场景,把能走 Flex 和 Batch 的任务迁移过去。半价就是半价,这个优化的 ROI 太明显了。

对于还在选型的团队,这次更新让 Gemini 在价格灵活性上追上了 OpenAI 和 Anthropic,甚至在某些维度(比如 Flex 的同步半价模式)有了一定优势。值得重新评估一下。

大模型 API 的价格战还在继续,但竞争的维度已经从单纯的"谁更便宜",演变成了"谁能让开发者更精细地控制成本"。这对开发者来说,是好事。


参考来源: