谷歌今天动了 Gemini API 的价格表。
不是简单调个数字,而是把整个计费架构重新设计了一遍——从原来相对单一的按量付费,拆成了五个明确的服务档位:Standard(标准)、Flex(弹性)、Priority(优先)、Batch(批量)和 Caching(缓存)。核心逻辑很清晰:你愿意等多久、需要多稳定,决定你付多少钱。
这是 API 定价领域一个值得关注的信号。它意味着大模型推理服务正在从"一口价"走向"分级服务",就像云计算当年从按需实例演化出竞价实例、预留实例一样。

五档到底怎么分的
先说结论:对大多数开发者影响最大的是 Flex 和 Batch 两个档位,因为它们直接把价格砍到了标准价的一半。
逐个拆解:
Standard(标准)
基准档位,没什么好说的。延迟和可靠性都是默认水平,价格就是官网标的那个数。它存在的意义更多是作为其他档位的参照系。
Flex(弹性)—— 半价,但得等
Flex 是这次更新里最有意思的一档。
原理不复杂:谷歌把非高峰时段的闲置 GPU 算力拿出来,以标准价 50% 的价格卖给你。代价是延迟不可控——目标范围是 1 到 15 分钟,而且明确写了"不提供延迟保证"。
熟悉云计算的开发者一眼就能认出来,这就是 AI 推理领域的"竞价实例"(Spot Instance)。AWS 十几年前用这个模式把闲置算力变成了一门大生意,现在谷歌在推理层复刻了同样的思路。
什么场景适合用 Flex?谷歌给了几个例子:CRM 数据批量更新、大规模研究模拟、Agent 工作流中模型在后台做复杂推理的环节。简单说,只要你的任务不需要用户盯着屏幕等结果,Flex 就值得考虑。
举个更具体的场景:你在做一个内容审核系统,白天积攒了几万条待审内容,晚上用 Flex 跑一遍,成本直接减半。或者你的 Agent 系统里有一个"深度思考"步骤,用户提交任务后可以去喝杯咖啡再回来看结果——这种异步链路天然适合 Flex。
但要注意一个细节:Flex 走的是同步接口,不是 Batch API 那种异步提交。也就是说,你的请求发出去之后连接是保持的,只是响应可能要等几分钟。这在架构设计上需要考虑超时设置和重试策略。
Priority(优先)—— 贵,但稳
和 Flex 完全相反的方向。Priority 档位的定价比标准价高出 75% 到 100%,换来的是毫秒到秒级的延迟,以及在平台高负载时的优先处理权。
这里有一个设计细节值得注意:如果你的 Priority 流量超过了配额,超出的请求不会直接报错返回 429,而是自动降级到 Standard 层级继续处理。这个"优雅降级"的机制比硬限流友好得多——至少你的线上服务不会因为流量突增就直接挂掉。
而且 API 返回结果里会标明实际使用的服务层级,你可以据此做监控和告警。比如发现某段时间大量请求被降级了,说明该加配额了。
谷歌建议的使用场景包括:实时客服聊天机器人、在线欺诈检测、业务关键型智能助手。总结一句话:凡是用户在屏幕前等着、每多一秒延迟都在损失体验或者金钱的场景,Priority 就是为你准备的。
贵不贵?贵。但对于一个实时风控系统来说,模型推理慢 2 秒可能意味着一笔欺诈交易已经完成了。这笔账很好算。
Batch(批量)—— 同样半价,延迟更宽松
Batch 和 Flex 的折扣力度一样,都是标准价的 50%。区别在于 Batch 是传统的异步批处理模式,延迟上限放宽到了 24 小时。
如果说 Flex 是"我可以等几分钟",Batch 就是"明天给我结果就行"。
典型场景:每天凌晨跑一批数据标注任务、周末批量处理一周积累的用户反馈、定期对历史数据做分类和摘要。这些任务的共同特点是量大、不急、对成本敏感。
Batch 模式在 OpenAI 的 API 里早就有了,开发者应该不陌生。谷歌这次跟进,更多是补齐产品矩阵。
Caching(缓存)—— 按存储计费
Caching 档位的计费逻辑和前面四个都不一样。它不是按请求计费,而是按缓存的 Token 数量和存储时长收费。
适用场景很明确:
- 对话机器人挂载了很长的系统提示词(System Prompt),每次请求都要重复发送
- 同一个长视频需要反复分析不同片段
- 大规模文档集的重复查询
本质上,Caching 解决的是"重复输入"的成本问题。如果你的应用里有大量请求共享相同的上下文前缀,开启缓存后这部分 Token 只需要处理一次,后续请求直接复用,输入成本会显著下降。
这个能力 Anthropic 的 Claude API 也提供了类似的 Prompt Caching 功能,Google 这边算是对齐竞品。
一张表看清五档差异
| 档位 | 价格(相对标准) | 延迟 | 适用场景 |
|---|---|---|---|
| Standard | 1x | 默认 | 通用场景 |
| Flex | 0.5x | 1-15 分钟(不保证) | 后台任务、异步 Agent 推理 |
| Priority | 1.75x - 2x | 毫秒至秒级 | 实时客服、风控、关键业务 |
| Batch | 0.5x | 最长 24 小时 | 大规模离线数据处理 |
| Caching | 按缓存量和时长 | - | 长 Prompt 复用、重复分析 |
对开发者意味着什么
这次更新最大的价值不在于某个具体档位便宜了多少,而在于它给了开发者一个清晰的成本优化框架。
过去调 Gemini API,所有请求都是同一个价格、同一个优先级。你的实时聊天和后台数据处理走的是同一条管道,付的是同一份钱。这显然不合理——一个需要 200ms 内返回的客服对话,和一个明天出结果就行的数据标注任务,凭什么付一样的价格?
现在有了分档,开发者可以在架构层面做更精细的成本控制。一个典型的优化思路是:
- 面向用户的实时链路走 Standard 或 Priority
- Agent 内部的"思考"步骤走 Flex
- 每日/每周的批处理任务走 Batch
- 共享长上下文的场景开 Caching
同样的业务逻辑,换一种调用方式,推理成本可能直接砍掉 30%-50%。对于日调用量在百万级以上的应用来说,这是实打实的真金白银。
怎么用:一个参数的事
从接入角度看,谷歌把切换档位做得很轻量——只需要在请求参数里加一个 service_tier 字段就行,适用于 GenerateContent 和 Interactions 接口。
不需要换 endpoint,不需要改 SDK 版本,不需要重新申请 API Key。这意味着你可以在同一个应用里,根据不同的业务场景动态切换档位。
如果你通过 OpenAI Hub 这类兼容 OpenAI 格式的聚合平台调用 Gemini,切换起来同样方便。下面是一个示例,展示如何在请求中指定不同的服务档位:
import openai
client = openai.OpenAI(
api_key="your-openai-hub-key",
base_url="https://api.openai-hub.com/v1"
)
# 实时场景:使用 Priority 档位,确保低延迟
realtime_response = client.chat.completions.create(
model="gemini-2.5-pro",
messages=[
{"role": "system", "content": "你是一个实时客服助手。"},
{"role": "user", "content": "我的订单什么时候发货?"}
],
extra_body={
"service_tier": "priority"
}
)
print(realtime_response.choices[0].message.content)
# 后台任务:使用 Flex 档位,成本减半
background_response = client.chat.completions.create(
model="gemini-2.5-pro",
messages=[
{"role": "system", "content": "请对以下文本进行分类和摘要。"},
{"role": "user", "content": "[一段很长的待处理文本...]"}
],
extra_body={
"service_tier": "flex"
}
)
print(background_response.choices[0].message.content)
// Node.js 示例
import OpenAI from 'openai';
const client = new OpenAI({
apiKey: 'your-openai-hub-key',
baseURL: 'https://api.openai-hub.com/v1',
});
// Batch 场景:大规模离线处理
const batchResponse = await client.chat.completions.create({
model: 'gemini-2.5-pro',
messages: [
{ role: 'system', content: '请对以下用户评论进行情感分析。' },
{ role: 'user', content: '[批量评论数据...]' },
],
service_tier: 'batch',
});
console.log(batchResponse.choices[0].message.content);
核心就是那个 service_tier 参数。设成 flex 就是半价慢速,设成 priority 就是加价快速,不设就是默认的 Standard。简单粗暴。
放在行业里看
谷歌这次定价更新,放在整个大模型 API 市场的竞争格局里看,更像是一次"补课"。
OpenAI 早就有了 Batch API(同样是半价、24 小时延迟),Anthropic 有 Prompt Caching 和不同的优先级选项。谷歌之前在这方面相对落后,现在一口气把五个档位都补齐了,而且 Flex 这个"利用闲置算力的同步半价推理"确实有一定差异化——它比 Batch 的异步模式更灵活,比 Standard 便宜一半,填补了一个中间地带。
但更大的趋势是:大模型推理正在变成一种基础设施级的服务,而基础设施的定价从来都不是一刀切的。
想想 AWS 的 EC2 定价体系:按需实例、预留实例、竞价实例、Savings Plans……十几种计费方式,本质上都是在帮用户用不同的"承诺"换取不同的"折扣"。大模型 API 正在走同样的路。你愿意承诺更高的延迟容忍度,就能换来更低的价格;你愿意承诺更高的消费额度,未来大概率也会有类似预留实例的折扣方案。
对于同时使用多家模型 API 的开发者来说,这种分档机制也让成本优化变得更复杂了。不同厂商的档位设计、折扣力度、延迟表现都不一样,需要根据实际业务场景做更细致的选型。这也是为什么越来越多团队选择通过 API 聚合平台来统一管理多模型调用——用一套接口对接所有厂商,在上层做路由和成本优化,比逐个对接要高效得多。
几个值得注意的细节
第一,Flex 的"不保证延迟"需要认真对待。1 到 15 分钟是目标范围,不是 SLA。在平台负载特别高的时候,实际延迟可能更长。如果你的业务对"最迟什么时候出结果"有硬性要求,Flex 可能不适合。
第二,Priority 的自动降级机制是个双刃剑。好处是服务不会中断,坏处是你可能在不知情的情况下,部分请求实际上是以 Standard 的延迟在跑。一定要在监控里加上对返回的 service_tier 字段的追踪,及时发现降级情况。
第三,Caching 的成本收益需要算清楚。缓存本身要按 Token 数和时长付费,如果你的请求量不够大、或者上下文前缀不够长,缓存的存储成本可能反而超过节省的输入成本。建议先用小规模流量测试,算清楚盈亏平衡点再全量开启。
第四,这五个档位目前适用于 GenerateContent 和 Interactions 接口。如果你在用 Gemini 的其他能力(比如 Embedding、Code Execution),需要确认是否支持。
总结
谷歌这次把 Gemini API 的定价从"一口价"拆成了五档,本质上是在告诉开发者:不是所有推理请求都值得付同样的价格。
对于已经在用 Gemini API 的团队,建议尽快梳理一下现有的调用场景,把能走 Flex 和 Batch 的任务迁移过去。半价就是半价,这个优化的 ROI 太明显了。
对于还在选型的团队,这次更新让 Gemini 在价格灵活性上追上了 OpenAI 和 Anthropic,甚至在某些维度(比如 Flex 的同步半价模式)有了一定优势。值得重新评估一下。
大模型 API 的价格战还在继续,但竞争的维度已经从单纯的"谁更便宜",演变成了"谁能让开发者更精细地控制成本"。这对开发者来说,是好事。
参考来源:
- 谷歌更新 Gemini API 定价,按推理使用分档计费 - 百度百家号:五档定价详细解读
- 谷歌升级 Gemini API:新增 Flex 与 Priority 推理层级 - 腾讯新闻:Flex 和 Priority 的技术细节与架构设计
- 谷歌发布 Gemini API 新定价策略,推理服务按需计费 - 百度百家号:各档位适用场景分析
- 谷歌更新 Gemini API 定价,按推理使用分档计费 - 同花顺财经:谷歌官方表态与定价逻辑
- 谷歌 Gemini API 更新定价策略 - 新浪:五档计费方案概览
- 谷歌更新 Gemini API 定价 - 网易:各档位价格与延迟对比
- 谷歌更新 Gemini API 定价,按推理使用分档计费 - 钛媒体:行业影响分析