谷歌 Gemini API 五档定价更新：Flex 半价推理、Priority 毫秒级响应全解析

谷歌今日更新 Gemini API 定价策略，新增 Standard、Flex、Priority、Batch、Caching 五个服务档位，开发者可按延迟和可靠性需求灵活选择，最低半价即可调用。

谷歌今天动了 Gemini API 的价格表。

不是简单调个数字，而是把整个计费架构重新设计了一遍——从原来相对单一的按量付费，拆成了五个明确的服务档位：Standard（标准）、Flex（弹性）、Priority（优先）、Batch（批量）和 Caching（缓存）。核心逻辑很清晰：你愿意等多久、需要多稳定，决定你付多少钱。

这是 API 定价领域一个值得关注的信号。它意味着大模型推理服务正在从"一口价"走向"分级服务"，就像云计算当年从按需实例演化出竞价实例、预留实例一样。

Gemini API 五档定价策略对比示意图，横轴为延迟从低到高，纵轴为价格从低到高，标注五个档位的位置关系

五档到底怎么分的

先说结论：对大多数开发者影响最大的是 Flex 和 Batch 两个档位，因为它们直接把价格砍到了标准价的一半。

逐个拆解：

Standard（标准）

基准档位，没什么好说的。延迟和可靠性都是默认水平，价格就是官网标的那个数。它存在的意义更多是作为其他档位的参照系。

Flex（弹性）—— 半价，但得等

Flex 是这次更新里最有意思的一档。

原理不复杂：谷歌把非高峰时段的闲置 GPU 算力拿出来，以标准价 50% 的价格卖给你。代价是延迟不可控——目标范围是 1 到 15 分钟，而且明确写了"不提供延迟保证"。

熟悉云计算的开发者一眼就能认出来，这就是 AI 推理领域的"竞价实例"（Spot Instance）。AWS 十几年前用这个模式把闲置算力变成了一门大生意，现在谷歌在推理层复刻了同样的思路。

什么场景适合用 Flex？谷歌给了几个例子：CRM 数据批量更新、大规模研究模拟、Agent 工作流中模型在后台做复杂推理的环节。简单说，只要你的任务不需要用户盯着屏幕等结果，Flex 就值得考虑。

举个更具体的场景：你在做一个内容审核系统，白天积攒了几万条待审内容，晚上用 Flex 跑一遍，成本直接减半。或者你的 Agent 系统里有一个"深度思考"步骤，用户提交任务后可以去喝杯咖啡再回来看结果——这种异步链路天然适合 Flex。

但要注意一个细节：Flex 走的是同步接口，不是 Batch API 那种异步提交。也就是说，你的请求发出去之后连接是保持的，只是响应可能要等几分钟。这在架构设计上需要考虑超时设置和重试策略。

Priority（优先）—— 贵，但稳

和 Flex 完全相反的方向。Priority 档位的定价比标准价高出 75% 到 100%，换来的是毫秒到秒级的延迟，以及在平台高负载时的优先处理权。

这里有一个设计细节值得注意：如果你的 Priority 流量超过了配额，超出的请求不会直接报错返回 429，而是自动降级到 Standard 层级继续处理。这个"优雅降级"的机制比硬限流友好得多——至少你的线上服务不会因为流量突增就直接挂掉。

而且 API 返回结果里会标明实际使用的服务层级，你可以据此做监控和告警。比如发现某段时间大量请求被降级了，说明该加配额了。

谷歌建议的使用场景包括：实时客服聊天机器人、在线欺诈检测、业务关键型智能助手。总结一句话：凡是用户在屏幕前等着、每多一秒延迟都在损失体验或者金钱的场景，Priority 就是为你准备的。

贵不贵？贵。但对于一个实时风控系统来说，模型推理慢 2 秒可能意味着一笔欺诈交易已经完成了。这笔账很好算。

Batch（批量）—— 同样半价，延迟更宽松

Batch 和 Flex 的折扣力度一样，都是标准价的 50%。区别在于 Batch 是传统的异步批处理模式，延迟上限放宽到了 24 小时。

如果说 Flex 是"我可以等几分钟"，Batch 就是"明天给我结果就行"。

典型场景：每天凌晨跑一批数据标注任务、周末批量处理一周积累的用户反馈、定期对历史数据做分类和摘要。这些任务的共同特点是量大、不急、对成本敏感。

Batch 模式在 OpenAI 的 API 里早就有了，开发者应该不陌生。谷歌这次跟进，更多是补齐产品矩阵。

Caching（缓存）—— 按存储计费

Caching 档位的计费逻辑和前面四个都不一样。它不是按请求计费，而是按缓存的 Token 数量和存储时长收费。

适用场景很明确：

对话机器人挂载了很长的系统提示词（System Prompt），每次请求都要重复发送
同一个长视频需要反复分析不同片段
大规模文档集的重复查询

本质上，Caching 解决的是"重复输入"的成本问题。如果你的应用里有大量请求共享相同的上下文前缀，开启缓存后这部分 Token 只需要处理一次，后续请求直接复用，输入成本会显著下降。

这个能力 Anthropic 的 Claude API 也提供了类似的 Prompt Caching 功能，Google 这边算是对齐竞品。

一张表看清五档差异

| 档位 | 价格（相对标准） | 延迟 | 适用场景 | |------|-----------------|------|----------| | Standard | 1x | 默认 | 通用场景 | | Flex | 0.5x | 1-15 分钟（不保证） | 后台任务、异步 Agent 推理 | | Priority | 1.75x - 2x | 毫秒至秒级 | 实时客服、风控、关键业务 | | Batch | 0.5x | 最长 24 小时 | 大规模离线数据处理 | | Caching | 按缓存量和时长 | - | 长 Prompt 复用、重复分析 |

对开发者意味着什么

这次更新最大的价值不在于某个具体档位便宜了多少，而在于它给了开发者一个清晰的成本优化框架。

过去调 Gemini API，所有请求都是同一个价格、同一个优先级。你的实时聊天和后台数据处理走的是同一条管道，付的是同一份钱。这显然不合理——一个需要 200ms 内返回的客服对话，和一个明天出结果就行的数据标注任务，凭什么付一样的价格？

现在有了分档，开发者可以在架构层面做更精细的成本控制。一个典型的优化思路是：

面向用户的实时链路走 Standard 或 Priority
Agent 内部的"思考"步骤走 Flex
每日/每周的批处理任务走 Batch
共享长上下文的场景开 Caching

同样的业务逻辑，换一种调用方式，推理成本可能直接砍掉 30%-50%。对于日调用量在百万级以上的应用来说，这是实打实的真金白银。

怎么用：一个参数的事

从接入角度看，谷歌把切换档位做得很轻量——只需要在请求参数里加一个 service_tier 字段就行，适用于 GenerateContent 和 Interactions 接口。

不需要换 endpoint，不需要改 SDK 版本，不需要重新申请 API Key。这意味着你可以在同一个应用里，根据不同的业务场景动态切换档位。

如果你通过 OpenAI Hub 这类兼容 OpenAI 格式的聚合平台调用 Gemini，切换起来同样方便。下面是一个示例，展示如何在请求中指定不同的服务档位：

import openai

client = openai.OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

# 实时场景：使用 Priority 档位，确保低延迟
realtime_response = client.chat.completions.create(
    model="gemini-2.5-pro",
    messages=[
        {"role": "system", "content": "你是一个实时客服助手。"},
        {"role": "user", "content": "我的订单什么时候发货？"}
    ],
    extra_body={
        "service_tier": "priority"
    }
)
print(realtime_response.choices[0].message.content)

# 后台任务：使用 Flex 档位，成本减半
background_response = client.chat.completions.create(
    model="gemini-2.5-pro",
    messages=[
        {"role": "system", "content": "请对以下文本进行分类和摘要。"},
        {"role": "user", "content": "[一段很长的待处理文本...]"}
    ],
    extra_body={
        "service_tier": "flex"
    }
)
print(background_response.choices[0].message.content)

// Node.js 示例
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'your-openai-hub-key',
  baseURL: 'https://api.openai-hub.com/v1',
});

// Batch 场景：大规模离线处理
const batchResponse = await client.chat.completions.create({
  model: 'gemini-2.5-pro',
  messages: [
    { role: 'system', content: '请对以下用户评论进行情感分析。' },
    { role: 'user', content: '[批量评论数据...]' },
  ],
  service_tier: 'batch',
});

console.log(batchResponse.choices[0].message.content);

核心就是那个 service_tier 参数。设成 flex 就是半价慢速，设成 priority 就是加价快速，不设就是默认的 Standard。简单粗暴。

放在行业里看

谷歌这次定价更新，放在整个大模型 API 市场的竞争格局里看，更像是一次"补课"。

OpenAI 早就有了 Batch API（同样是半价、24 小时延迟），Anthropic 有 Prompt Caching 和不同的优先级选项。谷歌之前在这方面相对落后，现在一口气把五个档位都补齐了，而且 Flex 这个"利用闲置算力的同步半价推理"确实有一定差异化——它比 Batch 的异步模式更灵活，比 Standard 便宜一半，填补了一个中间地带。

但更大的趋势是：大模型推理正在变成一种基础设施级的服务，而基础设施的定价从来都不是一刀切的。

想想 AWS 的 EC2 定价体系：按需实例、预留实例、竞价实例、Savings Plans……十几种计费方式，本质上都是在帮用户用不同的"承诺"换取不同的"折扣"。大模型 API 正在走同样的路。你愿意承诺更高的延迟容忍度，就能换来更低的价格；你愿意承诺更高的消费额度，未来大概率也会有类似预留实例的折扣方案。

对于同时使用多家模型 API 的开发者来说，这种分档机制也让成本优化变得更复杂了。不同厂商的档位设计、折扣力度、延迟表现都不一样，需要根据实际业务场景做更细致的选型。这也是为什么越来越多团队选择通过 API 聚合平台来统一管理多模型调用——用一套接口对接所有厂商，在上层做路由和成本优化，比逐个对接要高效得多。

几个值得注意的细节

第一，Flex 的"不保证延迟"需要认真对待。1 到 15 分钟是目标范围，不是 SLA。在平台负载特别高的时候，实际延迟可能更长。如果你的业务对"最迟什么时候出结果"有硬性要求，Flex 可能不适合。

第二，Priority 的自动降级机制是个双刃剑。好处是服务不会中断，坏处是你可能在不知情的情况下，部分请求实际上是以 Standard 的延迟在跑。一定要在监控里加上对返回的 service_tier 字段的追踪，及时发现降级情况。

第三，Caching 的成本收益需要算清楚。缓存本身要按 Token 数和时长付费，如果你的请求量不够大、或者上下文前缀不够长，缓存的存储成本可能反而超过节省的输入成本。建议先用小规模流量测试，算清楚盈亏平衡点再全量开启。

第四，这五个档位目前适用于 GenerateContent 和 Interactions 接口。如果你在用 Gemini 的其他能力（比如 Embedding、Code Execution），需要确认是否支持。

总结

谷歌这次把 Gemini API 的定价从"一口价"拆成了五档，本质上是在告诉开发者：不是所有推理请求都值得付同样的价格。

对于已经在用 Gemini API 的团队，建议尽快梳理一下现有的调用场景，把能走 Flex 和 Batch 的任务迁移过去。半价就是半价，这个优化的 ROI 太明显了。

对于还在选型的团队，这次更新让 Gemini 在价格灵活性上追上了 OpenAI 和 Anthropic，甚至在某些维度（比如 Flex 的同步半价模式）有了一定优势。值得重新评估一下。

大模型 API 的价格战还在继续，但竞争的维度已经从单纯的"谁更便宜"，演变成了"谁能让开发者更精细地控制成本"。这对开发者来说，是好事。

参考来源：

谷歌更新 Gemini API 定价，按推理使用分档计费 - 百度百家号：五档定价详细解读
谷歌升级 Gemini API：新增 Flex 与 Priority 推理层级 - 腾讯新闻：Flex 和 Priority 的技术细节与架构设计
谷歌发布 Gemini API 新定价策略，推理服务按需计费 - 百度百家号：各档位适用场景分析
谷歌更新 Gemini API 定价，按推理使用分档计费 - 同花顺财经：谷歌官方表态与定价逻辑
谷歌 Gemini API 更新定价策略 - 新浪：五档计费方案概览
谷歌更新 Gemini API 定价 - 网易：各档位价格与延迟对比
谷歌更新 Gemini API 定价，按推理使用分档计费 - 钛媒体：行业影响分析

Gemini API 五档定价上线，半价推理来了

五档到底怎么分的

Standard（标准）

Flex（弹性）—— 半价，但得等

Priority（优先）—— 贵，但稳

Batch（批量）—— 同样半价，延迟更宽松

Caching（缓存）—— 按存储计费

一张表看清五档差异

对开发者意味着什么

怎么用：一个参数的事

放在行业里看

几个值得注意的细节

总结

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们