Claude Sonnet 5 发布:Anthropic 把 Agent 价格打下来了

Anthropic 今天发布 Claude Sonnet 5,主打低成本 Agent 推理和更强工具调用,定价大幅低于 Opus、GPT-5.5 和 Gemini Pro,目标直指长周期 Agent 的账单焦虑。
今天(6 月 30 日),Anthropic 发布了 Claude Sonnet 5。这次的卖点很直接——不是把模型推到能力天花板,而是把"能跑 Agent 的模型"价格再砍一刀。
如果说三周前那次 Fable 5 的发布是 Anthropic 给"最强能力"递的牌,那么 Sonnet 5 就是给"日常生产环境"递的牌。前者每百万输出 token 要 50 美元,后者把这条曲线狠狠往下压。对绝大多数把 Claude 塞进 Agent 管线里的团队来说,Sonnet 5 才是真正影响月度账单的那个变量。

这次发布到底变了什么
先说几个硬指标。Sonnet 5 继承了 Anthropic 这一代模型的标配能力:
- 200K 上下文窗口(企业版可解锁到 1M,与 Fable 5 对齐)
- 64K 最大输出
- 原生工具调用与并行 tool use,按官方说法,单轮可以发起更多工具调用而不至于"忘记自己在干什么"
- 改进的 computer use,比 Sonnet 4.6 在 OSWorld 上有明显提升
- ASL-3 安全等级,比上一代收得更紧
但这些都不是这次发布的重点。重点是定价。Sonnet 5 的 API 价格是每百万输入 token 3 美元、输出 15 美元——和 Sonnet 4.6 持平,但能力对标到了接近 Opus 4.8 的水平。换句话说,Anthropic 在同一价位带里又把性价比往前推了一格。
这是 Anthropic 一贯的节奏:Opus / Fable 负责扛能力天花板,Sonnet 负责把上一代的能力以一半甚至三分之一的价格送下来。Sonnet 3.5 当年就是这么干的,把 Opus 3 干到几乎没人用。这次 Sonnet 5 对 Opus 4.8 大概率是同样的剧本。
为什么主打"低成本 Agent"
这件事得放到这两年的语境里看。
过去一年里,"Agent"从 demo 走到生产环境,但凡跑过几天的人都知道一个朴素事实:Agent 的成本主要不是来自模型贵,而是来自模型话多。一个稍微复杂点的任务,planner 想几轮、调几个工具、读几个文档、再 reflect 一遍,token 数轻松就上百 K。如果用 Opus 这种顶级模型端到端跑,账单会以非常不优雅的速度增长。
Anthropic 自己也心知肚明。两个月前他们就上线了 advisor tool,让便宜的模型当主力 executor,把 Opus 做成按次计费的"顾问",只在关键决策点被调用——这其实就是承认了一件事:顶级模型不适合放在 Agent 的执行位上。
Sonnet 5 是这套思路的延续,但走得更彻底。它的定位很明确:让你不用做那么复杂的多模型编排,单一模型就能跑下来大部分 Agent 工作流。能力够、价格扛得住、工具调用稳定,这三件事凑齐了,绝大多数团队就不再需要纠结到底该用 planner-solver 还是 advisor 模式。
这也是为什么 Anthropic 在发布稿里反复提"agentic capabilities"和"tool use reliability"——他们想让 Sonnet 5 成为开发者的默认选项。
工具调用:这次是真的稳了
在 tool use 这块,Sonnet 5 有几个值得说的改进。
第一个是并行工具调用的可靠性。Sonnet 4.6 已经支持单轮发起多个 tool call,但实际跑下来经常会出现"少调一个"或者"调了但忽略结果"的情况。Sonnet 5 在内部 agentic 评估里把这种情况降下来不少,根据官方放出的数据,多步骤工具任务的完成率比 4.6 提升了约 18 个百分点。
第二个是长周期任务的状态保持。这一点其实更微妙。模型在跑到第 15、20 个 tool call 的时候,会不会还记得任务的原始目标?会不会被中途某个工具的报错带偏?Sonnet 5 在这块有明显的工程优化痕迹,从我看到的早期测试来看,跑半小时以上的复杂任务,"跑着跑着忘了在干啥"的概率比上一代低了一截。
第三个是 computer use 的细节体验。屏幕截图理解、坐标定位、UI 元素识别这几件事,Sonnet 5 的稳定性明显上来了。这对那些在做浏览器 Agent、桌面自动化的团队是很实际的提升。
和 GPT-5.5、Gemini Pro 怎么比
横向对比是绕不开的。
纯能力上,Sonnet 5 大致在 GPT-5.5 和 Gemini 2.5 Pro 之间,编码和 agentic 任务上略胜,纯数学推理上稍逊。这跟 Anthropic 一贯的方向一致:他们不追 AIME 那种竞赛分数,而是死磕实际工程任务的可靠性。
价格上,Sonnet 5 是这三者里最便宜的。GPT-5.5 标准版每百万输入/输出大约 5/25 美元,Gemini 2.5 Pro 在 4/20 美元附近,Sonnet 5 的 3/15 美元有明显优势。如果再算上 prompt caching,长 Agent 任务的实际成本还能再降一截。
生态上,OpenAI 仍然领先,SDK、社区、第三方工具最全。但 Claude 在 coding 和 tool use 上的口碑这两年已经反超 GPT 系列,尤其是在 Claude Code 这条产品线带动下,开发者群体里"写代码就用 Claude"几乎已经是默认共识。
长上下文上 Gemini 还是优势项,原生百万 token 加上多模态。但说实话,做 Agent 真正需要塞百万 token 的场景并不多,更多时候是一两百 K 范围内的密集工具交互——而这正是 Sonnet 5 擅长的区间。
一段简单的调用示例
Sonnet 5 完全兼容 OpenAI 格式,通过 OpenAI Hub 可以直接用一个 Key 调用,国内直连不用折腾代理:
from openai import OpenAI
client = OpenAI(
base_url=\"https://api.openai-hub.com/v1\",
api_key=\"your-key\"
)
response = client.chat.completions.create(
model=\"claude-sonnet-5\",
messages=[
{\"role\": \"system\", \"content\": \"You are a helpful coding agent.\"},
{\"role\": \"user\", \"content\": \"帮我重构这段代码并写单元测试\"}
],
tools=[
{
\"type\": \"function\",
\"function\": {
\"name\": \"run_tests\",
\"description\": \"运行测试用例\",
\"parameters\": {
\"type\": \"object\",
\"properties\": {
\"file\": {\"type\": \"string\"}
}
}
}
}
],
tool_choice=\"auto\"
)
print(response.choices[0].message)
如果你之前用的是 Sonnet 4.6,迁移基本是无感的:API 字段没变,tool calling 协议向后兼容。但有一点值得注意——Sonnet 5 对手工写的 "逐步思考" 这类 prompt 不再敏感,强行加 chain-of-thought 反而可能拖累效果。Anthropic 在 Fable 5 上就强调过这一点,Sonnet 5 沿用了同样的思路:模型内部已经处理了思考过程,外部 prompt 工程的空间被压缩了。
几个值得关注的细节
Prompt Caching 默认开启:超过 1024 token 的 prompt 自动缓存,缓存命中的部分按 10% 价格计费。对那种 system prompt 几千 token 的 Agent 来说,这一项就能省掉一大块钱。
Batch API 半价:异步任务直接打五折,跑大规模数据处理或者 offline 评估的团队可以重点用起来。
Extended Thinking 模式:和 Fable 5 一样,Sonnet 5 也有可选的 extended thinking。但 Anthropic 在文档里委婉地建议"非必要不开"——意思是,普通任务模型自己心里有数,强开 extended thinking 只会让你多付 token 费。
Vision 没什么大改动:图像理解能力基本和 4.6 持平,没有像 Gemini 那样上视频原生支持。Anthropic 在多模态这条线上一直比较克制。
这次发布意味着什么
往大了说,Sonnet 5 的发布印证了一个趋势:前沿模型公司开始把"性价比模型"当成主打产品来运营,而不是当成旗舰模型的廉价替代品。
GPT-5.5 的 mini 版、Gemini 2.5 Flash、Sonnet 5——这三条线现在都在往同一个方向卷:能力够用、价格够低、工具调用够稳。原因很简单,真正在生产环境里跑 Agent 的公司,没有谁能持续承担顶级模型的账单。市场需求摆在那儿,谁先把"够用且便宜"这条曲线推到极致,谁就能拿下大部分增量。
往小了说,对开发者来说,Sonnet 5 大概率会成为接下来半年里的默认选择。如果你正在选模型跑 Agent,现在的合理姿势是:主力 executor 用 Sonnet 5,关键决策点上 Fable 5 当 advisor——这是 Anthropic 把这套体系搭得最完整的一刻。
OpenAI Hub 已经第一时间接入了 Claude Sonnet 5,和之前一样,一个 Key 走到底,OpenAI 格式直接兼容,不用为了新模型再单独申请账号。如果想趁着发布初期测试一下,今天就能跑起来。
参考来源
- Claude Fable 5 来了:这不是 Opus 的小升级 - 知乎 — 关于 Anthropic 上一代旗舰模型 Fable 5 的深度解读,理解 Sonnet 5 定位的重要背景



