Claude Sonnet 5 发布：Anthropic 主打低成本 Agent 推理

Anthropic 今天发布 Claude Sonnet 5，主打低成本 Agent 推理和更强工具调用，定价大幅低于 Opus、GPT-5.5 和 Gemini Pro，目标直指长周期 Agent 的账单焦虑。

今天（6 月 30 日），Anthropic 发布了 Claude Sonnet 5。这次的卖点很直接——不是把模型推到能力天花板，而是把"能跑 Agent 的模型"价格再砍一刀。

如果说三周前那次 Fable 5 的发布是 Anthropic 给"最强能力"递的牌，那么 Sonnet 5 就是给"日常生产环境"递的牌。前者每百万输出 token 要 50 美元，后者把这条曲线狠狠往下压。对绝大多数把 Claude 塞进 Agent 管线里的团队来说，Sonnet 5 才是真正影响月度账单的那个变量。

Claude Sonnet 5 与 Opus、Fable 5、GPT-5.5、Gemini Pro 的能力-价格对比示意图

这次发布到底变了什么

先说几个硬指标。Sonnet 5 继承了 Anthropic 这一代模型的标配能力：

200K 上下文窗口（企业版可解锁到 1M，与 Fable 5 对齐）
64K 最大输出
原生工具调用与并行 tool use，按官方说法，单轮可以发起更多工具调用而不至于"忘记自己在干什么"
改进的 computer use，比 Sonnet 4.6 在 OSWorld 上有明显提升
ASL-3 安全等级，比上一代收得更紧

但这些都不是这次发布的重点。重点是定价。Sonnet 5 的 API 价格是每百万输入 token 3 美元、输出 15 美元——和 Sonnet 4.6 持平，但能力对标到了接近 Opus 4.8 的水平。换句话说，Anthropic 在同一价位带里又把性价比往前推了一格。

这是 Anthropic 一贯的节奏：Opus / Fable 负责扛能力天花板，Sonnet 负责把上一代的能力以一半甚至三分之一的价格送下来。Sonnet 3.5 当年就是这么干的，把 Opus 3 干到几乎没人用。这次 Sonnet 5 对 Opus 4.8 大概率是同样的剧本。

为什么主打"低成本 Agent"

这件事得放到这两年的语境里看。

过去一年里，"Agent"从 demo 走到生产环境，但凡跑过几天的人都知道一个朴素事实：Agent 的成本主要不是来自模型贵，而是来自模型话多。一个稍微复杂点的任务，planner 想几轮、调几个工具、读几个文档、再 reflect 一遍，token 数轻松就上百 K。如果用 Opus 这种顶级模型端到端跑，账单会以非常不优雅的速度增长。

Anthropic 自己也心知肚明。两个月前他们就上线了 advisor tool，让便宜的模型当主力 executor，把 Opus 做成按次计费的"顾问"，只在关键决策点被调用——这其实就是承认了一件事：顶级模型不适合放在 Agent 的执行位上。

Sonnet 5 是这套思路的延续，但走得更彻底。它的定位很明确：让你不用做那么复杂的多模型编排，单一模型就能跑下来大部分 Agent 工作流。能力够、价格扛得住、工具调用稳定，这三件事凑齐了，绝大多数团队就不再需要纠结到底该用 planner-solver 还是 advisor 模式。

这也是为什么 Anthropic 在发布稿里反复提"agentic capabilities"和"tool use reliability"——他们想让 Sonnet 5 成为开发者的默认选项。

工具调用：这次是真的稳了

在 tool use 这块，Sonnet 5 有几个值得说的改进。

第一个是并行工具调用的可靠性。Sonnet 4.6 已经支持单轮发起多个 tool call，但实际跑下来经常会出现"少调一个"或者"调了但忽略结果"的情况。Sonnet 5 在内部 agentic 评估里把这种情况降下来不少，根据官方放出的数据，多步骤工具任务的完成率比 4.6 提升了约 18 个百分点。

第二个是长周期任务的状态保持。这一点其实更微妙。模型在跑到第 15、20 个 tool call 的时候，会不会还记得任务的原始目标？会不会被中途某个工具的报错带偏？Sonnet 5 在这块有明显的工程优化痕迹，从我看到的早期测试来看，跑半小时以上的复杂任务，"跑着跑着忘了在干啥"的概率比上一代低了一截。

第三个是 computer use 的细节体验。屏幕截图理解、坐标定位、UI 元素识别这几件事，Sonnet 5 的稳定性明显上来了。这对那些在做浏览器 Agent、桌面自动化的团队是很实际的提升。

和 GPT-5.5、Gemini Pro 怎么比

横向对比是绕不开的。

纯能力上，Sonnet 5 大致在 GPT-5.5 和 Gemini 2.5 Pro 之间，编码和 agentic 任务上略胜，纯数学推理上稍逊。这跟 Anthropic 一贯的方向一致：他们不追 AIME 那种竞赛分数，而是死磕实际工程任务的可靠性。

价格上，Sonnet 5 是这三者里最便宜的。GPT-5.5 标准版每百万输入/输出大约 5/25 美元，Gemini 2.5 Pro 在 4/20 美元附近，Sonnet 5 的 3/15 美元有明显优势。如果再算上 prompt caching，长 Agent 任务的实际成本还能再降一截。

生态上，OpenAI 仍然领先，SDK、社区、第三方工具最全。但 Claude 在 coding 和 tool use 上的口碑这两年已经反超 GPT 系列，尤其是在 Claude Code 这条产品线带动下，开发者群体里"写代码就用 Claude"几乎已经是默认共识。

长上下文上 Gemini 还是优势项，原生百万 token 加上多模态。但说实话，做 Agent 真正需要塞百万 token 的场景并不多，更多时候是一两百 K 范围内的密集工具交互——而这正是 Sonnet 5 擅长的区间。

一段简单的调用示例

Sonnet 5 完全兼容 OpenAI 格式，通过 OpenAI Hub 可以直接用一个 Key 调用，国内直连不用折腾代理：

from openai import OpenAI

client = OpenAI(
    base_url=\"https://api.openai-hub.com/v1\",
    api_key=\"your-key\"
)

response = client.chat.completions.create(
    model=\"claude-sonnet-5\",
    messages=[
        {\"role\": \"system\", \"content\": \"You are a helpful coding agent.\"},
        {\"role\": \"user\", \"content\": \"帮我重构这段代码并写单元测试\"}
    ],
    tools=[
        {
            \"type\": \"function\",
            \"function\": {
                \"name\": \"run_tests\",
                \"description\": \"运行测试用例\",
                \"parameters\": {
                    \"type\": \"object\",
                    \"properties\": {
                        \"file\": {\"type\": \"string\"}
                    }
                }
            }
        }
    ],
    tool_choice=\"auto\"
)

print(response.choices[0].message)

如果你之前用的是 Sonnet 4.6，迁移基本是无感的：API 字段没变，tool calling 协议向后兼容。但有一点值得注意——Sonnet 5 对手工写的 "逐步思考" 这类 prompt 不再敏感，强行加 chain-of-thought 反而可能拖累效果。Anthropic 在 Fable 5 上就强调过这一点，Sonnet 5 沿用了同样的思路：模型内部已经处理了思考过程，外部 prompt 工程的空间被压缩了。

几个值得关注的细节

Prompt Caching 默认开启：超过 1024 token 的 prompt 自动缓存，缓存命中的部分按 10% 价格计费。对那种 system prompt 几千 token 的 Agent 来说，这一项就能省掉一大块钱。

Batch API 半价：异步任务直接打五折，跑大规模数据处理或者 offline 评估的团队可以重点用起来。

Extended Thinking 模式：和 Fable 5 一样，Sonnet 5 也有可选的 extended thinking。但 Anthropic 在文档里委婉地建议"非必要不开"——意思是，普通任务模型自己心里有数，强开 extended thinking 只会让你多付 token 费。

Vision 没什么大改动：图像理解能力基本和 4.6 持平，没有像 Gemini 那样上视频原生支持。Anthropic 在多模态这条线上一直比较克制。

这次发布意味着什么

往大了说，Sonnet 5 的发布印证了一个趋势：前沿模型公司开始把"性价比模型"当成主打产品来运营，而不是当成旗舰模型的廉价替代品。

GPT-5.5 的 mini 版、Gemini 2.5 Flash、Sonnet 5——这三条线现在都在往同一个方向卷：能力够用、价格够低、工具调用够稳。原因很简单，真正在生产环境里跑 Agent 的公司，没有谁能持续承担顶级模型的账单。市场需求摆在那儿，谁先把"够用且便宜"这条曲线推到极致，谁就能拿下大部分增量。

往小了说，对开发者来说，Sonnet 5 大概率会成为接下来半年里的默认选择。如果你正在选模型跑 Agent，现在的合理姿势是：主力 executor 用 Sonnet 5，关键决策点上 Fable 5 当 advisor——这是 Anthropic 把这套体系搭得最完整的一刻。

OpenAI Hub 已经第一时间接入了 Claude Sonnet 5，和之前一样，一个 Key 走到底，OpenAI 格式直接兼容，不用为了新模型再单独申请账号。如果想趁着发布初期测试一下，今天就能跑起来。

参考来源

Claude Fable 5 来了：这不是 Opus 的小升级 - 知乎 — 关于 Anthropic 上一代旗舰模型 Fable 5 的深度解读，理解 Sonnet 5 定位的重要背景

Claude Sonnet 5 发布：Anthropic 把 Agent 价格打下来了

这次发布到底变了什么

为什么主打"低成本 Agent"

工具调用：这次是真的稳了

和 GPT-5.5、Gemini Pro 怎么比

一段简单的调用示例

几个值得关注的细节

这次发布意味着什么

参考来源

相关推荐

Anthropic 推出 Claude Science：押注科研工作流

Nano Banana 2 Lite 登场：DeepMind 把多模态成本砍到地板

X 上线官方 MCP Server，Agent 直连推特 API

联系我们