AI 快讯Claude 登陆 Azure GB300:英伟达最强推理卡跑起 Anthropic 全家桶
产品更新

Claude 登陆 Azure GB300:英伟达最强推理卡跑起 Anthropic 全家桶

2026-06-29T23:03:17.679Z
Claude 登陆 Azure GB300:英伟达最强推理卡跑起 Anthropic 全家桶

Anthropic 旗下 Claude Sonnet 4.5、Opus 4.1、Haiku 4.5 以及最新的 Opus 4.5 已在 Microsoft Foundry 全面可用,全部跑在 NVIDIA GB300 Blackwell Ultra GPU 上。这是去年 11 月那笔 300 亿美元三方协议的第一波兑现。

Claude 正式跑在 Blackwell Ultra 上,Azure 拿到了它一直想要的牌

今天 Anthropic、微软和英伟达三家几乎同步发了公告:Claude 系列模型在 Microsoft Foundry 上正式 GA,底层算力由 NVIDIA GB300 NVL72 机柜——也就是 Blackwell Ultra 平台——提供。可调用的模型包括 Claude Sonnet 4.5、Claude Opus 4.1、Claude Haiku 4.5,以及去年底刚发布的旗舰 Claude Opus 4.5。

这件事看起来是一次普通的「上架」,但放在去年 11 月 18 日那场三方发布会的背景下看,性质就完全不一样了。当时 Dario Amodei、Satya Nadella、黄仁勋同台官宣战略合作:Anthropic 承诺从 Azure 采购 300 亿美元算力、最高 1GW 容量;英伟达对 Anthropic 投资最高 100 亿美元;微软追加最高 50 亿美元。承诺谁都会说,关键看落地。从签约到 Claude 在 GB300 上 GA,中间隔了大概七个多月——以超大规模 GPU 集群部署的节奏来看,这个速度算交付得相当快。

NVIDIA GB300 NVL72 机柜实物图,Claude 模型在 Azure Foundry 中可调用

GB300 跑 Claude,硬件层面到底意味着什么

先说硬件本身。GB300 NVL72 是英伟达去年推出的 Blackwell Ultra 旗舰系统,单机柜集成 72 颗 Blackwell Ultra GPU 加 36 颗 Grace CPU,通过第五代 NVLink 全互联,提供 130TB/s 的总带宽,HBM3e 显存池做到 21TB。相比上一代 GB200,Blackwell Ultra 把 FP4 推理算力又拉高了 50% 左右,而且改了一些和长上下文推理直接相关的细节——比如更大的片上 SRAM、更激进的稀疏化执行单元。

这套配置对 Claude 这种模型几乎是定制级的契合。Anthropic 一直在 Sonnet 4.5 和 Opus 4.5 上推大上下文窗口和长链路 agentic 任务,Opus 4.5 实测 1M token 上下文的稳定召回比同价位竞品都好一截。但代价是 KV cache 爆炸式增长,对显存带宽和容量极度敏感。GB300 的 21TB HBM 池和 NVLink 全互联,正好把这种「重 KV 缓存 + 长推理链」的 workload 喂得很饱。

再说一个开发者关心的点:吞吐和首 token 延迟。微软这次 Foundry 的 SLA 文档里给出的参考数据是,Claude Sonnet 4.5 在 GB300 集群上的 TTFT(首 token 延迟)中位数 280ms 左右,输出吞吐峰值在 180 tokens/s 上下,比之前部署在 H200 集群的版本快了将近一倍。对 agent 类应用——尤其是要做几十轮 tool call 的——这个差距是体感能感觉到的。

微软终于不再「只有 OpenAI」

Foundry 这次拉 Claude 进来,对微软的战略意义比对 Anthropic 还大。

过去两年微软 Azure 上的前沿模型基本只有 OpenAI 一条腿,企业客户问「能不能也用 Claude」是个常态化问题——尤其是金融、法律这些更倾向 Anthropic 安全策略的行业。微软也不是没意识到,但 Anthropic 和 AWS、Google Cloud 绑得太深,要拉过来谈何容易。这次能落地,本质上是英伟达在中间搭了桥:Anthropic 需要更多 GB300 算力,英伟达需要 Anthropic 帮它把 Blackwell Ultra 跑出标杆案例,微软出钱出云。三方各取所需。

对 Foundry 用户来说,现在的局面是:在一个统一的 API 和治理框架下,能同时调到 GPT-5.x、Claude 4.x、Llama 4、Mistral Large 3、xAI Grok 3 等几乎所有头部模型。Eric Boyd(微软 AI 平台副总裁)前两天发的帖子里也强调了 Opus 4.5 接入 Foundry 后,企业客户从 PoC 到生产的迁移速度会快很多——这话翻译过来就是:以前你想用 Claude,得自己搞一套合规链路,现在直接复用 Azure 的 SOC2、HIPAA、FedRAMP 这套体系。

Claude Opus 4.5 在 Blackwell Ultra 上能干什么新活

光说性能数字没意思,说点开发者真能用上的东西。

第一件事是真正的多轮 agent 编排。Opus 4.5 配合 Claude 的 native tool use 协议,加上 GB300 的低延迟,跑 50+ 步骤的 agent 任务时端到端时间能压到分钟级。Anthropic 官方给的样例里有一个跨 SaaS 的发票对账 agent,要连 Salesforce、NetSuite、内部 ERP 三个系统,过去用 Sonnet 跑一次要 8 分钟,现在 Opus 4.5 在 GB300 上跑 3 分 40 秒,而且准确率从 91% 提到了 96.8%。

第二件事是 code agent。Sonnet 4.5 在 SWE-bench Verified 上已经做到 77.2%,Opus 4.5 据说更高(Anthropic 没在公告里给完整数据,但社区里流出来的内部测试是 82.x%)。在 Foundry 上跑这种模型,配合 Azure DevOps、GitHub Enterprise 的原生集成,企业内部搭 Devin 类工具的成本一下子降下来了。

第三件事是结构化输出 + 长文档分析。Opus 4.5 的 JSON 模式比前代稳定很多,1M token 上下文下解析多份合同、提取条款、做对比分析这类活,准确率比 GPT-5 Turbo 同窗口大致高 5-8 个百分点。这是法律和金融客户的硬需求。

价格和访问方式

微软这次给的定价跟 Anthropic 官方 API 基本对齐,没有溢价,也没有补贴:

  • Claude Haiku 4.5:输入 $1/M tokens,输出 $5/M tokens
  • Claude Sonnet 4.5:输入 $3/M tokens,输出 $15/M tokens
  • Claude Opus 4.5:输入 $15/M tokens,输出 $75/M tokens

这个价格策略说明微软不想用 Foundry 去打 Anthropic 自家 API 的价,更像是给 Azure 存量企业客户提供一个「不用换账号」的便利。对那种已经在 Azure 上有几百万美金 commitment 的大客户来说,这个便利是有价值的——预算可以直接走 Azure,不用再额外申请 Anthropic 的采购流程。

顺带提一句,对于不在 Azure 体系内、或者想多模型同时调用对比的开发者,OpenAI Hub 现在已经支持 Claude Opus 4.5、Sonnet 4.5、Haiku 4.5 全系列,国内直连,兼容 OpenAI 格式。一个 Key 把 GPT、Claude、Gemini、DeepSeek 都调了,不用挨个开账户、挨个搞付款渠道。调用 Claude Opus 4.5 大概是这样:

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="claude-opus-4-5",
    messages=[
        {"role": "system", "content": "你是一个资深的代码审查助手。"},
        {"role": "user", "content": "帮我审查这段 Rust 代码的并发安全问题:..."}
    ],
    max_tokens=4096,
    temperature=0.3
)

print(response.choices[0].message.content)

如果要用 Claude 的扩展能力,比如 1M 上下文、tool use、structured output,参数和 Anthropic 原生一致:

response = client.chat.completions.create(
    model="claude-opus-4-5",
    messages=[...],
    tools=[
        {
            "type": "function",
            "function": {
                "name": "search_codebase",
                "description": "在代码库中搜索符号定义",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "query": {"type": "string"},
                        "language": {"type": "string"}
                    },
                    "required": ["query"]
                }
            }
        }
    ],
    tool_choice="auto"
)

一个被忽略的细节:Anthropic 第一次跑在英伟达上的「主力」推理集群

这件事还有一个行业层面的看点,过去 Anthropic 训练和推理主要依赖 AWS Trainium/Inferentia 和 Google TPU——这两家的芯片对 Claude 的优化非常深,是 Anthropic 自己 stack 的一部分。这次把 GB300 作为 Azure 上的主力推理硬件,是 Anthropic 第一次把规模化推理放到英伟达 GPU 上。

意思有两层:

一层是 Anthropic 需要「多元化算力」。光靠 AWS 和 Google 两家,扩张速度跟不上 Claude 的需求增长。GB300 是当前最强的推理硬件,Anthropic 早晚要用。

另一层是英伟达也终于把 Anthropic 这个「最难啃的客户」拿下了。OpenAI、xAI、Meta、Mistral 都已经在英伟达栈上跑,唯独 Anthropic 之前一直站在 Trainium/TPU 那边。这次合作意味着 Blackwell Ultra 之后的 Rubin、Rubin Ultra 平台都有 Anthropic 在做联合优化——按公告里那句「optimising future NVIDIA architectures for Anthropic's requirements」的措辞,应该是有专门的硬件路线图协同。

我的判断

说点直接的看法。

Claude 上 Azure 这件事,对开发者最大的好处是多了一条合规链路,但实际能力本身和你直接用 Anthropic API、AWS Bedrock 调到的 Claude 是同一个模型,性能差异主要看部署的硬件代际。如果你的团队已经深度绑定 Azure,那 Foundry 这个入口确实省事;如果没有,去 Anthropic 官方或者用 OpenAI Hub 这种聚合方案也没啥区别,甚至更灵活——可以在 Claude、GPT、Gemini 之间无缝切换做 A/B。

对企业 IT 采购来说,真正的变化是议价能力。过去你只能在「Azure 上的 OpenAI」和「AWS 上的 Claude」之间二选一,现在 Azure 上两家都有了,下次续约的时候手里多了一张牌。微软知道这一点,所以才肯把 Claude 拉进来——它宁可在前沿模型上让出一点份额,也不想让客户因为「Azure 没有 Claude」而整体迁移到别家。

至于英伟达,赢家是它。三家协议里最大的赢家就是英伟达:300 亿美元算力采购的硬件账单大部分要落到它头上,还顺便把 Anthropic 这个标杆客户彻底拿下了。Blackwell Ultra 跑 Claude,Rubin 跑 Claude,未来几年的故事都已经写好了。

这件事的余波短期内不会停。AWS 那边肯定会有反应——它对 Claude 的依赖太深,不可能眼看着微软抢生意。预计未来几周会有 AWS Bedrock 上 Claude 性能升级、Trainium 3 联合优化、或者更激进的价格调整。Google Cloud 那边相对淡定一些,毕竟它有 Gemini 自己撑着。

对开发者来说,享受竞争带来的红利就好。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: