xAI 甩出 Grok Build 0.1:编程模型动刀 100 tokens/s

产品更新

xAI 推出专为 Agentic 编程任务训练的 grok-build-0.1,256K 上下文、100+ tokens/s 推理速度,输入 1 美元/百万 tokens,剑指 Claude 和 Cursor 的腹地。

xAI 这次不卷参数,卷速度

5 月底,xAI 在不太张扬的氛围里把 grok-build-0.1 推上了 API 公测。这是 Grok 系列第一次单独切出一个编程专用模型,跟通用的 Grok 4.3 分开走,定位很明确——给写代码的 Agent 用,不是给聊天机器人用。

如果只看官方那篇短得不能再短的发布说明,你可能会觉得这又是一个常规的 "我们也有编程模型" 式更新。但把价格、速度、上下文窗口和它接入的那一堆 Agentic 工具放在一起看,会发现 xAI 这次的算盘打得挺精——它没去碰 Claude Sonnet 在 SWE-bench 上的高分,也没硬刚 GPT 的通用能力,而是从开发者最痛的两个点直接切:贵和慢

Grok Build 0.1 API 发布页面截图

三个数字基本说明了它想干什么

先把硬指标摆出来:

  • 推理速度:100+ tokens/秒
  • 上下文窗口:256K
  • 定价:输入 1 美元/百万 tokens,输出 2 美元/百万 tokens

这三个数字单独拎出来都不算惊艳,但组合在一起,对应的就是一个非常具体的使用场景:多步骤、长链路、需要反复试错的 Agent 编程

你可以这样理解——Claude Sonnet 4.5 大概是 60-80 tokens/s 的输出速度,定价 3 美元/百万输入、15 美元/百万输出。同样跑一个 Cursor 里改十几个文件的重构任务,用 Sonnet 你可能要等 30 秒、花 0.2 美元;换成 grok-build-0.1,理论上等十几秒、花两三分钱。这个差距在做交互式编程时是直接能感受到的,尤其是你让 Agent 跑长链 ReAct 循环、动不动来个 "think → tool_call → observe → think" 的时候。

xAI 没给具体的 benchmark 跑分。这其实挺反常的——按惯例,发布一个编程模型不甩几张柱状图都不好意思见人。我的理解是,他们大概率知道在 SWE-bench Verified、Aider polyglot 这些榜单上硬刚 Claude 4.5 / GPT-5 Codex 是吃亏的,所以干脆换个叙事:"我不是最聪明的那个,但我是给 Agent 用得最顺手的那个。"

"Agentic Coding" 这个词,xAI 这次玩得很认真

发布文档里反复出现一个词叫 agentic harness——直译是 "Agent 套件"。xAI 直接点名了它推荐搭配使用的几个工具:

  • Grok Build CLI(自家产品,跟 Claude Code、Codex CLI 一个路数)
  • Cursor
  • Hermes Agent
  • OpenClaw
  • Kilo Code
  • OpenCode

这串名字基本覆盖了开源 Coding Agent 的半壁江山。Kilo Code 和 OpenCode 是这两年在开源圈起得很快的 Cline 系替代品,OpenClaw 是新冒出来的 MCP 原生 Agent。把模型直接打包进这些工具的推荐配置,说明 xAI 这次的发布策略是绕开 IDE 巨头,走开源 Agent 这条路把口碑做起来。

值得单独说一下的是 MCP 支持。grok-build-0.1 原生支持 Anthropic 那套 Model Context Protocol,这意味着你不用做适配层就能让它接管已经写好的 MCP server——比如本地的文件系统访问、GitHub 操作、数据库查询。这是个挺务实的选择,因为 MCP 在过去这一年事实上已经成了 Agent 工具的通用插座。

多模态、工具调用、结构化输出,一个不少

能力清单方面,grok-build-0.1 给得挺齐:

  • 文本 + 图像输入(截图调 bug、读 UI 设计稿都没问题)
  • 工具调用 / Function Calling
  • 结构化输出(JSON Schema)
  • 推理思考能力(reasoning)
  • 256K 上下文,输出无硬性长度限制

图像输入这个能力对编程 Agent 其实越来越重要。前端开发场景里,给 Agent 扔一张 Figma 截图让它实现,已经是 Cursor、v0 这类工具的标配玩法。grok-build-0.1 在这上面没缺席。

推理能力这块官方写得比较含糊——"具备推理思考能力"。从社区试用反馈看,它不像 o3 或 Claude 4.5 那样有显式的 thinking budget 控制,更像是把链式思考内化到了普通生成流程里。这种设计的好处是延迟低,缺点是复杂逻辑题上吃亏。和它 "快" 的定位是匹配的。

跟 Grok 4.3 的关系,这事儿挺微妙

一个容易被忽略的细节:xAI 官网 API 页面到目前为止,主推模型仍然是 Grok 4.3,grok-build-0.1 是被放在 "用途" 表里、对应 "编程" 这个分类下面。

这种安排说明 xAI 内部对模型矩阵的规划是:

  1. Grok 4.3 做通用旗舰,对标 GPT-5 和 Claude 4.5
  2. Grok Build 0.1 做编程垂类,跟 Claude Code、Codex 抢开发者份额
  3. 未来可能还会有更多带后缀的细分模型(Grok Research、Grok Vision 之类)

这跟 OpenAI 把 GPT 系列细分成 GPT-5、o3、Codex 的思路有点像,但 xAI 走得更激进——直接给编程模型一个独立的命名空间(build- 系列),而不是当成主模型的一个变体。

调用方式:和 OpenAI 格式兼容

xAI 这次延续了它一贯的做法——API 完全兼容 OpenAI SDK 格式,迁移成本几乎为零。下面是一个最小可用的调用示例:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.openai-hub.com/v1",
    api_key="your-key"
)

response = client.chat.completions.create(
    model="grok-build-0.1",
    messages=[
        {"role": "system", "content": "You are a coding agent."},
        {"role": "user", "content": "帮我用 FastAPI 写一个支持 SSE 流式输出的接口,要求带鉴权中间件。"}
    ],
    tools=[
        {
            "type": "function",
            "function": {
                "name": "write_file",
                "description": "Write content to a file",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "path": {"type": "string"},
                        "content": {"type": "string"}
                    },
                    "required": ["path", "content"]
                }
            }
        }
    ],
    stream=True
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

国内开发者要用的话,OpenAI Hub 已经把 grok-build-0.1 接进了模型列表,直接换 base_url 就能调,省去申请 xAI 账号和处理跨境支付的麻烦。一个 Key 同时跑 Grok、Claude、GPT 做对比测试也比较方便。

跟主流编程模型横向比一下

把目前几个主要竞品摆在一起:

模型 输入价格 输出价格 上下文 输出速度
grok-build-0.1 $1/M $2/M 256K 100+ tok/s
Claude Sonnet 4.5 $3/M $15/M 200K 60-80 tok/s
GPT-5 Codex $2.5/M $10/M 400K 50-70 tok/s
Gemini 2.5 Pro $1.25/M $10/M 1M 80-100 tok/s
DeepSeek V3.2 $0.27/M $1.1/M 128K 40-60 tok/s

看得出来 grok-build-0.1 卡的是一个挺巧的位置——比闭源大厂便宜很多,比 DeepSeek 贵但速度快得多,上下文窗口比 DeepSeek 大一倍

这个定位对什么人最有吸引力?我的判断是两类:

  1. 做 Coding Agent 产品的创业团队:Sonnet 单次推理成本太高,跑用户量上去之后 token 账单很恐怖;DeepSeek 便宜但响应慢、上下文短,做不了大项目重构。Grok Build 在中间是个甜蜜点。
  2. 重度使用 CLI Agent 的个人开发者:每天用 Claude Code 写代码的人都知道,月底账单很容易上百美元。如果 Grok Build CLI 体验跟得上,是有替代意愿的。

它的短板也得说清楚

不要被低价和高速度冲昏头脑。grok-build-0.1 目前有几个明确的弱点:

  • 没有公开 benchmark:在 SWE-bench、Aider、LiveCodeBench 这些权威榜单上 xAI 一个数字都没放。这种克制要么是真不够看,要么是策略性回避,怎么解读都行,但开发者选模型时心里得有数。
  • "0.1" 这个版本号是诚实的:public beta 阶段,behavior 可能会变,工具调用稳定性、长上下文记忆这些细节需要时间打磨。生产环境直接接,要做好容错。
  • 生态还没起来:Claude Code 背后是 Anthropic 投入了一年多的 CLI 产品打磨,配套的 prompt 工程经验、agent 框架、社区配方都很成熟。Grok Build CLI 才刚出来,开发者还得自己摸索。
  • 训练数据时效性未知:xAI 没公开 cutoff date,对 2025 年新出的库和 API 熟不熟还得实测。

写在最后

大模型的竞争已经从 "谁更聪明" 卷到了 "谁更适合具体场景"。grok-build-0.1 不是为了在榜单上压过 Claude,它瞄准的是一个非常具体的细分市场——给 Agent 用的、跑得快的、付得起的编程模型。这个定位本身就比一些四平八稳的 "全面对标 SOTA" 式新发布要清醒。

xAI 用 "build-" 这个独立系列的命名方式也在传达一个信号:编程不再是通用大模型顺带处理的事,它是一个值得专门优化、独立迭代的方向。从 GitHub Copilot 单点辅助、到 Cursor 全 IDE 交互、再到 Claude Code 和 Grok Build CLI 这种端到端 Agent,编程范式的迁移已经发生了。模型层跟上这个迁移,是必然的。

至于这把火能不能烧起来,看接下来两件事:一是 SWE-bench Verified 的真实分数(社区肯定会测),二是 Grok Build CLI 的产品打磨能不能跟上 Claude Code 的节奏。0.1 只是个开始。

参考来源