xAI 发布 Grok Build 0.1 编程 API：100 tokens/s，1 美元/百万 token

xAI 推出专为 Agentic 编程任务训练的 grok-build-0.1，256K 上下文、100+ tokens/s 推理速度，输入 1 美元/百万 tokens，剑指 Claude 和 Cursor 的腹地。

xAI 这次不卷参数，卷速度

5 月底，xAI 在不太张扬的氛围里把 grok-build-0.1 推上了 API 公测。这是 Grok 系列第一次单独切出一个编程专用模型，跟通用的 Grok 4.3 分开走，定位很明确——给写代码的 Agent 用，不是给聊天机器人用。

如果只看官方那篇短得不能再短的发布说明，你可能会觉得这又是一个常规的 "我们也有编程模型" 式更新。但把价格、速度、上下文窗口和它接入的那一堆 Agentic 工具放在一起看，会发现 xAI 这次的算盘打得挺精——它没去碰 Claude Sonnet 在 SWE-bench 上的高分，也没硬刚 GPT 的通用能力，而是从开发者最痛的两个点直接切：贵和慢。

Grok Build 0.1 API 发布页面截图

三个数字基本说明了它想干什么

先把硬指标摆出来：

推理速度：100+ tokens/秒
上下文窗口：256K
定价：输入 1 美元/百万 tokens，输出 2 美元/百万 tokens

这三个数字单独拎出来都不算惊艳，但组合在一起，对应的就是一个非常具体的使用场景：多步骤、长链路、需要反复试错的 Agent 编程。

你可以这样理解——Claude Sonnet 4.5 大概是 60-80 tokens/s 的输出速度，定价 3 美元/百万输入、15 美元/百万输出。同样跑一个 Cursor 里改十几个文件的重构任务，用 Sonnet 你可能要等 30 秒、花 0.2 美元；换成 grok-build-0.1，理论上等十几秒、花两三分钱。这个差距在做交互式编程时是直接能感受到的，尤其是你让 Agent 跑长链 ReAct 循环、动不动来个 "think → tool_call → observe → think" 的时候。

xAI 没给具体的 benchmark 跑分。这其实挺反常的——按惯例，发布一个编程模型不甩几张柱状图都不好意思见人。我的理解是，他们大概率知道在 SWE-bench Verified、Aider polyglot 这些榜单上硬刚 Claude 4.5 / GPT-5 Codex 是吃亏的，所以干脆换个叙事："我不是最聪明的那个，但我是给 Agent 用得最顺手的那个。"

"Agentic Coding" 这个词，xAI 这次玩得很认真

发布文档里反复出现一个词叫 agentic harness——直译是 "Agent 套件"。xAI 直接点名了它推荐搭配使用的几个工具：

Grok Build CLI（自家产品，跟 Claude Code、Codex CLI 一个路数）
Cursor
Hermes Agent
OpenClaw
Kilo Code
OpenCode

这串名字基本覆盖了开源 Coding Agent 的半壁江山。Kilo Code 和 OpenCode 是这两年在开源圈起得很快的 Cline 系替代品，OpenClaw 是新冒出来的 MCP 原生 Agent。把模型直接打包进这些工具的推荐配置，说明 xAI 这次的发布策略是绕开 IDE 巨头，走开源 Agent 这条路把口碑做起来。

值得单独说一下的是 MCP 支持。grok-build-0.1 原生支持 Anthropic 那套 Model Context Protocol，这意味着你不用做适配层就能让它接管已经写好的 MCP server——比如本地的文件系统访问、GitHub 操作、数据库查询。这是个挺务实的选择，因为 MCP 在过去这一年事实上已经成了 Agent 工具的通用插座。

多模态、工具调用、结构化输出，一个不少

能力清单方面，grok-build-0.1 给得挺齐：

文本 + 图像输入（截图调 bug、读 UI 设计稿都没问题）
工具调用 / Function Calling
结构化输出（JSON Schema）
推理思考能力（reasoning）
256K 上下文，输出无硬性长度限制

图像输入这个能力对编程 Agent 其实越来越重要。前端开发场景里，给 Agent 扔一张 Figma 截图让它实现，已经是 Cursor、v0 这类工具的标配玩法。grok-build-0.1 在这上面没缺席。

推理能力这块官方写得比较含糊——"具备推理思考能力"。从社区试用反馈看，它不像 o3 或 Claude 4.5 那样有显式的 thinking budget 控制，更像是把链式思考内化到了普通生成流程里。这种设计的好处是延迟低，缺点是复杂逻辑题上吃亏。和它 "快" 的定位是匹配的。

跟 Grok 4.3 的关系，这事儿挺微妙

一个容易被忽略的细节：xAI 官网 API 页面到目前为止，主推模型仍然是 Grok 4.3，grok-build-0.1 是被放在 "用途" 表里、对应 "编程" 这个分类下面。

这种安排说明 xAI 内部对模型矩阵的规划是：

Grok 4.3 做通用旗舰，对标 GPT-5 和 Claude 4.5
Grok Build 0.1 做编程垂类，跟 Claude Code、Codex 抢开发者份额
未来可能还会有更多带后缀的细分模型（Grok Research、Grok Vision 之类）

这跟 OpenAI 把 GPT 系列细分成 GPT-5、o3、Codex 的思路有点像，但 xAI 走得更激进——直接给编程模型一个独立的命名空间（build- 系列），而不是当成主模型的一个变体。

调用方式：和 OpenAI 格式兼容

xAI 这次延续了它一贯的做法——API 完全兼容 OpenAI SDK 格式，迁移成本几乎为零。下面是一个最小可用的调用示例：

from openai import OpenAI

client = OpenAI(
    base_url="https://api.openai-hub.com/v1",
    api_key="your-key"
)

response = client.chat.completions.create(
    model="grok-build-0.1",
    messages=[
        {"role": "system", "content": "You are a coding agent."},
        {"role": "user", "content": "帮我用 FastAPI 写一个支持 SSE 流式输出的接口，要求带鉴权中间件。"}
    ],
    tools=[
        {
            "type": "function",
            "function": {
                "name": "write_file",
                "description": "Write content to a file",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "path": {"type": "string"},
                        "content": {"type": "string"}
                    },
                    "required": ["path", "content"]
                }
            }
        }
    ],
    stream=True
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

国内开发者要用的话，OpenAI Hub 已经把 grok-build-0.1 接进了模型列表，直接换 base_url 就能调，省去申请 xAI 账号和处理跨境支付的麻烦。一个 Key 同时跑 Grok、Claude、GPT 做对比测试也比较方便。

跟主流编程模型横向比一下

把目前几个主要竞品摆在一起：

模型	输入价格	输出价格	上下文	输出速度
grok-build-0.1	$1/M	$2/M	256K	100+ tok/s
Claude Sonnet 4.5	$3/M	$15/M	200K	60-80 tok/s
GPT-5 Codex	$2.5/M	$10/M	400K	50-70 tok/s
Gemini 2.5 Pro	$1.25/M	$10/M	1M	80-100 tok/s
DeepSeek V3.2	$0.27/M	$1.1/M	128K	40-60 tok/s

看得出来 grok-build-0.1 卡的是一个挺巧的位置——比闭源大厂便宜很多，比 DeepSeek 贵但速度快得多，上下文窗口比 DeepSeek 大一倍。

这个定位对什么人最有吸引力？我的判断是两类：

做 Coding Agent 产品的创业团队：Sonnet 单次推理成本太高，跑用户量上去之后 token 账单很恐怖；DeepSeek 便宜但响应慢、上下文短，做不了大项目重构。Grok Build 在中间是个甜蜜点。
重度使用 CLI Agent 的个人开发者：每天用 Claude Code 写代码的人都知道，月底账单很容易上百美元。如果 Grok Build CLI 体验跟得上，是有替代意愿的。

它的短板也得说清楚

不要被低价和高速度冲昏头脑。grok-build-0.1 目前有几个明确的弱点：

没有公开 benchmark：在 SWE-bench、Aider、LiveCodeBench 这些权威榜单上 xAI 一个数字都没放。这种克制要么是真不够看，要么是策略性回避，怎么解读都行，但开发者选模型时心里得有数。
"0.1" 这个版本号是诚实的：public beta 阶段，behavior 可能会变，工具调用稳定性、长上下文记忆这些细节需要时间打磨。生产环境直接接，要做好容错。
生态还没起来：Claude Code 背后是 Anthropic 投入了一年多的 CLI 产品打磨，配套的 prompt 工程经验、agent 框架、社区配方都很成熟。Grok Build CLI 才刚出来，开发者还得自己摸索。
训练数据时效性未知：xAI 没公开 cutoff date，对 2025 年新出的库和 API 熟不熟还得实测。

写在最后

大模型的竞争已经从 "谁更聪明" 卷到了 "谁更适合具体场景"。grok-build-0.1 不是为了在榜单上压过 Claude，它瞄准的是一个非常具体的细分市场——给 Agent 用的、跑得快的、付得起的编程模型。这个定位本身就比一些四平八稳的 "全面对标 SOTA" 式新发布要清醒。

xAI 用 "build-" 这个独立系列的命名方式也在传达一个信号：编程不再是通用大模型顺带处理的事，它是一个值得专门优化、独立迭代的方向。从 GitHub Copilot 单点辅助、到 Cursor 全 IDE 交互、再到 Claude Code 和 Grok Build CLI 这种端到端 Agent，编程范式的迁移已经发生了。模型层跟上这个迁移，是必然的。

至于这把火能不能烧起来，看接下来两件事：一是 SWE-bench Verified 的真实分数（社区肯定会测），二是 Grok Build CLI 的产品打磨能不能跟上 Claude Code 的节奏。0.1 只是个开始。

参考来源

Grok-build-0.1 API发布讨论 - linux.do — 国内开发者社区的第一手讨论与试用反馈

xAI 甩出 Grok Build 0.1：编程模型动刀 100 tokens/s