xAI 这次不卷参数,卷速度
5 月底,xAI 在不太张扬的氛围里把 grok-build-0.1 推上了 API 公测。这是 Grok 系列第一次单独切出一个编程专用模型,跟通用的 Grok 4.3 分开走,定位很明确——给写代码的 Agent 用,不是给聊天机器人用。
如果只看官方那篇短得不能再短的发布说明,你可能会觉得这又是一个常规的 "我们也有编程模型" 式更新。但把价格、速度、上下文窗口和它接入的那一堆 Agentic 工具放在一起看,会发现 xAI 这次的算盘打得挺精——它没去碰 Claude Sonnet 在 SWE-bench 上的高分,也没硬刚 GPT 的通用能力,而是从开发者最痛的两个点直接切:贵和慢。

三个数字基本说明了它想干什么
先把硬指标摆出来:
- 推理速度:100+ tokens/秒
- 上下文窗口:256K
- 定价:输入 1 美元/百万 tokens,输出 2 美元/百万 tokens
这三个数字单独拎出来都不算惊艳,但组合在一起,对应的就是一个非常具体的使用场景:多步骤、长链路、需要反复试错的 Agent 编程。
你可以这样理解——Claude Sonnet 4.5 大概是 60-80 tokens/s 的输出速度,定价 3 美元/百万输入、15 美元/百万输出。同样跑一个 Cursor 里改十几个文件的重构任务,用 Sonnet 你可能要等 30 秒、花 0.2 美元;换成 grok-build-0.1,理论上等十几秒、花两三分钱。这个差距在做交互式编程时是直接能感受到的,尤其是你让 Agent 跑长链 ReAct 循环、动不动来个 "think → tool_call → observe → think" 的时候。
xAI 没给具体的 benchmark 跑分。这其实挺反常的——按惯例,发布一个编程模型不甩几张柱状图都不好意思见人。我的理解是,他们大概率知道在 SWE-bench Verified、Aider polyglot 这些榜单上硬刚 Claude 4.5 / GPT-5 Codex 是吃亏的,所以干脆换个叙事:"我不是最聪明的那个,但我是给 Agent 用得最顺手的那个。"
"Agentic Coding" 这个词,xAI 这次玩得很认真
发布文档里反复出现一个词叫 agentic harness——直译是 "Agent 套件"。xAI 直接点名了它推荐搭配使用的几个工具:
- Grok Build CLI(自家产品,跟 Claude Code、Codex CLI 一个路数)
- Cursor
- Hermes Agent
- OpenClaw
- Kilo Code
- OpenCode
这串名字基本覆盖了开源 Coding Agent 的半壁江山。Kilo Code 和 OpenCode 是这两年在开源圈起得很快的 Cline 系替代品,OpenClaw 是新冒出来的 MCP 原生 Agent。把模型直接打包进这些工具的推荐配置,说明 xAI 这次的发布策略是绕开 IDE 巨头,走开源 Agent 这条路把口碑做起来。
值得单独说一下的是 MCP 支持。grok-build-0.1 原生支持 Anthropic 那套 Model Context Protocol,这意味着你不用做适配层就能让它接管已经写好的 MCP server——比如本地的文件系统访问、GitHub 操作、数据库查询。这是个挺务实的选择,因为 MCP 在过去这一年事实上已经成了 Agent 工具的通用插座。
多模态、工具调用、结构化输出,一个不少
能力清单方面,grok-build-0.1 给得挺齐:
- 文本 + 图像输入(截图调 bug、读 UI 设计稿都没问题)
- 工具调用 / Function Calling
- 结构化输出(JSON Schema)
- 推理思考能力(reasoning)
- 256K 上下文,输出无硬性长度限制
图像输入这个能力对编程 Agent 其实越来越重要。前端开发场景里,给 Agent 扔一张 Figma 截图让它实现,已经是 Cursor、v0 这类工具的标配玩法。grok-build-0.1 在这上面没缺席。
推理能力这块官方写得比较含糊——"具备推理思考能力"。从社区试用反馈看,它不像 o3 或 Claude 4.5 那样有显式的 thinking budget 控制,更像是把链式思考内化到了普通生成流程里。这种设计的好处是延迟低,缺点是复杂逻辑题上吃亏。和它 "快" 的定位是匹配的。
跟 Grok 4.3 的关系,这事儿挺微妙
一个容易被忽略的细节:xAI 官网 API 页面到目前为止,主推模型仍然是 Grok 4.3,grok-build-0.1 是被放在 "用途" 表里、对应 "编程" 这个分类下面。
这种安排说明 xAI 内部对模型矩阵的规划是:
- Grok 4.3 做通用旗舰,对标 GPT-5 和 Claude 4.5
- Grok Build 0.1 做编程垂类,跟 Claude Code、Codex 抢开发者份额
- 未来可能还会有更多带后缀的细分模型(Grok Research、Grok Vision 之类)
这跟 OpenAI 把 GPT 系列细分成 GPT-5、o3、Codex 的思路有点像,但 xAI 走得更激进——直接给编程模型一个独立的命名空间(build- 系列),而不是当成主模型的一个变体。
调用方式:和 OpenAI 格式兼容
xAI 这次延续了它一贯的做法——API 完全兼容 OpenAI SDK 格式,迁移成本几乎为零。下面是一个最小可用的调用示例:
from openai import OpenAI
client = OpenAI(
base_url="https://api.openai-hub.com/v1",
api_key="your-key"
)
response = client.chat.completions.create(
model="grok-build-0.1",
messages=[
{"role": "system", "content": "You are a coding agent."},
{"role": "user", "content": "帮我用 FastAPI 写一个支持 SSE 流式输出的接口,要求带鉴权中间件。"}
],
tools=[
{
"type": "function",
"function": {
"name": "write_file",
"description": "Write content to a file",
"parameters": {
"type": "object",
"properties": {
"path": {"type": "string"},
"content": {"type": "string"}
},
"required": ["path", "content"]
}
}
}
],
stream=True
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
国内开发者要用的话,OpenAI Hub 已经把 grok-build-0.1 接进了模型列表,直接换 base_url 就能调,省去申请 xAI 账号和处理跨境支付的麻烦。一个 Key 同时跑 Grok、Claude、GPT 做对比测试也比较方便。
跟主流编程模型横向比一下
把目前几个主要竞品摆在一起:
| 模型 | 输入价格 | 输出价格 | 上下文 | 输出速度 |
|---|---|---|---|---|
| grok-build-0.1 | $1/M | $2/M | 256K | 100+ tok/s |
| Claude Sonnet 4.5 | $3/M | $15/M | 200K | 60-80 tok/s |
| GPT-5 Codex | $2.5/M | $10/M | 400K | 50-70 tok/s |
| Gemini 2.5 Pro | $1.25/M | $10/M | 1M | 80-100 tok/s |
| DeepSeek V3.2 | $0.27/M | $1.1/M | 128K | 40-60 tok/s |
看得出来 grok-build-0.1 卡的是一个挺巧的位置——比闭源大厂便宜很多,比 DeepSeek 贵但速度快得多,上下文窗口比 DeepSeek 大一倍。
这个定位对什么人最有吸引力?我的判断是两类:
- 做 Coding Agent 产品的创业团队:Sonnet 单次推理成本太高,跑用户量上去之后 token 账单很恐怖;DeepSeek 便宜但响应慢、上下文短,做不了大项目重构。Grok Build 在中间是个甜蜜点。
- 重度使用 CLI Agent 的个人开发者:每天用 Claude Code 写代码的人都知道,月底账单很容易上百美元。如果 Grok Build CLI 体验跟得上,是有替代意愿的。
它的短板也得说清楚
不要被低价和高速度冲昏头脑。grok-build-0.1 目前有几个明确的弱点:
- 没有公开 benchmark:在 SWE-bench、Aider、LiveCodeBench 这些权威榜单上 xAI 一个数字都没放。这种克制要么是真不够看,要么是策略性回避,怎么解读都行,但开发者选模型时心里得有数。
- "0.1" 这个版本号是诚实的:public beta 阶段,behavior 可能会变,工具调用稳定性、长上下文记忆这些细节需要时间打磨。生产环境直接接,要做好容错。
- 生态还没起来:Claude Code 背后是 Anthropic 投入了一年多的 CLI 产品打磨,配套的 prompt 工程经验、agent 框架、社区配方都很成熟。Grok Build CLI 才刚出来,开发者还得自己摸索。
- 训练数据时效性未知:xAI 没公开 cutoff date,对 2025 年新出的库和 API 熟不熟还得实测。
写在最后
大模型的竞争已经从 "谁更聪明" 卷到了 "谁更适合具体场景"。grok-build-0.1 不是为了在榜单上压过 Claude,它瞄准的是一个非常具体的细分市场——给 Agent 用的、跑得快的、付得起的编程模型。这个定位本身就比一些四平八稳的 "全面对标 SOTA" 式新发布要清醒。
xAI 用 "build-" 这个独立系列的命名方式也在传达一个信号:编程不再是通用大模型顺带处理的事,它是一个值得专门优化、独立迭代的方向。从 GitHub Copilot 单点辅助、到 Cursor 全 IDE 交互、再到 Claude Code 和 Grok Build CLI 这种端到端 Agent,编程范式的迁移已经发生了。模型层跟上这个迁移,是必然的。
至于这把火能不能烧起来,看接下来两件事:一是 SWE-bench Verified 的真实分数(社区肯定会测),二是 Grok Build CLI 的产品打磨能不能跟上 Claude Code 的节奏。0.1 只是个开始。
参考来源
- Grok-build-0.1 API发布讨论 - linux.do — 国内开发者社区的第一手讨论与试用反馈