马斯克今日宣布 Grok V9-Medium（1.5T 参数）完成训练，补充训练中加入大量 Cursor 数据，强化学习即将启动，预计 2-3 周后正式发布。相比目前 0.5T 的 V8-Small，这将是编程任务处理能力的重大跃升。

Grok V9-Medium 完成训练：1.5T 参数主攻编程,马斯克称两周内发布

马斯克今天在 X 平台宣布,Grok 基础模型 V9-Medium（1.5 万亿参数）已完成训练。这是 SpaceXAI（原 xAI）在五月密集发布计划中的关键一环——按照此前路线图,1T 参数的 Grok 4.4 已在月初上线,1.5T 的 V9-Medium 正是月底承诺的 Grok 4.5。

评估结果「相当不错」,马斯克的原话。微调工作正在进行,强化学习将于几天后启动,距离公开发布还有 2 到 3 周。

用 Cursor 数据训练编程模型

这次训练最值得关注的细节是数据源。马斯克透露,补充训练中加入了「大量 Cursor 数据」,并且后续还会继续添加。

Cursor 是目前最火的 AI 编程工具之一,积累了海量真实开发场景下的代码补全、重构、调试交互数据。这些数据的价值在于它们不是孤立的代码片段,而是带有上下文、意图、迭代修正过程的完整编程会话。用这种数据训练出来的模型,理论上能更好地理解开发者的真实需求,而不是只会背 LeetCode。

对比来看,OpenAI 的 GPT-5 和 Anthropic 的 Claude Opus 4.7 在编程能力上已经卷到 SWE-bench Verified 90% 以上的分数。Cursor 数据的加入,可能是 SpaceXAI 试图在这条赛道上追平甚至反超的关键武器。

Grok V9-Medium 训练进度时间线示意图

从 0.5T 到 1.5T,一个月三级跳

目前支撑所有 Grok 生产流量的是 0.5T 参数的 V8-Small。马斯克强调,V9-Medium 将是「重大进步」,尤其是在处理困难的编程任务方面。

回顾这一个月的节奏:

4 月中旬:Grok 4.3 Beta 上线,0.5T 参数,已经能把神经科学论文转成 PPT,Office 插件在开发中
5 月初:Grok 4.4 发布,1T 参数,编程能力、长上下文处理和整体性能飞跃
5 月底:V9-Medium 完成训练,1.5T 参数,进一步逼近 6T 的 Grok 5

这种参数规模的三级跳,在 AI 发展史上没有先例。OpenAI 从 GPT-4 到 GPT-5 用了将近两年,Anthropic 从 Claude 3 到 Claude Opus 4.7 也是按季度迭代。SpaceXAI 的打法更像是用算力和工程能力硬堆,Colossus 2 超算集群 55 万块 NVIDIA GB200/GB300 GPU 同时训练 7 个不同规模的模型,1T、1.5T、6T、10T 全在流水线上。

编程能力的实际意义

「困难的编程任务」这个说法值得展开。目前主流模型在简单的函数补全、bug 修复上已经接近人类水平,真正的差距在于:

多文件协同修改:改一个接口定义,需要同步更新所有调用方、测试用例、文档
架构级重构:不是改几行代码,而是调整模块边界、数据流、依赖关系
模糊需求理解:用户说「这个功能太慢了」,模型需要定位瓶颈、权衡方案、给出可执行的优化路径
长上下文推理:在几万行代码的项目中找到一个隐蔽的逻辑错误

Cursor 数据的价值就在这里。它记录的不是「写一个快排」这种教科书问题,而是「用户在第 3 次尝试后终于解决了一个跨三个文件的状态同步 bug」这种真实场景。如果 V9-Medium 真的吃透了这些数据,它在实际开发中的表现可能会比 benchmark 分数更有说服力。

SpaceXAI 的独特优势

马斯克的 AI 战略有几个别人没有的资源:

X 平台的实时数据流:每天 6800 万条推文,这是 OpenAI 和 Anthropic 拿不到的
特斯拉的物理世界数据:车队传感器数据,为具身智能提供支持
SpaceX 的工程基因:122 天建成吉瓦级超算集群,这种执行速度在硅谷其他公司不可想象

但这些优势能否转化为模型能力,还需要时间验证。目前 Anthropic 的 Claude Opus 4.7 在 SWE-bench Verified 上跑出 93.9% 的分数,这是半年前所有人都认为不可能的数字。OpenAI 的 GPT-5.5 据说也在路上。编程赛道的竞争已经白热化。

主流模型编程能力对比雷达图

多智能体架构的另一条路

参数规模不是唯一的路径。SpaceXAI 在多智能体架构上的探索可能更有意思:

Grok 4.20:4 智能体协作,分别负责规划、执行、验证、优化
Grok 4.20 Heavy:16 智能体系统,更细粒度的任务分解
Grok 5 预期:动态智能体生成,根据任务复杂度自动调整协作结构

这条路线比单纯堆参数更接近人类的工作方式。一个资深开发者解决复杂问题时,也是在脑子里运行多个「子进程」:一个负责理解需求,一个负责设计方案,一个负责写代码,一个负责 review。如果模型能模拟这种协作机制,可能比一个 10T 参数的单体模型更有效。

前特斯拉 AI 高级总监、OpenAI 联合创始人 Andrej Karpathy 就明确表示,AGI 仍然需要十年时间,远非某些行业领袖宣称的那样「近在眼前」。马斯克此前在 Baron Capital 投资大会上说 Grok 5 达到 AGI 的概率是「10%,并且在持续上升」,现在直接宣称「Grok 5 就是 AGI」。这种表态更像是造势,而不是技术判断。

对开发者的实际影响

如果 V9-Medium 真的在两周内发布,开发者最关心的是:

API 可用性:会不会像 GPT-5 一样先给企业客户,普通开发者要等几个月?
定价策略:1.5T 参数的推理成本肯定比 0.5T 高,价格会是 Claude Opus 4.7 的水平还是更贵?
实际能力:benchmark 分数是一回事,真实项目中的表现是另一回事。Cursor 数据的加入到底有多大帮助,需要实测
生态整合:会不会像 Claude 那样有官方的 VSCode 插件、MCP 协议支持?

SpaceXAI 在 2 月被 SpaceX 收购后改名为 SpaceXAI,这意味着它现在是 SpaceX 的 AI 产品线,而不是独立公司。这种组织架构的变化可能会影响产品策略——SpaceX 的风格是「先做出来再说」,而不是像 OpenAI 那样层层 safety review。

API 调用示例

V9-Medium 发布后,通过 OpenAI Hub 调用会非常简单。OpenAI Hub 已经支持 Grok 系列模型,兼容 OpenAI 格式,国内直连无需魔法:

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="grok-v9-medium",  # 发布后的模型名称
    messages=[
        {"role": "system", "content": "你是一个资深 Python 开发者,擅长代码重构和性能优化。"},
        {"role": "user", "content": "这段代码有性能问题,帮我优化:\n\n[粘贴你的代码]"}
    ],
    temperature=0.7,
    max_tokens=4096
)

print(response.choices[0].message.content)

对于复杂的编程任务,可以利用 V9-Medium 的长上下文能力:

# 多文件协同修改场景
files_context = """
# file: api/user.py
[文件内容]

# file: models/user.py
[文件内容]

# file: tests/test_user.py
[文件内容]
"""

response = client.chat.completions.create(
    model="grok-v9-medium",
    messages=[
        {"role": "system", "content": "你需要修改 User 模型的字段定义,并同步更新所有相关文件。"},
        {"role": "user", "content": f"项目结构如下:\n{files_context}\n\n需求:将 username 字段改为 email,并添加唯一索引。给出所有需要修改的地方。"}
    ],
    temperature=0.3,  # 代码生成任务用较低的 temperature
    max_tokens=8192
)

如果你在用 Cursor 或其他 AI 编程工具,也可以通过配置自定义模型接入 OpenAI Hub,直接在编辑器里调用 V9-Medium。

结语

V9-Medium 的发布是 SpaceXAI 五月攻势的一部分。按照马斯克的说法,6T 参数的 Grok 5 才是「核武器」,1.5T 只是「流水线上的小品」。但对于大多数开发者来说,1.5T 已经足够解决日常遇到的编程问题。

真正的问题不是参数规模,而是模型能否理解你的意图、给出可执行的方案、在迭代中不断逼近正确答案。Cursor 数据的加入是个好信号,但最终还是要看实际表现。

两周后见分晓。OpenAI Hub 会在第一时间接入 V9-Medium,到时候可以直接上手测试。

参考来源

马斯克宣布 Grok V9-Medium 1.5T 模型完成训练 - IT之家 - 官方发布消息及技术细节
马斯克暴走官宣:Grok 5就是AGI - 36氪 - SpaceXAI 五月发布计划全景分析

Grok V9-Medium 完成训练：1.5T 参数主攻编程，马斯克称两周内发布