马斯克又扔了个重磅消息。
4 月 8 日,他在 X 上直接晒出了 xAI Colossus 2 超算的训练任务清单——这台全球最大的单站点 AI 训练设施,正在同时跑 7 款模型。不是排队,是并行。
这份清单的参数规模跨度相当夸张:
- Imagine V2:图像生成模型,下一代
- 1T 变体 × 2:两款万亿参数级模型
- 1.5T 变体 × 2:两款 1.5 万亿参数级模型
- 6T 模型:6 万亿参数,大概率就是此前曝光的 Grok 5
- 10T 模型:10 万亿参数,目前公开信息中参数量最大的在训模型
有网友追问 10T 模型要练多久,马斯克回了一句:预训练大约 2 个月。并补了一句「还有一些赶超工作要做」。
这句话的潜台词不难读——xAI 认为自己在某些维度上还没追上第一梯队,但手里的牌已经摊开了。

55 万张 GPU,180 亿美元,一个疯狂的工程故事
要理解这 7 个模型同时训练意味着什么,得先看看 Colossus 2 到底是个什么量级的东西。
今年 1 月,马斯克宣布 Colossus 2 正式上线。一些关键数字:
- 约 55 万块 NVIDIA GPU(包括 H100/H200 和新一代 GB200/GB300)
- 总造价约 180 亿美元
- 功耗达到 2 吉瓦(GW)级别
- 等效算力约 50 exaflops——大约是全球最快的 10 台超级计算机加起来的 7 倍
2 吉瓦是什么概念?一座中型城市的用电量。你家小区一年的电费,可能不够这台机器跑一个下午。
更离谱的是建设速度。Colossus 一期工程从动工到 20 万张 GPU 上线,只花了 214 天。这在数据中心行业几乎是不可想象的——通常一个万卡集群的部署周期就要大半年。马斯克的做法很简单粗暴:先把硬件堆上去,边跑边调。用他自己的话说,这是「第一性原理」。
说白了就是暴力出奇迹。
架构拆解:不只是堆卡
但 Colossus 2 不是简单地把几十万张卡塞进机房就完事了。能让 7 个模型并行训练不崩,背后的工程复杂度远超想象。
计算层面,xAI 没有采用 NVIDIA 的标准 DGX SuperPOD 方案,而是联合 Supermicro 做了深度定制。每个计算节点是 8-GPU 的液冷托盘,冷板直接覆盖 GPU、CPU 和 PCIe 交换芯片三大热源。这种芯片级直接液冷(D2C)方案在这个规模下几乎是唯一选择——风冷在 2 吉瓦功耗面前就是个笑话。
网络层面,采用的是 NVIDIA Spectrum-X 400G 以太网方案,而不是传统 HPC 领域更常见的 InfiniBand。整个网络是一个严格 1:1 无收敛比的 CLOS 架构,用 Spectrum-4 SN5600 交换机搭建。简单理解:任意两张 GPU 之间的通信带宽是对等的,不存在瓶颈。这对于大模型训练中的梯度同步至关重要。
一个有意思的细节:800G 交换机的下行口通过一分二 AOC 线缆拆分成两个 400G 端口接服务器。这种做法在成本和布线复杂度之间找到了一个巧妙的平衡点。
存储层面更有意思。一期用的是 VAST Data 的分布式存储,追求的是快速上线;扩展阶段换成了 DDN 的 EXAScaler(基于 Lustre 的并行文件系统)加 Infinia 对象存储。前者负责训练时的高吞吐 I/O,后者当数据湖存原始数据集。总存储容量超过 1 EB。
1 EB = 1000 PB = 100 万 TB。你手机里 256GB 的存储,大约需要 400 万台才能凑齐。
10T 参数意味着什么?
把视角拉回到模型本身。
目前公开的大模型参数量天花板,大致是这样的:GPT-4 被广泛推测在 1.8T 左右(MoE 架构),Meta 的 Llama 3.1 最大到 405B,Google 的 Gemini Ultra 估计在万亿级。而 xAI 直接把数字拉到了 10T。
10 万亿参数,这个数字本身就是一个工程声明:我有足够的算力来喂饱它。
但参数量大不等于模型好,这个道理行业里的人都懂。关键在于几个问题:
- 架构是什么? 如果是 Dense 模型,10T 的训练和推理成本都会极其恐怖。大概率是 MoE(混合专家)架构,实际激活参数可能只有总量的十分之一甚至更少。
- 数据够不够? 按照 Chinchilla 缩放定律的粗略估算,10T 参数的模型理论上需要约 200T token 的训练数据。目前公开互联网的高质量文本数据大约在 10-15T token 量级。合成数据、多模态数据、私有数据的比例会非常高。
- 推理怎么做? 训练出来只是第一步,能不能以合理的成本跑推理才是商业化的关键。10T 模型如果不做大幅度的蒸馏或量化,推理成本会让绝大多数应用场景望而却步。
马斯克说预训练要 2 个月。按 Colossus 2 的算力规模反推,这个时间线是合理的。但预训练之后还有 SFT、RLHF、安全对齐等一系列流程,真正能用上可能还要再等几个月。
清单里的 6T:大概率是 Grok 5
7 款模型里最值得关注的其实不是 10T,而是 6T。
今年 1 月 Colossus 2 上线时,马斯克在采访中明确提到过:Grok 5 拥有 6 万亿参数,预计上半年发布。现在清单里赫然出现一个 6T 模型,对号入座的话,这就是 Grok 5。
如果 Grok 5 真的在上半年发布,它将直接面对 GPT-5 系列、Claude 4 和 Gemini 2.5 的竞争。从参数量上看,Grok 5 可能是这一代里最大的。但参数量的领先能否转化为实际能力的领先,还要看训练数据质量、对齐效果和推理效率。
值得一提的是,清单里还有 Imagine V2——xAI 的图像生成模型。这意味着 xAI 不只是在做语言模型,多模态布局也在同步推进。考虑到 X 平台上海量的图文数据,xAI 在图像理解和生成方面有天然的数据优势。
算力军备竞赛:谁在跟?
马斯克不是一个人在疯狂。
- OpenAI + 软银 + 甲骨文:「星际之门」计划,目标同样是 GW 级超算
- Meta:代号 Prometheus 的 GW 级项目,目标 2026 上半年上线
- Google:把 Cloud TPU 扩展到 100 万颗的计划,合同价值数百亿美元
- 微软 + OpenAI:持续扩张 Azure AI 基础设施
根据 Epoch AI 的估算,Colossus 2 拥有相当于 140 万块 H100 的等效算力。这个数字目前排在全球第一。但竞争对手们的项目大多计划在 2026-2027 年上线,届时格局可能会再次洗牌。
有网友的评论很精辟:「AGI 最难的部分已不再是数学,而是字面意义上的——能不能找到足够多的电源插座。」
这不是玩笑。Dell'Oro Group 的高级研究总监 Baron Fung 预计,未来 2-3 年内,全球将新增数十 GW 的数据中心电力容量。与此同时,美国多地居民已经开始抗议数据中心建设——自 2022 年以来,几乎所有地区的居民电价涨幅都超过了通胀率。
算力竞赛的代价,最终会以电费账单的形式分摊到每个人头上。
对开发者意味着什么?
如果你是做 AI 应用的开发者,这波信息量其实很大:
短期来看,Grok 系列模型的能力会有一次显著跃升。如果 Grok 5 如期在上半年发布并开放 API,它会成为又一个值得纳入技术选型的选项。目前 Grok 的 API 已经兼容 OpenAI 格式,接入成本很低。
中期来看,10T 级别模型的出现会推动整个行业重新思考模型蒸馏和推理优化。当基座模型大到一定程度,小模型通过蒸馏获得的能力上限也会水涨船高。对于大多数开发者来说,真正用到的可能不是 10T 模型本身,而是从它蒸馏出来的、更高效的小模型。
长期来看,算力集中化的趋势越来越明显。能训 10T 模型的玩家全球不超过 5 家。这意味着 AI 应用层的开发者会越来越依赖少数几家模型提供商的 API。在这种格局下,用一个统一的接入层来管理多家模型的调用就变得很有实际价值。像 OpenAI Hub 这类兼容 OpenAI 格式的聚合平台,可以让你在 Grok、GPT、Claude、Gemini 之间灵活切换,不用为每家单独维护一套接入逻辑。
如果你想在 Grok 系列模型可用后第一时间试用,通过 OpenAI Hub 调用的方式大致如下:
from openai import OpenAI
client = OpenAI(
api_key="your-openai-hub-key",
base_url="https://api.openai-hub.com/v1"
)
response = client.chat.completions.create(
model="grok-5", # 模型上线后的实际名称以平台文档为准
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "解释一下 MoE 架构相比 Dense 模型的优势"}
],
temperature=0.7
)
print(response.choices[0].message.content)
接口格式和调用 GPT、Claude 完全一致,切换模型只需要改一个 model 参数。
写在最后
马斯克做事的风格一直是:先把规模拉到极致,再解决过程中的问题。SpaceX 是这样,特斯拉是这样,xAI 也是这样。
7 款模型同时训练、10T 参数、2 个月预训练周期——这些数字放在两年前会被当成吹牛。但 Colossus 2 确实已经建成并在运行,55 万张 GPU 确实在那里。
至于这些模型训出来到底好不好用,那是另一个问题。参数量从来不是唯一的衡量标准,OpenAI 用 o1 证明了推理时计算的价值,Anthropic 用 Claude 证明了对齐质量的重要性,Google 用 Gemini 证明了多模态融合的潜力。
但有一点是确定的:当一个玩家能同时开 7 条训练流水线,其中最大的一条是 10 万亿参数,这个行业的竞争烈度已经到了一个新的层级。
接下来几个月会很热闹。
参考来源
- 马斯克揭秘 xAI 进展:Colossus 2 正同时训练 7 款模型 — Linux.do 社区讨论帖,包含马斯克原始推文内容及社区解读