马斯克曝光 Colossus 2 同时训练7款模型最高10万亿参数

马斯克在 X 上披露 xAI Colossus 2 超算最新动态：正同时训练 7 款 AI 模型，参数规模从 1T 到 10T 不等，10T 模型预训练约需 2 个月。算力军备竞赛进入城市级能耗时代。

马斯克又扔了个重磅消息。

4 月 8 日，他在 X 上直接晒出了 xAI Colossus 2 超算的训练任务清单——这台全球最大的单站点 AI 训练设施，正在同时跑 7 款模型。不是排队，是并行。

这份清单的参数规模跨度相当夸张：

Imagine V2：图像生成模型，下一代
1T 变体 × 2：两款万亿参数级模型
1.5T 变体 × 2：两款 1.5 万亿参数级模型
6T 模型：6 万亿参数，大概率就是此前曝光的 Grok 5
10T 模型：10 万亿参数，目前公开信息中参数量最大的在训模型

有网友追问 10T 模型要练多久，马斯克回了一句：预训练大约 2 个月。并补了一句「还有一些赶超工作要做」。

这句话的潜台词不难读——xAI 认为自己在某些维度上还没追上第一梯队，但手里的牌已经摊开了。

Colossus 2 数据中心外景，展示其城市级规模的建筑群与配套设施

55 万张 GPU，180 亿美元，一个疯狂的工程故事

要理解这 7 个模型同时训练意味着什么，得先看看 Colossus 2 到底是个什么量级的东西。

今年 1 月，马斯克宣布 Colossus 2 正式上线。一些关键数字：

约 55 万块 NVIDIA GPU（包括 H100/H200 和新一代 GB200/GB300）
总造价约 180 亿美元
功耗达到 2 吉瓦（GW）级别
等效算力约 50 exaflops——大约是全球最快的 10 台超级计算机加起来的 7 倍

2 吉瓦是什么概念？一座中型城市的用电量。你家小区一年的电费，可能不够这台机器跑一个下午。

更离谱的是建设速度。Colossus 一期工程从动工到 20 万张 GPU 上线，只花了 214 天。这在数据中心行业几乎是不可想象的——通常一个万卡集群的部署周期就要大半年。马斯克的做法很简单粗暴：先把硬件堆上去，边跑边调。用他自己的话说，这是「第一性原理」。

说白了就是暴力出奇迹。

架构拆解：不只是堆卡

但 Colossus 2 不是简单地把几十万张卡塞进机房就完事了。能让 7 个模型并行训练不崩，背后的工程复杂度远超想象。

计算层面，xAI 没有采用 NVIDIA 的标准 DGX SuperPOD 方案，而是联合 Supermicro 做了深度定制。每个计算节点是 8-GPU 的液冷托盘，冷板直接覆盖 GPU、CPU 和 PCIe 交换芯片三大热源。这种芯片级直接液冷（D2C）方案在这个规模下几乎是唯一选择——风冷在 2 吉瓦功耗面前就是个笑话。

网络层面，采用的是 NVIDIA Spectrum-X 400G 以太网方案，而不是传统 HPC 领域更常见的 InfiniBand。整个网络是一个严格 1:1 无收敛比的 CLOS 架构，用 Spectrum-4 SN5600 交换机搭建。简单理解：任意两张 GPU 之间的通信带宽是对等的，不存在瓶颈。这对于大模型训练中的梯度同步至关重要。

一个有意思的细节：800G 交换机的下行口通过一分二 AOC 线缆拆分成两个 400G 端口接服务器。这种做法在成本和布线复杂度之间找到了一个巧妙的平衡点。

存储层面更有意思。一期用的是 VAST Data 的分布式存储，追求的是快速上线；扩展阶段换成了 DDN 的 EXAScaler（基于 Lustre 的并行文件系统）加 Infinia 对象存储。前者负责训练时的高吞吐 I/O，后者当数据湖存原始数据集。总存储容量超过 1 EB。

1 EB = 1000 PB = 100 万 TB。你手机里 256GB 的存储，大约需要 400 万台才能凑齐。

10T 参数意味着什么？

把视角拉回到模型本身。

目前公开的大模型参数量天花板，大致是这样的：GPT-4 被广泛推测在 1.8T 左右（MoE 架构），Meta 的 Llama 3.1 最大到 405B，Google 的 Gemini Ultra 估计在万亿级。而 xAI 直接把数字拉到了 10T。

10 万亿参数，这个数字本身就是一个工程声明：我有足够的算力来喂饱它。

但参数量大不等于模型好，这个道理行业里的人都懂。关键在于几个问题：

架构是什么？ 如果是 Dense 模型，10T 的训练和推理成本都会极其恐怖。大概率是 MoE（混合专家）架构，实际激活参数可能只有总量的十分之一甚至更少。
数据够不够？ 按照 Chinchilla 缩放定律的粗略估算，10T 参数的模型理论上需要约 200T token 的训练数据。目前公开互联网的高质量文本数据大约在 10-15T token 量级。合成数据、多模态数据、私有数据的比例会非常高。
推理怎么做？ 训练出来只是第一步，能不能以合理的成本跑推理才是商业化的关键。10T 模型如果不做大幅度的蒸馏或量化，推理成本会让绝大多数应用场景望而却步。

马斯克说预训练要 2 个月。按 Colossus 2 的算力规模反推，这个时间线是合理的。但预训练之后还有 SFT、RLHF、安全对齐等一系列流程，真正能用上可能还要再等几个月。

清单里的 6T：大概率是 Grok 5

7 款模型里最值得关注的其实不是 10T，而是 6T。

今年 1 月 Colossus 2 上线时，马斯克在采访中明确提到过：Grok 5 拥有 6 万亿参数，预计上半年发布。现在清单里赫然出现一个 6T 模型，对号入座的话，这就是 Grok 5。

如果 Grok 5 真的在上半年发布，它将直接面对 GPT-5 系列、Claude 4 和 Gemini 2.5 的竞争。从参数量上看，Grok 5 可能是这一代里最大的。但参数量的领先能否转化为实际能力的领先，还要看训练数据质量、对齐效果和推理效率。

值得一提的是，清单里还有 Imagine V2——xAI 的图像生成模型。这意味着 xAI 不只是在做语言模型，多模态布局也在同步推进。考虑到 X 平台上海量的图文数据，xAI 在图像理解和生成方面有天然的数据优势。

算力军备竞赛：谁在跟？

马斯克不是一个人在疯狂。

OpenAI + 软银 + 甲骨文：「星际之门」计划，目标同样是 GW 级超算
Meta：代号 Prometheus 的 GW 级项目，目标 2026 上半年上线
Google：把 Cloud TPU 扩展到 100 万颗的计划，合同价值数百亿美元
微软 + OpenAI：持续扩张 Azure AI 基础设施

根据 Epoch AI 的估算，Colossus 2 拥有相当于 140 万块 H100 的等效算力。这个数字目前排在全球第一。但竞争对手们的项目大多计划在 2026-2027 年上线，届时格局可能会再次洗牌。

有网友的评论很精辟：「AGI 最难的部分已不再是数学，而是字面意义上的——能不能找到足够多的电源插座。」

这不是玩笑。Dell'Oro Group 的高级研究总监 Baron Fung 预计，未来 2-3 年内，全球将新增数十 GW 的数据中心电力容量。与此同时，美国多地居民已经开始抗议数据中心建设——自 2022 年以来，几乎所有地区的居民电价涨幅都超过了通胀率。

算力竞赛的代价，最终会以电费账单的形式分摊到每个人头上。

对开发者意味着什么？

如果你是做 AI 应用的开发者，这波信息量其实很大：

短期来看，Grok 系列模型的能力会有一次显著跃升。如果 Grok 5 如期在上半年发布并开放 API，它会成为又一个值得纳入技术选型的选项。目前 Grok 的 API 已经兼容 OpenAI 格式，接入成本很低。

中期来看，10T 级别模型的出现会推动整个行业重新思考模型蒸馏和推理优化。当基座模型大到一定程度，小模型通过蒸馏获得的能力上限也会水涨船高。对于大多数开发者来说，真正用到的可能不是 10T 模型本身，而是从它蒸馏出来的、更高效的小模型。

长期来看，算力集中化的趋势越来越明显。能训 10T 模型的玩家全球不超过 5 家。这意味着 AI 应用层的开发者会越来越依赖少数几家模型提供商的 API。在这种格局下，用一个统一的接入层来管理多家模型的调用就变得很有实际价值。像 OpenAI Hub 这类兼容 OpenAI 格式的聚合平台，可以让你在 Grok、GPT、Claude、Gemini 之间灵活切换，不用为每家单独维护一套接入逻辑。

如果你想在 Grok 系列模型可用后第一时间试用，通过 OpenAI Hub 调用的方式大致如下：

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="grok-5",  # 模型上线后的实际名称以平台文档为准
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "解释一下 MoE 架构相比 Dense 模型的优势"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

接口格式和调用 GPT、Claude 完全一致，切换模型只需要改一个 model 参数。

写在最后

马斯克做事的风格一直是：先把规模拉到极致，再解决过程中的问题。SpaceX 是这样，特斯拉是这样，xAI 也是这样。

7 款模型同时训练、10T 参数、2 个月预训练周期——这些数字放在两年前会被当成吹牛。但 Colossus 2 确实已经建成并在运行，55 万张 GPU 确实在那里。

至于这些模型训出来到底好不好用，那是另一个问题。参数量从来不是唯一的衡量标准，OpenAI 用 o1 证明了推理时计算的价值，Anthropic 用 Claude 证明了对齐质量的重要性，Google 用 Gemini 证明了多模态融合的潜力。

但有一点是确定的：当一个玩家能同时开 7 条训练流水线，其中最大的一条是 10 万亿参数，这个行业的竞争烈度已经到了一个新的层级。

接下来几个月会很热闹。

参考来源

马斯克揭秘 xAI 进展：Colossus 2 正同时训练 7 款模型 — Linux.do 社区讨论帖，包含马斯克原始推文内容及社区解读

Colossus 2 同时训练7款模型，最高10万亿参数

55 万张 GPU，180 亿美元，一个疯狂的工程故事

架构拆解：不只是堆卡

10T 参数意味着什么？

清单里的 6T：大概率是 Grok 5

算力军备竞赛：谁在跟？

对开发者意味着什么？

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们