Cerebras 接入国产主力模型:GLM5/Kimi K2.6 上车

产品更新

AI 推理芯片厂商 Cerebras 宣布企业版支持智谱 GLM5/5.1 和月之暗面 Kimi K2.6,这是其首次大规模接入国产模型生态,也标志着国产大模型开始在海外高性能推理平台获得认可。

Cerebras 接入国产主力模型:GLM5/Kimi K2.6 上车

AI 推理芯片厂商 Cerebras 刚刚宣布企业版支持智谱 GLM5/5.1 和月之暗面 Kimi K2.6。这是 Cerebras 首次大规模接入国产模型生态,也是国产大模型在海外高性能推理平台的重要突破。

对开发者来说,这意味着可以用 Cerebras 的超大晶圆芯片跑国产模型了——理论推理速度能甩 GPU 几条街,但实际体验如何,还得看 Cerebras 对这些模型的适配深度。

Cerebras WSE-3 芯片与支持的国产模型列表对比图

为什么是这三个模型?

Cerebras 这次选的三个模型都不是随便挑的:

GLM5/5.1 是智谱目前的主力商用模型。GLM5 在去年底发布时就对标 GPT-4o,多模态能力和长文本处理是亮点。GLM5.1 是今年 3 月的迭代版本,主要优化了代码生成和推理能力,在 HumanEval 等编程基准上提升明显。

智谱这两年在企业市场打得很凶,尤其是金融、政务这些对数据安全敏感的领域。GLM 系列的私有化部署方案做得比较成熟,这可能是 Cerebras 看中的点——企业客户需要高性能推理,但又不想把数据传到公有云。

Kimi K2.6 是月之暗面的最新版本,主打超长上下文(200 万 token)和多模态理解。K2 系列从去年开始就在长文本场景站稳了脚跟,很多开发者用它处理合同审查、学术文献分析这类需要「读完整本书」的任务。

K2.6 相比前代版本,推理速度和成本控制都有改进。月之暗面在技术博客里提到过,他们用了一些稀疏激活和动态路由的技术来降低计算量,这对 Cerebras 这种专用硬件来说是好消息——优化空间更大。

从模型选择上看,Cerebras 的策略很清晰:不追求覆盖所有国产模型,而是挑商业化成熟、技术特色明显的头部玩家。GLM 和 Kimi 在国内企业市场的渗透率都不低,接入这两家等于直接切入存量客户群。

Cerebras 的硬件优势在哪?

Cerebras 最出名的是它的晶圆级芯片 WSE(Wafer Scale Engine)。传统 GPU 是把硅晶圆切成小块做芯片,Cerebras 直接用整片晶圆做一颗芯片——WSE-3 有 4 万亿个晶体管,比英伟达 H100 大 56 倍。

这种设计带来两个核心优势:

  1. 片上内存巨大:WSE-3 有 44GB 的片上 SRAM,带宽 21 PB/s。对比 H100 的 80GB HBM(带宽 3.35 TB/s),Cerebras 的内存带宽高了三个数量级。大模型推理的瓶颈往往在内存带宽而不是算力,这是 Cerebras 敢说「比 GPU 快 20 倍」的底气。

  2. 无需模型并行:因为芯片够大,中小型模型可以完整放在一颗芯片上,不需要像 GPU 集群那样做张量并行或流水线并行。这能大幅降低通信开销,推理延迟更稳定。

但 Cerebras 也有明显短板:成本高,生态弱。一套 CS-3 系统售价在百万美元级别,只有大企业和云厂商买得起。而且 Cerebras 的软件栈相对封闭,不像 CUDA 那样有海量开发者贡献优化。

这次接入国产模型,某种程度上是 Cerebras 在补生态短板。国产模型厂商通常会提供详细的模型架构文档和优化建议,这对 Cerebras 适配新模型是利好。反过来,国产模型也能借 Cerebras 的硬件优势打开海外高端市场。

实际性能表现如何?

Cerebras 官方给出的数据是,在 WSE-3 上跑 Llama 3.1 70B,推理速度比 H100 快 16 倍,成本降低 30%。但这是理想场景下的数据,实际应用中会受很多因素影响。

对 GLM5 和 Kimi K2.6 这种国产模型,关键看几个指标:

首 token 延迟(TTFT):用户发送请求到收到第一个 token 的时间。Cerebras 的大片上内存理论上能把 TTFT 压到很低,但前提是模型权重能完整加载到 SRAM。GLM5 的参数量在 100B 级别,Kimi K2.6 没公开具体参数量,如果超过 WSE-3 的内存容量,还是得用 HBM 或者做模型分片,优势就打折扣了。

吞吐量(Throughput):单位时间能处理多少请求。Cerebras 的架构对批处理不太友好——因为芯片太大,很难像 GPU 那样通过增加 batch size 来提升利用率。如果是高并发场景(比如 API 服务),GPU 集群可能更划算。

长文本处理:这是 Kimi K2.6 的强项。200 万 token 的上下文意味着 KV Cache 会非常大,传统 GPU 方案要么用 PagedAttention 这种技术压缩内存,要么就得多卡并行。Cerebras 的大内存在这个场景下应该有明显优势,但具体能快多少,得看实测数据。

目前 Cerebras 还没公开 GLM5 和 Kimi K2.6 的 benchmark 结果。从技术角度看,这两个模型都用了 MoE(混合专家)或类似的稀疏架构,理论上很适合 Cerebras 的硬件特性。但适配质量如何,还得等开发者实际跑起来才知道。

对国产模型出海的意义

这次合作对国产大模型厂商来说,象征意义大于实际意义。

Cerebras 在海外企业市场有一定知名度,尤其是金融、医疗这些对推理性能要求高的行业。GLM 和 Kimi 能上 Cerebras 的支持列表,相当于拿到了一张「技术认可」的背书——至少说明这些模型的架构设计、API 接口、文档质量达到了国际主流水平。

但实际商业价值有限。Cerebras 的客户群体主要在北美和欧洲,这些地区对中国 AI 公司的接受度本来就不高,再加上数据合规、供应链安全等顾虑,真正会用国产模型的企业不会太多。

更现实的场景可能是反向输出:国内企业如果要用 Cerebras 的硬件(比如通过云服务商),现在可以直接跑 GLM 或 Kimi,不用再做模型迁移或重新训练。这对那些已经在用国产模型、但需要更高推理性能的团队来说,是个不错的选项。

另一个值得关注的点是技术交流。Cerebras 要适配这些模型,肯定会和智谱、月之暗面的工程团队深度合作,这个过程中双方会交换很多优化经验。国产模型厂商能学到如何针对专用硬件做优化,Cerebras 也能了解国产模型的技术路线和应用场景。

从长期看,这种合作可能会推动国产模型在架构设计上更加「硬件友好」。现在很多国产模型还是按照 GPU 的特性来设计的,如果未来要适配更多样化的硬件(NPU、FPGA、光子芯片等),就得在模型层面做更多考虑。

开发者怎么用?

Cerebras 的企业版服务主要通过云平台提供,目前还没看到公开的 API 文档或定价信息。从以往经验看,Cerebras 的服务通常是按推理 token 数计费,价格比 GPU 方案贵 20%-50%,但如果算上性能提升带来的时间成本节省,总体 ROI 可能持平甚至更优。

对国内开发者来说,更实际的问题是网络访问。Cerebras 的服务器在海外,国内直连可能会有延迟或稳定性问题。如果是对实时性要求高的应用(比如对话机器人),可能还是得用国内的推理服务。

不过,如果你本来就在用 OpenAI Hub 这类 API 聚合平台,倒是可以关注一下后续会不会接入 Cerebras 的服务。聚合平台的好处是可以在不同推理后端之间快速切换,测试哪个性价比更高。

值得一提的是,Cerebras 之前推出过一个叫 Cerebras Inference 的服务,支持 Llama、Mistral 等开源模型,价格比 OpenAI 便宜不少。如果这次 GLM 和 Kimi 也走这个渠道,可能会对国内的模型 API 市场造成一定冲击——毕竟海外推理平台在合规性、SLA 保障上通常做得更好。

竞争格局的变化

这次合作也反映出 AI 推理市场的一些新趋势。

专用硬件开始分食 GPU 市场。英伟达在训练市场的统治地位短期内无人能撼动,但推理市场正在碎片化。Cerebras、Groq、SambaNova 这些专用芯片厂商都在强调「推理比 GPU 快 X 倍」,虽然实际效果有水分,但确实在某些场景下有优势。

模型厂商开始重视硬件适配。以前大模型公司主要关注算法创新,硬件优化交给云厂商或推理服务商。现在越来越多模型厂商开始主动和硬件厂商合作,甚至自己做推理引擎优化(比如 DeepSeek 的 DeepSeek-Infer)。这说明推理成本已经成为商业化的关键瓶颈。

国产模型的海外策略在调整。之前国产大模型出海主要靠价格优势——同等性能下比 OpenAI 便宜 50% 以上。但现在开始强调技术特色(比如 Kimi 的长文本、GLM 的多模态)和生态兼容性(比如支持 OpenAI 格式、接入主流推理平台)。这是更健康的竞争方式。

从 Cerebras 的角度看,接入国产模型也是在对冲风险。如果未来中美科技脱钩加剧,Cerebras 在中国市场可能会受限,但至少在技术层面保持了和中国 AI 生态的连接。反过来,如果国产模型在海外市场起量,Cerebras 也能分一杯羹。

还有哪些坑?

虽然这次合作看起来是双赢,但实际落地还有不少问题:

模型版本同步:GLM 和 Kimi 的迭代速度很快,基本每个季度都有新版本。Cerebras 能不能及时跟进适配?如果总是慢半拍,开发者还是会选择用 GPU 方案。

功能完整性:国产模型通常会提供一些定制化功能,比如智谱的 GLM-4-AllTools(支持函数调用)、Kimi 的联网搜索。这些功能在 Cerebras 上能不能用?如果只是跑基础推理,吸引力会大打折扣。

数据合规:企业客户用 Cerebras 跑国产模型,数据流向是怎样的?是先传到 Cerebras 的服务器再调用模型,还是模型部署在客户自己的环境里?这涉及到数据主权和合规问题,必须说清楚。

成本透明度:Cerebras 的定价策略一向不太透明,通常是按客户需求定制报价。如果价格比直接用智谱或月之暗面的 API 贵太多,企业客户不会买单。

技术支持:出了问题找谁?是找 Cerebras 还是找模型厂商?如果两边互相推诿,开发者体验会很差。

这些问题在公告里都没提,估计还在协调中。对早期用户来说,可能需要做好踩坑的准备。

写在最后

Cerebras 接入 GLM 和 Kimi,本质上是 AI 产业链上下游的一次资源整合。硬件厂商需要更多模型来证明自己的价值,模型厂商需要更多硬件选项来降低成本和提升性能。

对开发者来说,这意味着选择变多了——如果你的应用对推理速度敏感,且预算充足,可以试试 Cerebras;如果更在意成本和生态成熟度,GPU 方案依然是主流。

国产模型这两年进步很快,但要真正在国际市场站稳脚跟,光靠性能和价格还不够。需要在工程质量、文档完善度、生态兼容性上持续投入。这次和 Cerebras 的合作,算是在正确方向上迈出了一小步。

至于 Cerebras 能不能借国产模型打开中国市场,或者国产模型能不能借 Cerebras 打开海外市场,还得看后续的商业化进展。技术合作容易,商业落地难。我们继续观察。


参考来源