AI 推理芯片厂商 Cerebras 宣布企业版支持智谱 GLM5/5.1 和月之暗面 Kimi K2.6，这是其首次大规模接入国产模型生态，也标志着国产大模型开始在海外高性能推理平台获得认可。

Cerebras 接入国产主力模型：GLM5/Kimi K2.6 上车

AI 推理芯片厂商 Cerebras 刚刚宣布企业版支持智谱 GLM5/5.1 和月之暗面 Kimi K2.6。这是 Cerebras 首次大规模接入国产模型生态，也是国产大模型在海外高性能推理平台的重要突破。

对开发者来说，这意味着可以用 Cerebras 的超大晶圆芯片跑国产模型了——理论推理速度能甩 GPU 几条街，但实际体验如何，还得看 Cerebras 对这些模型的适配深度。

Cerebras WSE-3 芯片与支持的国产模型列表对比图

为什么是这三个模型？

Cerebras 这次选的三个模型都不是随便挑的：

GLM5/5.1 是智谱目前的主力商用模型。GLM5 在去年底发布时就对标 GPT-4o，多模态能力和长文本处理是亮点。GLM5.1 是今年 3 月的迭代版本，主要优化了代码生成和推理能力，在 HumanEval 等编程基准上提升明显。

智谱这两年在企业市场打得很凶，尤其是金融、政务这些对数据安全敏感的领域。GLM 系列的私有化部署方案做得比较成熟，这可能是 Cerebras 看中的点——企业客户需要高性能推理，但又不想把数据传到公有云。

Kimi K2.6 是月之暗面的最新版本，主打超长上下文（200 万 token）和多模态理解。K2 系列从去年开始就在长文本场景站稳了脚跟，很多开发者用它处理合同审查、学术文献分析这类需要「读完整本书」的任务。

K2.6 相比前代版本，推理速度和成本控制都有改进。月之暗面在技术博客里提到过，他们用了一些稀疏激活和动态路由的技术来降低计算量，这对 Cerebras 这种专用硬件来说是好消息——优化空间更大。

从模型选择上看，Cerebras 的策略很清晰：不追求覆盖所有国产模型,而是挑商业化成熟、技术特色明显的头部玩家。GLM 和 Kimi 在国内企业市场的渗透率都不低，接入这两家等于直接切入存量客户群。

Cerebras 的硬件优势在哪？

Cerebras 最出名的是它的晶圆级芯片 WSE（Wafer Scale Engine）。传统 GPU 是把硅晶圆切成小块做芯片，Cerebras 直接用整片晶圆做一颗芯片——WSE-3 有 4 万亿个晶体管，比英伟达 H100 大 56 倍。

这种设计带来两个核心优势：

片上内存巨大：WSE-3 有 44GB 的片上 SRAM，带宽 21 PB/s。对比 H100 的 80GB HBM（带宽 3.35 TB/s），Cerebras 的内存带宽高了三个数量级。大模型推理的瓶颈往往在内存带宽而不是算力，这是 Cerebras 敢说「比 GPU 快 20 倍」的底气。
无需模型并行：因为芯片够大，中小型模型可以完整放在一颗芯片上，不需要像 GPU 集群那样做张量并行或流水线并行。这能大幅降低通信开销，推理延迟更稳定。

但 Cerebras 也有明显短板：成本高，生态弱。一套 CS-3 系统售价在百万美元级别，只有大企业和云厂商买得起。而且 Cerebras 的软件栈相对封闭，不像 CUDA 那样有海量开发者贡献优化。

这次接入国产模型，某种程度上是 Cerebras 在补生态短板。国产模型厂商通常会提供详细的模型架构文档和优化建议，这对 Cerebras 适配新模型是利好。反过来，国产模型也能借 Cerebras 的硬件优势打开海外高端市场。

实际性能表现如何？

Cerebras 官方给出的数据是，在 WSE-3 上跑 Llama 3.1 70B，推理速度比 H100 快 16 倍，成本降低 30%。但这是理想场景下的数据，实际应用中会受很多因素影响。

对 GLM5 和 Kimi K2.6 这种国产模型，关键看几个指标：

首 token 延迟（TTFT）：用户发送请求到收到第一个 token 的时间。Cerebras 的大片上内存理论上能把 TTFT 压到很低,但前提是模型权重能完整加载到 SRAM。GLM5 的参数量在 100B 级别，Kimi K2.6 没公开具体参数量，如果超过 WSE-3 的内存容量，还是得用 HBM 或者做模型分片，优势就打折扣了。

吞吐量（Throughput）：单位时间能处理多少请求。Cerebras 的架构对批处理不太友好——因为芯片太大，很难像 GPU 那样通过增加 batch size 来提升利用率。如果是高并发场景（比如 API 服务），GPU 集群可能更划算。

长文本处理：这是 Kimi K2.6 的强项。200 万 token 的上下文意味着 KV Cache 会非常大，传统 GPU 方案要么用 PagedAttention 这种技术压缩内存，要么就得多卡并行。Cerebras 的大内存在这个场景下应该有明显优势，但具体能快多少，得看实测数据。

目前 Cerebras 还没公开 GLM5 和 Kimi K2.6 的 benchmark 结果。从技术角度看，这两个模型都用了 MoE（混合专家）或类似的稀疏架构，理论上很适合 Cerebras 的硬件特性。但适配质量如何，还得等开发者实际跑起来才知道。

对国产模型出海的意义

这次合作对国产大模型厂商来说，象征意义大于实际意义。

Cerebras 在海外企业市场有一定知名度，尤其是金融、医疗这些对推理性能要求高的行业。GLM 和 Kimi 能上 Cerebras 的支持列表，相当于拿到了一张「技术认可」的背书——至少说明这些模型的架构设计、API 接口、文档质量达到了国际主流水平。

但实际商业价值有限。Cerebras 的客户群体主要在北美和欧洲，这些地区对中国 AI 公司的接受度本来就不高，再加上数据合规、供应链安全等顾虑，真正会用国产模型的企业不会太多。

更现实的场景可能是反向输出：国内企业如果要用 Cerebras 的硬件（比如通过云服务商），现在可以直接跑 GLM 或 Kimi，不用再做模型迁移或重新训练。这对那些已经在用国产模型、但需要更高推理性能的团队来说，是个不错的选项。

另一个值得关注的点是技术交流。Cerebras 要适配这些模型，肯定会和智谱、月之暗面的工程团队深度合作，这个过程中双方会交换很多优化经验。国产模型厂商能学到如何针对专用硬件做优化，Cerebras 也能了解国产模型的技术路线和应用场景。

从长期看，这种合作可能会推动国产模型在架构设计上更加「硬件友好」。现在很多国产模型还是按照 GPU 的特性来设计的，如果未来要适配更多样化的硬件（NPU、FPGA、光子芯片等），就得在模型层面做更多考虑。

开发者怎么用？

Cerebras 的企业版服务主要通过云平台提供，目前还没看到公开的 API 文档或定价信息。从以往经验看，Cerebras 的服务通常是按推理 token 数计费，价格比 GPU 方案贵 20%-50%，但如果算上性能提升带来的时间成本节省，总体 ROI 可能持平甚至更优。

对国内开发者来说，更实际的问题是网络访问。Cerebras 的服务器在海外，国内直连可能会有延迟或稳定性问题。如果是对实时性要求高的应用（比如对话机器人），可能还是得用国内的推理服务。

不过，如果你本来就在用 OpenAI Hub 这类 API 聚合平台，倒是可以关注一下后续会不会接入 Cerebras 的服务。聚合平台的好处是可以在不同推理后端之间快速切换，测试哪个性价比更高。

值得一提的是，Cerebras 之前推出过一个叫 Cerebras Inference 的服务，支持 Llama、Mistral 等开源模型，价格比 OpenAI 便宜不少。如果这次 GLM 和 Kimi 也走这个渠道，可能会对国内的模型 API 市场造成一定冲击——毕竟海外推理平台在合规性、SLA 保障上通常做得更好。

竞争格局的变化

这次合作也反映出 AI 推理市场的一些新趋势。

专用硬件开始分食 GPU 市场。英伟达在训练市场的统治地位短期内无人能撼动,但推理市场正在碎片化。Cerebras、Groq、SambaNova 这些专用芯片厂商都在强调「推理比 GPU 快 X 倍」，虽然实际效果有水分，但确实在某些场景下有优势。

模型厂商开始重视硬件适配。以前大模型公司主要关注算法创新，硬件优化交给云厂商或推理服务商。现在越来越多模型厂商开始主动和硬件厂商合作，甚至自己做推理引擎优化（比如 DeepSeek 的 DeepSeek-Infer）。这说明推理成本已经成为商业化的关键瓶颈。

国产模型的海外策略在调整。之前国产大模型出海主要靠价格优势——同等性能下比 OpenAI 便宜 50% 以上。但现在开始强调技术特色（比如 Kimi 的长文本、GLM 的多模态）和生态兼容性（比如支持 OpenAI 格式、接入主流推理平台）。这是更健康的竞争方式。

从 Cerebras 的角度看，接入国产模型也是在对冲风险。如果未来中美科技脱钩加剧，Cerebras 在中国市场可能会受限，但至少在技术层面保持了和中国 AI 生态的连接。反过来，如果国产模型在海外市场起量，Cerebras 也能分一杯羹。

还有哪些坑？

虽然这次合作看起来是双赢，但实际落地还有不少问题：

模型版本同步：GLM 和 Kimi 的迭代速度很快，基本每个季度都有新版本。Cerebras 能不能及时跟进适配？如果总是慢半拍，开发者还是会选择用 GPU 方案。

功能完整性：国产模型通常会提供一些定制化功能，比如智谱的 GLM-4-AllTools（支持函数调用）、Kimi 的联网搜索。这些功能在 Cerebras 上能不能用？如果只是跑基础推理，吸引力会大打折扣。

数据合规：企业客户用 Cerebras 跑国产模型，数据流向是怎样的？是先传到 Cerebras 的服务器再调用模型，还是模型部署在客户自己的环境里？这涉及到数据主权和合规问题，必须说清楚。

成本透明度：Cerebras 的定价策略一向不太透明，通常是按客户需求定制报价。如果价格比直接用智谱或月之暗面的 API 贵太多，企业客户不会买单。

技术支持：出了问题找谁？是找 Cerebras 还是找模型厂商？如果两边互相推诿，开发者体验会很差。

这些问题在公告里都没提，估计还在协调中。对早期用户来说，可能需要做好踩坑的准备。

写在最后

Cerebras 接入 GLM 和 Kimi，本质上是 AI 产业链上下游的一次资源整合。硬件厂商需要更多模型来证明自己的价值，模型厂商需要更多硬件选项来降低成本和提升性能。

对开发者来说，这意味着选择变多了——如果你的应用对推理速度敏感，且预算充足，可以试试 Cerebras；如果更在意成本和生态成熟度，GPU 方案依然是主流。

国产模型这两年进步很快，但要真正在国际市场站稳脚跟，光靠性能和价格还不够。需要在工程质量、文档完善度、生态兼容性上持续投入。这次和 Cerebras 的合作，算是在正确方向上迈出了一小步。

至于 Cerebras 能不能借国产模型打开中国市场，或者国产模型能不能借 Cerebras 打开海外市场，还得看后续的商业化进展。技术合作容易，商业落地难。我们继续观察。

参考来源

Cerebras 已为企业支持 GLM 5, GLM 5.1, Kimi K2.6 - Linux.do 社区讨论
社区用户分享的 Cerebras 支持国产模型的最新消息
note4yaoo/lib-ai-app-pm-products.md - GitHub
AI 应用和产品管理相关的开源笔记整理

Cerebras 接入国产主力模型：GLM5/Kimi K2.6 上车

Cerebras 接入国产主力模型：GLM5/Kimi K2.6 上车

为什么是这三个模型？

Cerebras 的硬件优势在哪？

实际性能表现如何？

对国产模型出海的意义

开发者怎么用？

竞争格局的变化

还有哪些坑？

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们