智谱的 GLM 5.1 最近摊上事了。
不是模型能力出了问题,是根本用不了。过去一周,开发者社区里关于 GLM 5.1 "卡死""吐不出 token"的吐槽几乎刷屏。有人连续几天测试——高峰、低谷、工作日、周末——结论是一样的:连一个完整请求都跑不完。
这不是个别现象,而是系统性的算力告急。
到底发生了什么
事情要从 GLM 5.1 的发布说起。今年 2 月,智谱发布 GLM-5 系列,凭借不错的性能表现和极具攻击性的定价策略,迅速吸引了一波开发者涌入。GLM 5.1 作为后续迭代版本,在能力上进一步提升,社区期待值很高。
但问题也随之而来。
从 4 月中旬开始,linux.do 等开发者社区陆续出现大量反馈帖。一位开发者的描述很有代表性:
"我连续几天试了试,高峰还是非高峰,包括星期天都没法用,毫不夸张说,连一个请求都没法完成,就硬卡着不动,已经放弃 GLM。"
这不是"偶尔慢一点"的体验降级,而是接近于服务不可用。对于把 GLM 5.1 接入生产流程的开发者来说,这意味着整条工作链断掉。

算力缺口有多大
社区里有懂行的人算了一笔账,这笔账算完,你就能理解智谱为什么撑不住。
GLM 5.1 满血版部署,至少需要 16 块 H200 GPU。这是什么概念?按当前市场价,单块 H200 的采购成本在 3-4 万美元左右,16 块就是接近 50 万美元的硬件投入——这还只是一个推理实例。
一个实例能服务多少人?有开发者估算,如果用户在跑 Vibe Coding 这类持续性、高消耗的任务,一个实例大概只能同时服务 10 到 20 个人。要保障更多并发,就得成倍扩容。
即便用 FP8 量化来压缩显存占用,也只能省下大约一台服务器(8 块卡)的开销,远远谈不上"减半"。换句话说,量化不是银弹,该花的钱省不了太多。
我们粗略估算一下:假设智谱要同时服务 1000 个活跃的 API 调用用户(对于一个有野心的模型平台来说,这个数字并不夸张),按每 20 人一个实例计算,需要 50 个推理实例,也就是 800 块 H200。光显卡采购成本就超过 2400 万美元,折合人民币约 1.7 亿。这还没算服务器、网络、电力、机房、运维人员的开销。
而且 H200 不是你想买就能买到的。在全球 AI 算力军备竞赛的大背景下,英伟达高端 GPU 的供应链依然紧张。2026 年科技四巨头的资本支出预计将达到 6600 亿美元,大量算力被头部玩家锁定,留给中小厂商的空间并不宽裕。
低价策略的甜蜜陷阱
理解了部署成本,再看智谱的定价策略,问题就很清楚了。
社区里有人一针见血:"一眼就是亏本的价,你知道这个成本不可长久,也知道这个成本是为了用户量上去拿融资。"
这是国内 AI 行业过去两年非常典型的打法——用远低于成本的价格获客,做大用户规模和调用量,拿着漂亮的增长曲线去找投资人要钱。逻辑上没毛病,但执行上有一个致命前提:你得有足够的算力来接住涌入的用户。
智谱显然低估了这个问题。或者说,他们在"烧钱获客"和"算力储备"之间做了一个过于激进的取舍——把更多预算花在了补贴价格上,而不是扩充 GPU 集群。
结果就是现在这个局面:用户来了,服务器扛不住了。
更让开发者不满的是智谱后续的操作。有用户反映,智谱在服务出问题后修改了用户套餐规则,这被社区解读为"先用低价把人骗进来,服务跟不上了就改规则"。一位开发者的评价相当辛辣:"给用户当狗训呢。"
作为对比,Kimi(月之暗面)的定价比智谱高出不少,模型参数量也更大,但社区里几乎没有类似的大规模吐槽。原因很简单:定价合理意味着有足够的收入来支撑算力,服务稳定性自然有保障。贵一点但能用,永远好过便宜但用不了。
这不只是智谱的问题
把视角拉远一点,GLM 5.1 的算力危机折射出的是整个国产大模型行业的结构性矛盾。
过去一年,国内大模型赛道经历了一轮残酷的价格战。从百度文心、阿里通义到智谱、月之暗面、DeepSeek,几乎所有玩家都在比谁更便宜。有的直接免费开放,有的把 token 价格打到了几乎可以忽略不计的水平。
但大模型推理不是软件复制,边际成本不趋近于零。每一次 API 调用都需要真实的 GPU 算力,每一个 token 的生成都在消耗电力和显存。当价格低于成本时,用户量越大,亏损越多,服务质量越难保障。
这和当年网约车、共享单车的补贴大战有本质区别。那些行业的边际成本会随着规模效应下降,但大模型推理的边际成本下降曲线要平缓得多。你可以通过工程优化(比如 KV Cache、投机解码、批处理优化)来降低单次推理成本,但降幅有限,远远覆盖不了"一折促销"带来的亏损。
甲骨文最近裁员 3 万人的新闻从另一个角度印证了这一点:AI 基础设施是真金白银的重资产投入。甲骨文计划在 AI 基础设施领域投入 1560 亿美元,相当于近三年净利润的总和。连年利润 61 亿美元的巨头都要"腾笼换鸟"来筹措 AI 算力资金,国内创业公司的压力可想而知。
开发者该怎么办
如果你正在用 GLM 5.1 的 API,或者正在评估是否接入,这里有几个务实的建议。
第一,不要把生产环境押在单一模型上。这是老生常谈,但 GLM 5.1 的事件再次证明了它的重要性。模型服务的稳定性受太多因素影响——算力、资金、运营策略——任何一个环节出问题都可能导致服务中断。做好 fallback 机制,至少准备一个备选模型。
第二,警惕"太便宜"的定价。如果一个模型的 API 价格明显低于同级别竞品,大概率意味着它在亏本运营。亏本运营的服务有两个可能的结局:要么涨价,要么降质。无论哪种,对依赖它的开发者来说都是风险。
第三,关注模型的实际可用性,而不只是跑分。GLM 5.1 在各种 benchmark 上的表现不差,但 benchmark 分数和"能不能稳定跑通一个请求"是两回事。在评估模型时,除了看能力上限,更要看服务的下限——最差情况下,它还能不能用?
第四,考虑使用模型聚合服务来分散风险。当你通过聚合平台调用多个模型时,单一模型的服务波动对你的影响会小很多。比如 OpenAI Hub 这类平台支持一个 Key 调用 GPT、Claude、Gemini、DeepSeek 等主流模型,当某个模型出问题时可以快速切换,不至于被一家供应商卡脖子。
第五,如果你有自建能力,GLM 系列作为开源模型,私有化部署是一个选项。但正如前面分析的,满血部署的硬件成本不低。对于中小团队来说,可以考虑量化版本或者较小参数的变体,在成本和性能之间找到平衡点。
智谱接下来会怎么做
摆在智谱面前的选择并不多。
最直接的方案是扩容——采购更多 GPU,部署更多推理实例。但这需要钱和时间,GPU 的采购周期不短,部署调试也需要过程。短期内,服务质量可能很难有质的改善。
另一个方案是涨价。把价格调整到能覆盖成本的水平,用收入来支撑算力扩张。但这会面临用户流失的风险,尤其是那些冲着低价来的用户。而且从社区反馈来看,开发者对"先低价吸引再涨价"的操作非常反感,智谱的品牌信任已经受到了损伤。
还有一种可能是限流——对免费或低价用户设置更严格的调用限制,把有限的算力优先分配给付费用户。这在商业逻辑上说得通,但执行上需要非常透明的沟通,否则会进一步激化社区矛盾。
无论选择哪条路,智谱都需要面对一个根本问题:在当前的融资环境和算力供给条件下,如何在增长速度和服务质量之间找到可持续的平衡点。
写在最后
GLM 5.1 的算力危机不是一个孤立事件,它是国产大模型价格战进入深水区后的必然产物。当所有人都在比谁更便宜时,最终比的其实是谁的钱更多、谁的算力更厚。
对开发者来说,这件事最大的教训可能是:在选择 AI 模型服务时,稳定性和可持续性比价格更重要。一个便宜但三天两头用不了的模型,实际成本远高于一个贵一点但稳定可靠的选择——因为你的时间和用户的耐心,才是最贵的资源。
智谱是一家有技术实力的公司,GLM 系列在国产大模型中的竞争力毋庸置疑。但技术实力和运营能力是两回事。希望这次算力危机能成为一个转折点,让智谱——以及整个行业——认真思考一个问题:大模型的商业化,到底应该怎么走。
参考来源
- GLM 现在一个 token 都吐不出来了 - linux.do(开发者反馈 GLM 5.1 服务持续不可用的讨论帖)
- 不是为资本说话,但 GLM 5.1 全量部署一个至少要几十万成本吧 - linux.do(社区关于 GLM 5.1 部署成本与定价策略的深度讨论)