智谱动手了。
4月8日,智谱通过官方开发者微信社群宣布,正式下架GLM-5模型,CodingPlan等产品线将全面迁移至GLM-5.1。消息一出,开发者社区立刻炸开了锅——有人拍手叫好,有人准备开喷。
这不是一次简单的版本迭代通知。背后是智谱在算力分配上做了一个很硬的取舍。
为什么砍掉GLM-5?
直接原因:算力不够分了。
根据社区开发者的反馈和分析,GLM-5和GLM-5.1共享同一个模型底座。GLM-5总参数量744B,每次推理激活40B参数,采用MoE(混合专家)架构。GLM-5.1在此基础上做了进一步优化,智谱官方数据显示其在同等时间窗口内的有效优化能力达到GLM-5的1.4倍。
问题出在用户行为上。GLM-5.1明显更强,导致高峰期大量用户涌向5.1,而GLM-5的使用量逐渐走低。两个模型同时跑,算力被分散,结果就是5.1经常排队、吐字慢、并发受限,体验反而变差了。
一位开发者在论坛里说得很直白:「下午高峰期用5的人不多,但5.1挤满了。」
智谱的选择是:与其两头都做不好,不如集中火力打一个。砍掉GLM-5,把所有算力喂给GLM-5.1。

开发者最关心的三个问题
速度能好转吗?
这是社区里被提到最多的痛点。
在下架GLM-5之前,GLM-5.1的推理速度一直被开发者吐槽。「吐字巨慢」「疯狂限制并发」是高频词汇。有氪金好几千的重度用户直言:如果速度问题不解决,「一键开喷」。
从技术角度看,算力整合确实应该带来改善。GLM-5此前的一个重要技术突破是KV Cache开销降低75%——同样的显卡可以支撑4倍以上的并发请求,或者处理4倍长的上下文。GLM-5.1继承了这个优化。现在把原本分给GLM-5的算力全部释放给5.1,理论上并发能力和响应速度都会有明显提升。
但理论归理论。有开发者通过第三方中转端点(比如ZAI)配合NewAPI的自动重试机制来缓解并发问题,反馈是「吐字慢的缺点还在」。这次调整能不能真正解决问题,还得看实际表现。
一个值得关注的细节:有开发者表示,对于简单任务,他宁愿用GLM-Turbo而不是旗舰模型。这说明GLM-5.1在轻量级场景下的性价比还有优化空间。如果智谱只是把算力堆上去而不优化调度策略,简单请求照样会被重模型拖慢。
价格会涨吗?
这是第二个敏感话题。
就在同一天,有媒体报道智谱对GLM-5.1进行了约10%的提价。社区里已经有人在算账:「价格算下来是不是接近Claude了?」
目前CodingPlan老用户的价格还没变——月费200元,5小时窗口内1.5亿Token的额度。但新用户的定价是否调整,智谱还没有明确说明。
这里有一个微妙的博弈。智谱一直以来的竞争策略是用价格优势吸引开发者,尤其是在国内市场,相比调用Claude或GPT-4o,GLM系列的成本优势是很多团队选择它的核心原因。如果价格真的逼近Claude,那开发者就会重新算一笔账:同样的钱,我是用国产模型还是直接调Claude?
当然,GLM系列有一个Claude和GPT不具备的优势——国内直连,不需要折腾代理和网络问题。对于生产环境来说,稳定性和合规性有时候比性能更重要。
迁移成本大吗?
智谱官方已经发布了迁移文档,从GLM-5切换到GLM-5.1的API调用改动不大。如果你之前用的是兼容OpenAI格式的接口,基本上改个模型名就行。
对于通过API聚合平台调用的开发者来说,迁移更简单。比如通过OpenAI Hub这类兼容OpenAI格式的聚合平台,只需要把模型参数从glm-5改成glm-5.1,其他代码一行不用动:
from openai import OpenAI
client = OpenAI(
api_key="your-openai-hub-key",
base_url="https://api.openai-hub.com/v1"
)
response = client.chat.completions.create(
model="glm-5.1", # 从 glm-5 改为 glm-5.1
messages=[
{"role": "system", "content": "你是一个编程助手"},
{"role": "user", "content": "用Python实现一个简单的LRU缓存"}
],
stream=True
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
如果你用的是GLM-5.1新增的工具流式输出能力,可以这样调用:
response = client.chat.completions.create(
model="glm-5.1",
messages=[
{"role": "user", "content": "帮我查一下今天北京的天气"}
],
tools=[{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取指定城市的天气信息",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名称"}
},
"required": ["city"]
}
}
}],
stream=True # GLM-5.1 支持工具调用的流式输出
)
工具流式输出是GLM-5.1相比GLM-5的一个实质性改进。之前用GLM-5做Agent开发,工具调用必须等完整响应返回才能解析,现在可以边生成边处理,对于需要实时反馈的应用场景来说体验好了不少。
GLM-5.1到底比GLM-5强在哪?
抛开营销话术,GLM-5.1的核心改进集中在三个方面。
第一,持续推理能力。智谱官方给出的数据是,GLM-5在复杂任务上的性能曲线会较早趋于平坦,而GLM-5.1能在更长的时间窗口内保持有效优化,最终性能达到GLM-5的1.4倍。翻译成人话就是:面对复杂的编程任务或长链条推理,GLM-5容易「想到一半就放弃」,GLM-5.1能坚持得更久,给出更完整的解决方案。
第二,工具调用能力。GLM-5.1支持工具流式输出、结构化输出等新特性,在Agent场景下的表现更成熟。对于做AI应用开发的团队来说,这些能力直接影响产品体验。
第三,长时间工作能力。智谱宣称GLM-5.1可以持续工作8小时。这个指标主要针对CodingPlan这类编程助手场景——模型能在一个长会话中保持上下文理解和代码质量,不会像之前那样聊着聊着就「忘了前面说的什么」。
不过,这些改进是否值得10%的提价,每个开发者心里有自己的账本。
更大的图景
智谱这次操作,放在整个国产大模型的竞争格局里看,其实挺有意思的。
过去一年,国产模型厂商的主旋律是「卷价格」——你降价我也降,恨不得免费送。但到了2026年,风向开始变了。模型能力的差距在缩小,算力成本却没有同比下降,厂商们开始意识到:光靠低价抢用户,烧不起。
智谱选择砍掉旧模型、集中资源做好新模型、同时小幅提价,本质上是在从「跑马圈地」转向「精耕细作」。这个策略能不能成功,取决于GLM-5.1的实际体验能不能撑得起新的价格。
对开发者来说,这也是一个信号:不要把鸡蛋放在一个篮子里。模型厂商的产品策略随时可能调整,今天用得好好的模型明天可能就下架了。在架构设计上保持对多模型的兼容能力,用标准化的API格式做好抽象层,是越来越重要的工程实践。
接下来看什么
短期内,有几个指标值得关注:
- GLM-5.1在算力整合后的实际推理速度和并发表现,尤其是工作日下午的高峰时段
- CodingPlan新用户的定价方案是否调整
- 老用户的权益是否会在续费时发生变化
- 社区开发者的实测反馈,特别是与Claude 4、GPT-4o等模型的横向对比
智谱赌的是:把一个模型做到足够好,比同时维护两个半吊子模型更有价值。这个判断大概率是对的。但执行层面能不能跟上,还得用速度和稳定性说话。
毕竟,开发者是最务实的一群人。好不好用,跑一把就知道了。
参考来源:
- GLM官方的CodingPlan下架了GLM-5 - 开发者社区讨论 — 社区开发者对下架事件的讨论和反馈汇总