AI 快讯GLM-5.2 开源:1M 上下文叫板 Claude 4.6
模型上新

GLM-5.2 开源:1M 上下文叫板 Claude 4.6

2026-06-16T23:04:16.944Z
GLM-5.2 开源:1M 上下文叫板 Claude 4.6

智谱把家底亮了:GLM-5.2 以 MIT 协议开源,1M 上下文真正可用,长程推理与编码能力直指 Claude 4.6,国产开源模型再次坐到牌桌主位。

GLM-5.2 正式开源:1M 上下文 + 长程推理,国产开源把 Claude 4.6 顶到墙角

6 月 13 日晚上 5:21,智谱没走预热那一套,直接把 GLM-5.2 推给了 GLM Coding Plan 的全量用户——Lite、Pro、Max、团队版一个不落。紧接着官方确认:API 下周上线,模型权重下周走 MIT 协议正式开源。到了这周,HuggingFace 上的 zai-org/GLM-5.2 仓库已经挂出,跑分图也甩了出来,社区里那句"狠狠吊打克劳德 4.6"的评论,配合实测榜单,并不算夸张。

这是一次踩着节奏的发布。前段时间海外某前沿模型对国内大量账号搞限流封禁,开发者一片骂声,智谱的官博顺势补了一刀:"前沿智能不应只属于少数人,也不应被少数规则随时收回。" 翻译过来就是——你们封你们的,我开源我的。这句话放在 2026 年年中这个时间点,比任何 benchmark 都更能解释 GLM-5.2 为什么会以这种姿态登场。

GLM-5.2 与 Claude 4.6、GPT-5 在编码、Agent、长程任务上的跑分对比柱状图

一、先说结论:这次升级到底升了什么

相比今年 2 月那个把股价拉了 32% 的 GLM-5,以及 3 月的 5.1、5 月的 5.1 高速版(400 tokens/s 那个),GLM-5.2 的改动重点非常清晰,不在堆参数,而是把上一代的短板一处处补齐:

  • 真正可用的 1M 上下文:注意"真正可用"四个字,不是宣传海报上的 1M,而是在 needle-in-haystack 和长程 Agent 跑批任务里都不退化的 1M;
  • 长程任务(long-horizon)能力继续领先:多轮工具调用、跨文件改代码、跨小时连续推理这一类场景是这次的主战场;
  • 编码与 Agent 任务显著改进:智谱自己也承认 GLM-5.2 "依旧是我们心中最强的国产 Coding 模型",言外之意是它依然瞄着 Claude Sonnet 这条线打;
  • 两档推理强度:GLM-5.2(Max)拉满,GLM-5.2(High)在性能和 token 消耗之间找平衡;
  • MIT 协议开源:商用零门槛,权重直接上 HuggingFace;
  • API 定价与 5.1 保持一致:这点非常关键,下面会展开。

一句话总结:参数没暴涨,但工程层面的"能用度"上了一个台阶。这恰恰是过去一年开源模型最容易翻车的地方——榜单漂亮,真上 Agent 就崩。

二、1M 上下文:智谱这次没有玩文字游戏

上下文窗口这事过去两年被吹爆了。Gemini 喊 2M,Claude 喊 1M,国内也有不少号称 1M 的模型,但开发者真扔进去 80 万 token 的代码仓库时,往往得到的是"前面的我忘了"。

GLM-5.2 这次专门强调"真正可用",背后是两个工程动作:

  1. 位置编码与注意力机制的再训练:从智谱披露的细节看,5.2 在 5.1 基础上继续扩展了 RoPE 的有效外推范围,并在长上下文的训练数据上下了功夫,不是简单地把 window 拉大;
  2. 长程任务的指令微调:1M 不只是用来塞文档,更是用来跑"几十个工具调用、上千轮交互"的 Agent。智谱这次明显是奔着这个去的。

实测一个直观的对比:把一个 50 万 token 左右的中型代码仓库(约 1500 个文件)扔进去,让模型定位一个跨 7 个文件的 bug 并给修复方案。GLM-5.2 在 High 档位下能稳定输出可应用的 patch,Max 档位会进一步做架构层面的建议。这个表现,至少在开源阵营里,是没有对手的。

三、跑分这件事:怎么看待"吊打 Claude 4.6"

社区里那张被疯传的跑分图,重点关注几个轴:

  • SWE-Bench Verified:GLM-5.2 Max 已经摸到了 Claude 4.6 的水平线,部分子集反超;
  • Terminal-Bench / Agent 类:长程任务上 GLM-5.2 表现明显更稳,这跟 1M 上下文的工程投入是吻合的;
  • LiveCodeBench:编码刷题这种纯智力活,GLM-5.2 跟 Claude 4.6、GPT-5 处在同一梯队;
  • AIME / 数学推理:Max 档位接近顶尖闭源,但相比 GPT-5 在最难题上仍有差距。

但我要泼一盆冷水:跑分领先 ≠ 用起来更舒服。Claude 那套在工具调用稳定性、风格一致性、对模糊指令的容错上仍然是工业级体验。GLM-5.2 在这些"非榜单维度"上有没有补齐,得看下周 API 上线后大规模生产环境的反馈。

不过有一点可以肯定:开源模型第一次能让人认真考虑"是不是该把生产环境从 Claude 切过来"。这在半年前是不可想象的。

四、两档推理强度,背后是 token 经济学

GLM-5.2 这次提供两个档位:

| 档位 | 定位 | 适用场景 | |------|------|---------| | GLM-5.2 (Max) | 推理拉满,token 消耗最大 | 复杂 Agent、跨文件重构、深度研究 | | GLM-5.2 (High) | 性能/token 性价比最优 | 日常编码、对话、中等复杂度任务 |

这种"reasoning effort"的分档思路是从 OpenAI 的 o 系列借过来的,但智谱做得更直白——直接当成两个 model 暴露给开发者。这比 OpenAI 那套 reasoning_effort 参数对开发者友好,你不用猜模型会想多久、烧多少钱,调用前心里就有数。

配合 API 定价和 5.1 持平这件事,这次升级对老用户几乎是"白嫖":同样的钱,更长的上下文,更强的 Agent 能力,多一档可选的推理强度。

五、MIT 开源的分量

这次开源走的是 MIT 协议,比 Llama、Qwen 那套带使用限制的协议要干净得多。商用、闭源二次开发、嵌入商业产品都没有附加条款。对于一些行业模型团队来说,MIT 协议下的 GLM-5.2 几乎就是"拿来就能改成自家品牌"的水平。

模型已经挂在 HuggingFace 上的 zai-org/GLM-5.2,权重和 tokenizer 都可以直接拉。本地部署的硬件门槛仍然不低(毕竟是旗舰),但社区里已经有人在跑量化版本,预计接下来一两周会有 INT4 / AWQ 的版本陆续放出。

HuggingFace 上 zai-org/GLM-5.2 仓库截图,显示 MIT 协议与模型文件列表

六、Coding Plan 的打法:智谱在复制 Anthropic

值得专门拎出来说的,是 GLM Coding Plan 这个产品。这次 5.2 是先在 Coding Plan 上线,再上 API,再开源——三步节奏。这不是随手安排的:

  • Coding Plan 是订阅制:Lite / Pro / Max / 团队版,按月付费,Claude Code 那套路子;
  • 目标用户是"重度日常编码者":把 Cursor、Claude Code、Cline 这类工具背后的模型直接换成 GLM-5.2;
  • 价格只有 Claude 的几分之一:年初那场 GLM-5 发布会上智谱已经把价格牌打到了"Claude 七分之一地板价"。

智谱这条线很明确:用开源拉口碑,用 Coding Plan 拿现金流,用 API 兜住长尾开发者。三条线互相喂养,这套打法过去半年被验证是有效的——智谱港股的股价就是答案。

七、对开发者的实际影响

说点接地气的,下周 API 一上线,你可以从这几个角度考虑接入:

  1. 如果你在用 Claude 跑 Agent,被限流封号搞怕了:GLM-5.2 是目前最像 Claude 的开源替代,可以做 fallback 也可以直接切主路;
  2. 如果你在跑长文档分析:1M 上下文 + 国内直连低延迟,比走代理调 Gemini 划算;
  3. 如果你在搞 Agent / 工具链:Max 档位值得专门测一测多轮工具调用的稳定性;
  4. 如果你要做行业模型:MIT 协议加上中文能力,目前没有更合适的底座。

顺便一提,OpenAI Hub 已经在准备接入 GLM-5.2,下周 API 一上线就会同步开放。对于已经在 Hub 上同时调 GPT、Claude、Gemini 的开发者来说,多一个国产顶级开源选项,路由策略可以玩出更多花样——比如把成本敏感的长上下文任务路由到 GLM-5.2,把对风格要求极高的写作路由到 Claude,一个 Key 全搞定。

八、还有几件事没说透

这次发布留了几个待观察的问题:

  • 模型架构细节:技术报告还没完整公开,MoE 的专家配置、激活参数量这些社区还在扒;
  • 多模态能力:5.2 主推的还是文本和代码,视觉版本是否会同步开源没说;
  • 400 tokens/s 的高速版本:5.1 那版高速版本很受欢迎,5.2 是否会出对应版本暂未提;
  • 长程 Agent 的真实失败率:跑分好看,实际跑几十轮工具调用能不能不崩,得等更多人上手。

九、写在最后

2025 年我们在讨论"开源模型什么时候能追上闭源",2026 年这个问题已经变成了"闭源还能领先多久"。GLM-5.2 这次的姿态非常清楚:不是追赶,是正面较量。

智谱选了一条更难但更稳的路——把工程做扎实,把价格打下来,把协议放开。当海外前沿模型的可用性变得越来越像"政治问题"的时候,这条路的战略价值会越来越明显。

下周 API 上线,建议每个还在为 Claude 限流头疼的团队,都认真跑一遍 GLM-5.2。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: