AI 快讯GLM-5.2 全量开放 1M 上下文,下周开源
模型上新

GLM-5.2 全量开放 1M 上下文,下周开源

2026-06-13T11:06:33.497Z
GLM-5.2 全量开放 1M 上下文,下周开源

智谱发布 GLM-5.2,面向所有 GLM Coding Plan 用户开放真正可用的 1M 上下文,API 与 MIT 协议开源版本均将在下周上线。

智谱把 1M 上下文这件事,真的做成了

智谱今天放出了 GLM-5.2,没有发布会,没有提前预热,直接面向所有 GLM Coding Plan 用户全量开放。Lite、Pro、Max 加上团队版,一次性铺满,下周 API 会跟上,模型权重同步以 MIT 协议开源。

这是继 2 月 GLM-5 在 Z.ai 上线、Q1 末放出开源权重之后,智谱在编程基础模型这条线上的又一次明牌动作。和上一次不同的是,这次的卖点不在跑分,而在一个对开发者更具体的事情——1M 上下文,而且是“真正可用”的 1M。

GLM-5.2 模型卡与基准测试结果对比图

1M 上下文,为什么这次值得拿出来说

长上下文这事儿,过去两年所有厂商都在卷。Gemini 早早把 1M 甚至 2M 写进 spec,Claude 也把 200K 拉到 1M,国内厂商在 PPT 上挂 1M 的也不在少数。但开发者心里都清楚一件事:标称的 context window 和真正能用的 effective context 是两码事。

我们在实际场景里见过太多“长上下文翻车”的样子:

  • 塞到 200K 之后,模型开始忘前面的变量名
  • 跨文件 reasoning 时,中段的依赖关系被静默丢掉
  • token 计费倒是按 1M 收,召回质量却在 NIAH(needle in a haystack)的彩色图之外完全跌穿

GLM-5.2 这次强调的是“全量开放”,意思有两层:一是不再像之前那样按等级限速、按用户分层灰度,所有 Coding Plan 用户即开即用;二是 1M 这个数字不打折,整个上下文窗口里模型的注意力是连贯的。

这背后是 GLM-5 当时就引入的 DeepSeek 稀疏注意力(DSA) 架构在 5.2 里进一步打磨的结果。DSA 的核心思路是用稀疏 attention 把长序列的推理成本从 O(n²) 拉下来,同时通过精心设计的稀疏 pattern 保证长程依赖不丢。简单说,就是让模型不用“每个 token 都看每个 token”,但又能在需要的时候“看到该看的 token”。这套机制让 1M 上下文不再是个 marketing 数字。

对开发者意味着什么

做过 Coding Agent 的人都明白,上下文长度直接决定能力天花板

一个中型的 monorepo 项目,光是核心目录的源码加上依赖类型定义,轻松突破 300K token。如果你要让 agent 在这个项目里做端到端的重构、加 feature、修跨模块的 bug,128K 根本不够铺一个完整的工作上下文。这也是为什么 Claude Code 在前期的产品体验里要做大量 RAG-like 的文件检索和裁剪——不是因为 RAG 多优雅,是因为没办法。

1M 上下文真正打开的场景大概有这几类:

  1. 整仓喂入。中等规模的 codebase 不再需要复杂的 file router,直接把目录树和关键源文件灌进去,让模型自己决定看哪里。
  2. 长程 agent task。Vending-Bench 2 这类需要模拟一年期经营的任务,过去都得靠中间 summarization 折叠历史,1M 之后可以保留更原始的轨迹。
  3. 超长文档审计。法律、合规、安全审计这类场景里,模型可以一次性看到完整文档,不用切片再合并。
  4. 多轮 debug 对话。一个真正长寿命的 coding session 不再需要担心 context window 把早期的关键决策推出窗口。

跟 GLM-5 是什么关系

这里有个容易混淆的点。GLM-5 是 2 月份发布的那个旗舰,主打 Agentic Engineering,号称要把编程范式从 Vibe Coding 推到 Agentic Engineering。在 SWE-bench Verified、SWE-bench Multilingual、Terminal-Bench 2.0 这些榜单上,GLM-5 当时已经做到开源 SOTA,跟 Claude Opus 4.5 和 GPT-5.2(xhigh)平起平坐,在 SWE-bench Multilingual 上甚至同时击败了 Gemini 3 Pro 和 GPT-5.2。

GLM-5.2 不是从头训的新模型,而是 GLM-5 的迭代版本。从智谱的口径看,重点更新有三个方向:

  • 上下文从 128K/256K 档位升级到全量可用的 1M
  • 稀疏注意力推理路径进一步优化,长上下文场景下吞吐和首 token 延迟都有改善
  • 异步 Agent RL 的策略对齐升级,在长程任务的自我纠错能力上继续往前推

智谱在 GLM-5 时期讲过他们的“异步 RL 基础设施”——把生成和训练解耦,让 rollout 阶段不阻塞 training step。5.2 这次没有重新讲技术架构,但很明显新一轮的强化学习 post-training 跑了不少。从 Coding Plan 用户拿到模型后的几小时反馈看,长程 agent task 上的稳定性确实比 5 又上了一个台阶。

下周开源,MIT 协议

智谱这次延续了 GLM-5 的开源策略,下周会把 GLM-5.2 的权重以 MIT 协议放出来。在 2026 年这个时间点,MIT 协议在前沿大模型里依然是最宽松的那一档——可以商用、可以二次分发、可以闭源 fine-tune 之后再卖,没有 Llama 那种用户数量门槛,也没有“竞品不能用”的小字条款。

这件事的行业意义比模型本身更大一点。在 Claude Opus 4.5 和 GPT-5.2 已经把闭源前沿拉到极高位置的情况下,开源阵营里能在 SWE-bench 这条线上跟闭源 SOTA 掰手腕的,目前几乎只有 DeepSeek V3.2 和 GLM 系列。MIT 协议意味着任何想要私有部署、做行业 fine-tune、或者在国内做合规交付的团队,都可以直接拿来用。

GLM-5.2 在 SWE-bench 与 Terminal-Bench 上的表现曲线

怎么用上

几条路:

  • GLM Coding Plan 用户:今天就能用,Lite / Pro / Max / 团队版全部覆盖。智谱官方 IDE 插件和 CodeGeeX 链路应该会先一步切到 5.2 默认。
  • API 用户:下周上线,调用方式保持和 GLM-5 系列一致,model name 切到 glm-5.2 即可,OpenAI 格式的兼容层照常工作。
  • 自部署用户:等下周开源权重,预计 Hugging Face 和 ModelScope 同步上架。

聚合平台这边,OpenAI Hub 会在 API 开放当天同步接入 GLM-5.2,对于已经在用一个 Key 调 GPT / Claude / Gemini / DeepSeek 的开发者,可以直接在路由配置里加一行模型名切过去,国内直连,不需要再单独对接智谱开放平台。这对喜欢做 A/B 路由和 fallback 策略的团队比较方便——比如长上下文任务走 GLM-5.2,短链路推理走 Claude Opus 4.5,成本敏感的兜底走 DeepSeek。

一些还没说清楚的事

开源是好事,但有几个点值得在下周开源之后重点验证:

  1. 1M 上下文的真实召回质量。NIAH 跑出彩色满分容易,真正在跨文件 reasoning、跨章节 QA 上能不能保住质量,得等社区第三方评测。
  2. 稀疏注意力的部署成本。DSA 这套架构虽然推理便宜,但对 inference 框架的支持还在追赶。vLLM / SGLang 这边什么时候有官方 kernel,决定了自部署的实际门槛。
  3. 跟 GLM-5 的差异化定位。如果 5.2 全面替代 5,那智谱后续的版本号节奏是什么;如果是并行存在,价格策略和场景推荐会怎么分。

写在最后

2026 年走到 6 月,前沿模型市场已经基本定型为 Claude Opus 系列、GPT-5.2 系列、Gemini 3 Pro 这三巨头领跑,DeepSeek 和 GLM 在开源侧稳住第一梯队的格局。GLM-5.2 这次没有在跑分上做太激进的动作,而是把“1M 上下文”这件已经被说滥的事情真正落到了产品层面——所有用户、即开即用、下周开源。

这是个挺“智谱”的发布节奏:不喧哗,但每一步都踩在开发者真正在意的点上。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: