GLM-5.1:能连续干8小时的开源模型来了

模型上新

智谱今日发布开源旗舰模型 GLM-5.1,主打8小时长程任务能力,SWE-bench Pro 成绩超越 Claude Opus 4.6 和 GPT-5.4,同时提价10%,Coding场景价格首次对齐海外头部厂商。

智谱今天正式发布了 GLM-5.1。一句话概括:这是一个能连续工作 8 小时、在 SWE-bench Pro 上干翻 Claude Opus 4.6 的开源模型。

同一天,智谱股价盘中大涨近 19%,GLM 系列 API 再度提价 10%。国产大模型终于走到了一个微妙的拐点——不再卷低价,开始卷价值。

先说最硬的数据

直接看成绩单。智谱这次拿出了三个业内最有代表性的代码评测基准:

  • SWE-Bench Pro:在真实 GitHub 仓库中定位并修复高难度工程 Bug,公认最接近真实软件开发的基准测试。GLM-5.1 刷新全球最佳成绩,超过 GPT-5.4 和 Claude Opus 4.6。
  • Terminal-Bench 2.0:考察模型操作命令行解决问题的能力。
  • NL2Repo:从零构建完整代码仓库。

三项综合下来,GLM-5.1 拿到全球第三、国产第一、开源第一。

GLM-5.1 在 SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo 三项基准测试中的成绩对比图,包含与 GPT-5.4、Claude Opus 4.6 等模型的横向比较

这里要多说一句 SWE-Bench Pro。这个基准之所以被行业认可,是因为它不是那种"给你一段代码补全下一行"的玩具测试。它要求模型理解一个真实的、有历史包袱的 GitHub 项目,在成千上万行代码里定位 Bug,然后写出能通过 CI 的修复补丁。能在这个测试上拿高分,基本等于说:这个模型可以当一个靠谱的 junior engineer 用了。

GLM-5.1 在这项测试上超越 Opus 4.6,是国产模型的第一次。考虑到 Opus 4.6 长期占据编程能力的王座,这个突破的含金量不低。

8 小时长程任务:从"能不能做"到"能做多久"

但比跑分更值得关注的,是 GLM-5.1 提出的一个新叙事:Long-Horizon Task(长程任务)

过去两年,大模型的竞争逻辑是"谁更聪明"——Benchmark 分数越高越好。智谱这次试图把评价维度从"智力"拉到"耐力":模型不只要聪明,还要能持续工作。

这个思路其实很实际。你让现在的顶级模型写一个函数、改一个 Bug,它们都能做得不错。但如果你给它一个真实的工程任务——比如"把这个 Python 2 项目迁移到 Python 3,顺便把测试覆盖率从 40% 提到 80%"——大多数模型在 30 分钟内就会开始"走神":上下文丢失、目标偏移、重复犯错。

智谱把这个演进路径讲得很清楚:

3 分钟的 Vibe Coding → 30 分钟的 Agentic Engineering → 8 小时的 Long-Horizon Task

从氛围编程到智能体工程,再到长程任务。每一步跨越的不只是时间长度,而是模型在自主规划、执行、纠错方面的能力门槛。

8 小时意味着什么?意味着你晚上睡觉前给模型派一个任务,早上起来它交付了一个完整的工程级成果。智谱官方的说法是:"你睡觉的 8 小时,是模型上班的 8 小时。"

这话听着像营销口号,但背后的技术挑战是真实的。要让一个模型在 8 小时内保持稳定输出,至少需要解决几个核心问题:

  1. 超长上下文的记忆管理:8 小时的工作会产生海量的中间状态,模型需要知道哪些信息该记住、哪些可以丢弃。
  2. 目标保持与自我纠错:时间越长,模型越容易偏离最初的目标。它需要有能力定期"回头看",确认自己还在正确的方向上。
  3. 多步骤规划与执行:不是一次性生成答案,而是把大任务拆成子任务,按顺序执行,每一步的输出作为下一步的输入。
  4. 失败恢复:8 小时里一定会遇到错误。模型不能因为一个报错就卡死,它需要能诊断问题、调整策略、继续推进。

目前行业里,能做到分钟级 Agentic 任务的模型不少,但声称能稳定运行 8 小时的,GLM-5.1 是开源阵营里的第一个。当然,"8 小时"这个数字在实际场景中的表现如何,还需要更多开发者的实测验证。

提价 10%:国产模型的定价逻辑变了

伴随 GLM-5.1 发布,智谱同步提价 10%。

这在国产大模型圈子里是个反常操作。过去一年半,国内厂商的主旋律是降价——你降 50%,我直接免费。价格战打到最后,不少模型的 API 价格已经低到让人怀疑是不是在亏本获客。

智谱反其道而行,而且不是第一次了。从 GLM-5 到 GLM-5.1,这已经是又一轮提价。

提价后的结果很有意思:GLM-5.1 在 Coding 场景的缓存命中 Token 价格,已经接近 Anthropic 旗下 Claude Sonnet 4.6 的水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

36氪报道显示,市场对此的反应是正面的——智谱今日盘中大涨近 19%。投资者的逻辑很简单:能提价说明产品有议价能力,有议价能力说明用户真的在用、真的觉得值。

对开发者来说,这意味着什么?

如果你之前选 GLM 系列纯粹是因为便宜,那现在需要重新评估了。但如果你选它是因为能力够用、开源可控,那提价 10% 换来的 SWE-bench Pro 全球第一和 8 小时长程任务能力,这笔账算得过来。

开源的意义:不只是能下载权重

GLM-5.1 是开源模型,这一点值得单独拿出来说。

在 SWE-bench Pro 上超越 Opus 4.6 的模型,之前都是闭源的。GLM-5.1 是第一个以开源身份做到这件事的。

开源对开发者的实际价值在于:

  • 私有化部署:对数据安全有要求的企业可以把模型跑在自己的机房里,代码不出内网。
  • 微调定制:可以在特定领域的数据上做 fine-tuning,让模型更懂你的业务。
  • 成本可控:大规模调用时,自建推理服务的边际成本远低于 API 调用。
  • 不受供应商锁定:不用担心某天 API 涨价或者停服。

当然,开源模型的部署和运维成本也不低。对于大多数开发者来说,通过 API 调用仍然是最高效的方式。好消息是,GLM-5.1 已经可以通过多个平台的 API 直接调用,OpenAI Hub 也已支持,兼容 OpenAI 格式,切换成本几乎为零。

实际调用:怎么用上 GLM-5.1

对于已经在用 OpenAI 格式 API 的开发者,接入 GLM-5.1 非常简单。以下是一个通过 OpenAI Hub 调用的示例:

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {
            "role": "system",
            "content": "你是一个资深软件工程师,擅长定位和修复复杂代码库中的 Bug。"
        },
        {
            "role": "user",
            "content": "以下是一个 Python 项目的报错日志和相关代码文件,请帮我定位问题根因并给出修复方案。\n\n报错日志:\nTraceback (most recent call last):\n  File 'app/services/auth.py', line 47, in validate_token\n    payload = jwt.decode(token, SECRET_KEY, algorithms=['HS256'])\njwt.exceptions.ExpiredSignatureError: Signature has expired\n\n相关代码见附件。"
        }
    ],
    temperature=0.2,
    max_tokens=4096
)

print(response.choices[0].message.content)

如果你想体验 GLM-5.1 的长程任务能力,更典型的用法是结合 Agent 框架,让模型在循环中持续工作:

from openai import OpenAI
import json

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

def run_long_horizon_task(task_description: str, max_iterations: int = 100):
    """简化的长程任务执行循环"""
    messages = [
        {
            "role": "system",
            "content": (
                "你是一个能够独立完成复杂工程任务的 AI 工程师。"
                "请先制定计划,然后逐步执行。每一步完成后,评估进度并决定下一步行动。"
                "如果遇到错误,请自行诊断并修复。"
            )
        },
        {"role": "user", "content": task_description}
    ]

    for i in range(max_iterations):
        response = client.chat.completions.create(
            model="glm-5.1",
            messages=messages,
            temperature=0.3,
            max_tokens=8192
        )

        assistant_msg = response.choices[0].message.content
        messages.append({"role": "assistant", "content": assistant_msg})

        # 检查模型是否认为任务已完成
        if "[TASK_COMPLETE]" in assistant_msg:
            print(f"任务在第 {i+1} 轮迭代后完成")
            break

        # 执行模型输出的操作,将结果反馈给模型
        result = execute_action(assistant_msg)  # 你的执行逻辑
        messages.append({"role": "user", "content": f"执行结果:\n{result}"})

    return messages

这只是一个简化示例。实际的长程任务框架会更复杂,涉及工具调用、文件系统操作、Git 操作等。但核心思路是一样的:让模型在循环中持续规划和执行,直到任务完成。

和竞品比,GLM-5.1 处在什么位置?

拉一张表来看当前第一梯队的编程模型格局:

模型 SWE-Bench Pro 长程任务 开源 备注
GLM-5.1 🥇 全球最佳 8 小时 国产第一、开源第一
Claude Opus 4.6 🥈 未公开 长期编程王者
GPT-5.4 🥉 未公开 OpenAI 最新旗舰
Gemini 3 Pro 第二梯队 未公开 Google 旗舰

需要注意的是,SWE-Bench Pro 的成绩会受到 Agent 框架、提示词工程等因素的影响,不同评测条件下的结果可能有差异。智谱公布的是官方评测成绩,社区独立复现的结果可能会有波动。

从开发者实测反馈来看,知乎上已经有不少第一手体验报告。总体评价是:编程能力确实有质的飞跃,在特定场景下已经可以作为 Claude Opus 4.6 的平替。但在一些复杂的多文件重构任务上,稳定性还有提升空间。

另外一个值得关注的细节是,GLM-5.1 是基于华为芯片训练的。在当前的国际环境下,这意味着整个技术栈——从训练芯片到模型权重——都实现了自主可控。对于有合规要求的政企客户来说,这是一个重要的加分项。

行业影响:开源模型的天花板被抬高了

回看过去一年,开源模型的进化速度超出了大多数人的预期。

从 Llama 3 到 DeepSeek-V3,再到现在的 GLM-5.1,开源模型和闭源模型之间的差距在快速缩小。GLM-5.1 在 SWE-bench Pro 上超越 Opus 4.6,某种程度上标志着:在编程这个最硬核的能力维度上,开源已经追平甚至超越了闭源。

这对整个行业的影响是深远的:

对开发者:选择更多了。以前想要顶级编程能力,只能用 Claude 或 GPT 的 API,现在多了一个开源选项。可以 API 调用,也可以私有化部署。

对企业:大模型的采购决策变得更复杂了。不再是"闭源=强,开源=弱"的简单二分法。需要根据具体场景、数据安全要求、成本预算来综合评估。

对 Anthropic 和 OpenAI:护城河在收窄。当开源模型在核心能力上追平,闭源厂商的优势将更多体现在生态、工具链和企业服务上,而不仅仅是模型能力本身。

冷静看几个问题

当然,也不必过度兴奋。几个需要冷静看待的点:

  1. Benchmark 不等于实际体验。SWE-bench Pro 成绩全球第一,不代表在所有编程场景下都是最强的。实际开发中的体验受太多因素影响——响应速度、上下文窗口利用效率、对特定语言和框架的熟悉程度等等。

  2. 8 小时长程任务的实际表现有待验证。官方声称能持续工作 8 小时,但在什么样的任务上?成功率如何?中间会不会出现质量衰减?这些都需要社区大规模实测后才能下结论。

  3. 提价是双刃剑。价格对齐海外厂商,说明智谱对产品有信心,但也意味着"性价比"这张牌不能再打了。GLM-5.1 必须在能力上真正站住脚,否则用户会用脚投票。

  4. Coding Plan 瞬间断货的现象说明产能还是个问题。知乎上有用户反映 GLM-5.1 上线后 Coding Plan 迅速售罄,这对想要第一时间体验的开发者来说不太友好。

写在最后

GLM-5.1 的发布,让 2026 年的大模型竞争变得更有意思了。

一个国产开源模型,用华为芯片训练,在最硬核的编程基准上超越了 Claude 和 GPT,还能连续工作 8 小时。放在两年前,这是不可想象的。

但竞争远没有结束。Anthropic 的 Claude 5 系列、OpenAI 的下一代模型都在路上。开源阵营里,DeepSeek、Llama 也不会坐视不理。

对开发者来说,最好的策略永远是:保持关注,快速试用,用实际项目验证,而不是只看跑分。GLM-5.1 值得你花一个下午去认真测一测。


参考来源