智谱GLM-5.1发布：8小时长程任务、SWE-bench Pro超越Opus 4.6的开源旗舰模型

智谱今日发布开源旗舰模型 GLM-5.1，主打8小时长程任务能力，SWE-bench Pro 成绩超越 Claude Opus 4.6 和 GPT-5.4，同时提价10%，Coding场景价格首次对齐海外头部厂商。

智谱今天正式发布了 GLM-5.1。一句话概括：这是一个能连续工作 8 小时、在 SWE-bench Pro 上干翻 Claude Opus 4.6 的开源模型。

同一天，智谱股价盘中大涨近 19%，GLM 系列 API 再度提价 10%。国产大模型终于走到了一个微妙的拐点——不再卷低价，开始卷价值。

先说最硬的数据

直接看成绩单。智谱这次拿出了三个业内最有代表性的代码评测基准：

SWE-Bench Pro：在真实 GitHub 仓库中定位并修复高难度工程 Bug，公认最接近真实软件开发的基准测试。GLM-5.1 刷新全球最佳成绩，超过 GPT-5.4 和 Claude Opus 4.6。
Terminal-Bench 2.0：考察模型操作命令行解决问题的能力。
NL2Repo：从零构建完整代码仓库。

三项综合下来，GLM-5.1 拿到全球第三、国产第一、开源第一。

GLM-5.1 在 SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo 三项基准测试中的成绩对比图，包含与 GPT-5.4、Claude Opus 4.6 等模型的横向比较

这里要多说一句 SWE-Bench Pro。这个基准之所以被行业认可，是因为它不是那种"给你一段代码补全下一行"的玩具测试。它要求模型理解一个真实的、有历史包袱的 GitHub 项目，在成千上万行代码里定位 Bug，然后写出能通过 CI 的修复补丁。能在这个测试上拿高分，基本等于说：这个模型可以当一个靠谱的 junior engineer 用了。

GLM-5.1 在这项测试上超越 Opus 4.6，是国产模型的第一次。考虑到 Opus 4.6 长期占据编程能力的王座，这个突破的含金量不低。

8 小时长程任务：从"能不能做"到"能做多久"

但比跑分更值得关注的，是 GLM-5.1 提出的一个新叙事：Long-Horizon Task（长程任务）。

过去两年，大模型的竞争逻辑是"谁更聪明"——Benchmark 分数越高越好。智谱这次试图把评价维度从"智力"拉到"耐力"：模型不只要聪明，还要能持续工作。

这个思路其实很实际。你让现在的顶级模型写一个函数、改一个 Bug，它们都能做得不错。但如果你给它一个真实的工程任务——比如"把这个 Python 2 项目迁移到 Python 3，顺便把测试覆盖率从 40% 提到 80%"——大多数模型在 30 分钟内就会开始"走神"：上下文丢失、目标偏移、重复犯错。

智谱把这个演进路径讲得很清楚：

3 分钟的 Vibe Coding → 30 分钟的 Agentic Engineering → 8 小时的 Long-Horizon Task

从氛围编程到智能体工程，再到长程任务。每一步跨越的不只是时间长度，而是模型在自主规划、执行、纠错方面的能力门槛。

8 小时意味着什么？意味着你晚上睡觉前给模型派一个任务，早上起来它交付了一个完整的工程级成果。智谱官方的说法是："你睡觉的 8 小时，是模型上班的 8 小时。"

这话听着像营销口号，但背后的技术挑战是真实的。要让一个模型在 8 小时内保持稳定输出，至少需要解决几个核心问题：

超长上下文的记忆管理：8 小时的工作会产生海量的中间状态，模型需要知道哪些信息该记住、哪些可以丢弃。
目标保持与自我纠错：时间越长，模型越容易偏离最初的目标。它需要有能力定期"回头看"，确认自己还在正确的方向上。
多步骤规划与执行：不是一次性生成答案，而是把大任务拆成子任务，按顺序执行，每一步的输出作为下一步的输入。
失败恢复：8 小时里一定会遇到错误。模型不能因为一个报错就卡死，它需要能诊断问题、调整策略、继续推进。

目前行业里，能做到分钟级 Agentic 任务的模型不少，但声称能稳定运行 8 小时的，GLM-5.1 是开源阵营里的第一个。当然，"8 小时"这个数字在实际场景中的表现如何，还需要更多开发者的实测验证。

提价 10%：国产模型的定价逻辑变了

伴随 GLM-5.1 发布，智谱同步提价 10%。

这在国产大模型圈子里是个反常操作。过去一年半，国内厂商的主旋律是降价——你降 50%，我直接免费。价格战打到最后，不少模型的 API 价格已经低到让人怀疑是不是在亏本获客。

智谱反其道而行，而且不是第一次了。从 GLM-5 到 GLM-5.1，这已经是又一轮提价。

提价后的结果很有意思：GLM-5.1 在 Coding 场景的缓存命中 Token 价格，已经接近 Anthropic 旗下 Claude Sonnet 4.6 的水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

36氪报道显示，市场对此的反应是正面的——智谱今日盘中大涨近 19%。投资者的逻辑很简单：能提价说明产品有议价能力，有议价能力说明用户真的在用、真的觉得值。

对开发者来说，这意味着什么？

如果你之前选 GLM 系列纯粹是因为便宜，那现在需要重新评估了。但如果你选它是因为能力够用、开源可控，那提价 10% 换来的 SWE-bench Pro 全球第一和 8 小时长程任务能力，这笔账算得过来。

开源的意义：不只是能下载权重

GLM-5.1 是开源模型，这一点值得单独拿出来说。

在 SWE-bench Pro 上超越 Opus 4.6 的模型，之前都是闭源的。GLM-5.1 是第一个以开源身份做到这件事的。

开源对开发者的实际价值在于：

私有化部署：对数据安全有要求的企业可以把模型跑在自己的机房里，代码不出内网。
微调定制：可以在特定领域的数据上做 fine-tuning，让模型更懂你的业务。
成本可控：大规模调用时，自建推理服务的边际成本远低于 API 调用。
不受供应商锁定：不用担心某天 API 涨价或者停服。

当然，开源模型的部署和运维成本也不低。对于大多数开发者来说，通过 API 调用仍然是最高效的方式。好消息是，GLM-5.1 已经可以通过多个平台的 API 直接调用，OpenAI Hub 也已支持，兼容 OpenAI 格式，切换成本几乎为零。

实际调用：怎么用上 GLM-5.1

对于已经在用 OpenAI 格式 API 的开发者，接入 GLM-5.1 非常简单。以下是一个通过 OpenAI Hub 调用的示例：

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {
            "role": "system",
            "content": "你是一个资深软件工程师，擅长定位和修复复杂代码库中的 Bug。"
        },
        {
            "role": "user",
            "content": "以下是一个 Python 项目的报错日志和相关代码文件，请帮我定位问题根因并给出修复方案。\n\n报错日志：\nTraceback (most recent call last):\n  File 'app/services/auth.py', line 47, in validate_token\n    payload = jwt.decode(token, SECRET_KEY, algorithms=['HS256'])\njwt.exceptions.ExpiredSignatureError: Signature has expired\n\n相关代码见附件。"
        }
    ],
    temperature=0.2,
    max_tokens=4096
)

print(response.choices[0].message.content)

如果你想体验 GLM-5.1 的长程任务能力，更典型的用法是结合 Agent 框架，让模型在循环中持续工作：

from openai import OpenAI
import json

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

def run_long_horizon_task(task_description: str, max_iterations: int = 100):
    """简化的长程任务执行循环"""
    messages = [
        {
            "role": "system",
            "content": (
                "你是一个能够独立完成复杂工程任务的 AI 工程师。"
                "请先制定计划，然后逐步执行。每一步完成后，评估进度并决定下一步行动。"
                "如果遇到错误，请自行诊断并修复。"
            )
        },
        {"role": "user", "content": task_description}
    ]

    for i in range(max_iterations):
        response = client.chat.completions.create(
            model="glm-5.1",
            messages=messages,
            temperature=0.3,
            max_tokens=8192
        )

        assistant_msg = response.choices[0].message.content
        messages.append({"role": "assistant", "content": assistant_msg})

        # 检查模型是否认为任务已完成
        if "[TASK_COMPLETE]" in assistant_msg:
            print(f"任务在第 {i+1} 轮迭代后完成")
            break

        # 执行模型输出的操作，将结果反馈给模型
        result = execute_action(assistant_msg)  # 你的执行逻辑
        messages.append({"role": "user", "content": f"执行结果：\n{result}"})

    return messages

这只是一个简化示例。实际的长程任务框架会更复杂，涉及工具调用、文件系统操作、Git 操作等。但核心思路是一样的：让模型在循环中持续规划和执行，直到任务完成。

和竞品比，GLM-5.1 处在什么位置？

拉一张表来看当前第一梯队的编程模型格局：

| 模型 | SWE-Bench Pro | 长程任务 | 开源 | 备注 | |------|:---:|:---:|:---:|------| | GLM-5.1 | 🥇 全球最佳 | 8 小时 | ✅ | 国产第一、开源第一 | | Claude Opus 4.6 | 🥈 | 未公开 | ❌ | 长期编程王者 | | GPT-5.4 | 🥉 | 未公开 | ❌ | OpenAI 最新旗舰 | | Gemini 3 Pro | 第二梯队 | 未公开 | ❌ | Google 旗舰 |

需要注意的是，SWE-Bench Pro 的成绩会受到 Agent 框架、提示词工程等因素的影响，不同评测条件下的结果可能有差异。智谱公布的是官方评测成绩，社区独立复现的结果可能会有波动。

从开发者实测反馈来看，知乎上已经有不少第一手体验报告。总体评价是：编程能力确实有质的飞跃，在特定场景下已经可以作为 Claude Opus 4.6 的平替。但在一些复杂的多文件重构任务上，稳定性还有提升空间。

另外一个值得关注的细节是，GLM-5.1 是基于华为芯片训练的。在当前的国际环境下，这意味着整个技术栈——从训练芯片到模型权重——都实现了自主可控。对于有合规要求的政企客户来说，这是一个重要的加分项。

行业影响：开源模型的天花板被抬高了

回看过去一年，开源模型的进化速度超出了大多数人的预期。

从 Llama 3 到 DeepSeek-V3，再到现在的 GLM-5.1，开源模型和闭源模型之间的差距在快速缩小。GLM-5.1 在 SWE-bench Pro 上超越 Opus 4.6，某种程度上标志着：在编程这个最硬核的能力维度上，开源已经追平甚至超越了闭源。

这对整个行业的影响是深远的：

对开发者：选择更多了。以前想要顶级编程能力，只能用 Claude 或 GPT 的 API，现在多了一个开源选项。可以 API 调用，也可以私有化部署。

对企业：大模型的采购决策变得更复杂了。不再是"闭源=强，开源=弱"的简单二分法。需要根据具体场景、数据安全要求、成本预算来综合评估。

对 Anthropic 和 OpenAI：护城河在收窄。当开源模型在核心能力上追平，闭源厂商的优势将更多体现在生态、工具链和企业服务上，而不仅仅是模型能力本身。

冷静看几个问题

当然，也不必过度兴奋。几个需要冷静看待的点：

Benchmark 不等于实际体验。SWE-bench Pro 成绩全球第一，不代表在所有编程场景下都是最强的。实际开发中的体验受太多因素影响——响应速度、上下文窗口利用效率、对特定语言和框架的熟悉程度等等。
8 小时长程任务的实际表现有待验证。官方声称能持续工作 8 小时，但在什么样的任务上？成功率如何？中间会不会出现质量衰减？这些都需要社区大规模实测后才能下结论。
提价是双刃剑。价格对齐海外厂商，说明智谱对产品有信心，但也意味着"性价比"这张牌不能再打了。GLM-5.1 必须在能力上真正站住脚，否则用户会用脚投票。
Coding Plan 瞬间断货的现象说明产能还是个问题。知乎上有用户反映 GLM-5.1 上线后 Coding Plan 迅速售罄，这对想要第一时间体验的开发者来说不太友好。

写在最后

GLM-5.1 的发布，让 2026 年的大模型竞争变得更有意思了。

一个国产开源模型，用华为芯片训练，在最硬核的编程基准上超越了 Claude 和 GPT，还能连续工作 8 小时。放在两年前，这是不可想象的。

但竞争远没有结束。Anthropic 的 Claude 5 系列、OpenAI 的下一代模型都在路上。开源阵营里，DeepSeek、Llama 也不会坐视不理。

对开发者来说，最好的策略永远是：保持关注，快速试用，用实际项目验证，而不是只看跑分。GLM-5.1 值得你花一个下午去认真测一测。

参考来源

智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1，同时提价 10% — IT之家对 GLM-5.1 发布的详细报道，含官方完整介绍
GLM 再度提价 10%，智谱大涨近 19% — 36氪关于智谱提价及股价表现的快讯
GLM-5.1 上线，编程表现贴 Opus 4.6，Coding Plan 瞬间断货 — 知乎上关于 GLM-5.1 上线首日的开发者反馈
太强了！GLM-5.1 第一手实测，平替 Claude Opus 4.6？ — 知乎专栏的 GLM-5.1 实测体验报告

GLM-5.1：能连续干8小时的开源模型来了

先说最硬的数据

8 小时长程任务：从"能不能做"到"能做多久"

提价 10%：国产模型的定价逻辑变了

开源的意义：不只是能下载权重

实际调用：怎么用上 GLM-5.1

和竞品比，GLM-5.1 处在什么位置？

行业影响：开源模型的天花板被抬高了

冷静看几个问题

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们