Qwen3.7-Max 发布：阿里押注智能体时代的旗舰模型

阿里今日正式发布 Qwen3.7-Max，定位智能体时代旗舰模型。35 小时自主完成 1000+ 次工具调用、Arena 国产第一，编程与 Agent 能力直追 Opus-4.6。

5 月 20 日，阿里云峰会上，千问家族最新一代旗舰模型 Qwen3.7-Max 正式落地。此前一天，预览版已悄悄上了 Qwen Chat 和 Arena AI，开发者圈里已经传开——这次，阿里把宝押在了"智能体"三个字上。

按照官方给出的定位，Qwen3.7-Max 不再追求做一个"更聪明的对话模型"，而是直接对着 Agent 时代设计：编程、推理、工具调用、长程任务执行，每一项都围绕"能不能让模型自己干活"展开。在第三方机构 Arena 全球大模型盲测总榜中，Qwen3.7-Max 位列国产模型第一，文本综合排名第 13 位，编程子榜第 10。这个成绩在国产阵营里已经算挑大梁，但放到全球第一梯队，仍然要追 Opus-4.6 和 GPT 系列。

Qwen3.7-Max 发布会现场，大屏展示 Arena 榜单排名

35 小时、1000 次工具调用：长程任务是这次最大的看点

如果只挑一个最值得说的数据点，那就是这次官方反复强调的"35 小时全自主内核优化实验"。

场景是这样的：在一个全新的芯片平台上，Qwen3.7-Max 通过自主编程和超过 1000 次工具调用，对一个关键内核进行迭代优化，最终把推理速度做到了原版本的 10 倍提升。整个过程没有人工介入，模型自己拆解任务、自己写代码、自己跑测试、自己看结果、自己改方案。

这件事的难点不在 1000 次工具调用本身——MCP 协议铺开之后，调 1000 次工具不算稀奇——难点在于 35 小时的连贯推理。绝大多数模型跑长任务时会出现两种典型崩盘：要么上下文越积越乱，前半段定的目标到后面忘得干干净净；要么进入死循环，反复尝试同一个失败的方案。Qwen3.7-Max 在 Kernel Bench L3 上拿到 1.98 倍的中位数加速、96% 的加速率，意味着它在这种长周期 GPU 内核优化任务里，确实把"持续做对事"这件事做出来了。

这也是为什么阿里这次的宣传口径不再强调参数量、不再强调 token 数，而是讲"超长程智能体复杂任务"。市场已经不缺模型，缺的是能干完整活的模型。

编程能力：紧追 Opus-4.6，部分指标实现反超

编程是 Qwen 系列的传统强项，这次 Qwen3.7-Max 把这块进一步压实。从官方放出的测评数据看：

SWE-Verified: 80.4，与 Opus-4.6 Max（80.8）、DS-V4-Pro Max（80.6）基本持平
SWE-Pro: 60.6，领先
SWE-Multilingual: 78.3，多语言场景表现突出
SciCode: 53.5
QwenSVG: 1608
Terminal Bench 2.0-Terminus: 69.7，超越 DS-V4-Pro Max 的 67.9

SWE-Verified 是目前业界公认最贴近真实工程场景的 benchmark，要求模型在真实开源仓库里定位 bug、写补丁、跑测试。Qwen3.7-Max 在这个榜上跟 Opus-4.6 站在同一条线上，差距已经收窄到误差范围内。Terminal Bench 上反超 DS-V4-Pro Max，则说明它在终端命令、shell 脚本这类"工程师日常"场景里更稳。

更值得注意的是跨框架兼容。官方明确说，Qwen3.7-Max 在 Claude Code、OpenClaw、Qwen Code 等多个 Agent 框架下都能稳定发挥。这个细节其实挺关键——很多模型在自家框架下数据漂亮，换个 harness 就掉一截。能跨框架泛化，意味着它的工具调用能力是真的内化了，而不是被特定 prompt 模板"喂"出来的。

Qwen3.7-Max 编程 benchmark 对比图，与 Opus-4.6、DS-V4-Pro 横向比较

通用智能体：MCP 生态里的国产最强解

通用 Agent 这块，Qwen3.7-Max 的提升比编程还要明显。几个核心数据：

MCP-Mark: 60.8，对比 GLM-5.1 的 57.5
MCP-Atlas: 76.4，对比 Opus-4.6 的 75.8
Skillbench: 59.2，对比 K2.6 的 56.2
BFCL-V4: 75.0
Qwenclaw: 64.3
ClawEval: 65.2

MCP（Model Context Protocol）现在已经是 Agent 工具调用的事实标准。MCP-Mark 和 MCP-Atlas 直接考察模型在 MCP 协议下选工具、传参、解析返回值的综合能力。Qwen3.7-Max 在 MCP-Atlas 上反超 Opus-4.6，这是国产模型第一次在 MCP 主榜上压过 Anthropic 旗舰。

实际意义在哪里？现在大量企业 Agent 应用都在按 MCP 标准接入工具——文件系统、数据库、CRM、内部 API 一股脑塞给模型。模型在这种场景下的表现，直接决定了 Agent 产品到底能不能落地。Qwen3.7-Max 在 MCP 这条赛道做到接近 Opus-4.6，对于国内企业是一个相当务实的选项：合规、直连、价格预期更友好。

怎么用：阿里云百炼 + OpenAI Hub

Qwen3.7-Max 即将通过阿里云百炼提供 API 服务，调用方式延续 Qwen 一贯的兼容 OpenAI 格式风格。

对于不想折腾国内多平台 Key 管理的开发者，OpenAI Hub（openai-hub.com）也将第一时间上线 Qwen3.7-Max。一个 Key 同时调 GPT、Claude、Gemini、DeepSeek、Qwen 系列，国内直连，省去了在百炼、Anthropic、Google AI Studio 之间反复切换的麻烦。对于做多模型对比、Agent 编排的团队，这种聚合方式能省下不少基础设施工作。

一些判断

这次 Qwen3.7-Max 的发布，节奏上其实很值得品。1 月份阿里刚发完 Qwen3-Max-Thinking，主打万亿参数和 HLE 高分；不到四个月，3.7 系列就把重心整体切到了 Agent。这种快节奏迭代，跟去年 Qwen3-Coder 调用量暴涨之后阿里看到的市场反馈应该有直接关系——开发者要的不是更高的 benchmark，而是能跑起来的 Agent。

几个值得关注的判断：

第一，Qwen 已经从"对标"切换到"差异化"。 阿里这次没有强行去比 GPT-5.2 或 Opus-4.6 的综合智能，而是挑长程任务、MCP 工具调用这些真实场景指标做突破。这是一种成熟的策略——在所有维度都赢不现实，但在 Agent 这个最热的应用切口上做到顶尖，足够撑起商业化。

第二，35 小时长程任务的演示，比榜单数据更值得认真对待。 行业已经过了刷 benchmark 的阶段，能不能跑完一个真实的多步任务、能不能在出错时自我修正，才是模型作为生产力工具的分水岭。Qwen3.7-Max 给出了一个具体的、可验证的案例（芯片内核优化、10 倍加速），这比任何榜单都更有说服力。

第三，跨框架泛化能力被单独点出来，是阿里在向开源生态示好。 Claude Code、OpenClaw、Qwen Code 三个框架并列，意味着官方明确不要求开发者锁定 Qwen 自家工具链。这跟通义千问开源 300+ 模型、衍生模型 20 万的策略是一致的——做生态而不是做围栏。

第四，Opus-4.6 仍然是天花板。 Qwen3.7-Max 在多个指标上接近、个别指标超越，但整体上 Anthropic 的旗舰还是更稳。国产追赶到这个程度已经是过去两年最大的进步，但"打平"和"领先半代"是两回事，这个差距还得继续磨。

写在最后

Agent 这个词从 2024 年喊到现在，喊了快两年，真正能撑起 35 小时连贯执行的模型这才陆续出现。Qwen3.7-Max 不是终点，但它把国产模型在智能体能力上的位置往前推了一截——从"能跑 demo"推到了"能干活"。

对于开发者来说，现在最实际的问题是：手头那个 Agent 项目里 Claude/GPT 的位置，要不要试试用 Qwen3.7-Max 替一替。考虑到价格、合规、直连速度这三个国产模型天然的优势，再加上这次 benchmark 摆出来的硬指标，答案大概率是值得跑一轮 A/B。

API 上线之后会有更多实测出来，到时候再看是不是真的稳。

参考来源

Qwen3.7-Max 发布讨论 - linux.do — 社区第一时间的发布讨论与开发者反馈
阿里千问最强智能体模型 Qwen3.7-Max 发布 - IT之家 — 官方发布详情与完整 benchmark 数据
Qwen3.7-Max-Preview 首发亮相 Arena AI - IT之家 — 预览版上线 Arena 的榜单表现

Qwen3.7-Max 登场：阿里把赌注押在了智能体上