Qwen3.7-Max 登场:阿里把赌注押在了智能体上

模型上新

阿里今日正式发布 Qwen3.7-Max,定位智能体时代旗舰模型。35 小时自主完成 1000+ 次工具调用、Arena 国产第一,编程与 Agent 能力直追 Opus-4.6。

5 月 20 日,阿里云峰会上,千问家族最新一代旗舰模型 Qwen3.7-Max 正式落地。此前一天,预览版已悄悄上了 Qwen Chat 和 Arena AI,开发者圈里已经传开——这次,阿里把宝押在了"智能体"三个字上。

按照官方给出的定位,Qwen3.7-Max 不再追求做一个"更聪明的对话模型",而是直接对着 Agent 时代设计:编程、推理、工具调用、长程任务执行,每一项都围绕"能不能让模型自己干活"展开。在第三方机构 Arena 全球大模型盲测总榜中,Qwen3.7-Max 位列国产模型第一,文本综合排名第 13 位,编程子榜第 10。这个成绩在国产阵营里已经算挑大梁,但放到全球第一梯队,仍然要追 Opus-4.6 和 GPT 系列。

Qwen3.7-Max 发布会现场,大屏展示 Arena 榜单排名

35 小时、1000 次工具调用:长程任务是这次最大的看点

如果只挑一个最值得说的数据点,那就是这次官方反复强调的"35 小时全自主内核优化实验"。

场景是这样的:在一个全新的芯片平台上,Qwen3.7-Max 通过自主编程和超过 1000 次工具调用,对一个关键内核进行迭代优化,最终把推理速度做到了原版本的 10 倍提升。整个过程没有人工介入,模型自己拆解任务、自己写代码、自己跑测试、自己看结果、自己改方案。

这件事的难点不在 1000 次工具调用本身——MCP 协议铺开之后,调 1000 次工具不算稀奇——难点在于 35 小时的连贯推理。绝大多数模型跑长任务时会出现两种典型崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。Qwen3.7-Max 在 Kernel Bench L3 上拿到 1.98 倍的中位数加速、96% 的加速率,意味着它在这种长周期 GPU 内核优化任务里,确实把"持续做对事"这件事做出来了。

这也是为什么阿里这次的宣传口径不再强调参数量、不再强调 token 数,而是讲"超长程智能体复杂任务"。市场已经不缺模型,缺的是能干完整活的模型。

编程能力:紧追 Opus-4.6,部分指标实现反超

编程是 Qwen 系列的传统强项,这次 Qwen3.7-Max 把这块进一步压实。从官方放出的测评数据看:

  • SWE-Verified: 80.4,与 Opus-4.6 Max(80.8)、DS-V4-Pro Max(80.6)基本持平
  • SWE-Pro: 60.6,领先
  • SWE-Multilingual: 78.3,多语言场景表现突出
  • SciCode: 53.5
  • QwenSVG: 1608
  • Terminal Bench 2.0-Terminus: 69.7,超越 DS-V4-Pro Max 的 67.9

SWE-Verified 是目前业界公认最贴近真实工程场景的 benchmark,要求模型在真实开源仓库里定位 bug、写补丁、跑测试。Qwen3.7-Max 在这个榜上跟 Opus-4.6 站在同一条线上,差距已经收窄到误差范围内。Terminal Bench 上反超 DS-V4-Pro Max,则说明它在终端命令、shell 脚本这类"工程师日常"场景里更稳。

更值得注意的是跨框架兼容。官方明确说,Qwen3.7-Max 在 Claude Code、OpenClaw、Qwen Code 等多个 Agent 框架下都能稳定发挥。这个细节其实挺关键——很多模型在自家框架下数据漂亮,换个 harness 就掉一截。能跨框架泛化,意味着它的工具调用能力是真的内化了,而不是被特定 prompt 模板"喂"出来的。

Qwen3.7-Max 编程 benchmark 对比图,与 Opus-4.6、DS-V4-Pro 横向比较

通用智能体:MCP 生态里的国产最强解

通用 Agent 这块,Qwen3.7-Max 的提升比编程还要明显。几个核心数据:

  • MCP-Mark: 60.8,对比 GLM-5.1 的 57.5
  • MCP-Atlas: 76.4,对比 Opus-4.6 的 75.8
  • Skillbench: 59.2,对比 K2.6 的 56.2
  • BFCL-V4: 75.0
  • Qwenclaw: 64.3
  • ClawEval: 65.2

MCP(Model Context Protocol)现在已经是 Agent 工具调用的事实标准。MCP-Mark 和 MCP-Atlas 直接考察模型在 MCP 协议下选工具、传参、解析返回值的综合能力。Qwen3.7-Max 在 MCP-Atlas 上反超 Opus-4.6,这是国产模型第一次在 MCP 主榜上压过 Anthropic 旗舰。

实际意义在哪里?现在大量企业 Agent 应用都在按 MCP 标准接入工具——文件系统、数据库、CRM、内部 API 一股脑塞给模型。模型在这种场景下的表现,直接决定了 Agent 产品到底能不能落地。Qwen3.7-Max 在 MCP 这条赛道做到接近 Opus-4.6,对于国内企业是一个相当务实的选项:合规、直连、价格预期更友好。

怎么用:阿里云百炼 + OpenAI Hub

Qwen3.7-Max 即将通过阿里云百炼提供 API 服务,调用方式延续 Qwen 一贯的兼容 OpenAI 格式风格。

对于不想折腾国内多平台 Key 管理的开发者,OpenAI Hub(openai-hub.com)也将第一时间上线 Qwen3.7-Max。一个 Key 同时调 GPT、Claude、Gemini、DeepSeek、Qwen 系列,国内直连,省去了在百炼、Anthropic、Google AI Studio 之间反复切换的麻烦。对于做多模型对比、Agent 编排的团队,这种聚合方式能省下不少基础设施工作。

一些判断

这次 Qwen3.7-Max 的发布,节奏上其实很值得品。1 月份阿里刚发完 Qwen3-Max-Thinking,主打万亿参数和 HLE 高分;不到四个月,3.7 系列就把重心整体切到了 Agent。这种快节奏迭代,跟去年 Qwen3-Coder 调用量暴涨之后阿里看到的市场反馈应该有直接关系——开发者要的不是更高的 benchmark,而是能跑起来的 Agent。

几个值得关注的判断:

第一,Qwen 已经从"对标"切换到"差异化"。 阿里这次没有强行去比 GPT-5.2 或 Opus-4.6 的综合智能,而是挑长程任务、MCP 工具调用这些真实场景指标做突破。这是一种成熟的策略——在所有维度都赢不现实,但在 Agent 这个最热的应用切口上做到顶尖,足够撑起商业化。

第二,35 小时长程任务的演示,比榜单数据更值得认真对待。 行业已经过了刷 benchmark 的阶段,能不能跑完一个真实的多步任务、能不能在出错时自我修正,才是模型作为生产力工具的分水岭。Qwen3.7-Max 给出了一个具体的、可验证的案例(芯片内核优化、10 倍加速),这比任何榜单都更有说服力。

第三,跨框架泛化能力被单独点出来,是阿里在向开源生态示好。 Claude Code、OpenClaw、Qwen Code 三个框架并列,意味着官方明确不要求开发者锁定 Qwen 自家工具链。这跟通义千问开源 300+ 模型、衍生模型 20 万的策略是一致的——做生态而不是做围栏。

第四,Opus-4.6 仍然是天花板。 Qwen3.7-Max 在多个指标上接近、个别指标超越,但整体上 Anthropic 的旗舰还是更稳。国产追赶到这个程度已经是过去两年最大的进步,但"打平"和"领先半代"是两回事,这个差距还得继续磨。

写在最后

Agent 这个词从 2024 年喊到现在,喊了快两年,真正能撑起 35 小时连贯执行的模型这才陆续出现。Qwen3.7-Max 不是终点,但它把国产模型在智能体能力上的位置往前推了一截——从"能跑 demo"推到了"能干活"。

对于开发者来说,现在最实际的问题是:手头那个 Agent 项目里 Claude/GPT 的位置,要不要试试用 Qwen3.7-Max 替一替。考虑到价格、合规、直连速度这三个国产模型天然的优势,再加上这次 benchmark 摆出来的硬指标,答案大概率是值得跑一轮 A/B。

API 上线之后会有更多实测出来,到时候再看是不是真的稳。

参考来源