Qwen3.7-Max登顶Code Arena全球第二国产模型首超GPT-5.5

5月26日凌晨，Code Arena最新榜单揭晓，阿里Qwen3.7-Max以1541分跻身全球第二，仅次于Claude Opus系列，成为首个超越GPT-5.5的国产模型，并具备35小时长程Agent能力。

5月26日凌晨，Code Arena放榜，阿里Qwen3.7-Max拿了1541分，挤掉GPT-5.5、Gemini 3.5 Flash、GLM-5.1、Kimi-K2.6一众选手，冲到全球第二。前面只剩Claude Opus 4.7和4.6两个版本——这是国产模型第一次在编程榜单上把 OpenAI 踩在身后。

这事的分量，懂行的人一看就明白。Code Arena 不是 LeetCode 那种刷题式跑分，它考的是从需求理解、项目规划、多文件代码生成，到调试、工具调用、部署的完整前端开发工作流，由开发者出题、用户对匿名模型两两 PK 投票，被认为是目前最难掺水的 AI 编程评测之一。在这张牌桌上，Qwen3.7-Max 是唯一坐进来的中国厂商。

Code Arena 最新榜单，Qwen3.7-Max 位列全球第二

1541 分意味着什么

过去半年 Code Arena 的前四基本被 Claude Opus 系列和 GPT-5.5 锁死，1540 分是道坎，国产模型最高也就在 1480 上下徘徊。这次 Qwen3.7-Max 直接干到 1541，是榜单上第一个突破 1540 大关的国产模型。

更关键的是它把 GPT-5.5 甩在了身后。要知道 GPT-5.5 在年初发布时，OpenAI 把编程能力当作主打卖点宣传过一轮。如今盲测投票里，开发者更愿意把票投给 Qwen3.7-Max——这不是参数堆出来的胜利，是真实使用体感上的偏好。

海外开发者圈早在放榜前就已经嗅到风向。Atomic Chat 做过一场硬碰硬：让 Opus 4.7、GPT-5.5 和 Qwen3.7-Max 同台写一个能自我训练的俄罗斯方块 AI。结果 Qwen3.7-Max 只烧了 1.32 美元的 token 成本，性能比另外两位高出 56%。这个数字有点夸张，但足以说明在这类需要长链路推理 + 反复调试的任务里，它的稳定性已经追上来了。

Paul Couvert 这种在 Twitter 上不轻易夸人的开发者直接放话：Qwen3.7-Max 接进 Hermes Agent 和 OpenCode 之后，基本可以替掉 GPT-5.5 和 Opus 4.7。

真正的杀招是 35 小时

如果只看跑分，这篇文章到这里就该结束了。但 Qwen3.7-Max 真正让人觉得不一样的，是它的长程 Agent 能力——官方公布的数据是连续自主工作 35 小时，累计调用工具超过 1000 次。

这是一个质变的指标。

过去你用 Cursor 或者 Copilot 写代码，体验大概是这样：模型帮你生成一段 50 行的函数，跨文件改一下就开始上下文混乱，你得反复粘贴代码、反复纠正它的错误。说白了，它是个高级一点的代码片段生成器，项目经理还是你自己。

Qwen3.7-Max 想做的是另一件事——它要从助手变成同事。具体表现：

自主拆解任务：丢一个完整需求过去，它自己拆 todo、规划文件结构、决定先写哪后写哪
完整工具链路：Git、npm、Docker 这些开发工具能流畅串起来，形成闭环
长上下文不掉链子：跨文件修改不需要你来回喂代码
自我纠错：跑出来报错了，它自己看 log、自己改、自己重跑

阿里给出的一个对比场景是：一个中小企业的官网+后台管理系统，正常需要 1 个前端 + 1 个后端做 2 周，用 Qwen3.7-Max 从需求分析到部署上线 6-8 小时搞定。这个数字需要打个折看，但即便打到 12 小时，对开发节奏的冲击也已经够大。

Qwen3.7-Max 长程 Agent 能力示意，35 小时连续自主任务

实测：一个 3D 赛车游戏

光听数字没意思，我们扔了一个硬一点的 prompt 进去——做一个 3D 赛车游戏，HTML 单文件，要有 4 辆 AI 车、3 圈环形赛道、100 多枚金币、障碍物碰撞减速、赛后成绩面板，外加发动机轰鸣和吃金币的音效。

第一版直接出了个能跑的 HTML，但有个小 bug：A/D 转向键左右搞反了。第二轮简单对话告诉它"转向反了"，立刻修好。

打开游戏的瞬间确实有点惊到。两个细节是其他几个模型没做到的：

一是开始界面。横向测了 GPT-5.5、Gemini 3.5 Flash、Opus 4.7 和 Qwen3.7-Max 四家，只有它给游戏做了一个正经的 Start 页面，点按钮才进入比赛。其他三家都是打开即跑，连个标题画面都没有。这是产品意识的差别——它知道一个"完整的小游戏"应该长什么样。

二是音效。prompt 里那条音效要求，其他三个模型要么忽略要么就给你接个空函数占位，只有 Qwen3.7-Max 用 Web Audio API 合成了真实的发动机轰鸣（带变速的频率调制）和金币音效。没有外部资源依赖，纯代码合成，这个细节非常 senior。

赛后面板该有的都有：排名、用时、金币数、最快单圈，没缺项。

同步上线 OpenAI Hub

Qwen3.7-Max 这次走的是 API 优先策略，输入价格每百万 tokens 12 元，输出 60 元，比 Claude Opus 系列便宜一个数量级以上。对中小团队来说，这是"够得着"的旗舰模型。

国内开发者现在调用有两条路：直接走阿里云百炼，或者走聚合平台。OpenAI Hub 已经同步接入 Qwen3.7-Max，国内直连不用代理，沿用 OpenAI 兼容格式，从 GPT 切过来基本只改 model 字段。对已经在用 OpenAI Hub 的开发者来说，这次新增就是一行配置的事。

这次为什么值得认真看

回头看国产模型这几年的轨迹，大多数时候是"OpenAI 出 GPT-3 我们跟，OpenAI 出 GPT-4 我们再跟"的节奏。但 Agentic Coding 这条赛道有点不一样——它考的不是单步推理的智力题，而是长时间、多工具、可信赖地完成复杂任务的能力。这恰好是阿里这两年押重注的方向。

当大多数厂商还在卷参数规模、卷单题准确率的时候，把研发资源砸在长程 Agent 上的团队不算多。Qwen3.7-Max 这次能在 Code Arena 上压过 GPT-5.5，本质上是这个判断兑现了。

当然，1541 分不代表它在所有维度都赢了。Claude Opus 4.7 仍然在最复杂的架构设计、超长上下文一致性上保持优势，GPT-5.5 在某些数学推理场景里依然更稳。但在"日常项目从 0 到 1 跑起来"这个最高频的开发场景上，国产模型第一次拿到了一张可以摆上桌的牌。

对国内开发者来说更实在的意义是：终于有了一个不用翻墙、速度快、价格能接受、能力还跟得上 SOTA 的编程模型。这个组合此前是不存在的。

下一个问题是：当 AI 真的能 35 小时不停干活，开发者的工作方式会怎么变？这个问题留给每个人自己回答。

参考来源

中国 AI 闯入全球编程前二，前面只剩 Claude - linux.do — 社区对 Code Arena 放榜的详细解读和实测对比

Qwen3.7-Max冲到Code Arena全球第二，国产首次压过GPT-5.5