5月26日凌晨,Code Arena放榜,阿里Qwen3.7-Max拿了1541分,挤掉GPT-5.5、Gemini 3.5 Flash、GLM-5.1、Kimi-K2.6一众选手,冲到全球第二。前面只剩Claude Opus 4.7和4.6两个版本——这是国产模型第一次在编程榜单上把 OpenAI 踩在身后。
这事的分量,懂行的人一看就明白。Code Arena 不是 LeetCode 那种刷题式跑分,它考的是从需求理解、项目规划、多文件代码生成,到调试、工具调用、部署的完整前端开发工作流,由开发者出题、用户对匿名模型两两 PK 投票,被认为是目前最难掺水的 AI 编程评测之一。在这张牌桌上,Qwen3.7-Max 是唯一坐进来的中国厂商。

1541 分意味着什么
过去半年 Code Arena 的前四基本被 Claude Opus 系列和 GPT-5.5 锁死,1540 分是道坎,国产模型最高也就在 1480 上下徘徊。这次 Qwen3.7-Max 直接干到 1541,是榜单上第一个突破 1540 大关的国产模型。
更关键的是它把 GPT-5.5 甩在了身后。要知道 GPT-5.5 在年初发布时,OpenAI 把编程能力当作主打卖点宣传过一轮。如今盲测投票里,开发者更愿意把票投给 Qwen3.7-Max——这不是参数堆出来的胜利,是真实使用体感上的偏好。
海外开发者圈早在放榜前就已经嗅到风向。Atomic Chat 做过一场硬碰硬:让 Opus 4.7、GPT-5.5 和 Qwen3.7-Max 同台写一个能自我训练的俄罗斯方块 AI。结果 Qwen3.7-Max 只烧了 1.32 美元的 token 成本,性能比另外两位高出 56%。这个数字有点夸张,但足以说明在这类需要长链路推理 + 反复调试的任务里,它的稳定性已经追上来了。
Paul Couvert 这种在 Twitter 上不轻易夸人的开发者直接放话:Qwen3.7-Max 接进 Hermes Agent 和 OpenCode 之后,基本可以替掉 GPT-5.5 和 Opus 4.7。
真正的杀招是 35 小时
如果只看跑分,这篇文章到这里就该结束了。但 Qwen3.7-Max 真正让人觉得不一样的,是它的长程 Agent 能力——官方公布的数据是连续自主工作 35 小时,累计调用工具超过 1000 次。
这是一个质变的指标。
过去你用 Cursor 或者 Copilot 写代码,体验大概是这样:模型帮你生成一段 50 行的函数,跨文件改一下就开始上下文混乱,你得反复粘贴代码、反复纠正它的错误。说白了,它是个高级一点的代码片段生成器,项目经理还是你自己。
Qwen3.7-Max 想做的是另一件事——它要从助手变成同事。具体表现:
- 自主拆解任务:丢一个完整需求过去,它自己拆 todo、规划文件结构、决定先写哪后写哪
- 完整工具链路:Git、npm、Docker 这些开发工具能流畅串起来,形成闭环
- 长上下文不掉链子:跨文件修改不需要你来回喂代码
- 自我纠错:跑出来报错了,它自己看 log、自己改、自己重跑
阿里给出的一个对比场景是:一个中小企业的官网+后台管理系统,正常需要 1 个前端 + 1 个后端做 2 周,用 Qwen3.7-Max 从需求分析到部署上线 6-8 小时搞定。这个数字需要打个折看,但即便打到 12 小时,对开发节奏的冲击也已经够大。

实测:一个 3D 赛车游戏
光听数字没意思,我们扔了一个硬一点的 prompt 进去——做一个 3D 赛车游戏,HTML 单文件,要有 4 辆 AI 车、3 圈环形赛道、100 多枚金币、障碍物碰撞减速、赛后成绩面板,外加发动机轰鸣和吃金币的音效。
第一版直接出了个能跑的 HTML,但有个小 bug:A/D 转向键左右搞反了。第二轮简单对话告诉它"转向反了",立刻修好。
打开游戏的瞬间确实有点惊到。两个细节是其他几个模型没做到的:
一是开始界面。横向测了 GPT-5.5、Gemini 3.5 Flash、Opus 4.7 和 Qwen3.7-Max 四家,只有它给游戏做了一个正经的 Start 页面,点按钮才进入比赛。其他三家都是打开即跑,连个标题画面都没有。这是产品意识的差别——它知道一个"完整的小游戏"应该长什么样。
二是音效。prompt 里那条音效要求,其他三个模型要么忽略要么就给你接个空函数占位,只有 Qwen3.7-Max 用 Web Audio API 合成了真实的发动机轰鸣(带变速的频率调制)和金币音效。没有外部资源依赖,纯代码合成,这个细节非常 senior。
赛后面板该有的都有:排名、用时、金币数、最快单圈,没缺项。
同步上线 OpenAI Hub
Qwen3.7-Max 这次走的是 API 优先策略,输入价格每百万 tokens 12 元,输出 60 元,比 Claude Opus 系列便宜一个数量级以上。对中小团队来说,这是"够得着"的旗舰模型。
国内开发者现在调用有两条路:直接走阿里云百炼,或者走聚合平台。OpenAI Hub 已经同步接入 Qwen3.7-Max,国内直连不用代理,沿用 OpenAI 兼容格式,从 GPT 切过来基本只改 model 字段。对已经在用 OpenAI Hub 的开发者来说,这次新增就是一行配置的事。
这次为什么值得认真看
回头看国产模型这几年的轨迹,大多数时候是"OpenAI 出 GPT-3 我们跟,OpenAI 出 GPT-4 我们再跟"的节奏。但 Agentic Coding 这条赛道有点不一样——它考的不是单步推理的智力题,而是长时间、多工具、可信赖地完成复杂任务的能力。这恰好是阿里这两年押重注的方向。
当大多数厂商还在卷参数规模、卷单题准确率的时候,把研发资源砸在长程 Agent 上的团队不算多。Qwen3.7-Max 这次能在 Code Arena 上压过 GPT-5.5,本质上是这个判断兑现了。
当然,1541 分不代表它在所有维度都赢了。Claude Opus 4.7 仍然在最复杂的架构设计、超长上下文一致性上保持优势,GPT-5.5 在某些数学推理场景里依然更稳。但在"日常项目从 0 到 1 跑起来"这个最高频的开发场景上,国产模型第一次拿到了一张可以摆上桌的牌。
对国内开发者来说更实在的意义是:终于有了一个不用翻墙、速度快、价格能接受、能力还跟得上 SOTA 的编程模型。这个组合此前是不存在的。
下一个问题是:当 AI 真的能 35 小时不停干活,开发者的工作方式会怎么变?这个问题留给每个人自己回答。
参考来源
- 中国 AI 闯入全球编程前二,前面只剩 Claude - linux.do — 社区对 Code Arena 放榜的详细解读和实测对比