阿里发布 Qwen3.6-Max-Preview：六项编程基准最高分，千问旗舰模型来了

阿里发布新一代千问旗舰模型 Qwen3.6-Max-Preview，在编程基准测试中拿下六项最高分，世界知识、指令遵循和智能体能力全面升级，即将通过阿里云百炼 API 开放调用。

阿里今天放出了千问系列的新旗舰——Qwen3.6-Max-Preview。

名字里带着 "Preview"，但阿里给它的定位毫不含糊：这是 Qwen3.6 系列的天花板，也是整个千问家族目前能拿出来的最强闭源模型。从官方公布的信息来看，它在六项主要编程基准上全部拿到最高分，世界知识、指令遵循、智能体场景的可靠性也都有"显著提升"。

一个月前 Qwen3.6-Plus 刚上线 OpenRouter 的时候，社区的反馈已经相当正面——推理能力比 3.5 系列强了一截，Agent 行为更稳定。现在 Max 版本直接在 Plus 的基础上再拉一个台阶，阿里这个迭代节奏，确实快。

到底强在哪

先说最硬的数据：六项编程基准全部最高分。

阿里没有在公告里逐一列出具体是哪六项基准和对应分数（预览版嘛，可以理解），但结合 Qwen3.6-Plus 此前已经在 Agentic Coding 方向上表现突出的背景，Max 版本大概率在 HumanEval、MBPP、SWE-bench 这类主流代码评测上都做了针对性优化。

编程能力之外，官方重点提了三个方向的提升：

世界知识：模型对事实性知识的掌握更扎实，幻觉问题应该有所缓解
指令遵循：复杂指令的理解和执行更准确，这对做 Agent 应用的开发者来说是刚需
智能体与知识可靠性：在真实场景下跑 Agent 任务时，输出更稳定、更可信

简单说，Qwen3.6-Max-Preview 的升级方向非常明确——它不是在刷某个单项榜单，而是在补齐旗舰模型做"干活工具"时最需要的几块短板。

preserve_thinking：给 Agent 开发者的实用功能

这次发布有一个值得单独拿出来说的技术细节：preserve_thinking 功能。

开启这个功能后，模型会在输出的消息中保留完整的思维链内容。这不是给普通聊天用的——官方明确推荐用于智能体任务场景。

为什么这个功能重要？做过 Agent 开发的人都知道，当你让模型执行多步骤任务时，最头疼的问题之一就是"黑箱"：模型给了你一个最终结果，但中间的推理过程你看不到。一旦结果出错，debug 无从下手。

preserve_thinking 相当于把模型的"草稿纸"也交给你了。你可以看到它在每一步是怎么想的、为什么做出某个决策、在哪个环节出了偏差。对于构建复杂 Agent 工作流的开发者来说，这个功能的实用价值远比跑分数字来得直接。

类似的思路其实不算新鲜——Claude 的 extended thinking、DeepSeek 的思维链展示都在做类似的事。但阿里把它作为旗舰模型的标配功能推出，说明这已经从"实验性特性"变成了"生产级需求"。行业共识正在形成：对于 Agent 场景，透明的推理过程不是锦上添花，而是基础设施。

千问 3.6 家族的全貌

回头看一下时间线，能更清楚地理解 Qwen3.6-Max-Preview 的位置。

今年 3 月 31 日，阿里发布了 Qwen3.5-Omni 全模态大模型，同时 Qwen3.6-Plus Preview 悄悄上线 OpenRouter。那时候 3.6 系列还只是"下一代"的一个信号。

到今天，千问 3.6 系列已经形成了比较完整的产品矩阵：

| 模型 | 定位 | 状态 | |------|------|------| | Qwen3.6-Max-Preview | 旗舰，最强综合能力 | 预览版，即将开放 API | | Qwen3.6-Plus | 主力，性价比之选 | 已上线 | | Qwen3.6 系列其他成员 | 待公布 | — |

从 Plus 到 Max，阿里的策略很清晰：先用 Plus 打市场、收集反馈，再用 Max 树标杆、拉高度。这和 OpenAI 的 GPT-4o / GPT-4o-mini 分层策略，以及 Google 的 Gemini Pro / Flash 分级逻辑如出一辙。

不过有一点值得注意：Qwen3.6-Max-Preview 目前只能在 Qwen Studio 里体验对话，API 调用还是"即将"状态。对于急着集成的开发者来说，可能还得等几天。

放在竞争格局里看

2026 年的大模型竞争已经进入了一个很有意思的阶段。

国际上，OpenAI 的 GPT 系列、Anthropic 的 Claude、Google 的 Gemini 持续迭代；国内，除了阿里的千问，智谱的 GLM、DeepSeek、百度文心、月之暗面的 Kimi 也都在加速推进。

社区里有人拿 Qwen3.6-Max-Preview 和智谱的 GLM5.1 做对比，评价是"勉勉强强"。这种声音很正常——预览版本身就不是最终形态，而且不同模型在不同任务上的表现差异很大，单凭几次对话就下结论为时过早。

但有一个趋势是确定的：国产大模型的旗舰产品，已经从"能不能用"进入了"好不好用"的比拼阶段。Qwen3.6-Max-Preview 在编程基准上拿到六项最高分，至少说明在代码生成这个维度上，国产模型已经有了和国际顶尖选手正面较量的实力。

更值得关注的是 Agent 能力的竞争。从 Qwen3.6-Plus 开始，阿里就把 Agentic Coding 作为核心卖点来推。到 Max 版本，preserve_thinking、指令遵循、智能体可靠性这些升级方向，全部指向同一个目标：让模型不只是能聊天，而是能真正替你干活。

这也是 2026 年大模型行业最重要的主题——从对话工具到生产力工具的跨越。谁能在 Agent 场景下做到又准又稳，谁就能拿下企业级市场的真金白银。

对开发者意味着什么

如果你正在做 AI 应用开发，Qwen3.6-Max-Preview 有几个点值得关注：

编程辅助场景：六项编程基准最高分不是白拿的。如果你的产品涉及代码生成、代码审查、自动化测试等功能，这个模型值得第一时间测试。

Agent 开发：preserve_thinking 功能 + 更强的指令遵循 + 更可靠的智能体表现，这三个组合拳对 Agent 开发者来说非常有吸引力。尤其是在需要模型执行多步骤、跨工具调用的复杂任务时，Max 版本的稳定性提升可能会直接影响你的产品体验。

成本考量：Max 版本的定价还没公布，但参考行业惯例，旗舰模型的价格通常是 Plus 级别的 3-5 倍。如果你的场景对模型能力要求没那么极致，Qwen3.6-Plus 可能仍然是更务实的选择。

API 接入：模型即将通过阿里云百炼 API 以 qwen3.6-max-preview 的名称开放调用。如果你已经在用百炼平台，切换成本几乎为零。对于使用 OpenAI 兼容格式的开发者，通过 OpenAI Hub 这类 API 聚合平台也能比较方便地接入国产模型，一个 Key 就能在不同模型之间切换测试。

预览版的局限

最后说说预期管理。

Qwen3.6-Max-Preview 带着 "Preview" 的后缀，意味着它还不是最终版本。官方也明确说了"模型仍在积极迭代中，后续版本将持续优化"。

这意味着几件事：

当前的表现不代表最终水平，可能更好，也可能在某些边缘场景下还有 bug
API 还没正式开放，想要大规模集成的话需要再等等
预览期间的模型行为可能会有调整，不建议直接用在生产环境

社区里有人测试了魔方求解等任务，反馈"还可以没啥问题"。但也有人觉得作为一个据传参数量级达到 1T 的大模型，表现"勉勉强强"。这种分歧恰恰说明了预览版的特点——它展示的是方向和潜力，而不是最终答卷。

对于阿里来说，提前放出预览版的策略很聪明：既能抢占市场注意力，又能通过真实用户反馈来指导后续优化。这和 Qwen3.5-Max-Preview 当初上线 LMArena 收集评测数据是一个思路。

写在最后

千问从 3.5 到 3.6，迭代速度肉眼可见地在加快。Plus 版本打前站，Max 版本做旗舰，Omni 版本搞全模态——阿里在大模型上的投入力度和产品节奏，在国内厂商里确实排在前列。

Qwen3.6-Max-Preview 能不能真正坐稳"国产最强旗舰"的位置，还得等正式版出来、等更多独立评测数据、等开发者在真实场景里跑一跑才能下结论。但至少从目前的信息来看，它在编程和 Agent 两个最有商业价值的方向上，交出了一份不错的预览成绩单。

接下来就看 API 什么时候正式开放了。对于等着用的开发者来说，这可能比跑分数字更重要。

参考来源：

Qwen3.6-Max-Preview 发布公告 - Linux.do — 官方发布帖，包含模型能力介绍和 preserve_thinking 功能说明
Qwen3.6-Max 模型发布快讯 - Linux.do — 社区讨论与编程基准成绩信息
阿里发布 Qwen3.6-Max 预览版 - 36kr — 36氪快讯报道
新一代千问旗舰模型 Qwen3.6-Max 预览版发布 - IT之家 — Qwen3.6 系列上线及功能介绍

千问旗舰登场：Qwen3.6-Max-Preview 来了

到底强在哪

preserve_thinking：给 Agent 开发者的实用功能

千问 3.6 家族的全貌

放在竞争格局里看

对开发者意味着什么

预览版的局限

写在最后

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们