千问旗舰登场:Qwen3.6-Max-Preview 来了

模型上新

阿里发布新一代千问旗舰模型 Qwen3.6-Max-Preview,在编程基准测试中拿下六项最高分,世界知识、指令遵循和智能体能力全面升级,即将通过阿里云百炼 API 开放调用。

阿里今天放出了千问系列的新旗舰——Qwen3.6-Max-Preview。

名字里带着 "Preview",但阿里给它的定位毫不含糊:这是 Qwen3.6 系列的天花板,也是整个千问家族目前能拿出来的最强闭源模型。从官方公布的信息来看,它在六项主要编程基准上全部拿到最高分,世界知识、指令遵循、智能体场景的可靠性也都有"显著提升"。

一个月前 Qwen3.6-Plus 刚上线 OpenRouter 的时候,社区的反馈已经相当正面——推理能力比 3.5 系列强了一截,Agent 行为更稳定。现在 Max 版本直接在 Plus 的基础上再拉一个台阶,阿里这个迭代节奏,确实快。

到底强在哪

先说最硬的数据:六项编程基准全部最高分。

阿里没有在公告里逐一列出具体是哪六项基准和对应分数(预览版嘛,可以理解),但结合 Qwen3.6-Plus 此前已经在 Agentic Coding 方向上表现突出的背景,Max 版本大概率在 HumanEval、MBPP、SWE-bench 这类主流代码评测上都做了针对性优化。

编程能力之外,官方重点提了三个方向的提升:

  • 世界知识:模型对事实性知识的掌握更扎实,幻觉问题应该有所缓解
  • 指令遵循:复杂指令的理解和执行更准确,这对做 Agent 应用的开发者来说是刚需
  • 智能体与知识可靠性:在真实场景下跑 Agent 任务时,输出更稳定、更可信

简单说,Qwen3.6-Max-Preview 的升级方向非常明确——它不是在刷某个单项榜单,而是在补齐旗舰模型做"干活工具"时最需要的几块短板。

preserve_thinking:给 Agent 开发者的实用功能

这次发布有一个值得单独拿出来说的技术细节:preserve_thinking 功能。

开启这个功能后,模型会在输出的消息中保留完整的思维链内容。这不是给普通聊天用的——官方明确推荐用于智能体任务场景。

为什么这个功能重要?做过 Agent 开发的人都知道,当你让模型执行多步骤任务时,最头疼的问题之一就是"黑箱":模型给了你一个最终结果,但中间的推理过程你看不到。一旦结果出错,debug 无从下手。

preserve_thinking 相当于把模型的"草稿纸"也交给你了。你可以看到它在每一步是怎么想的、为什么做出某个决策、在哪个环节出了偏差。对于构建复杂 Agent 工作流的开发者来说,这个功能的实用价值远比跑分数字来得直接。

类似的思路其实不算新鲜——Claude 的 extended thinking、DeepSeek 的思维链展示都在做类似的事。但阿里把它作为旗舰模型的标配功能推出,说明这已经从"实验性特性"变成了"生产级需求"。行业共识正在形成:对于 Agent 场景,透明的推理过程不是锦上添花,而是基础设施。

千问 3.6 家族的全貌

回头看一下时间线,能更清楚地理解 Qwen3.6-Max-Preview 的位置。

今年 3 月 31 日,阿里发布了 Qwen3.5-Omni 全模态大模型,同时 Qwen3.6-Plus Preview 悄悄上线 OpenRouter。那时候 3.6 系列还只是"下一代"的一个信号。

到今天,千问 3.6 系列已经形成了比较完整的产品矩阵:

模型 定位 状态
Qwen3.6-Max-Preview 旗舰,最强综合能力 预览版,即将开放 API
Qwen3.6-Plus 主力,性价比之选 已上线
Qwen3.6 系列其他成员 待公布

从 Plus 到 Max,阿里的策略很清晰:先用 Plus 打市场、收集反馈,再用 Max 树标杆、拉高度。这和 OpenAI 的 GPT-4o / GPT-4o-mini 分层策略,以及 Google 的 Gemini Pro / Flash 分级逻辑如出一辙。

不过有一点值得注意:Qwen3.6-Max-Preview 目前只能在 Qwen Studio 里体验对话,API 调用还是"即将"状态。对于急着集成的开发者来说,可能还得等几天。

放在竞争格局里看

2026 年的大模型竞争已经进入了一个很有意思的阶段。

国际上,OpenAI 的 GPT 系列、Anthropic 的 Claude、Google 的 Gemini 持续迭代;国内,除了阿里的千问,智谱的 GLM、DeepSeek、百度文心、月之暗面的 Kimi 也都在加速推进。

社区里有人拿 Qwen3.6-Max-Preview 和智谱的 GLM5.1 做对比,评价是"勉勉强强"。这种声音很正常——预览版本身就不是最终形态,而且不同模型在不同任务上的表现差异很大,单凭几次对话就下结论为时过早。

但有一个趋势是确定的:国产大模型的旗舰产品,已经从"能不能用"进入了"好不好用"的比拼阶段。Qwen3.6-Max-Preview 在编程基准上拿到六项最高分,至少说明在代码生成这个维度上,国产模型已经有了和国际顶尖选手正面较量的实力。

更值得关注的是 Agent 能力的竞争。从 Qwen3.6-Plus 开始,阿里就把 Agentic Coding 作为核心卖点来推。到 Max 版本,preserve_thinking、指令遵循、智能体可靠性这些升级方向,全部指向同一个目标:让模型不只是能聊天,而是能真正替你干活。

这也是 2026 年大模型行业最重要的主题——从对话工具到生产力工具的跨越。谁能在 Agent 场景下做到又准又稳,谁就能拿下企业级市场的真金白银。

对开发者意味着什么

如果你正在做 AI 应用开发,Qwen3.6-Max-Preview 有几个点值得关注:

编程辅助场景:六项编程基准最高分不是白拿的。如果你的产品涉及代码生成、代码审查、自动化测试等功能,这个模型值得第一时间测试。

Agent 开发preserve_thinking 功能 + 更强的指令遵循 + 更可靠的智能体表现,这三个组合拳对 Agent 开发者来说非常有吸引力。尤其是在需要模型执行多步骤、跨工具调用的复杂任务时,Max 版本的稳定性提升可能会直接影响你的产品体验。

成本考量:Max 版本的定价还没公布,但参考行业惯例,旗舰模型的价格通常是 Plus 级别的 3-5 倍。如果你的场景对模型能力要求没那么极致,Qwen3.6-Plus 可能仍然是更务实的选择。

API 接入:模型即将通过阿里云百炼 API 以 qwen3.6-max-preview 的名称开放调用。如果你已经在用百炼平台,切换成本几乎为零。对于使用 OpenAI 兼容格式的开发者,通过 OpenAI Hub 这类 API 聚合平台也能比较方便地接入国产模型,一个 Key 就能在不同模型之间切换测试。

预览版的局限

最后说说预期管理。

Qwen3.6-Max-Preview 带着 "Preview" 的后缀,意味着它还不是最终版本。官方也明确说了"模型仍在积极迭代中,后续版本将持续优化"。

这意味着几件事:

  1. 当前的表现不代表最终水平,可能更好,也可能在某些边缘场景下还有 bug
  2. API 还没正式开放,想要大规模集成的话需要再等等
  3. 预览期间的模型行为可能会有调整,不建议直接用在生产环境

社区里有人测试了魔方求解等任务,反馈"还可以没啥问题"。但也有人觉得作为一个据传参数量级达到 1T 的大模型,表现"勉勉强强"。这种分歧恰恰说明了预览版的特点——它展示的是方向和潜力,而不是最终答卷。

对于阿里来说,提前放出预览版的策略很聪明:既能抢占市场注意力,又能通过真实用户反馈来指导后续优化。这和 Qwen3.5-Max-Preview 当初上线 LMArena 收集评测数据是一个思路。

写在最后

千问从 3.5 到 3.6,迭代速度肉眼可见地在加快。Plus 版本打前站,Max 版本做旗舰,Omni 版本搞全模态——阿里在大模型上的投入力度和产品节奏,在国内厂商里确实排在前列。

Qwen3.6-Max-Preview 能不能真正坐稳"国产最强旗舰"的位置,还得等正式版出来、等更多独立评测数据、等开发者在真实场景里跑一跑才能下结论。但至少从目前的信息来看,它在编程和 Agent 两个最有商业价值的方向上,交出了一份不错的预览成绩单。

接下来就看 API 什么时候正式开放了。对于等着用的开发者来说,这可能比跑分数字更重要。


参考来源: