阿里今天放出了千问系列的新旗舰——Qwen3.6-Max-Preview。
名字里带着 "Preview",但阿里给它的定位毫不含糊:这是 Qwen3.6 系列的天花板,也是整个千问家族目前能拿出来的最强闭源模型。从官方公布的信息来看,它在六项主要编程基准上全部拿到最高分,世界知识、指令遵循、智能体场景的可靠性也都有"显著提升"。
一个月前 Qwen3.6-Plus 刚上线 OpenRouter 的时候,社区的反馈已经相当正面——推理能力比 3.5 系列强了一截,Agent 行为更稳定。现在 Max 版本直接在 Plus 的基础上再拉一个台阶,阿里这个迭代节奏,确实快。
到底强在哪
先说最硬的数据:六项编程基准全部最高分。
阿里没有在公告里逐一列出具体是哪六项基准和对应分数(预览版嘛,可以理解),但结合 Qwen3.6-Plus 此前已经在 Agentic Coding 方向上表现突出的背景,Max 版本大概率在 HumanEval、MBPP、SWE-bench 这类主流代码评测上都做了针对性优化。
编程能力之外,官方重点提了三个方向的提升:
- 世界知识:模型对事实性知识的掌握更扎实,幻觉问题应该有所缓解
- 指令遵循:复杂指令的理解和执行更准确,这对做 Agent 应用的开发者来说是刚需
- 智能体与知识可靠性:在真实场景下跑 Agent 任务时,输出更稳定、更可信
简单说,Qwen3.6-Max-Preview 的升级方向非常明确——它不是在刷某个单项榜单,而是在补齐旗舰模型做"干活工具"时最需要的几块短板。
preserve_thinking:给 Agent 开发者的实用功能
这次发布有一个值得单独拿出来说的技术细节:preserve_thinking 功能。
开启这个功能后,模型会在输出的消息中保留完整的思维链内容。这不是给普通聊天用的——官方明确推荐用于智能体任务场景。
为什么这个功能重要?做过 Agent 开发的人都知道,当你让模型执行多步骤任务时,最头疼的问题之一就是"黑箱":模型给了你一个最终结果,但中间的推理过程你看不到。一旦结果出错,debug 无从下手。
preserve_thinking 相当于把模型的"草稿纸"也交给你了。你可以看到它在每一步是怎么想的、为什么做出某个决策、在哪个环节出了偏差。对于构建复杂 Agent 工作流的开发者来说,这个功能的实用价值远比跑分数字来得直接。
类似的思路其实不算新鲜——Claude 的 extended thinking、DeepSeek 的思维链展示都在做类似的事。但阿里把它作为旗舰模型的标配功能推出,说明这已经从"实验性特性"变成了"生产级需求"。行业共识正在形成:对于 Agent 场景,透明的推理过程不是锦上添花,而是基础设施。
千问 3.6 家族的全貌
回头看一下时间线,能更清楚地理解 Qwen3.6-Max-Preview 的位置。
今年 3 月 31 日,阿里发布了 Qwen3.5-Omni 全模态大模型,同时 Qwen3.6-Plus Preview 悄悄上线 OpenRouter。那时候 3.6 系列还只是"下一代"的一个信号。
到今天,千问 3.6 系列已经形成了比较完整的产品矩阵:
| 模型 | 定位 | 状态 |
|---|---|---|
| Qwen3.6-Max-Preview | 旗舰,最强综合能力 | 预览版,即将开放 API |
| Qwen3.6-Plus | 主力,性价比之选 | 已上线 |
| Qwen3.6 系列其他成员 | 待公布 | — |
从 Plus 到 Max,阿里的策略很清晰:先用 Plus 打市场、收集反馈,再用 Max 树标杆、拉高度。这和 OpenAI 的 GPT-4o / GPT-4o-mini 分层策略,以及 Google 的 Gemini Pro / Flash 分级逻辑如出一辙。
不过有一点值得注意:Qwen3.6-Max-Preview 目前只能在 Qwen Studio 里体验对话,API 调用还是"即将"状态。对于急着集成的开发者来说,可能还得等几天。
放在竞争格局里看
2026 年的大模型竞争已经进入了一个很有意思的阶段。
国际上,OpenAI 的 GPT 系列、Anthropic 的 Claude、Google 的 Gemini 持续迭代;国内,除了阿里的千问,智谱的 GLM、DeepSeek、百度文心、月之暗面的 Kimi 也都在加速推进。
社区里有人拿 Qwen3.6-Max-Preview 和智谱的 GLM5.1 做对比,评价是"勉勉强强"。这种声音很正常——预览版本身就不是最终形态,而且不同模型在不同任务上的表现差异很大,单凭几次对话就下结论为时过早。
但有一个趋势是确定的:国产大模型的旗舰产品,已经从"能不能用"进入了"好不好用"的比拼阶段。Qwen3.6-Max-Preview 在编程基准上拿到六项最高分,至少说明在代码生成这个维度上,国产模型已经有了和国际顶尖选手正面较量的实力。
更值得关注的是 Agent 能力的竞争。从 Qwen3.6-Plus 开始,阿里就把 Agentic Coding 作为核心卖点来推。到 Max 版本,preserve_thinking、指令遵循、智能体可靠性这些升级方向,全部指向同一个目标:让模型不只是能聊天,而是能真正替你干活。
这也是 2026 年大模型行业最重要的主题——从对话工具到生产力工具的跨越。谁能在 Agent 场景下做到又准又稳,谁就能拿下企业级市场的真金白银。
对开发者意味着什么
如果你正在做 AI 应用开发,Qwen3.6-Max-Preview 有几个点值得关注:
编程辅助场景:六项编程基准最高分不是白拿的。如果你的产品涉及代码生成、代码审查、自动化测试等功能,这个模型值得第一时间测试。
Agent 开发:preserve_thinking 功能 + 更强的指令遵循 + 更可靠的智能体表现,这三个组合拳对 Agent 开发者来说非常有吸引力。尤其是在需要模型执行多步骤、跨工具调用的复杂任务时,Max 版本的稳定性提升可能会直接影响你的产品体验。
成本考量:Max 版本的定价还没公布,但参考行业惯例,旗舰模型的价格通常是 Plus 级别的 3-5 倍。如果你的场景对模型能力要求没那么极致,Qwen3.6-Plus 可能仍然是更务实的选择。
API 接入:模型即将通过阿里云百炼 API 以 qwen3.6-max-preview 的名称开放调用。如果你已经在用百炼平台,切换成本几乎为零。对于使用 OpenAI 兼容格式的开发者,通过 OpenAI Hub 这类 API 聚合平台也能比较方便地接入国产模型,一个 Key 就能在不同模型之间切换测试。
预览版的局限
最后说说预期管理。
Qwen3.6-Max-Preview 带着 "Preview" 的后缀,意味着它还不是最终版本。官方也明确说了"模型仍在积极迭代中,后续版本将持续优化"。
这意味着几件事:
- 当前的表现不代表最终水平,可能更好,也可能在某些边缘场景下还有 bug
- API 还没正式开放,想要大规模集成的话需要再等等
- 预览期间的模型行为可能会有调整,不建议直接用在生产环境
社区里有人测试了魔方求解等任务,反馈"还可以没啥问题"。但也有人觉得作为一个据传参数量级达到 1T 的大模型,表现"勉勉强强"。这种分歧恰恰说明了预览版的特点——它展示的是方向和潜力,而不是最终答卷。
对于阿里来说,提前放出预览版的策略很聪明:既能抢占市场注意力,又能通过真实用户反馈来指导后续优化。这和 Qwen3.5-Max-Preview 当初上线 LMArena 收集评测数据是一个思路。
写在最后
千问从 3.5 到 3.6,迭代速度肉眼可见地在加快。Plus 版本打前站,Max 版本做旗舰,Omni 版本搞全模态——阿里在大模型上的投入力度和产品节奏,在国内厂商里确实排在前列。
Qwen3.6-Max-Preview 能不能真正坐稳"国产最强旗舰"的位置,还得等正式版出来、等更多独立评测数据、等开发者在真实场景里跑一跑才能下结论。但至少从目前的信息来看,它在编程和 Agent 两个最有商业价值的方向上,交出了一份不错的预览成绩单。
接下来就看 API 什么时候正式开放了。对于等着用的开发者来说,这可能比跑分数字更重要。
参考来源:
- Qwen3.6-Max-Preview 发布公告 - Linux.do — 官方发布帖,包含模型能力介绍和 preserve_thinking 功能说明
- Qwen3.6-Max 模型发布快讯 - Linux.do — 社区讨论与编程基准成绩信息
- 阿里发布 Qwen3.6-Max 预览版 - 36kr — 36氪快讯报道
- 新一代千问旗舰模型 Qwen3.6-Max 预览版发布 - IT之家 — Qwen3.6 系列上线及功能介绍