两周前 Qwen3.6-Plus 刚通过 API 亮相,阿里今天就把开源版端了上来。
4 月 16 日,阿里千问团队正式开源 Qwen3.6-35B-A3B——一个总参数 350 亿、每次推理仅激活 30 亿参数的混合专家(MoE)模型。模型权重已同步上线 Hugging Face 和 ModelScope,API 则以 qwen3.6-flash 的名称在阿里云百炼开放调用。
这不是一次常规的版本迭代。从跑分到实际场景,Qwen3.6-35B-A3B 展现出的能力密度,正在重新定义「小模型能做什么」的边界。
先说结论:它到底强在哪
Qwen3.6-35B-A3B 的核心卖点可以用一句话概括——用 30 亿激活参数,打出了 270 亿稠密模型的战斗力。
具体来看:
- 在多项关键编程基准上,超越了自家 Qwen3.5-27B(一个 270 亿参数的稠密模型)
- 在智能体编程和推理任务上,大幅甩开直接前代 Qwen3.5-35B-A3B
- 在视觉语言基准上,多数任务与 Claude Sonnet 4.5 持平,部分任务实现超越
- 空间智能表现尤其突出,RefCOCO 得分达到 92.0
换句话说,如果你之前跑 Qwen3.5-27B 觉得显存吃紧、推理太慢,现在有了一个激活参数只有它九分之一、但编程能力不输甚至更强的替代方案。

MoE 架构:为什么 30 亿参数能打 270 亿的仗
对 MoE(Mixture of Experts)架构不太熟的同学,可以这样理解:传统稠密模型每次推理都要激活全部参数,就像一家公司不管什么任务都全员出动;而 MoE 模型内部有多组「专家网络」,每次推理只路由到最相关的几组专家,其余专家保持休眠。
Qwen3.6-35B-A3B 总共有 350 亿参数,但每个 token 的前向传播只激活约 30 亿。这意味着:
- 模型的知识容量由 350 亿参数决定——它「知道」的东西和一个 35B 稠密模型一样多
- 模型的推理成本由 30 亿激活参数决定——它「想」一次的计算量只相当于一个 3B 模型
这就是 MoE 的核心价值:用存储换计算。你需要更多显存来装下完整模型权重,但每次推理的 FLOPs 大幅降低。
从 Qwen3.5 时代的实测数据来看,同架构的 Qwen3.5-35B-A3B 在 4-bit 量化后只需 32GB 显存,在 RTX 4090 上能跑到 122 tokens/秒。Qwen3.6-35B-A3B 沿用了相同的参数规格,部署门槛应该基本一致——一张消费级旗舰显卡就能跑起来,这对个人开发者和中小团队来说非常友好。
智能体编程:这次的重头戏
从 Qwen3.6-Plus 开始,阿里就把「智能体编程」(Agentic Coding)作为这一代模型的核心发力方向。到了开源版,这个策略延续了下来。
什么是智能体编程?简单说,不是让模型写一段代码然后交给你,而是让模型像一个初级工程师一样,能够:
- 理解你的需求,拆解成多个子任务
- 自主调用工具(终端命令、文件操作、API 调用等)
- 根据执行结果判断下一步动作
- 遇到错误能自行调试和修复
这对模型的要求远高于单纯的代码生成。它需要长程规划能力、工具调用的准确性、以及在多步交互中保持上下文一致性。
官方博客的措辞是「卓越的智能体编程能力,可与大得多的模型相媲美」。结合 Qwen3.6-Plus 发布时的信息——该系列在代码修复、终端自动化、多步代理任务上都有针对性优化——Qwen3.6-35B-A3B 大概率继承了这些能力。
这里有一个值得注意的细节:Qwen3.5 时代,社区反馈 35B-A3B 的 MoE 版本在多步代理任务中不如 27B 稠密模型,原因是 3B 的激活参数在复杂长链推理中容量不足。Qwen3.6 显然针对这个短板做了重点优化,官方直接宣称编程基准超越了 27B 稠密模型,这说明问题确实得到了实质性解决。
对于想把它集成到编程助手、CI/CD 流水线、或者自动化运维工具中的开发者来说,这是一个信号:MoE 小模型在 Agent 场景的可用性,正在快速逼近甚至超越中等规模稠密模型。
原生多模态:不只是能看图
Qwen3.6-35B-A3B 延续了 Qwen3.5 以来的原生多模态训练路线——不是在语言模型上外挂一个视觉编码器,而是从预训练阶段就融合了文本和视觉信息。
效果相当亮眼。官方称,在大多数视觉语言基准上,这个 30 亿激活参数的模型已经与 Claude Sonnet 4.5 持平。考虑到 Claude Sonnet 4.5 是 Anthropic 的旗舰多模态模型,这个对比相当有冲击力。
几个具体的能力维度:
- 复杂文档理解:能处理多页 PDF、表格、图文混排内容
- 空间智能:RefCOCO 92.0,意味着它能精准理解图像中物体的位置关系
- 视频推理:能对视频内容进行时序分析和逻辑推断
- 视觉编程:看一张 UI 截图,生成对应的前端代码
对于做多模态应用的开发者来说,这意味着你不再需要为视觉理解单独部署一个大模型。一个 32GB 显存能跑的 MoE 模型,就能同时处理文本推理和视觉感知,部署架构可以大幅简化。
思考模式与非思考模式:灵活切换
Qwen3.6-35B-A3B 支持两种推理模式:
- 思考模式(Thinking):模型会先进行内部推理链(Chain of Thought),再给出最终答案。适合数学、逻辑、复杂编程等需要深度推理的场景。
- 非思考模式(Non-thinking):跳过内部推理,直接输出结果。适合简单问答、信息提取等对延迟敏感的场景。
这个设计的实际价值在于成本控制。思考模式会消耗更多 token(因为推理链本身也是输出),非思考模式则更省。开发者可以根据任务复杂度动态切换,在质量和成本之间找到平衡点。
怎么用:部署和调用
三种方式,覆盖不同需求:
1. 在线体验
直接访问 Qwen Studio(chat.qwen.ai)进行对话,零门槛试用。
2. API 调用
通过阿里云百炼平台,以 qwen3.6-flash 的名称调用。如果你用的是兼容 OpenAI 格式的聚合平台(比如 OpenAI Hub),切换起来也很方便,改个 model 名就行:
from openai import OpenAI
client = OpenAI(
api_key="your-openai-hub-key",
base_url="https://api.openai-hub.com/v1"
)
response = client.chat.completions.create(
model="qwen3.6-flash",
messages=[
{
"role": "user",
"content": "帮我写一个 Python 脚本,监控指定目录下的文件变化,有新文件时自动执行 lint 检查并输出报告。"
}
]
)
print(response.choices[0].message.content)
多模态调用也是同样的接口风格:
response = client.chat.completions.create(
model="qwen3.6-flash",
messages=[
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": "https://example.com/ui-screenshot.png"}
},
{
"type": "text",
"text": "根据这张 UI 截图,用 React + Tailwind CSS 实现对应的组件代码。"
}
]
}
]
)
print(response.choices[0].message.content)
3. 本地部署
从 Hugging Face 或 ModelScope 下载权重,用 vLLM、Ollama、llama.cpp 等框架加载。4-bit 量化后 32GB 显存即可运行,单卡 RTX 4090 就能跑出不错的速度。
竞品对比:它的位置在哪
把 Qwen3.6-35B-A3B 放到当前开源模型的坐标系里看:
| 模型 | 架构 | 总参数 | 激活参数 | 定位 |
|---|---|---|---|---|
| Qwen3.6-35B-A3B | MoE | 35B | 3B | 轻量高效,智能体编程 |
| Qwen3.5-35B-A3B | MoE | 35B | 3B | 前代,已被全面超越 |
| Qwen3.5-27B | Dense | 27B | 27B | 稠密模型,编程基准被反超 |
| Gemma4-31B | Dense | 31B | 31B | Google 开源,综合能力接近 |
几个关键判断:
第一,相比前代 Qwen3.5-35B-A3B,这是一次质的飞跃而非量的提升。同样的架构、同样的参数规格,但智能体编程和推理能力大幅拉开差距,说明阿里在训练数据和训练策略上做了大量工作。
第二,能在编程基准上超越 Qwen3.5-27B 这个 270 亿参数的稠密模型,是 MoE 架构在实用场景中的一次重要验证。之前社区对 3B 激活参数能否胜任复杂 Agent 任务是有疑虑的,Qwen3.6 给出了肯定的回答。
第三,与 Gemma4-31B 的对比更有意思。两者在综合能力上打得有来有回,但 Gemma4 是 310 亿参数全激活,推理成本是 Qwen3.6-35B-A3B 的十倍量级。如果你的场景对吞吐量和成本敏感,MoE 的优势是碾压级的。
第四,视觉任务追平 Claude Sonnet 4.5 这个说法需要打个折扣。Benchmark 成绩和实际体验之间总有差距,尤其是在复杂的真实世界场景中。但即便打个七折,一个 3B 激活参数的开源模型能在多模态上达到这个水平,也足够让人重新评估部署策略了。
对开发者意味着什么
说点实在的。
如果你在做编程助手类产品,Qwen3.6-35B-A3B 可能是目前性价比最高的开源底座之一。30 亿激活参数意味着极低的单次推理成本,而智能体编程能力又足以支撑代码生成、修复、工具调用等核心场景。之前你可能需要调用闭源 API 才能获得的 Agent 能力,现在可以考虑自建了。
如果你在做多模态应用,一个模型同时搞定文本和视觉,不用维护两套推理服务,运维复杂度直接砍半。
如果你是本地部署党,32GB 显存的门槛意味着一张 RTX 4090 或者 M2 Ultra 就能跑。对于个人开发者和小团队来说,这是真正可以落地的方案,不是那种「理论上能跑但实际上谁也不会这么干」的 PPT 部署。
当然,MoE 模型也有它的局限。虽然激活参数少,但完整模型权重仍然是 35B,加载时的显存占用不会比 27B 稠密模型少太多(量化策略相同的情况下)。MoE 的优势主要体现在推理速度和吞吐量上,而非显存占用。
Qwen3.6 系列的节奏
回顾一下时间线:
- 4 月 2 日:Qwen3.6-Plus 发布,闭源 API,主打智能体编程
- 4 月 16 日:Qwen3.6-35B-A3B 开源,MoE 架构,轻量高效
- 后续预期:Qwen3.6-Max(更强性能版本)、更多尺寸的开源模型
阿里的策略很清晰:先用闭源旗舰打标杆、验证方向,再用开源版本铺生态。Qwen3.6-Plus 证明了这一代模型在 Agent 场景的竞争力,Qwen3.6-35B-A3B 则把这个能力以极低的成本门槛推向社区。
从 Qwen3 到 3.5 再到 3.6,千问团队的迭代速度肉眼可见地在加快。更重要的是,每一代的提升不再是「各项指标均匀涨两个点」的挤牙膏式更新,而是有明确的技术主题——3.6 这一代就是 Agent,就是编程,就是让模型从「能写代码」进化到「能自主完成编程任务」。
这个方向押对了。2026 年的 AI 应用层,最大的增量就在 Agent。谁的模型在 Agent 场景更好用、更便宜、更容易部署,谁就能吃到这波红利。阿里显然想在开源侧抢下这个身位。
参考来源:
- IT之家:阿里千问 Qwen3.6-35B-A3B 开源发布 — 首发报道及官方介绍
- Linux.do 社区讨论:qwen3.6 开源来了 — 开发者社区第一手反馈