阿里上周开源了千问 3.6 系列的中等尺寸模型 Qwen3.6-35B-A3B。一句话概括:350 亿总参数,推理时只激活 30 亿,跑分打平甚至超过自家 27B 稠密模型和 Google 的 Gemma4-31B。
这不是一个渐进式升级。它是阿里用一个 MoE 模型,正面回答了一个行业问题——轻量级开源模型的能力天花板到底在哪。
先看数字:3B 激活凭什么叫板 27B
Qwen3.6-35B-A3B 采用混合专家(Mixture of Experts, MoE)架构。如果你对 MoE 不太熟悉,可以这样理解:模型里有很多组"专家"子网络,每次推理只激活其中一小部分来处理当前任务,其余的专家"休息"。所以总参数量是 350 亿,但每次前向传播实际参与计算的只有约 30 亿参数。
这意味着什么?算力消耗大幅降低,推理速度更快,显存占用更小——但输出质量不打折。
阿里给出的跑分相当有说服力:
知识与推理
| 基准测试 | Qwen3.6-35B-A3B | 对比参考 |
|---|---|---|
| MMLU-Pro | 85.2 | 与 27B 稠密模型同一水平线 |
| GPQA | 86.0 | 研究生级别问答 |
| AIME 2026 全卷 | 92.7 | 数学竞赛级推理 |
| LiveCodeBench v6 | 80.4 | 实时编程能力 |
MMLP-Pro 85.2、GPQA 86.0 这些分数,放在一年前是旗舰级稠密模型才能拿到的成绩。现在一个 3B 激活的 MoE 模型就做到了。
智能体编程——真正的杀手锏
这是 Qwen3.6-35B-A3B 最值得关注的能力方向。阿里在发布时反复强调了这一点,而跑分也确实撑得起这个说法。
在 Terminal-Bench2.0(考察终端编程能力)、NL2Repo(长程编程任务,从自然语言描述生成完整代码仓库)、QwenClawBench(真实世界 Agent 能力评测)等基准上,Qwen3.6-35B-A3B 全面超越前代 Qwen3.5-35B-A3B,同时击败了 Gemma4-26B-A4B 和 Gemma4-31B。
有知乎用户提到,Terminal-Bench2.0 的分数从上一代的 40.5 直接飙升,提升幅度相当夸张。这不是微调带来的边际改进,而是架构和训练策略上的代际跃迁。
多模态:视觉能力持平 Claude Sonnet 4.5
这可能是最让人意外的部分。一个 3B 激活的开源模型,在视觉语言任务上跟 Claude Sonnet 4.5 打平了。
具体数据:
- MMMU:81.7(多模态多任务理解)
- MathVista:86.4(数学视觉推理)
- RealWorldQA:85.3(真实世界视觉问答)
- OmniDocBench:89.9(文档理解)
这几项均高于 Claude Sonnet 4.5 的对应分数。
空间智能方面的优势更突出:RefCOCO 拿到 92.0,ODInW13 拿到 50.8,EmbSpatialBench 84.3。简单说,这个模型对图像中物体的位置、空间关系的理解能力非常强,这对于需要处理复杂图像识别的 Agent 场景至关重要。
视频理解也没落下:VideoMME(含字幕)86.6,VideoMMMU 83.7——后者直接超过了 Claude Sonnet 4.5 的 77.6。
为什么 MoE 是当前开源模型的最优解
过去两年,大模型的军备竞赛主要沿着两条路线展开:一条是把模型做大(更多参数、更多数据),另一条是把模型做小(蒸馏、量化、剪枝)。MoE 走的是第三条路——参数总量不小,但每次推理只用一小部分。
这条路的优势在开源场景下尤其明显。
对于想在本地部署模型的开发者来说,最大的瓶颈是显存。一个 27B 的稠密模型,FP16 精度下需要约 54GB 显存,基本上要两张 A100 或者一张 H100。而 Qwen3.6-35B-A3B 虽然总参数 35B,但激活参数只有 3B,推理时的显存占用和计算量都大幅降低。
换句话说,你可能用一张消费级显卡(配合适当的量化)就能跑起一个能力对标 27B 稠密模型的 Agent。这对独立开发者和中小团队来说,是实打实的降本。
当然,MoE 也不是没有代价。总参数 35B 意味着模型文件本身还是不小,加载时需要把所有专家的权重都放进内存(或显存)。但相比推理时的计算节省,这个代价是可以接受的。
从行业趋势看,MoE 正在成为开源模型的主流架构选择。Google 的 Gemma4 系列也在走这条路(Gemma4-26B-A4B),但从目前的跑分来看,阿里在同等激活参数规模下做得更好。
智能体生态:不只是一个模型,是一个可用的工具
模型能力强是一回事,能不能方便地用起来是另一回事。Qwen3.6-35B-A3B 在这方面做了不少工作。
主流 Agent 框架兼容
模型原生支持三个主流编程 Agent 框架:
- OpenClaw(原名 Moltbot / Clawdbot):可自托管的开源 AI 编码智能体,连接百炼即可在终端中获得完整的 Agent 编码体验
- Qwen Code:专为终端设计的开源 AI 智能体,针对 Qwen 系列深度优化
- Claude Code:阿里云百炼支持 Anthropic API 协议,可以直接用 Claude Code 调用 Qwen 模型
最后一点值得多说两句。百炼同时兼容 OpenAI 规范的 chat completions / responses API 和 Anthropic API 协议,这意味着你几乎不需要改代码就能把现有的 Agent 工作流切换到 Qwen3.6-35B-A3B 上。对于已经在用 Claude Code 的开发者来说,换个 API endpoint 就行。
思考模式与非思考模式
Qwen3.6-35B-A3B 支持两种推理模式:
- 思考模式(Thinking):模型会先进行内部推理,再给出最终答案,适合复杂任务
- 非思考模式(Non-thinking):直接输出答案,速度更快,适合简单任务
更关键的是,模型支持 preserve_thinking 功能——在多轮对话中保留所有前序轮次的思维内容。这对 Agent 场景非常重要,因为 Agent 往往需要在多个步骤之间保持推理的连贯性。
本地部署:实际怎么跑
模型权重已经在 Hugging Face 和魔搭社区(ModelScope)上开放下载。同时也可以通过阿里云百炼以 qwen3.6-flash 的名称调用 API。
本地部署推荐使用 SGLang 或 vLLM。以 SGLang 为例,标准部署命令:
# 安装 SGLang
uv pip install sglang[all]
# 8 卡张量并行,最大上下文 262,144 tokens
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3
如果想进一步提升推理速度,可以启用多 Token 预测(MTP):
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
vLLM 的部署方式类似,建议使用 0.19.0 及以上版本:
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only
262,144 tokens 的上下文长度意味着你可以一次性喂进去一个中等规模的代码仓库,这对长程编程任务来说是刚需。
我的判断:开源 MoE 的分水岭时刻
说实话,Qwen3.6-35B-A3B 的发布让我重新审视了"小模型"的定义。
3B 激活参数,按传统标准这是一个"小模型"。但它在编程、推理、多模态上的表现,已经摸到了中大型稠密模型的天花板。这不是靠跑分注水实现的——Terminal-Bench2.0、NL2Repo、QwenClawBench 这些基准都偏向真实场景,不太容易刷分。
跟竞品比:
- vs Gemma4-31B(Google,稠密模型):Qwen3.6-35B-A3B 在编程和 Agent 任务上全面胜出,而且推理成本低得多
- vs Gemma4-26B-A4B(Google,MoE):同为 MoE 架构,阿里在更少的激活参数下做到了更好的效果
- vs 自家 Qwen3.5-27B(稠密模型):3B 激活打平 27B 稠密,MoE 的效率优势被充分证明
- vs Claude Sonnet 4.5(闭源):多模态部分持平甚至部分超越,考虑到一个是开源免费、一个是闭源付费,这个对比本身就很说明问题
当然,跑分不等于实际体验。模型在真实业务场景中的表现、长文本下的稳定性、边缘 case 的处理能力,这些都需要社区在实际使用中验证。但从纸面数据看,Qwen3.6-35B-A3B 确实为"本地部署的智能大脑"这个定位提供了一个非常有竞争力的选项。
对于开发者来说,这个模型最大的价值可能不在于它有多强,而在于它把"强"和"便宜"这两件事同时做到了。你不再需要在能力和成本之间做痛苦的取舍——至少在 Agent 编程这个场景下,3B 激活就够了。
阿里也预告了 Qwen3.6 开源家族还会继续扩展。如果后续更大和更小的 MoE 模型也能保持这个水准,那开源社区在 Agent 领域的工具箱会变得相当充实。
参考来源
- IT之家:阿里开源 Qwen3.6-35B-A3B 模型,主打高效轻量,支持多模态思考 — 模型发布报道及基准测试数据
- 知乎:如何看阿里最新开源的 Qwen3.6 Flash(Qwen3.6-35B-A3B)模型? — 社区讨论与技术分析