3B激活参数硬刚27B稠密模型,千问3.6开源MoE新标杆

模型上新

阿里开源 Qwen3.6-35B-A3B,350亿总参数仅激活30亿,在智能体编程和多模态推理上全面超越前代,部分视觉任务持平 Claude Sonnet 4.5,刷新轻量级开源模型的能力上限。

阿里上周开源了千问 3.6 系列的中等尺寸模型 Qwen3.6-35B-A3B。一句话概括:350 亿总参数,推理时只激活 30 亿,跑分打平甚至超过自家 27B 稠密模型和 Google 的 Gemma4-31B。

这不是一个渐进式升级。它是阿里用一个 MoE 模型,正面回答了一个行业问题——轻量级开源模型的能力天花板到底在哪。

先看数字:3B 激活凭什么叫板 27B

Qwen3.6-35B-A3B 采用混合专家(Mixture of Experts, MoE)架构。如果你对 MoE 不太熟悉,可以这样理解:模型里有很多组"专家"子网络,每次推理只激活其中一小部分来处理当前任务,其余的专家"休息"。所以总参数量是 350 亿,但每次前向传播实际参与计算的只有约 30 亿参数。

这意味着什么?算力消耗大幅降低,推理速度更快,显存占用更小——但输出质量不打折。

阿里给出的跑分相当有说服力:

知识与推理

基准测试 Qwen3.6-35B-A3B 对比参考
MMLU-Pro 85.2 与 27B 稠密模型同一水平线
GPQA 86.0 研究生级别问答
AIME 2026 全卷 92.7 数学竞赛级推理
LiveCodeBench v6 80.4 实时编程能力

MMLP-Pro 85.2、GPQA 86.0 这些分数,放在一年前是旗舰级稠密模型才能拿到的成绩。现在一个 3B 激活的 MoE 模型就做到了。

智能体编程——真正的杀手锏

这是 Qwen3.6-35B-A3B 最值得关注的能力方向。阿里在发布时反复强调了这一点,而跑分也确实撑得起这个说法。

在 Terminal-Bench2.0(考察终端编程能力)、NL2Repo(长程编程任务,从自然语言描述生成完整代码仓库)、QwenClawBench(真实世界 Agent 能力评测)等基准上,Qwen3.6-35B-A3B 全面超越前代 Qwen3.5-35B-A3B,同时击败了 Gemma4-26B-A4B 和 Gemma4-31B。

有知乎用户提到,Terminal-Bench2.0 的分数从上一代的 40.5 直接飙升,提升幅度相当夸张。这不是微调带来的边际改进,而是架构和训练策略上的代际跃迁。

多模态:视觉能力持平 Claude Sonnet 4.5

这可能是最让人意外的部分。一个 3B 激活的开源模型,在视觉语言任务上跟 Claude Sonnet 4.5 打平了。

具体数据:

  • MMMU:81.7(多模态多任务理解)
  • MathVista:86.4(数学视觉推理)
  • RealWorldQA:85.3(真实世界视觉问答)
  • OmniDocBench:89.9(文档理解)

这几项均高于 Claude Sonnet 4.5 的对应分数。

空间智能方面的优势更突出:RefCOCO 拿到 92.0,ODInW13 拿到 50.8,EmbSpatialBench 84.3。简单说,这个模型对图像中物体的位置、空间关系的理解能力非常强,这对于需要处理复杂图像识别的 Agent 场景至关重要。

视频理解也没落下:VideoMME(含字幕)86.6,VideoMMMU 83.7——后者直接超过了 Claude Sonnet 4.5 的 77.6。

为什么 MoE 是当前开源模型的最优解

过去两年,大模型的军备竞赛主要沿着两条路线展开:一条是把模型做大(更多参数、更多数据),另一条是把模型做小(蒸馏、量化、剪枝)。MoE 走的是第三条路——参数总量不小,但每次推理只用一小部分。

这条路的优势在开源场景下尤其明显。

对于想在本地部署模型的开发者来说,最大的瓶颈是显存。一个 27B 的稠密模型,FP16 精度下需要约 54GB 显存,基本上要两张 A100 或者一张 H100。而 Qwen3.6-35B-A3B 虽然总参数 35B,但激活参数只有 3B,推理时的显存占用和计算量都大幅降低。

换句话说,你可能用一张消费级显卡(配合适当的量化)就能跑起一个能力对标 27B 稠密模型的 Agent。这对独立开发者和中小团队来说,是实打实的降本。

当然,MoE 也不是没有代价。总参数 35B 意味着模型文件本身还是不小,加载时需要把所有专家的权重都放进内存(或显存)。但相比推理时的计算节省,这个代价是可以接受的。

从行业趋势看,MoE 正在成为开源模型的主流架构选择。Google 的 Gemma4 系列也在走这条路(Gemma4-26B-A4B),但从目前的跑分来看,阿里在同等激活参数规模下做得更好。

智能体生态:不只是一个模型,是一个可用的工具

模型能力强是一回事,能不能方便地用起来是另一回事。Qwen3.6-35B-A3B 在这方面做了不少工作。

主流 Agent 框架兼容

模型原生支持三个主流编程 Agent 框架:

  • OpenClaw(原名 Moltbot / Clawdbot):可自托管的开源 AI 编码智能体,连接百炼即可在终端中获得完整的 Agent 编码体验
  • Qwen Code:专为终端设计的开源 AI 智能体,针对 Qwen 系列深度优化
  • Claude Code:阿里云百炼支持 Anthropic API 协议,可以直接用 Claude Code 调用 Qwen 模型

最后一点值得多说两句。百炼同时兼容 OpenAI 规范的 chat completions / responses API 和 Anthropic API 协议,这意味着你几乎不需要改代码就能把现有的 Agent 工作流切换到 Qwen3.6-35B-A3B 上。对于已经在用 Claude Code 的开发者来说,换个 API endpoint 就行。

思考模式与非思考模式

Qwen3.6-35B-A3B 支持两种推理模式:

  • 思考模式(Thinking):模型会先进行内部推理,再给出最终答案,适合复杂任务
  • 非思考模式(Non-thinking):直接输出答案,速度更快,适合简单任务

更关键的是,模型支持 preserve_thinking 功能——在多轮对话中保留所有前序轮次的思维内容。这对 Agent 场景非常重要,因为 Agent 往往需要在多个步骤之间保持推理的连贯性。

本地部署:实际怎么跑

模型权重已经在 Hugging Face 和魔搭社区(ModelScope)上开放下载。同时也可以通过阿里云百炼以 qwen3.6-flash 的名称调用 API。

本地部署推荐使用 SGLang 或 vLLM。以 SGLang 为例,标准部署命令:

# 安装 SGLang
uv pip install sglang[all]

# 8 卡张量并行,最大上下文 262,144 tokens
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

如果想进一步提升推理速度,可以启用多 Token 预测(MTP):

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

vLLM 的部署方式类似,建议使用 0.19.0 及以上版本:

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --language-model-only

262,144 tokens 的上下文长度意味着你可以一次性喂进去一个中等规模的代码仓库,这对长程编程任务来说是刚需。

我的判断:开源 MoE 的分水岭时刻

说实话,Qwen3.6-35B-A3B 的发布让我重新审视了"小模型"的定义。

3B 激活参数,按传统标准这是一个"小模型"。但它在编程、推理、多模态上的表现,已经摸到了中大型稠密模型的天花板。这不是靠跑分注水实现的——Terminal-Bench2.0、NL2Repo、QwenClawBench 这些基准都偏向真实场景,不太容易刷分。

跟竞品比:

  • vs Gemma4-31B(Google,稠密模型):Qwen3.6-35B-A3B 在编程和 Agent 任务上全面胜出,而且推理成本低得多
  • vs Gemma4-26B-A4B(Google,MoE):同为 MoE 架构,阿里在更少的激活参数下做到了更好的效果
  • vs 自家 Qwen3.5-27B(稠密模型):3B 激活打平 27B 稠密,MoE 的效率优势被充分证明
  • vs Claude Sonnet 4.5(闭源):多模态部分持平甚至部分超越,考虑到一个是开源免费、一个是闭源付费,这个对比本身就很说明问题

当然,跑分不等于实际体验。模型在真实业务场景中的表现、长文本下的稳定性、边缘 case 的处理能力,这些都需要社区在实际使用中验证。但从纸面数据看,Qwen3.6-35B-A3B 确实为"本地部署的智能大脑"这个定位提供了一个非常有竞争力的选项。

对于开发者来说,这个模型最大的价值可能不在于它有多强,而在于它把"强"和"便宜"这两件事同时做到了。你不再需要在能力和成本之间做痛苦的取舍——至少在 Agent 编程这个场景下,3B 激活就够了。

阿里也预告了 Qwen3.6 开源家族还会继续扩展。如果后续更大和更小的 MoE 模型也能保持这个水准,那开源社区在 Agent 领域的工具箱会变得相当充实。


参考来源