阿里开源Qwen3.6-35B-A3B：3B激活参数MoE模型对标27B稠密模型

阿里开源 Qwen3.6-35B-A3B，350亿总参数仅激活30亿，在智能体编程和多模态推理上全面超越前代，部分视觉任务持平 Claude Sonnet 4.5，刷新轻量级开源模型的能力上限。

阿里上周开源了千问 3.6 系列的中等尺寸模型 Qwen3.6-35B-A3B。一句话概括：350 亿总参数，推理时只激活 30 亿，跑分打平甚至超过自家 27B 稠密模型和 Google 的 Gemma4-31B。

这不是一个渐进式升级。它是阿里用一个 MoE 模型，正面回答了一个行业问题——轻量级开源模型的能力天花板到底在哪。

先看数字：3B 激活凭什么叫板 27B

Qwen3.6-35B-A3B 采用混合专家（Mixture of Experts, MoE）架构。如果你对 MoE 不太熟悉，可以这样理解：模型里有很多组"专家"子网络，每次推理只激活其中一小部分来处理当前任务，其余的专家"休息"。所以总参数量是 350 亿，但每次前向传播实际参与计算的只有约 30 亿参数。

这意味着什么？算力消耗大幅降低，推理速度更快，显存占用更小——但输出质量不打折。

阿里给出的跑分相当有说服力：

知识与推理

| 基准测试 | Qwen3.6-35B-A3B | 对比参考 | |---|---|---| | MMLU-Pro | 85.2 | 与 27B 稠密模型同一水平线 | | GPQA | 86.0 | 研究生级别问答 | | AIME 2026 全卷 | 92.7 | 数学竞赛级推理 | | LiveCodeBench v6 | 80.4 | 实时编程能力 |

MMLP-Pro 85.2、GPQA 86.0 这些分数，放在一年前是旗舰级稠密模型才能拿到的成绩。现在一个 3B 激活的 MoE 模型就做到了。

智能体编程——真正的杀手锏

这是 Qwen3.6-35B-A3B 最值得关注的能力方向。阿里在发布时反复强调了这一点，而跑分也确实撑得起这个说法。

在 Terminal-Bench2.0（考察终端编程能力）、NL2Repo（长程编程任务，从自然语言描述生成完整代码仓库）、QwenClawBench（真实世界 Agent 能力评测）等基准上，Qwen3.6-35B-A3B 全面超越前代 Qwen3.5-35B-A3B，同时击败了 Gemma4-26B-A4B 和 Gemma4-31B。

有知乎用户提到，Terminal-Bench2.0 的分数从上一代的 40.5 直接飙升，提升幅度相当夸张。这不是微调带来的边际改进，而是架构和训练策略上的代际跃迁。

多模态：视觉能力持平 Claude Sonnet 4.5

这可能是最让人意外的部分。一个 3B 激活的开源模型，在视觉语言任务上跟 Claude Sonnet 4.5 打平了。

具体数据：

MMMU：81.7（多模态多任务理解）
MathVista：86.4（数学视觉推理）
RealWorldQA：85.3（真实世界视觉问答）
OmniDocBench：89.9（文档理解）

这几项均高于 Claude Sonnet 4.5 的对应分数。

空间智能方面的优势更突出：RefCOCO 拿到 92.0，ODInW13 拿到 50.8，EmbSpatialBench 84.3。简单说，这个模型对图像中物体的位置、空间关系的理解能力非常强，这对于需要处理复杂图像识别的 Agent 场景至关重要。

视频理解也没落下：VideoMME（含字幕）86.6，VideoMMMU 83.7——后者直接超过了 Claude Sonnet 4.5 的 77.6。

为什么 MoE 是当前开源模型的最优解

过去两年，大模型的军备竞赛主要沿着两条路线展开：一条是把模型做大（更多参数、更多数据），另一条是把模型做小（蒸馏、量化、剪枝）。MoE 走的是第三条路——参数总量不小，但每次推理只用一小部分。

这条路的优势在开源场景下尤其明显。

对于想在本地部署模型的开发者来说，最大的瓶颈是显存。一个 27B 的稠密模型，FP16 精度下需要约 54GB 显存，基本上要两张 A100 或者一张 H100。而 Qwen3.6-35B-A3B 虽然总参数 35B，但激活参数只有 3B，推理时的显存占用和计算量都大幅降低。

换句话说，你可能用一张消费级显卡（配合适当的量化）就能跑起一个能力对标 27B 稠密模型的 Agent。这对独立开发者和中小团队来说，是实打实的降本。

当然，MoE 也不是没有代价。总参数 35B 意味着模型文件本身还是不小，加载时需要把所有专家的权重都放进内存（或显存）。但相比推理时的计算节省，这个代价是可以接受的。

从行业趋势看，MoE 正在成为开源模型的主流架构选择。Google 的 Gemma4 系列也在走这条路（Gemma4-26B-A4B），但从目前的跑分来看，阿里在同等激活参数规模下做得更好。

智能体生态：不只是一个模型，是一个可用的工具

模型能力强是一回事，能不能方便地用起来是另一回事。Qwen3.6-35B-A3B 在这方面做了不少工作。

主流 Agent 框架兼容

模型原生支持三个主流编程 Agent 框架：

OpenClaw（原名 Moltbot / Clawdbot）：可自托管的开源 AI 编码智能体，连接百炼即可在终端中获得完整的 Agent 编码体验
Qwen Code：专为终端设计的开源 AI 智能体，针对 Qwen 系列深度优化
Claude Code：阿里云百炼支持 Anthropic API 协议，可以直接用 Claude Code 调用 Qwen 模型

最后一点值得多说两句。百炼同时兼容 OpenAI 规范的 chat completions / responses API 和 Anthropic API 协议，这意味着你几乎不需要改代码就能把现有的 Agent 工作流切换到 Qwen3.6-35B-A3B 上。对于已经在用 Claude Code 的开发者来说，换个 API endpoint 就行。

思考模式与非思考模式

Qwen3.6-35B-A3B 支持两种推理模式：

思考模式（Thinking）：模型会先进行内部推理，再给出最终答案，适合复杂任务
非思考模式（Non-thinking）：直接输出答案，速度更快，适合简单任务

更关键的是，模型支持 preserve_thinking 功能——在多轮对话中保留所有前序轮次的思维内容。这对 Agent 场景非常重要，因为 Agent 往往需要在多个步骤之间保持推理的连贯性。

本地部署：实际怎么跑

模型权重已经在 Hugging Face 和魔搭社区（ModelScope）上开放下载。同时也可以通过阿里云百炼以 qwen3.6-flash 的名称调用 API。

本地部署推荐使用 SGLang 或 vLLM。以 SGLang 为例，标准部署命令：

# 安装 SGLang
uv pip install sglang[all]

# 8 卡张量并行，最大上下文 262,144 tokens
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

如果想进一步提升推理速度，可以启用多 Token 预测（MTP）：

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

vLLM 的部署方式类似，建议使用 0.19.0 及以上版本：

VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --language-model-only

262,144 tokens 的上下文长度意味着你可以一次性喂进去一个中等规模的代码仓库，这对长程编程任务来说是刚需。

我的判断：开源 MoE 的分水岭时刻

说实话，Qwen3.6-35B-A3B 的发布让我重新审视了"小模型"的定义。

3B 激活参数，按传统标准这是一个"小模型"。但它在编程、推理、多模态上的表现，已经摸到了中大型稠密模型的天花板。这不是靠跑分注水实现的——Terminal-Bench2.0、NL2Repo、QwenClawBench 这些基准都偏向真实场景，不太容易刷分。

跟竞品比：

vs Gemma4-31B（Google，稠密模型）：Qwen3.6-35B-A3B 在编程和 Agent 任务上全面胜出，而且推理成本低得多
vs Gemma4-26B-A4B（Google，MoE）：同为 MoE 架构，阿里在更少的激活参数下做到了更好的效果
vs 自家 Qwen3.5-27B（稠密模型）：3B 激活打平 27B 稠密，MoE 的效率优势被充分证明
vs Claude Sonnet 4.5（闭源）：多模态部分持平甚至部分超越，考虑到一个是开源免费、一个是闭源付费，这个对比本身就很说明问题

当然，跑分不等于实际体验。模型在真实业务场景中的表现、长文本下的稳定性、边缘 case 的处理能力，这些都需要社区在实际使用中验证。但从纸面数据看，Qwen3.6-35B-A3B 确实为"本地部署的智能大脑"这个定位提供了一个非常有竞争力的选项。

对于开发者来说，这个模型最大的价值可能不在于它有多强，而在于它把"强"和"便宜"这两件事同时做到了。你不再需要在能力和成本之间做痛苦的取舍——至少在 Agent 编程这个场景下，3B 激活就够了。

阿里也预告了 Qwen3.6 开源家族还会继续扩展。如果后续更大和更小的 MoE 模型也能保持这个水准，那开源社区在 Agent 领域的工具箱会变得相当充实。

参考来源

IT之家：阿里开源 Qwen3.6-35B-A3B 模型，主打高效轻量，支持多模态思考 — 模型发布报道及基准测试数据
知乎：如何看阿里最新开源的 Qwen3.6 Flash（Qwen3.6-35B-A3B）模型？ — 社区讨论与技术分析

3B激活参数硬刚27B稠密模型，千问3.6开源MoE新标杆

先看数字：3B 激活凭什么叫板 27B

知识与推理

智能体编程——真正的杀手锏

多模态：视觉能力持平 Claude Sonnet 4.5

为什么 MoE 是当前开源模型的最优解

智能体生态：不只是一个模型，是一个可用的工具

主流 Agent 框架兼容

思考模式与非思考模式

本地部署：实际怎么跑

我的判断：开源 MoE 的分水岭时刻

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们