Qwen3.6-35B-A3B 开源：30亿激活参数实现旗舰级智能体编程能力

阿里今日开源 Qwen3.6-35B-A3B，一个总参 350 亿、激活仅 30 亿的 MoE 模型，在智能体编程和多模态推理上大幅超越前代，部分视觉任务甚至追平 Claude Sonnet 4.5。

两周前 Qwen3.6-Plus 刚通过 API 亮相，阿里今天就把开源版端了上来。

4 月 16 日，阿里千问团队正式开源 Qwen3.6-35B-A3B——一个总参数 350 亿、每次推理仅激活 30 亿参数的混合专家（MoE）模型。模型权重已同步上线 Hugging Face 和 ModelScope，API 则以 qwen3.6-flash 的名称在阿里云百炼开放调用。

这不是一次常规的版本迭代。从跑分到实际场景，Qwen3.6-35B-A3B 展现出的能力密度，正在重新定义「小模型能做什么」的边界。

先说结论：它到底强在哪

Qwen3.6-35B-A3B 的核心卖点可以用一句话概括——用 30 亿激活参数，打出了 270 亿稠密模型的战斗力。

具体来看：

在多项关键编程基准上，超越了自家 Qwen3.5-27B（一个 270 亿参数的稠密模型）
在智能体编程和推理任务上，大幅甩开直接前代 Qwen3.5-35B-A3B
在视觉语言基准上，多数任务与 Claude Sonnet 4.5 持平，部分任务实现超越
空间智能表现尤其突出，RefCOCO 得分达到 92.0

换句话说，如果你之前跑 Qwen3.5-27B 觉得显存吃紧、推理太慢，现在有了一个激活参数只有它九分之一、但编程能力不输甚至更强的替代方案。

Qwen3.6-35B-A3B 与 Qwen3.5-27B、Qwen3.5-35B-A3B、Gemma4-31B 在编程和推理基准上的对比雷达图

MoE 架构：为什么 30 亿参数能打 270 亿的仗

对 MoE（Mixture of Experts）架构不太熟的同学，可以这样理解：传统稠密模型每次推理都要激活全部参数，就像一家公司不管什么任务都全员出动；而 MoE 模型内部有多组「专家网络」，每次推理只路由到最相关的几组专家，其余专家保持休眠。

Qwen3.6-35B-A3B 总共有 350 亿参数，但每个 token 的前向传播只激活约 30 亿。这意味着：

模型的知识容量由 350 亿参数决定——它「知道」的东西和一个 35B 稠密模型一样多
模型的推理成本由 30 亿激活参数决定——它「想」一次的计算量只相当于一个 3B 模型

这就是 MoE 的核心价值：用存储换计算。你需要更多显存来装下完整模型权重，但每次推理的 FLOPs 大幅降低。

从 Qwen3.5 时代的实测数据来看，同架构的 Qwen3.5-35B-A3B 在 4-bit 量化后只需 32GB 显存，在 RTX 4090 上能跑到 122 tokens/秒。Qwen3.6-35B-A3B 沿用了相同的参数规格，部署门槛应该基本一致——一张消费级旗舰显卡就能跑起来，这对个人开发者和中小团队来说非常友好。

智能体编程：这次的重头戏

从 Qwen3.6-Plus 开始，阿里就把「智能体编程」（Agentic Coding）作为这一代模型的核心发力方向。到了开源版，这个策略延续了下来。

什么是智能体编程？简单说，不是让模型写一段代码然后交给你，而是让模型像一个初级工程师一样，能够：

理解你的需求，拆解成多个子任务
自主调用工具（终端命令、文件操作、API 调用等）
根据执行结果判断下一步动作
遇到错误能自行调试和修复

这对模型的要求远高于单纯的代码生成。它需要长程规划能力、工具调用的准确性、以及在多步交互中保持上下文一致性。

官方博客的措辞是「卓越的智能体编程能力，可与大得多的模型相媲美」。结合 Qwen3.6-Plus 发布时的信息——该系列在代码修复、终端自动化、多步代理任务上都有针对性优化——Qwen3.6-35B-A3B 大概率继承了这些能力。

这里有一个值得注意的细节：Qwen3.5 时代，社区反馈 35B-A3B 的 MoE 版本在多步代理任务中不如 27B 稠密模型，原因是 3B 的激活参数在复杂长链推理中容量不足。Qwen3.6 显然针对这个短板做了重点优化，官方直接宣称编程基准超越了 27B 稠密模型，这说明问题确实得到了实质性解决。

对于想把它集成到编程助手、CI/CD 流水线、或者自动化运维工具中的开发者来说，这是一个信号：MoE 小模型在 Agent 场景的可用性，正在快速逼近甚至超越中等规模稠密模型。

原生多模态：不只是能看图

Qwen3.6-35B-A3B 延续了 Qwen3.5 以来的原生多模态训练路线——不是在语言模型上外挂一个视觉编码器，而是从预训练阶段就融合了文本和视觉信息。

效果相当亮眼。官方称，在大多数视觉语言基准上，这个 30 亿激活参数的模型已经与 Claude Sonnet 4.5 持平。考虑到 Claude Sonnet 4.5 是 Anthropic 的旗舰多模态模型，这个对比相当有冲击力。

几个具体的能力维度：

复杂文档理解：能处理多页 PDF、表格、图文混排内容
空间智能：RefCOCO 92.0，意味着它能精准理解图像中物体的位置关系
视频推理：能对视频内容进行时序分析和逻辑推断
视觉编程：看一张 UI 截图，生成对应的前端代码

对于做多模态应用的开发者来说，这意味着你不再需要为视觉理解单独部署一个大模型。一个 32GB 显存能跑的 MoE 模型，就能同时处理文本推理和视觉感知，部署架构可以大幅简化。

思考模式与非思考模式：灵活切换

Qwen3.6-35B-A3B 支持两种推理模式：

思考模式（Thinking）：模型会先进行内部推理链（Chain of Thought），再给出最终答案。适合数学、逻辑、复杂编程等需要深度推理的场景。
非思考模式（Non-thinking）：跳过内部推理，直接输出结果。适合简单问答、信息提取等对延迟敏感的场景。

这个设计的实际价值在于成本控制。思考模式会消耗更多 token（因为推理链本身也是输出），非思考模式则更省。开发者可以根据任务复杂度动态切换，在质量和成本之间找到平衡点。

怎么用：部署和调用

三种方式，覆盖不同需求：

1. 在线体验

直接访问 Qwen Studio（chat.qwen.ai）进行对话，零门槛试用。

2. API 调用

通过阿里云百炼平台，以 qwen3.6-flash 的名称调用。如果你用的是兼容 OpenAI 格式的聚合平台（比如 OpenAI Hub），切换起来也很方便，改个 model 名就行：

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[
        {
            "role": "user",
            "content": "帮我写一个 Python 脚本，监控指定目录下的文件变化，有新文件时自动执行 lint 检查并输出报告。"
        }
    ]
)

print(response.choices[0].message.content)

多模态调用也是同样的接口风格：

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/ui-screenshot.png"}
                },
                {
                    "type": "text",
                    "text": "根据这张 UI 截图，用 React + Tailwind CSS 实现对应的组件代码。"
                }
            ]
        }
    ]
)

print(response.choices[0].message.content)

3. 本地部署

从 Hugging Face 或 ModelScope 下载权重，用 vLLM、Ollama、llama.cpp 等框架加载。4-bit 量化后 32GB 显存即可运行，单卡 RTX 4090 就能跑出不错的速度。

竞品对比：它的位置在哪

把 Qwen3.6-35B-A3B 放到当前开源模型的坐标系里看：

| 模型 | 架构 | 总参数 | 激活参数 | 定位 | |------|------|--------|----------|------| | Qwen3.6-35B-A3B | MoE | 35B | 3B | 轻量高效，智能体编程 | | Qwen3.5-35B-A3B | MoE | 35B | 3B | 前代，已被全面超越 | | Qwen3.5-27B | Dense | 27B | 27B | 稠密模型，编程基准被反超 | | Gemma4-31B | Dense | 31B | 31B | Google 开源，综合能力接近 |

几个关键判断：

第一，相比前代 Qwen3.5-35B-A3B，这是一次质的飞跃而非量的提升。同样的架构、同样的参数规格，但智能体编程和推理能力大幅拉开差距，说明阿里在训练数据和训练策略上做了大量工作。

第二，能在编程基准上超越 Qwen3.5-27B 这个 270 亿参数的稠密模型，是 MoE 架构在实用场景中的一次重要验证。之前社区对 3B 激活参数能否胜任复杂 Agent 任务是有疑虑的，Qwen3.6 给出了肯定的回答。

第三，与 Gemma4-31B 的对比更有意思。两者在综合能力上打得有来有回，但 Gemma4 是 310 亿参数全激活，推理成本是 Qwen3.6-35B-A3B 的十倍量级。如果你的场景对吞吐量和成本敏感，MoE 的优势是碾压级的。

第四，视觉任务追平 Claude Sonnet 4.5 这个说法需要打个折扣。Benchmark 成绩和实际体验之间总有差距，尤其是在复杂的真实世界场景中。但即便打个七折，一个 3B 激活参数的开源模型能在多模态上达到这个水平，也足够让人重新评估部署策略了。

对开发者意味着什么

说点实在的。

如果你在做编程助手类产品，Qwen3.6-35B-A3B 可能是目前性价比最高的开源底座之一。30 亿激活参数意味着极低的单次推理成本，而智能体编程能力又足以支撑代码生成、修复、工具调用等核心场景。之前你可能需要调用闭源 API 才能获得的 Agent 能力，现在可以考虑自建了。

如果你在做多模态应用，一个模型同时搞定文本和视觉，不用维护两套推理服务，运维复杂度直接砍半。

如果你是本地部署党，32GB 显存的门槛意味着一张 RTX 4090 或者 M2 Ultra 就能跑。对于个人开发者和小团队来说，这是真正可以落地的方案，不是那种「理论上能跑但实际上谁也不会这么干」的 PPT 部署。

当然，MoE 模型也有它的局限。虽然激活参数少，但完整模型权重仍然是 35B，加载时的显存占用不会比 27B 稠密模型少太多（量化策略相同的情况下）。MoE 的优势主要体现在推理速度和吞吐量上，而非显存占用。

Qwen3.6 系列的节奏

回顾一下时间线：

4 月 2 日：Qwen3.6-Plus 发布，闭源 API，主打智能体编程
4 月 16 日：Qwen3.6-35B-A3B 开源，MoE 架构，轻量高效
后续预期：Qwen3.6-Max（更强性能版本）、更多尺寸的开源模型

阿里的策略很清晰：先用闭源旗舰打标杆、验证方向，再用开源版本铺生态。Qwen3.6-Plus 证明了这一代模型在 Agent 场景的竞争力，Qwen3.6-35B-A3B 则把这个能力以极低的成本门槛推向社区。

从 Qwen3 到 3.5 再到 3.6，千问团队的迭代速度肉眼可见地在加快。更重要的是，每一代的提升不再是「各项指标均匀涨两个点」的挤牙膏式更新，而是有明确的技术主题——3.6 这一代就是 Agent，就是编程，就是让模型从「能写代码」进化到「能自主完成编程任务」。

这个方向押对了。2026 年的 AI 应用层，最大的增量就在 Agent。谁的模型在 Agent 场景更好用、更便宜、更容易部署，谁就能吃到这波红利。阿里显然想在开源侧抢下这个身位。

参考来源：

IT之家：阿里千问 Qwen3.6-35B-A3B 开源发布 — 首发报道及官方介绍
Linux.do 社区讨论：qwen3.6 开源来了 — 开发者社区第一手反馈

3B激活参数硬刚27B稠密模型，Qwen3.6开源版来了