3B激活参数硬刚27B稠密模型,Qwen3.6开源版来了

模型上新

阿里今日开源 Qwen3.6-35B-A3B,一个总参 350 亿、激活仅 30 亿的 MoE 模型,在智能体编程和多模态推理上大幅超越前代,部分视觉任务甚至追平 Claude Sonnet 4.5。

两周前 Qwen3.6-Plus 刚通过 API 亮相,阿里今天就把开源版端了上来。

4 月 16 日,阿里千问团队正式开源 Qwen3.6-35B-A3B——一个总参数 350 亿、每次推理仅激活 30 亿参数的混合专家(MoE)模型。模型权重已同步上线 Hugging Face 和 ModelScope,API 则以 qwen3.6-flash 的名称在阿里云百炼开放调用。

这不是一次常规的版本迭代。从跑分到实际场景,Qwen3.6-35B-A3B 展现出的能力密度,正在重新定义「小模型能做什么」的边界。

先说结论:它到底强在哪

Qwen3.6-35B-A3B 的核心卖点可以用一句话概括——用 30 亿激活参数,打出了 270 亿稠密模型的战斗力。

具体来看:

  • 在多项关键编程基准上,超越了自家 Qwen3.5-27B(一个 270 亿参数的稠密模型)
  • 在智能体编程和推理任务上,大幅甩开直接前代 Qwen3.5-35B-A3B
  • 在视觉语言基准上,多数任务与 Claude Sonnet 4.5 持平,部分任务实现超越
  • 空间智能表现尤其突出,RefCOCO 得分达到 92.0

换句话说,如果你之前跑 Qwen3.5-27B 觉得显存吃紧、推理太慢,现在有了一个激活参数只有它九分之一、但编程能力不输甚至更强的替代方案。

Qwen3.6-35B-A3B 与 Qwen3.5-27B、Qwen3.5-35B-A3B、Gemma4-31B 在编程和推理基准上的对比雷达图

MoE 架构:为什么 30 亿参数能打 270 亿的仗

对 MoE(Mixture of Experts)架构不太熟的同学,可以这样理解:传统稠密模型每次推理都要激活全部参数,就像一家公司不管什么任务都全员出动;而 MoE 模型内部有多组「专家网络」,每次推理只路由到最相关的几组专家,其余专家保持休眠。

Qwen3.6-35B-A3B 总共有 350 亿参数,但每个 token 的前向传播只激活约 30 亿。这意味着:

  • 模型的知识容量由 350 亿参数决定——它「知道」的东西和一个 35B 稠密模型一样多
  • 模型的推理成本由 30 亿激活参数决定——它「想」一次的计算量只相当于一个 3B 模型

这就是 MoE 的核心价值:用存储换计算。你需要更多显存来装下完整模型权重,但每次推理的 FLOPs 大幅降低。

从 Qwen3.5 时代的实测数据来看,同架构的 Qwen3.5-35B-A3B 在 4-bit 量化后只需 32GB 显存,在 RTX 4090 上能跑到 122 tokens/秒。Qwen3.6-35B-A3B 沿用了相同的参数规格,部署门槛应该基本一致——一张消费级旗舰显卡就能跑起来,这对个人开发者和中小团队来说非常友好。

智能体编程:这次的重头戏

从 Qwen3.6-Plus 开始,阿里就把「智能体编程」(Agentic Coding)作为这一代模型的核心发力方向。到了开源版,这个策略延续了下来。

什么是智能体编程?简单说,不是让模型写一段代码然后交给你,而是让模型像一个初级工程师一样,能够:

  1. 理解你的需求,拆解成多个子任务
  2. 自主调用工具(终端命令、文件操作、API 调用等)
  3. 根据执行结果判断下一步动作
  4. 遇到错误能自行调试和修复

这对模型的要求远高于单纯的代码生成。它需要长程规划能力、工具调用的准确性、以及在多步交互中保持上下文一致性。

官方博客的措辞是「卓越的智能体编程能力,可与大得多的模型相媲美」。结合 Qwen3.6-Plus 发布时的信息——该系列在代码修复、终端自动化、多步代理任务上都有针对性优化——Qwen3.6-35B-A3B 大概率继承了这些能力。

这里有一个值得注意的细节:Qwen3.5 时代,社区反馈 35B-A3B 的 MoE 版本在多步代理任务中不如 27B 稠密模型,原因是 3B 的激活参数在复杂长链推理中容量不足。Qwen3.6 显然针对这个短板做了重点优化,官方直接宣称编程基准超越了 27B 稠密模型,这说明问题确实得到了实质性解决。

对于想把它集成到编程助手、CI/CD 流水线、或者自动化运维工具中的开发者来说,这是一个信号:MoE 小模型在 Agent 场景的可用性,正在快速逼近甚至超越中等规模稠密模型。

原生多模态:不只是能看图

Qwen3.6-35B-A3B 延续了 Qwen3.5 以来的原生多模态训练路线——不是在语言模型上外挂一个视觉编码器,而是从预训练阶段就融合了文本和视觉信息。

效果相当亮眼。官方称,在大多数视觉语言基准上,这个 30 亿激活参数的模型已经与 Claude Sonnet 4.5 持平。考虑到 Claude Sonnet 4.5 是 Anthropic 的旗舰多模态模型,这个对比相当有冲击力。

几个具体的能力维度:

  • 复杂文档理解:能处理多页 PDF、表格、图文混排内容
  • 空间智能:RefCOCO 92.0,意味着它能精准理解图像中物体的位置关系
  • 视频推理:能对视频内容进行时序分析和逻辑推断
  • 视觉编程:看一张 UI 截图,生成对应的前端代码

对于做多模态应用的开发者来说,这意味着你不再需要为视觉理解单独部署一个大模型。一个 32GB 显存能跑的 MoE 模型,就能同时处理文本推理和视觉感知,部署架构可以大幅简化。

思考模式与非思考模式:灵活切换

Qwen3.6-35B-A3B 支持两种推理模式:

  • 思考模式(Thinking):模型会先进行内部推理链(Chain of Thought),再给出最终答案。适合数学、逻辑、复杂编程等需要深度推理的场景。
  • 非思考模式(Non-thinking):跳过内部推理,直接输出结果。适合简单问答、信息提取等对延迟敏感的场景。

这个设计的实际价值在于成本控制。思考模式会消耗更多 token(因为推理链本身也是输出),非思考模式则更省。开发者可以根据任务复杂度动态切换,在质量和成本之间找到平衡点。

怎么用:部署和调用

三种方式,覆盖不同需求:

1. 在线体验

直接访问 Qwen Studio(chat.qwen.ai)进行对话,零门槛试用。

2. API 调用

通过阿里云百炼平台,以 qwen3.6-flash 的名称调用。如果你用的是兼容 OpenAI 格式的聚合平台(比如 OpenAI Hub),切换起来也很方便,改个 model 名就行:

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[
        {
            "role": "user",
            "content": "帮我写一个 Python 脚本,监控指定目录下的文件变化,有新文件时自动执行 lint 检查并输出报告。"
        }
    ]
)

print(response.choices[0].message.content)

多模态调用也是同样的接口风格:

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/ui-screenshot.png"}
                },
                {
                    "type": "text",
                    "text": "根据这张 UI 截图,用 React + Tailwind CSS 实现对应的组件代码。"
                }
            ]
        }
    ]
)

print(response.choices[0].message.content)

3. 本地部署

从 Hugging Face 或 ModelScope 下载权重,用 vLLM、Ollama、llama.cpp 等框架加载。4-bit 量化后 32GB 显存即可运行,单卡 RTX 4090 就能跑出不错的速度。

竞品对比:它的位置在哪

把 Qwen3.6-35B-A3B 放到当前开源模型的坐标系里看:

模型 架构 总参数 激活参数 定位
Qwen3.6-35B-A3B MoE 35B 3B 轻量高效,智能体编程
Qwen3.5-35B-A3B MoE 35B 3B 前代,已被全面超越
Qwen3.5-27B Dense 27B 27B 稠密模型,编程基准被反超
Gemma4-31B Dense 31B 31B Google 开源,综合能力接近

几个关键判断:

第一,相比前代 Qwen3.5-35B-A3B,这是一次质的飞跃而非量的提升。同样的架构、同样的参数规格,但智能体编程和推理能力大幅拉开差距,说明阿里在训练数据和训练策略上做了大量工作。

第二,能在编程基准上超越 Qwen3.5-27B 这个 270 亿参数的稠密模型,是 MoE 架构在实用场景中的一次重要验证。之前社区对 3B 激活参数能否胜任复杂 Agent 任务是有疑虑的,Qwen3.6 给出了肯定的回答。

第三,与 Gemma4-31B 的对比更有意思。两者在综合能力上打得有来有回,但 Gemma4 是 310 亿参数全激活,推理成本是 Qwen3.6-35B-A3B 的十倍量级。如果你的场景对吞吐量和成本敏感,MoE 的优势是碾压级的。

第四,视觉任务追平 Claude Sonnet 4.5 这个说法需要打个折扣。Benchmark 成绩和实际体验之间总有差距,尤其是在复杂的真实世界场景中。但即便打个七折,一个 3B 激活参数的开源模型能在多模态上达到这个水平,也足够让人重新评估部署策略了。

对开发者意味着什么

说点实在的。

如果你在做编程助手类产品,Qwen3.6-35B-A3B 可能是目前性价比最高的开源底座之一。30 亿激活参数意味着极低的单次推理成本,而智能体编程能力又足以支撑代码生成、修复、工具调用等核心场景。之前你可能需要调用闭源 API 才能获得的 Agent 能力,现在可以考虑自建了。

如果你在做多模态应用,一个模型同时搞定文本和视觉,不用维护两套推理服务,运维复杂度直接砍半。

如果你是本地部署党,32GB 显存的门槛意味着一张 RTX 4090 或者 M2 Ultra 就能跑。对于个人开发者和小团队来说,这是真正可以落地的方案,不是那种「理论上能跑但实际上谁也不会这么干」的 PPT 部署。

当然,MoE 模型也有它的局限。虽然激活参数少,但完整模型权重仍然是 35B,加载时的显存占用不会比 27B 稠密模型少太多(量化策略相同的情况下)。MoE 的优势主要体现在推理速度和吞吐量上,而非显存占用。

Qwen3.6 系列的节奏

回顾一下时间线:

  • 4 月 2 日:Qwen3.6-Plus 发布,闭源 API,主打智能体编程
  • 4 月 16 日:Qwen3.6-35B-A3B 开源,MoE 架构,轻量高效
  • 后续预期:Qwen3.6-Max(更强性能版本)、更多尺寸的开源模型

阿里的策略很清晰:先用闭源旗舰打标杆、验证方向,再用开源版本铺生态。Qwen3.6-Plus 证明了这一代模型在 Agent 场景的竞争力,Qwen3.6-35B-A3B 则把这个能力以极低的成本门槛推向社区。

从 Qwen3 到 3.5 再到 3.6,千问团队的迭代速度肉眼可见地在加快。更重要的是,每一代的提升不再是「各项指标均匀涨两个点」的挤牙膏式更新,而是有明确的技术主题——3.6 这一代就是 Agent,就是编程,就是让模型从「能写代码」进化到「能自主完成编程任务」。

这个方向押对了。2026 年的 AI 应用层,最大的增量就在 Agent。谁的模型在 Agent 场景更好用、更便宜、更容易部署,谁就能吃到这波红利。阿里显然想在开源侧抢下这个身位。


参考来源: