蚂蚁百灵 Ling-2.6-flash 正式开源:104B 参数、多精度版本,Agent 场景直达 SOTA
一、要闻速览
4 月 29 日,蚂蚁集团旗下百灵大模型团队正式宣布,Ling-2.6-flash 模型全面开源,同步上线 BF16、FP8、INT4 等多种精度版本,开发者可根据自身硬件环境、推理成本和部署场景灵活选用。模型权重已在 Hugging Face 与 ModelScope 双平台同步发布。
这是继一周前 Ling-2.6-flash 以 API 形式正式发布之后,百灵团队兑现的"近期开源"承诺——从 4 月 22 日公布模型到 4 月 29 日全面开源,节奏之快在国内大模型生态中颇为少见。

二、回顾:从匿名测试到正式开源的完整时间线
要理解 Ling-2.6-flash 此次开源的意义,有必要回顾其完整的发布历程:
| 时间节点 | 事件 |
|---|---|
| 约 4 月 15 日 | 代号 Elephant Alpha 的匿名模型悄然登陆 OpenRouter 平台 |
| 上线首周 | 调用量持续攀升,连续多日位列 Trending 榜首,日均 tokens 调用量达 100B 级别,周增长超 5000% |
| 4 月 22 日 | 蚂蚁百灵正式"认领" Elephant Alpha,宣布其即为 Ling-2.6-flash,同步开放 API 服务并公布定价 |
| 4 月 22 日 – 4 月 29 日 | 团队持续收集开发者真实反馈,进行多轮优化迭代,改善中英文自然切换能力,提升主流 Coding 框架适配效果 |
| 4 月 29 日(今日) | Ling-2.6-flash 正式开源,BF16 / FP8 / INT4 等多精度权重同步上线 Hugging Face 与 ModelScope |
这种"匿名测试 → 正式发布 → 快速开源"的三步走策略,让模型在正式开源前已经经历了大量真实用户的检验和反馈驱动的迭代,有效降低了开源后社区遇到重大缺陷的风险。
三、模型基本参数
Ling-2.6-flash 是一款基于 MoE(Mixture of Experts,混合专家) 架构的 Instruct 模型,核心参数如下:
- 总参数量:104B(1040 亿)
- 激活参数量:7.4B(74 亿)
- 架构类型:高度稀疏化 MoE + 混合线性架构
- 模型类型:Instruct(指令遵循)
- 精度版本:BF16、FP8、INT4
- 开源协议:详见 Hugging Face / ModelScope 仓库页面
从参数设计来看,104B 的总参数量配合仅 7.4B 的激活参数,稀疏比高达约 93%,这意味着在推理时仅需激活不到 1/14 的参数即可完成计算。这一设计理念与当前业界主流趋势高度一致——DeepSeek-V3(671B 总参数 / 37B 激活)、Qwen3.5-35B-A3B(35B / 3B)、豆包 2.0 Pro(744B / 40-44B 激活)等头部模型均采用了类似的大总量、低激活的 MoE 路线。
四、三大核心能力深度解析
4.1 混合线性架构:释放推理效率
Ling-2.6-flash 最具辨识度的技术特征在于其混合线性架构的引入。与传统的纯 Transformer 注意力机制不同,混合线性架构在部分层级用线性注意力或线性 RNN 变体替代标准的 Softmax 注意力,从而在底层就优化了计算复杂度。
实测性能亮点:
- 推理速度峰值:在 4 卡 H20 条件下,最快可达 340 tokens/s
- 稳定输出速度:约 215 tokens/s
- Prefill 吞吐:达到 Nemotron-3-Super 的 2.2 倍
这些数字意味着什么?以一段 500 字左右的中文回复(约 300-400 tokens)为例,Ling-2.6-flash 在峰值速度下不到 1.5 秒即可完成生成,稳定速度下也仅需约 2 秒。对于需要快速响应的在线服务场景(如客服机器人、实时代码补全、Agent 工具调用链)而言,这一速度具有显著的实用价值。
混合线性架构的另一个优势在于显存友好。由于线性注意力的 KV Cache 需求远低于标准注意力,这使得模型在长序列场景下的显存占用增长更加平缓,进一步降低了部署门槛。结合此次开源的 INT4 量化版本,开发者有望在消费级多卡环境下部署这一百亿级激活参数的模型。
4.2 Token 效率优化:以更少的 Token 完成更多的任务
Token 效率是 Ling-2.6-flash 反复强调的核心差异化指标。官方将这一理念称为**"智效比"**——不是简单地用更长的输出去换取更高的基准测试分数,而是力求以更精简的输出完成同等目标。
关键数据对比:
在 Artificial Analysis 的完整评测流程中:
| 模型 | 评测消耗 Token 量 |
|---|---|
| Ling-2.6-flash | 约 15M tokens |
| Nemotron-3-Super 等同类 | 约 110M+ tokens |
Ling-2.6-flash 的 Token 消耗仅为同类模型的 1/10 左右。
这一优势在实际业务中的价值非常直接——更少的 Token 意味着:
- 更低的推理成本:按 API 定价计算,完成同等任务的花费大幅降低
- 更短的响应时延:生成更少的 Token 自然意味着更快的端到端响应
- 更高的并发能力:单卡在相同时间窗口内可服务更多请求
- 更小的上下文窗口压力:在多轮对话和 Agent 场景中,历史消息的累积更加缓慢
从技术实现角度看,Token 效率的优化并非简单的"缩短回复"——如果回复过短导致质量下降,就失去了意义。百灵团队表示,这是在训练过程中对 Token 效率进行了针对性校准的结果,即在奖励模型和强化学习阶段就将"输出简洁性"纳入优化目标,使模型学会用更凝练的表达传达同等信息量。
4.3 Agent 场景定向增强:工具调用、多步规划与任务执行
2025 年下半年以来,Agent 应用已成为大模型落地最活跃的方向之一。Ling-2.6-flash 在这一方向上进行了系统性的定向增强,覆盖三个核心能力维度:
- 工具调用(Tool Calling):准确理解工具描述、生成合法的调用参数、正确处理工具返回结果
- 多步规划(Multi-step Planning):面对复杂任务时能够分解子目标并制定合理的执行顺序
- 任务执行(Task Execution):在代码编写、文件操作、信息检索等实际操作中保持高完成率
基准测试表现:
| 评测基准 | 评测维度 | Ling-2.6-flash 表现 |
|---|---|---|
| BFCL-V4 | 函数调用准确性 | 同尺寸 SOTA |
| TAU2-bench | Agent 任务理解与执行 | 同尺寸 SOTA |
| SWE-bench Verified | 真实 GitHub Issue 修复 | 接近或达到 SOTA |
| Claw-Eval | 工具调用链综合评测 | 接近或达到 SOTA |
| PinchBench | Agent 鲁棒性评测 | 接近或达到 SOTA |
值得注意的是,Ling-2.6-flash 在这些评测中的对比对象不仅限于同等激活参数量的模型,还包括激活参数显著更大的模型,依然能够取得相近甚至更优的成绩。这进一步验证了其 MoE 架构与 Agent 增强训练策略的有效性。

五、多精度开源:BF16 / FP8 / INT4 灵活选择
此次开源最大的亮点之一,是同时提供了 BF16、FP8、INT4 三种精度版本。这一做法充分考虑了不同开发者的实际部署条件:
BF16(Brain Floating Point 16)
- 精度最高,与训练时的数值表示最为接近
- 适合拥有充足 GPU 显存的用户,追求模型能力的极致还原
- 推荐硬件:多卡 A100 / H100 / H20 等高端 GPU 集群
FP8(Float Point 8)
- 在精度与效率之间取得良好平衡
- 显存占用约为 BF16 的一半,推理速度可获显著提升
- 推荐硬件:支持 FP8 计算的 H100 / H200 / L40S 等 GPU
INT4(Integer 4-bit Quantization)
- 显存占用最低,约为 BF16 的 1/4
- 适合显存受限的环境或需要极致成本控制的场景
- 可能在部分复杂任务上有轻微精度损失,但对大多数 Instruct 场景影响有限
- 推荐硬件:消费级多卡 GPU(如 2-4 张 RTX 4090)或中低端数据中心卡
多精度版本的同步开源,极大拓宽了 Ling-2.6-flash 的适用范围。对于中小企业和独立开发者而言,INT4 版本意味着他们可以在相对有限的硬件条件下,也能部署并使用这一具备 Agent SOTA 能力的模型。
六、API 定价与免费额度
除了开源权重外,Ling-2.6-flash 也提供了 API 调用服务,定价策略如下:
OpenRouter 平台定价
| 计费项 | 价格 |
|---|---|
| 输入 | $0.1 / 百万 tokens |
| 输出 | $0.3 / 百万 tokens |
| 缓存命中 | $0.02 / 百万 tokens(按 20% 计费) |
官方平台定价
| 计费项 | 价格 |
|---|---|
| 输入 | ¥0.6 / 百万 tokens |
| 输出 | ¥1.8 / 百万 tokens |
| 每日免费额度 | 50 万 tokens |
从定价来看,Ling-2.6-flash 的 API 成本在当前市场中处于极具竞争力的水平。每百万 tokens 0.1 美元的输入价格,叠加其远低于同类模型的 Token 消耗量,意味着完成同等任务的实际花费可能仅为传统模型的 1/10 甚至更低。
七、行业背景与竞争格局
MoE 已成主流范式
Ling-2.6-flash 的发布进一步印证了一个行业趋势:高度稀疏化的 MoE 架构已成为大模型的主流技术路线。以下是当前主要 MoE 模型的参数对比:
| 模型 | 厂商 | 总参数量 | 激活参数量 | 稀疏比 |
|---|---|---|---|---|
| DeepSeek-V3 | 深度求索 | 671B | 37B | ~94.5% |
| Ling-2.6-flash | 蚂蚁百灵 | 104B | 7.4B | ~92.9% |
| Qwen3.5-35B-A3B | 阿里通义 | 35B | 3B | ~91.4% |
| 豆包 2.0 Pro | 字节跳动 | 744B | 40-44B | ~94.1% |
各家厂商在总参数量和激活参数量的选择上各有侧重,但稀疏比普遍在 90% 以上,充分说明业界已形成共识:通过 MoE 架构实现"大容量、低计算"是当前最可行的扩展路径。
效率导向的竞争新维度
与早期"参数量军备竞赛"不同,当前大模型竞争已明显转向效率维度。Ling-2.6-flash 在这一方向上的布局尤为突出:
- 推理效率:混合线性架构带来的 340 tokens/s 峰值速度
- Token 效率:训练阶段就优化的输出简洁性
- 成本效率:低激活参数 + 低 Token 消耗 + 低 API 定价
- 部署效率:多精度版本适配不同硬件环境
这种"四效合一"的策略,使得 Ling-2.6-flash 不仅在基准测试中表现出色,更在实际业务场景中具备了强大的落地能力。
开源生态加速构建
蚂蚁集团在大模型开源方面的动作日益频繁。此前已开源的项目包括 Ling-2.5-1T(万亿参数模型)、Ming-Flash-Omni 2.0 等,此次 Ling-2.6-flash 的开源进一步丰富了百灵模型家族的开源矩阵。
从发布到开源仅用了一周时间,这种快节奏的开源策略体现了蚂蚁集团构建开发者生态的决心。通过让更多开发者能够本地部署和微调模型,百灵团队有望获得更广泛的社区反馈,形成"开源 → 反馈 → 迭代 → 再开源"的正循环。
八、开发者获取指南
模型下载地址
- Hugging Face:
https://huggingface.co/inclusionAI/Ling-2.6-flash - ModelScope:
https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash
开发者可根据网络环境选择合适的平台进行下载。国内用户推荐使用 ModelScope 以获得更稳定的下载速度。
快速上手建议
- 硬件评估:首先确认可用 GPU 显存总量,选择合适的精度版本
- 4× H20 / A100(80GB)及以上 → BF16
- 2× H100 / H200 → FP8
- 2-4× RTX 4090(24GB)→ INT4
- 框架选择:官方已针对主流推理框架进行了适配优化,建议使用 vLLM、SGLang 等高性能推理引擎
- 场景适配:如用于 Agent 场景,建议参考官方提供的工具调用 Prompt 模板以获得最佳效果
九、总结与展望
Ling-2.6-flash 的正式开源,标志着蚂蚁百灵在大模型开源生态建设上迈出了重要一步。从技术指标来看,104B 总参数、7.4B 激活参数的高稀疏 MoE 架构,结合混合线性注意力带来的高推理效率、训练阶段就优化的 Token 效率,以及面向 Agent 场景的定向增强,使其在同尺寸模型中展现出了全面而突出的竞争力。
多精度版本(BF16 / FP8 / INT4)的同步开源更是诚意满满,让不同硬件条件的开发者都能找到适合自己的部署方案。这种"降低门槛、扩大覆盖"的开源策略,有望帮助百灵模型快速积累社区用户和应用案例。
展望未来,随着 Agent 应用场景的持续爆发和推理效率需求的不断提升,像 Ling-2.6-flash 这样在效率和能力之间取得精妙平衡的模型,或将成为开发者工具箱中不可或缺的利器。而蚂蚁集团"从匿名测试到快速开源"的发布策略,也为行业提供了一种值得借鉴的新范式。
参考来源
- 蚂蚁集团百灵大模型开源 Ling-2.6-flash,提供 BF16、FP8、INT4 等版本 - IT之家 — IT之家 4 月 29 日关于 Ling-2.6-flash 正式开源的报道
- Ling-2.6-flash 模型仓库 - Hugging Face — 模型开源权重下载页面(Hugging Face)