Elephant Alpha真身揭晓:蚂蚁Ling 2.6 Flash来了

模型上新

OpenRouter上神秘模型Elephant Alpha正式揭晓身份——蚂蚁集团旗下inclusionAI团队推出的Ling 2.6 Flash,总参数104B、激活参数仅7.4B的MoE模型,主打低延迟Agent场景,但社区实测反馈两极分化。

OpenRouter 上潜伏了一段时间的神秘模型「Elephant Alpha」,今天终于摘下面具——它是蚂蚁集团旗下 inclusionAI 团队推出的 Ling 2.6 Flash。

一个蚂蚁做的模型,取了个大象的代号。社区的第一反应很统一:蚂蚁想变大象?这命名确实有点黑色幽默。

先看参数:104B 总量,7.4B 激活

Ling 2.6 Flash 采用 MoE(Mixture of Experts)架构,总参数量 104B,但实际推理时激活参数仅 7.4B。这个设计思路很明确:用大模型的知识容量,换小模型的推理速度。

放到当前的模型格局里对比一下:

模型 总参数 激活参数 架构
Ling 2.6 Flash 104B 7.4B MoE
DeepSeek-V3 671B 37B MoE
Qwen2.5-72B 72B 72B Dense
Gemma 4 26B 26B MoE
Mistral 8x7B 46.7B 12.9B MoE

从定位来看,Ling 2.6 Flash 并不是要跟 DeepSeek-V3 或 Qwen2.5-72B 这种重量级选手正面硬刚。它瞄准的是「轻量高速」这个生态位——7.4B 的激活参数意味着部署成本极低,响应速度可以做到很快,适合对延迟敏感的场景。

官方给它的标签是「instruct 模型」,设计目标是服务于「需要快速响应、强执行力和高 token 效率的真实世界 Agent」。翻译成人话:这不是一个让你拿来写小说、做创意的模型,而是一个干活的工具——调 API、执行指令、跑工作流。

Ling 2.6 Flash 在 OpenRouter 上的模型信息页面截图,展示参数规模与定价信息

Elephant Alpha:一场不算成功的匿名测试

在正式揭晓身份之前,Ling 2.6 Flash 以「Elephant Alpha」的代号在 OpenRouter 上匿名运行了一段时间。这种做法在行业里不算新鲜——OpenRouter 的 Arena 机制允许模型匿名参与盲测,让用户在不知道模型身份的情况下打分,理论上能获得更客观的评价。

但从社区反馈来看,这次匿名测试的结果对蚂蚁来说恐怕不太好看。

揭晓身份后,开发者社区的讨论迅速升温,而且画风相当一致——吐槽居多。

一位在 Cursor(CC)中实测过的开发者给出了非常具体的差评:模型连 prompt 中的「workspace」概念都无法正确理解,直接无视了项目上下文,在硬盘根目录创建了一个 workspace 文件夹。这位开发者补了一刀:「参数量小得多的 Qwen 和 Gemma 都不会这么弱智。」

这个反馈其实指向了一个关键问题:对于代码场景,模型不仅需要语言理解能力,更需要对开发环境、文件系统、项目结构有基本的上下文感知。7.4B 的激活参数在这方面确实捉襟见肘。

另一位开发者的评价更直接:「100B 这个规模,玩出花来,它也没办法写代码。做做简单任务就差不多了。」

这话说得有点绝对,但指出了一个真实的矛盾——MoE 架构的 104B 总参数听起来很唬人,可实际干活的只有 7.4B。在需要复杂推理和长链条执行的编程任务中,这个激活规模确实不够看。

蚂蚁做大模型,到底行不行?

社区里有一条评论很扎心但也很真实:「蚂蚁就算了,在人工智能领域是拉中之拉。现在主要靠医疗大健康和支付宝。」

这话说得刻薄了点,但反映了一个客观现实:在国内大模型的竞争格局中,蚂蚁(或者说 inclusionAI)确实不在第一梯队。

第一梯队是谁?DeepSeek 凭借 V3 和 R1 系列在开源社区封神,阿里的 Qwen 系列在各个参数规模上都有不错的口碑,字节的豆包在应用层铺得很开,百度文心虽然争议不断但至少有完整的生态。再往外看,Mistral、Meta 的 Llama、Google 的 Gemma 都在开源领域占据了一席之地。

蚂蚁的 inclusionAI 团队此前推出过 Ling 系列的早期版本,但在社区中的存在感一直不强。这次用「Elephant Alpha」的代号匿名上线,某种程度上也是想绕开品牌偏见,让模型能力本身说话。

结果能力本身说的话,社区不太爱听。

不过话说回来,也不能完全否定这个模型的价值。Ling 2.6 Flash 的定位本来就不是通用大模型,而是一个轻量级的 Agent 执行模型。如果你的场景是简单的指令执行、信息提取、格式转换这类任务,7.4B 激活参数配合极低的推理成本,性价比可能还不错。

关键问题在于:这个生态位已经很拥挤了。

Qwen2.5-7B、Gemma 4 E4B、Llama 3.1-8B……同等激活规模的开源模型一抓一大把,而且社区生态、微调工具链、部署方案都更成熟。Ling 2.6 Flash 要在这个区间杀出来,需要在某个维度上有明显的差异化优势。从目前的社区反馈来看,这个优势还没有被看到。

MoE 架构的「参数幻觉」

这里值得多说两句 MoE 架构的事。

MoE 的核心思路是把一个大模型拆成多个「专家」模块,每次推理只激活其中一部分。好处是显而易见的:你可以用相对低的计算成本,获得一个「见过更多数据」的模型。DeepSeek-V3 的成功很大程度上就是把 MoE 玩明白了——671B 总参数、37B 激活,在性能和效率之间找到了一个很好的平衡点。

但 MoE 不是万能药。

总参数量大,意味着模型在训练阶段确实接触了更多的知识。但推理时只激活一小部分专家,意味着模型在处理具体任务时的「思考深度」是受限的。打个比方:一个读过一万本书的人,但每次回答问题只能用其中七本书的知识,跟一个只读过七十本书但能全部调用的人比,谁更强?答案取决于问题的复杂度。

对于简单任务——比如「把这段文字翻译成英文」「从这段 JSON 里提取某个字段」——MoE 的效率优势很明显。但对于复杂任务——比如「理解这个项目的代码结构,在正确的目录下创建文件」——激活参数的绝对规模就成了瓶颈。

Ling 2.6 Flash 的 7.4B 激活参数,放在 2024 年初可能还算有竞争力,但在 2026 年 4 月的今天,这个数字确实显得单薄了。尤其是当你的竞争对手包括 Qwen 和 Gemma 这些在小参数规模上已经做到极致优化的模型时。

命名彩蛋:蚂蚁与大象

最后聊聊这个命名,因为它确实挺有意思的。

蚂蚁集团的模型,匿名代号叫「Elephant Alpha」——大象。社区第一时间就 get 到了这个梗:蚂蚁想变大象。

这个命名到底是团队的自嘲式幽默,还是一种野心的隐喻?可能两者都有。从 inclusionAI 这个品牌名来看(inclusion,包容),蚂蚁在 AI 领域的定位似乎更偏向普惠和应用落地,而不是追求参数规模的军备竞赛。

但现实是残酷的。在大模型这个赛道上,「普惠」和「好用」之间还隔着一道技术鸿沟。你可以把模型做得很便宜、很快,但如果基本的指令遵循都做不好,便宜和快就没有意义。

蚂蚁要从蚂蚁变成大象,光靠一个代号是不够的。

对开发者意味着什么

说点实际的。如果你是开发者,Ling 2.6 Flash 值不值得关注?

我的判断是:可以观望,但现阶段不建议在生产环境中依赖。

理由有三:

第一,社区反馈的指令遵循问题是硬伤。一个连 workspace 路径都搞不清楚的模型,放到 Agent 工作流里是有风险的。Agent 场景对模型的指令遵循能力要求极高——你让它调 API 它不能调错,你让它操作文件它不能操作错地方。从目前的反馈来看,Ling 2.6 Flash 在这方面还不够可靠。

第二,同等规模的替代品太多了。如果你需要一个轻量级的执行模型,Qwen2.5-7B 的社区生态和实测表现都更成熟,Gemma 4 系列刚发布的几个小规模版本也值得一试。这些模型都有大量的社区微调版本和部署方案,上手成本更低。

第三,模型刚揭晓身份,后续可能还会有优化迭代。如果蚂蚁团队能针对社区反馈的问题做出改进,这个模型在特定场景下还是有潜力的。毕竟 104B 的总参数量摆在那里,知识容量不是问题,问题在于如何更好地调度这些知识。

目前 Ling 2.6 Flash 已经在 OpenRouter 上可以免费调用,感兴趣的开发者可以自己跑几个测试用例感受一下。如果你日常通过 OpenAI Hub 这类聚合平台统一管理模型调用,也可以留意后续是否接入——多一个选择总不是坏事,前提是你清楚它的能力边界。

写在最后

蚂蚁做大模型这件事本身没有问题。支付宝的技术底座、蚂蚁在金融和医疗场景的数据积累,都是做垂直领域模型的好素材。但 Ling 2.6 Flash 选择了一个竞争最激烈的赛道——通用轻量级模型——而且交出的第一份答卷并不理想。

「Elephant Alpha」这个代号或许暗示着蚂蚁的野心,但在大模型这个领域,野心需要用 benchmark 和真实场景的表现来兑现。从蚂蚁到大象,路还很长。

下一步值得关注的是:蚂蚁会不会针对社区反馈快速迭代?会不会在金融、医疗等自己擅长的垂直领域推出专用版本?如果 inclusionAI 能找到自己的差异化定位,而不是在通用模型的红海里硬卷,故事可能会不一样。

但至少现在,大象还只是一个代号。


参考来源: