百度DuMate登顶PinchBench,国产智能体首次坐上头把交椅

模型上新

5月8日凌晨,百度搭子DuMate拿下智能体评测基准PinchBench榜首,并在前五中独占三席,同时领跑DeepResearch深度研究榜单。这是国产智能体首次在该榜单上压过海外一线竞品。

一夜之间,PinchBench 换了主人

5 月 8 日凌晨,PinchBench 榜单悄悄刷新了一次。榜首位置上,原本几乎被 Claude Opus、GPT-5.5 系列轮流占据的格局被打破——百度的智能体产品 DuMate(百度搭子) 拿下第一,且前五位里有三席挂着百度的名字。同期发布的 DeepResearch 深度研究榜单上,DuMate 同样排在第一。

这是国产智能体第一次在 PinchBench 这种被海外厂商视作"自留地"的评测里坐上头把交椅。对一直被吐槽"刷榜不刷实战"的国产 Agent 阵营来说,这次的信号意义比分数本身还重要。

PinchBench 榜单截图,DuMate 位居榜首

PinchBench 是什么,为什么这次登顶值得说

先把背景交代清楚。PinchBench 不是传统那种考模型做题的 benchmark,它考的是智能体在真实任务链路里的完成度——拆任务、调工具、跨应用操作、处理异常、长链路推理,全套打分。简单讲:MMLU 看的是模型记住多少,PinchBench 看的是 Agent 能不能把活干完。

这套榜单过去半年的常客是谁?Claude Opus 4.6/4.7、GPT-5.4/5.5、Gemini 3.1 这些一线选手。前几个月车端模型 Sage 在子项里冲到 94% 任务完成率已经算"破圈"了,但综合榜的总冠军一直没易主。

DuMate 这次拿下的不是单点项目,是综合榜 + DeepResearch 双榜第一,含金量直接翻倍。尤其 DeepResearch 这个分项,考的是模型多轮检索、信息交叉验证、长报告生成,最吃底层模型的推理深度和工具编排能力——这两块恰好是国产模型过去最被诟病的短板。

DuMate 是怎么干上去的

DuMate 这个产品对开发者圈来说不算陌生,定位是"AI 搭子",底座是百度文心系列,外面套了一层比较激进的 Agent 编排框架。这次能跑赢一线,几个点值得拆开看:

1. 多 Agent 编排是真功夫

从前五占三席这个细节就能看出来,百度送上去的不是一个版本,而是针对不同任务类型分化出的多个 Agent 配置。这套打法和 Anthropic 在 Code with Claude 大会上推的"多智能体编排+目标结果+自主推演"思路是同一条路——单体智能再强,遇到长链路任务不如把活拆开让多个 Agent 协作。

百度这次明显是把编排层做厚了,而不是单纯堆模型参数。

2. DeepResearch 拿第一,说明检索-推理闭环打通了

做过 Research Agent 的开发者都知道,难点不在于调搜索 API,而在于:

  • 怎么判断当前信息够不够,要不要再搜一轮
  • 多个来源冲突时信谁
  • 长上下文里怎么不"失忆"
  • 最后产出报告时引用怎么对得上

DuMate 在这个分项第一,意味着这套闭环至少在评测场景里跑通了。这块能力直接决定它能不能从 toC 的"搭子"延伸到 toB 的研究助理、行研、尽调这些更值钱的场景。

3. 中文场景的天然优势被放大

PinchBench 虽然是综合评测,但任务集本身覆盖中英文。海外模型在中文长尾任务、本地化工具调用(地图、外卖、日程这种)上有天花板,DuMate 这边是主场——这部分加分肯定贡献了不少分数。

国产 Agent 阵营的格局变化

把视角拉远一点。最近半个月模型圈的密度其实很高:

  • 字节开源 Mamoda2.5,250 亿参数每次只激活 3 亿,多模态全任务 SOTA
  • 蚂蚁百灵开源 Ling-2.6-1T,万亿参数,AIME26、SWE-bench Verified 上拿开源 SOTA
  • DeepSeek 抛出"基于视觉原语的思考"框架,空间推理能跟 GPT-5.4 掰手腕
  • 阿里通义开源 Qwen-Scope 可解释性工具套件

这些发布拼起来,传递的信号很清楚:国产模型已经不满足于在开源榜单刷分,开始往"应用层 Agent 实战榜"上打。DuMate 这次登顶,可以看作是这一波势能的一个标志性事件——评测维度从"模型能力"转向"产品级智能体能力",国产阵营第一次在后者拿下综合冠军。

DuMate 智能体多任务执行流程示意图

但有几个问题得冷静看

好话说完,得泼点水。

第一,PinchBench 不是绝对真理。 任何 benchmark 都有过拟合风险,何况是任务集相对收敛的 Agent 评测。DuMate 一夜之间从榜外冲到第一,工程团队针对榜单做过专项优化几乎是必然的——这不丢人,海外厂商也都这么干,但读榜单时心里要有数。

第二,榜单第一 ≠ 用户体验第一。 Claude Opus 之所以在开发者群体里口碑硬,不是因为分高,而是 Claude Code 这种工具在真实工程里跑得稳。DuMate 要把榜单上的领先转化成开发者粘性,还得看 API 开放度、价格、生态适配这些。

第三,海外竞品没停。 OpenAI 这边 GPT-5.5 Instant 刚换代,Anthropic 在 Code with Claude 上把 Claude Code 调用限额翻倍、API 速率限制大幅放宽,xAI 也推了 Grok 4.3。一个月后 PinchBench 榜单长什么样,谁也说不准。

对开发者来说意味着什么

如果你正在做 Agent 类应用,这次榜单变动至少有三个落地启发:

  1. 国产底座可以严肃考虑了。过去做 Agent 项目,很多团队默认"复杂任务上 Claude,简单任务上国产",现在这个分层逻辑得重新评估,至少在中文长链路任务上,DuMate 背后的文心系列已经具备一线竞争力。
  2. 多 Agent 编排是真趋势。前五占三席说明百度把同一个底座拆成了多个特化 Agent 配置——这套"一个模型,多个分身"的打法值得借鉴,比单纯换更大的模型性价比高。
  3. DeepResearch 类场景是下一个红海。行研、尽调、合规、医疗文献综述这些场景,模型能力门槛终于跨过去了,产品化窗口正在打开。

OpenAI Hub(openai-hub.com)这边一个 Key 已经能直连主流模型,文心、Claude、GPT、Gemini、DeepSeek 都在列,做 A/B 测试的时候不用为了切模型去对接好几套 SDK,这种横评场景下省事不少。

写在最后

DuMate 登顶 PinchBench 这件事,单拎出来是一个产品的高光时刻;放在过去半年的国产模型节奏里看,是"国产 AI 从模型层卷到 Agent 层"这个长期叙事的一个节点。

好戏还在后面。下一次榜单刷新可能就是几周之后,Claude 和 GPT 那边肯定憋着劲要打回来。但有一点已经变了:以前国产模型在这种榜单里是"挑战者",现在是"卫冕者"——攻守易势,本身就是结果。

参考来源