AI 快讯美团VitaBench 2.0:给AI助手出了一道真正的难题
行业快讯

美团VitaBench 2.0:给AI助手出了一道真正的难题

2026-06-25T14:04:28.080Z
美团VitaBench 2.0:给AI助手出了一道真正的难题

美团 LongCat 团队发布 VitaBench 2.0,首个面向长期动态用户建模的智能体评测基准。测试结果令人意外:最强模型成功率仅50%,而加入记忆系统后表现反而更差。

美团VitaBench 2.0:给AI助手出了一道真正的难题

美团 LongCat 团队联合新加坡国立大学、中国科学技术大学等机构,于6月9日正式发布了 VitaBench 2.0。这是去年10月 VitaBench 1.0 之后的重大升级,也是业界首个针对「长期动态用户建模」的智能体评测基准。

直接说结论:目前最强的大模型,在这个基准上的成功率只有50%出头。更扎心的是,给模型加上记忆系统,表现反而更差了。

从「能不能用」到「懂不懂你」

去年发布的 VitaBench 1.0 主要测的是智能体能否完成复杂任务——比如帮你订个机票、找个餐厅这种跨场景的操作。当时的测试结果已经够惨了:最强的推理模型成功率也就30%左右。

但那毕竟是「单次任务」。现实中我们和AI助手的关系不是一锤子买卖。你今天让它帮你点外卖,明天让它订酒店,后天又让它找餐厅。一个真正好用的AI助手,应该能记住你不吃香菜、偏好安静的酒店、喜欢靠窗的座位。

VitaBench 2.0 测的就是这个能力:在长期交互中,AI能不能真正理解并记住用户的偏好?

VitaBench 2.0 评测框架示意图,展示用户画像、动态偏好和多场景任务的关系

数据集:模拟1580天的人机交互

这个基准的数据量相当扎实:

  • 56个用户画像:覆盖不同年龄、职业、生活习惯的人群
  • 2000+动态偏好标注:不是静态的「喜欢川菜」,而是会随时间变化的偏好
  • 819个子任务:涵盖外卖、到店消费、在线旅游三大场景
  • 66个可执行工具:搜索、下单、支付、评价等真实操作
  • 平均2093个交互事件/用户:时间跨度长达1580天

最后一个数字是关键。1580天,超过4年的交互历史。这意味着模型要从海量的、嘈杂的、非结构化的对话记录里,提取出用户的真实偏好,还要感知这些偏好随时间的变化(学术上叫「偏好漂移」)。

举个具体的例子:用户小王三年前经常点重口味外卖,但最近一年因为健康原因开始吃清淡的。如果AI还按三年前的偏好给他推荐麻辣香锅,那就完全没理解用户。

测试结果:四个扎心的发现

美团团队对目前主流的前沿模型进行了全面测试,结果暴露出几个严重问题。

1. 性能天花板很低

在「全上下文模式」下(即让模型能读取用户的全部历史记录,这是最理想的情况),各模型的表现如下:

| 模型 | 成功率 | |------|--------| | Claude-Opus-4.6 | 50.3% | | DeepSeek-V4-Pro | 45.6% | | 其他前沿模型 | <45% |

注意,这是在「开卷考试」的情况下——模型能看到所有历史信息,不需要自己去检索或记忆。即便如此,最强模型也只能做对一半的任务。

2. 加记忆反而更差

这是最反直觉的发现。按常理说,给智能体配上记忆系统(无论是让它自己管理记忆,还是用RAG检索),应该能提升表现才对。

实际结果恰恰相反:

  • 智能体自主记忆:在更新记忆时容易丢失或扭曲关键信息
  • RAG检索:经常被表面相似但实际无关的信息干扰

两种方案的表现都不如直接把全部上下文塞给模型。

这说明什么?目前的记忆机制还很原始。它们能存储信息,但不能真正「理解」哪些信息重要、哪些信息过时、哪些信息之间存在关联。

3. 思维链对个性化没用

开启思考模式(如 DeepSeek-R1、o3 等),在逻辑推理任务上通常有明显提升。但在 VitaBench 2.0 的测试中,思考模式并没有带来系统性的优势。

原因不难理解:个性化建模需要的不是逻辑推导,而是:

  • 从噪声中过滤有效信息
  • 感知偏好随时间的变化
  • 在信息不足时主动提问

这些能力超出了链式思考的范畴。你不能靠「一步步推理」来知道用户是不是最近开始吃素了——你得主动去问。

4. 不会问问题

这可能是最致命的缺陷。当信息不足以做出准确判断时,人类会自然地追问。但当前的大模型倾向于「硬猜」。

测试数据显示,Claude 在主动交互任务上的成功率从46.0%暴跌至27.4%。模型宁愿做一个可能错误的决策,也不愿意承认自己不确定。

更糟糕的是,即使直接把用户的真实偏好数据「灌」给模型,在涉及多步工具调用的复杂决策中,模型依然难以正确整合和应用这些偏好。

错误类型分析:从「不会用工具」到「不懂用户」

美团团队对错误原因做了详细分析,发现了一个有趣的趋势:

随着模型能力的提升,错误类型正在发生结构性变化。

以 DeepSeek 系列为例:

  • DeepSeek-R1:工具调用错误占比较高
  • DeepSeek-V4-Pro:工具调用错误显著减少,偏好理解错误成为主导

换句话说,「会不会用工具」这个问题正在被解决,但「懂不懂用户」成了新的瓶颈。

这对整个行业都有启示意义:下一阶段的智能体竞争,核心壁垒不再是工具调用能力,而是用户理解能力——能不能听懂用户的弦外之音,能不能记住用户的长期偏好,能不能感知偏好的变化。

技术细节:VitaBench 2.0 是怎么设计的

评测框架

VitaBench 2.0 将智能体在环境中的交互建模为部分可观测马尔可夫决策过程(POMDP),从三个维度量化任务复杂度:

  1. 推理复杂度(C_reason):任务涉及的搜索空间有多大
  2. 工具复杂度(C_tool):需要调用多少工具、工具之间的依赖关系如何
  3. 交互复杂度(C_interact):需要和用户进行多少轮交互才能明确需求

场景覆盖

三大场景的选择很有代表性:

  • 外卖点餐:高频、决策快、偏好稳定
  • 到店消费:中频、决策较复杂、偏好有场景依赖
  • 在线旅游:低频、决策复杂、偏好高度个性化

这三个场景覆盖了从简单到复杂的不同决策类型,也对应了不同的偏好建模难度。

评估方法

传统的评估方法是比对数据库最终状态,但这种方法抓不住「推荐了什么」「规划了什么路线」这类不改变状态的行为。

VitaBench 2.0 采用了基于 Rubric 的滑动窗口评估器

  1. 将任务目标拆解为原子化的评估准则(Rubric)
  2. 用滑动窗口扫描完整对话轨迹
  3. 跟踪每个 Rubric 的完成状态
  4. 最终以「全有或全无」标准判断任务是否完成

这种方法能捕捉到过程中的细节,而不只是看最终结果。

与 VitaBench 1.0 的对比

| 维度 | VitaBench 1.0 | VitaBench 2.0 | |------|---------------|---------------| | 评测重点 | 单次复杂任务完成 | 长期动态用户建模 | | 时间跨度 | 单次会话 | 跨越1580天 | | 用户偏好 | 静态需求 | 动态演变的偏好 | | 核心挑战 | 推理+工具调用 | 个性化+主动交互 | | 最强模型成功率 | ~30% | ~50% |

1.0 版本回答的问题是:「AI能不能完成复杂任务?」 2.0 版本回答的问题是:「AI能不能真正理解用户?」

这个基准有什么意义?

对研究者

VitaBench 2.0 指明了智能体研究的下一个方向:从工具调用到用户理解

目前的记忆机制(无论是向量数据库还是智能体自主管理的记忆)都还很原始,远未达到实用水平。如何设计能够正确提取、更新、检索用户偏好的记忆系统,是一个值得深入研究的问题。

另外,如何让模型在信息不足时主动提问,而不是盲目猜测,也是一个重要课题。这可能需要在训练目标和奖励函数上做根本性的改变。

对开发者

如果你正在做智能助手类产品,VitaBench 2.0 的结论值得认真对待:

  1. 别迷信长上下文:即使模型能处理超长上下文,也不意味着它能从中提取有效信息
  2. 谨慎使用RAG:在个性化场景下,RAG可能帮倒忙
  3. 重视主动交互设计:与其让模型猜,不如设计合理的追问机制
  4. 关注偏好漂移:用户偏好会变化,系统需要有感知和适应能力

对行业

美团做这个基准,显然是为自己的AI助手产品铺路。但客观地说,这个基准的设计是认真的,数据量是扎实的,测试结果是有价值的。

它揭示了当前智能体落地的真正瓶颈:不是模型不够强,而是不够懂用户

这对所有想做AI助手、AI Agent的公司都是一个提醒:技术路线可能需要调整,从「让模型更聪明」转向「让模型更懂人」。

开源资源

VitaBench 2.0 已全面开源,包括:

  • 代码仓库:https://github.com/meituan-longcat/vitabench
  • 数据集:https://huggingface.co/datasets/meituan-longcat/VitaBench
  • 在线排行榜:vitabench.github.io(持续更新)

有兴趣的开发者可以用这个基准测试自己的智能体方案,或者基于数据集做进一步的研究。

写在最后

去年 VitaBench 1.0 发布时,我们看到的问题是「AI做不好复杂任务」。今年 2.0 版本告诉我们的是「AI记不住你是谁」。

从某种意义上说,这是进步——至少说明简单的工具调用问题正在被解决。但新暴露的问题同样棘手:如何让AI真正理解用户,而不只是执行指令?

50%的成功率,说高不高,说低也不算特别低。但考虑到这还是在「开卷考试」的情况下,真实场景中的表现可能更差。

对于普通用户来说,这意味着短期内别指望AI助手能真正「懂你」。对于开发者来说,这是一个机会——谁先解决用户理解问题,谁就能在智能助手赛道上建立真正的护城河。


参考来源:

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: