美团VitaBench 2.0:给AI助手出了一道真正的难题

美团 LongCat 团队发布 VitaBench 2.0,首个面向长期动态用户建模的智能体评测基准。测试结果令人意外:最强模型成功率仅50%,而加入记忆系统后表现反而更差。
美团VitaBench 2.0:给AI助手出了一道真正的难题
美团 LongCat 团队联合新加坡国立大学、中国科学技术大学等机构,于6月9日正式发布了 VitaBench 2.0。这是去年10月 VitaBench 1.0 之后的重大升级,也是业界首个针对「长期动态用户建模」的智能体评测基准。
直接说结论:目前最强的大模型,在这个基准上的成功率只有50%出头。更扎心的是,给模型加上记忆系统,表现反而更差了。
从「能不能用」到「懂不懂你」
去年发布的 VitaBench 1.0 主要测的是智能体能否完成复杂任务——比如帮你订个机票、找个餐厅这种跨场景的操作。当时的测试结果已经够惨了:最强的推理模型成功率也就30%左右。
但那毕竟是「单次任务」。现实中我们和AI助手的关系不是一锤子买卖。你今天让它帮你点外卖,明天让它订酒店,后天又让它找餐厅。一个真正好用的AI助手,应该能记住你不吃香菜、偏好安静的酒店、喜欢靠窗的座位。
VitaBench 2.0 测的就是这个能力:在长期交互中,AI能不能真正理解并记住用户的偏好?

数据集:模拟1580天的人机交互
这个基准的数据量相当扎实:
- 56个用户画像:覆盖不同年龄、职业、生活习惯的人群
- 2000+动态偏好标注:不是静态的「喜欢川菜」,而是会随时间变化的偏好
- 819个子任务:涵盖外卖、到店消费、在线旅游三大场景
- 66个可执行工具:搜索、下单、支付、评价等真实操作
- 平均2093个交互事件/用户:时间跨度长达1580天
最后一个数字是关键。1580天,超过4年的交互历史。这意味着模型要从海量的、嘈杂的、非结构化的对话记录里,提取出用户的真实偏好,还要感知这些偏好随时间的变化(学术上叫「偏好漂移」)。
举个具体的例子:用户小王三年前经常点重口味外卖,但最近一年因为健康原因开始吃清淡的。如果AI还按三年前的偏好给他推荐麻辣香锅,那就完全没理解用户。
测试结果:四个扎心的发现
美团团队对目前主流的前沿模型进行了全面测试,结果暴露出几个严重问题。
1. 性能天花板很低
在「全上下文模式」下(即让模型能读取用户的全部历史记录,这是最理想的情况),各模型的表现如下:
| 模型 | 成功率 | |------|--------| | Claude-Opus-4.6 | 50.3% | | DeepSeek-V4-Pro | 45.6% | | 其他前沿模型 | <45% |
注意,这是在「开卷考试」的情况下——模型能看到所有历史信息,不需要自己去检索或记忆。即便如此,最强模型也只能做对一半的任务。
2. 加记忆反而更差
这是最反直觉的发现。按常理说,给智能体配上记忆系统(无论是让它自己管理记忆,还是用RAG检索),应该能提升表现才对。
实际结果恰恰相反:
- 智能体自主记忆:在更新记忆时容易丢失或扭曲关键信息
- RAG检索:经常被表面相似但实际无关的信息干扰
两种方案的表现都不如直接把全部上下文塞给模型。
这说明什么?目前的记忆机制还很原始。它们能存储信息,但不能真正「理解」哪些信息重要、哪些信息过时、哪些信息之间存在关联。
3. 思维链对个性化没用
开启思考模式(如 DeepSeek-R1、o3 等),在逻辑推理任务上通常有明显提升。但在 VitaBench 2.0 的测试中,思考模式并没有带来系统性的优势。
原因不难理解:个性化建模需要的不是逻辑推导,而是:
- 从噪声中过滤有效信息
- 感知偏好随时间的变化
- 在信息不足时主动提问
这些能力超出了链式思考的范畴。你不能靠「一步步推理」来知道用户是不是最近开始吃素了——你得主动去问。
4. 不会问问题
这可能是最致命的缺陷。当信息不足以做出准确判断时,人类会自然地追问。但当前的大模型倾向于「硬猜」。
测试数据显示,Claude 在主动交互任务上的成功率从46.0%暴跌至27.4%。模型宁愿做一个可能错误的决策,也不愿意承认自己不确定。
更糟糕的是,即使直接把用户的真实偏好数据「灌」给模型,在涉及多步工具调用的复杂决策中,模型依然难以正确整合和应用这些偏好。
错误类型分析:从「不会用工具」到「不懂用户」
美团团队对错误原因做了详细分析,发现了一个有趣的趋势:
随着模型能力的提升,错误类型正在发生结构性变化。
以 DeepSeek 系列为例:
- DeepSeek-R1:工具调用错误占比较高
- DeepSeek-V4-Pro:工具调用错误显著减少,偏好理解错误成为主导
换句话说,「会不会用工具」这个问题正在被解决,但「懂不懂用户」成了新的瓶颈。
这对整个行业都有启示意义:下一阶段的智能体竞争,核心壁垒不再是工具调用能力,而是用户理解能力——能不能听懂用户的弦外之音,能不能记住用户的长期偏好,能不能感知偏好的变化。
技术细节:VitaBench 2.0 是怎么设计的
评测框架
VitaBench 2.0 将智能体在环境中的交互建模为部分可观测马尔可夫决策过程(POMDP),从三个维度量化任务复杂度:
- 推理复杂度(C_reason):任务涉及的搜索空间有多大
- 工具复杂度(C_tool):需要调用多少工具、工具之间的依赖关系如何
- 交互复杂度(C_interact):需要和用户进行多少轮交互才能明确需求
场景覆盖
三大场景的选择很有代表性:
- 外卖点餐:高频、决策快、偏好稳定
- 到店消费:中频、决策较复杂、偏好有场景依赖
- 在线旅游:低频、决策复杂、偏好高度个性化
这三个场景覆盖了从简单到复杂的不同决策类型,也对应了不同的偏好建模难度。
评估方法
传统的评估方法是比对数据库最终状态,但这种方法抓不住「推荐了什么」「规划了什么路线」这类不改变状态的行为。
VitaBench 2.0 采用了基于 Rubric 的滑动窗口评估器:
- 将任务目标拆解为原子化的评估准则(Rubric)
- 用滑动窗口扫描完整对话轨迹
- 跟踪每个 Rubric 的完成状态
- 最终以「全有或全无」标准判断任务是否完成
这种方法能捕捉到过程中的细节,而不只是看最终结果。
与 VitaBench 1.0 的对比
| 维度 | VitaBench 1.0 | VitaBench 2.0 | |------|---------------|---------------| | 评测重点 | 单次复杂任务完成 | 长期动态用户建模 | | 时间跨度 | 单次会话 | 跨越1580天 | | 用户偏好 | 静态需求 | 动态演变的偏好 | | 核心挑战 | 推理+工具调用 | 个性化+主动交互 | | 最强模型成功率 | ~30% | ~50% |
1.0 版本回答的问题是:「AI能不能完成复杂任务?」 2.0 版本回答的问题是:「AI能不能真正理解用户?」
这个基准有什么意义?
对研究者
VitaBench 2.0 指明了智能体研究的下一个方向:从工具调用到用户理解。
目前的记忆机制(无论是向量数据库还是智能体自主管理的记忆)都还很原始,远未达到实用水平。如何设计能够正确提取、更新、检索用户偏好的记忆系统,是一个值得深入研究的问题。
另外,如何让模型在信息不足时主动提问,而不是盲目猜测,也是一个重要课题。这可能需要在训练目标和奖励函数上做根本性的改变。
对开发者
如果你正在做智能助手类产品,VitaBench 2.0 的结论值得认真对待:
- 别迷信长上下文:即使模型能处理超长上下文,也不意味着它能从中提取有效信息
- 谨慎使用RAG:在个性化场景下,RAG可能帮倒忙
- 重视主动交互设计:与其让模型猜,不如设计合理的追问机制
- 关注偏好漂移:用户偏好会变化,系统需要有感知和适应能力
对行业
美团做这个基准,显然是为自己的AI助手产品铺路。但客观地说,这个基准的设计是认真的,数据量是扎实的,测试结果是有价值的。
它揭示了当前智能体落地的真正瓶颈:不是模型不够强,而是不够懂用户。
这对所有想做AI助手、AI Agent的公司都是一个提醒:技术路线可能需要调整,从「让模型更聪明」转向「让模型更懂人」。
开源资源
VitaBench 2.0 已全面开源,包括:
- 代码仓库:https://github.com/meituan-longcat/vitabench
- 数据集:https://huggingface.co/datasets/meituan-longcat/VitaBench
- 在线排行榜:vitabench.github.io(持续更新)
有兴趣的开发者可以用这个基准测试自己的智能体方案,或者基于数据集做进一步的研究。
写在最后
去年 VitaBench 1.0 发布时,我们看到的问题是「AI做不好复杂任务」。今年 2.0 版本告诉我们的是「AI记不住你是谁」。
从某种意义上说,这是进步——至少说明简单的工具调用问题正在被解决。但新暴露的问题同样棘手:如何让AI真正理解用户,而不只是执行指令?
50%的成功率,说高不高,说低也不算特别低。但考虑到这还是在「开卷考试」的情况下,真实场景中的表现可能更差。
对于普通用户来说,这意味着短期内别指望AI助手能真正「懂你」。对于开发者来说,这是一个机会——谁先解决用户理解问题,谁就能在智能助手赛道上建立真正的护城河。
参考来源:
- 美团 LongCat VitaBench GitHub 仓库 - 项目源码和文档
- VitaBench 数据集 - Hugging Face - 评测数据集下载
- 美团 LongCat 团队发布 VitaBench - 知乎专栏 - 技术解读文章



