美团 LongCat 团队发布 VitaBench 2.0，首个面向长期动态用户建模的智能体评测基准。测试结果令人意外：最强模型成功率仅50%，而加入记忆系统后表现反而更差。

美团VitaBench 2.0：给AI助手出了一道真正的难题

美团 LongCat 团队联合新加坡国立大学、中国科学技术大学等机构，于6月9日正式发布了 VitaBench 2.0。这是去年10月 VitaBench 1.0 之后的重大升级，也是业界首个针对「长期动态用户建模」的智能体评测基准。

直接说结论：目前最强的大模型，在这个基准上的成功率只有50%出头。更扎心的是，给模型加上记忆系统，表现反而更差了。

从「能不能用」到「懂不懂你」

去年发布的 VitaBench 1.0 主要测的是智能体能否完成复杂任务——比如帮你订个机票、找个餐厅这种跨场景的操作。当时的测试结果已经够惨了：最强的推理模型成功率也就30%左右。

但那毕竟是「单次任务」。现实中我们和AI助手的关系不是一锤子买卖。你今天让它帮你点外卖，明天让它订酒店，后天又让它找餐厅。一个真正好用的AI助手，应该能记住你不吃香菜、偏好安静的酒店、喜欢靠窗的座位。

VitaBench 2.0 测的就是这个能力：在长期交互中，AI能不能真正理解并记住用户的偏好？

VitaBench 2.0 评测框架示意图，展示用户画像、动态偏好和多场景任务的关系

数据集：模拟1580天的人机交互

这个基准的数据量相当扎实：

56个用户画像：覆盖不同年龄、职业、生活习惯的人群
2000+动态偏好标注：不是静态的「喜欢川菜」，而是会随时间变化的偏好
819个子任务：涵盖外卖、到店消费、在线旅游三大场景
66个可执行工具：搜索、下单、支付、评价等真实操作
平均2093个交互事件/用户：时间跨度长达1580天

最后一个数字是关键。1580天，超过4年的交互历史。这意味着模型要从海量的、嘈杂的、非结构化的对话记录里，提取出用户的真实偏好，还要感知这些偏好随时间的变化（学术上叫「偏好漂移」）。

举个具体的例子：用户小王三年前经常点重口味外卖，但最近一年因为健康原因开始吃清淡的。如果AI还按三年前的偏好给他推荐麻辣香锅，那就完全没理解用户。

测试结果：四个扎心的发现

美团团队对目前主流的前沿模型进行了全面测试，结果暴露出几个严重问题。

1. 性能天花板很低

在「全上下文模式」下（即让模型能读取用户的全部历史记录，这是最理想的情况），各模型的表现如下：

| 模型 | 成功率 | |------|--------| | Claude-Opus-4.6 | 50.3% | | DeepSeek-V4-Pro | 45.6% | | 其他前沿模型 | <45% |

注意，这是在「开卷考试」的情况下——模型能看到所有历史信息，不需要自己去检索或记忆。即便如此，最强模型也只能做对一半的任务。

2. 加记忆反而更差

这是最反直觉的发现。按常理说，给智能体配上记忆系统（无论是让它自己管理记忆，还是用RAG检索），应该能提升表现才对。

实际结果恰恰相反：

智能体自主记忆：在更新记忆时容易丢失或扭曲关键信息
RAG检索：经常被表面相似但实际无关的信息干扰

两种方案的表现都不如直接把全部上下文塞给模型。

这说明什么？目前的记忆机制还很原始。它们能存储信息，但不能真正「理解」哪些信息重要、哪些信息过时、哪些信息之间存在关联。

3. 思维链对个性化没用

开启思考模式（如 DeepSeek-R1、o3 等），在逻辑推理任务上通常有明显提升。但在 VitaBench 2.0 的测试中，思考模式并没有带来系统性的优势。

原因不难理解：个性化建模需要的不是逻辑推导，而是：

从噪声中过滤有效信息
感知偏好随时间的变化
在信息不足时主动提问

这些能力超出了链式思考的范畴。你不能靠「一步步推理」来知道用户是不是最近开始吃素了——你得主动去问。

4. 不会问问题

这可能是最致命的缺陷。当信息不足以做出准确判断时，人类会自然地追问。但当前的大模型倾向于「硬猜」。

测试数据显示，Claude 在主动交互任务上的成功率从46.0%暴跌至27.4%。模型宁愿做一个可能错误的决策，也不愿意承认自己不确定。

更糟糕的是，即使直接把用户的真实偏好数据「灌」给模型，在涉及多步工具调用的复杂决策中，模型依然难以正确整合和应用这些偏好。

错误类型分析：从「不会用工具」到「不懂用户」

美团团队对错误原因做了详细分析，发现了一个有趣的趋势：

随着模型能力的提升，错误类型正在发生结构性变化。

以 DeepSeek 系列为例：

DeepSeek-R1：工具调用错误占比较高
DeepSeek-V4-Pro：工具调用错误显著减少，偏好理解错误成为主导

换句话说，「会不会用工具」这个问题正在被解决，但「懂不懂用户」成了新的瓶颈。

这对整个行业都有启示意义：下一阶段的智能体竞争，核心壁垒不再是工具调用能力，而是用户理解能力——能不能听懂用户的弦外之音，能不能记住用户的长期偏好，能不能感知偏好的变化。

技术细节：VitaBench 2.0 是怎么设计的

评测框架

VitaBench 2.0 将智能体在环境中的交互建模为部分可观测马尔可夫决策过程（POMDP），从三个维度量化任务复杂度：

推理复杂度（C_reason）：任务涉及的搜索空间有多大
工具复杂度（C_tool）：需要调用多少工具、工具之间的依赖关系如何
交互复杂度（C_interact）：需要和用户进行多少轮交互才能明确需求

场景覆盖

三大场景的选择很有代表性：

外卖点餐：高频、决策快、偏好稳定
到店消费：中频、决策较复杂、偏好有场景依赖
在线旅游：低频、决策复杂、偏好高度个性化

这三个场景覆盖了从简单到复杂的不同决策类型，也对应了不同的偏好建模难度。

评估方法

传统的评估方法是比对数据库最终状态，但这种方法抓不住「推荐了什么」「规划了什么路线」这类不改变状态的行为。

VitaBench 2.0 采用了基于 Rubric 的滑动窗口评估器：

将任务目标拆解为原子化的评估准则（Rubric）
用滑动窗口扫描完整对话轨迹
跟踪每个 Rubric 的完成状态
最终以「全有或全无」标准判断任务是否完成

这种方法能捕捉到过程中的细节，而不只是看最终结果。

与 VitaBench 1.0 的对比

| 维度 | VitaBench 1.0 | VitaBench 2.0 | |------|---------------|---------------| | 评测重点 | 单次复杂任务完成 | 长期动态用户建模 | | 时间跨度 | 单次会话 | 跨越1580天 | | 用户偏好 | 静态需求 | 动态演变的偏好 | | 核心挑战 | 推理+工具调用 | 个性化+主动交互 | | 最强模型成功率 | ~30% | ~50% |

1.0 版本回答的问题是：「AI能不能完成复杂任务？」 2.0 版本回答的问题是：「AI能不能真正理解用户？」

这个基准有什么意义？

对研究者

VitaBench 2.0 指明了智能体研究的下一个方向：从工具调用到用户理解。

目前的记忆机制（无论是向量数据库还是智能体自主管理的记忆）都还很原始，远未达到实用水平。如何设计能够正确提取、更新、检索用户偏好的记忆系统，是一个值得深入研究的问题。

另外，如何让模型在信息不足时主动提问，而不是盲目猜测，也是一个重要课题。这可能需要在训练目标和奖励函数上做根本性的改变。

对开发者

如果你正在做智能助手类产品，VitaBench 2.0 的结论值得认真对待：

别迷信长上下文：即使模型能处理超长上下文，也不意味着它能从中提取有效信息
谨慎使用RAG：在个性化场景下，RAG可能帮倒忙
重视主动交互设计：与其让模型猜，不如设计合理的追问机制
关注偏好漂移：用户偏好会变化，系统需要有感知和适应能力

对行业

美团做这个基准，显然是为自己的AI助手产品铺路。但客观地说，这个基准的设计是认真的，数据量是扎实的，测试结果是有价值的。

它揭示了当前智能体落地的真正瓶颈：不是模型不够强，而是不够懂用户。

这对所有想做AI助手、AI Agent的公司都是一个提醒：技术路线可能需要调整，从「让模型更聪明」转向「让模型更懂人」。

开源资源

VitaBench 2.0 已全面开源，包括：

代码仓库：https://github.com/meituan-longcat/vitabench
数据集：https://huggingface.co/datasets/meituan-longcat/VitaBench
在线排行榜：vitabench.github.io（持续更新）

有兴趣的开发者可以用这个基准测试自己的智能体方案，或者基于数据集做进一步的研究。

写在最后

去年 VitaBench 1.0 发布时，我们看到的问题是「AI做不好复杂任务」。今年 2.0 版本告诉我们的是「AI记不住你是谁」。

从某种意义上说，这是进步——至少说明简单的工具调用问题正在被解决。但新暴露的问题同样棘手：如何让AI真正理解用户，而不只是执行指令？

50%的成功率，说高不高，说低也不算特别低。但考虑到这还是在「开卷考试」的情况下，真实场景中的表现可能更差。

对于普通用户来说，这意味着短期内别指望AI助手能真正「懂你」。对于开发者来说，这是一个机会——谁先解决用户理解问题，谁就能在智能助手赛道上建立真正的护城河。

参考来源：

美团 LongCat VitaBench GitHub 仓库 - 项目源码和文档
VitaBench 数据集 - Hugging Face - 评测数据集下载
美团 LongCat 团队发布 VitaBench - 知乎专栏 - 技术解读文章

美团VitaBench 2.0：给AI助手出了一道真正的难题

美团VitaBench 2.0：给AI助手出了一道真正的难题

从「能不能用」到「懂不懂你」

数据集：模拟1580天的人机交互

测试结果：四个扎心的发现

1. 性能天花板很低

2. 加记忆反而更差

3. 思维链对个性化没用

4. 不会问问题

错误类型分析：从「不会用工具」到「不懂用户」

技术细节：VitaBench 2.0 是怎么设计的

评测框架

场景覆盖

评估方法

与 VitaBench 1.0 的对比

这个基准有什么意义？

对研究者

对开发者

对行业

开源资源

写在最后

相关推荐

商汤U1 Pro下月邀测：要做智能体时代的底座

富士通PHOTON架构：475倍性能背后的取舍

商汤押注设计赛道，U1 Pro 对标 GPT-Image 2

联系我们