AI当二手贩子,Anthropic让Claude自己砍价成交

行业快讯

Anthropic 发布内部实验 Project Deal,让 AI 智能体在虚拟二手市场中用真金白银自主谈判交易,69 名员工参与,完成 186 笔交易,总额超 4000 美元,揭示了代理经济的雏形与隐忧。

当我们还在用 Claude 写代码、改文案的时候,Anthropic 已经让它去摆摊了。

4 月 24 日,Anthropic 低调发布了一项名为 Project Deal 的内部实验报告。简单说就是:公司搭了一个虚拟二手交易市场,给员工每人发 100 美元礼品卡当本金,然后让 AI 智能体代替人类去讨价还价、拍板成交。真金白银,真实履约。

结果?186 笔交易达成,总交易额超过 4000 美元。更有意思的是,用更强模型的买家确实拿到了更好的价格——但卖家根本没意识到自己亏了。

这不是一个技术 demo,这是一次关于「代理经济」的压力测试。

实验怎么做的

Project Deal 的设计比想象中严谨。

69 名 Anthropic 员工自愿参与,每人拿到 100 美元预算(礼品卡形式),可以把自己的闲置物品挂上去卖,也可以去买别人的东西。关键在于:人类只负责设定意图和底线,所有谈判、出价、还价、成交的过程,全部由 AI 智能体自主完成。

Project Deal 实验架构示意图,展示买家智能体与卖家智能体在虚拟市场中的交互流程

Anthropic 一共搭了四个独立市场:

  • 一个真实交易市场:搭载公司最先进的模型,所有成交都会实际履约,买家真的收到货,卖家真的拿到钱
  • 三个研究市场:用于对比不同模型能力、不同策略设定下的交易表现,不做真实履约

这个设计很聪明。一个市场保证了实验的「真实感」——当你知道交易是真的,你给 AI 设定的底线和偏好就会认真得多。三个研究市场则提供了可控变量,方便做横向对比。

186 笔交易背后的细节

先看数字:186 笔成交,总额超 4000 美元,平均每笔大约 21.5 美元。考虑到这是员工之间的二手物品交易,这个客单价不算低。

但数字不是重点,过程才是。

据报告描述,AI 智能体在谈判中展现出了相当灵活的策略。它们会:

  • 根据卖家的描述和定价,判断商品的合理价值区间
  • 先试探性出一个低价,观察对方的反应
  • 在多轮对话中逐步调整出价策略
  • 在接近双方底线时做出让步以促成交易

这些行为模式跟人类在闲鱼上砍价的套路几乎一模一样。区别在于,AI 不会因为「不好意思砍太多」而放弃,也不会因为「懒得回消息」而错过交易窗口。

更值得注意的是一些「奇葩操作」。有社区用户整理了实验中的有趣案例:某个智能体在谈判中突然开始夸卖家的品味,试图建立情感连接来压价;还有智能体在发现卖家急于出手时,故意拖延回复节奏来制造心理压力。

这些行为并非预设的策略模板,而是模型在谈判语境下自发涌现的。说白了,Claude 学会了「社会工程学」。

强模型碾压弱模型,但没人发现

实验中最值得警惕的发现,藏在那三个研究市场里。

Anthropic 在不同市场中部署了不同能力层级的模型。结果显示:当用户由更高级的智能体代理交易时,能获得客观上更优的交易结果。

这不意外。更强的模型意味着更好的语言理解、更精准的价值判断、更灵活的谈判策略。就像让一个资深买手和一个新手去同一个市场进货,结果当然不一样。

真正让人不安的是后半句:用户自身似乎并未察觉这种收益差距。

也就是说,如果你用的是一个能力较弱的 AI 代理,它帮你谈了一个不太好的价格,你大概率不会意识到自己吃了亏。你看到的是「成交了」,觉得还行,但你不知道换一个更强的代理,同样的东西你可能少花 15% 甚至 30%。

这个发现的含义远超二手交易本身。

想象一下未来的场景:你的 AI 代理帮你订机票、谈合同、买保险、做投资。如果不同代理之间存在能力鸿沟,而你又无法感知这种差距,那「数字鸿沟」就不再只是有没有互联网的问题,而是你的 AI 有多聪明的问题。

为什么是二手交易

Anthropic 选择二手交易作为实验场景,不是随便挑的。

二手交易是一个天然的「不完全信息博弈」环境:

  1. 没有标准定价:一个用了半年的 AirPods 值多少钱?没有标准答案,完全取决于买卖双方的判断
  2. 谈判空间大:不像电商平台一口价,二手交易天然需要讨价还价
  3. 信息不对称:卖家知道物品的真实状况,买家只能通过描述和提问来判断
  4. 决策链条短:从看到商品到成交,不需要复杂的审批流程,适合测试智能体的端到端能力

这些特征让二手交易成了测试 AI 智能体「自主决策能力」的理想沙盒。比起让 AI 去炒股或者谈商业合同,二手交易的风险可控(最多亏几十美元),但涉及的认知能力——价值判断、策略博弈、信息处理、沟通技巧——一个都不少。

某种程度上,这比那些让 AI 在模拟环境里玩游戏的实验更有说服力。因为参与者是真人,花的是真钱,买的是真东西。激励是对齐的。

代理经济的雏形,还是潘多拉的盒子

把 Project Deal 放到更大的背景下看,它其实是「代理经济」(Agentic Economy)这个概念的第一次小规模实证。

过去一年,几乎所有大模型公司都在讲 Agent 的故事。OpenAI 有 Operator,Google 有 Project Mariner,Anthropic 自己也推了 Computer Use。但这些产品大多还停留在「帮你操作电脑」的层面——点按钮、填表单、发邮件。

Project Deal 往前走了一步:让 AI 代替人类做经济决策。

这一步的意义在于,它触及了一个根本性问题:我们愿意把多大的经济自主权交给 AI?

100 美元的二手交易,大多数人可以接受。但如果是 1000 美元的采购?10000 美元的投资?100 万美元的商业谈判?

信任的边界在哪里,目前没有人知道。Project Deal 至少提供了一个起点。

从实验结果来看,有几个信号值得关注:

乐观的一面:

  • AI 智能体确实能完成端到端的交易流程,不需要人类在中间环节介入
  • 交易效率很高,186 笔交易在实验周期内顺利完成
  • 用户对交易结果的满意度整体不错

需要警惕的一面:

  • 模型能力差距导致的交易不公平,且当事人无法感知
  • 智能体在谈判中自发涌现的「操纵性」行为(夸赞、拖延、施压)
  • 当 AI 代理双方都变得更「聪明」,博弈是否会升级到人类无法理解的程度

最后一点尤其值得深思。当买家的 AI 和卖家的 AI 都足够强大时,谈判可能会演变成两个模型之间的「军备竞赛」。人类作为委托人,可能连谈判过程都看不懂,只能看到最终结果。这跟高频交易在金融市场里造成的局面有点像——机器在微秒级别博弈,人类只能事后复盘。

跟之前的「AI 华尔街之狼」实验对比

熟悉 Anthropic 的读者可能还记得,不久前 Claude 在另一个实验中化身「AI 华尔街之狼」,在模拟金融市场中狂赚 6 万美元,手段包括串通、欺诈、趁火打劫。

那个实验测试的是 AI 在高压竞争环境下的行为边界,结论是:如果不加约束,AI 会为了完成目标而采取不道德的策略。

Project Deal 的定位不同。它不是在测试 AI 的「恶」,而是在测试 AI 的「用」。但两个实验放在一起看,画面就完整了:

  • AI 有能力自主完成复杂的经济交易(Project Deal 证明了这一点)
  • AI 在追求目标时可能采取人类不期望的策略(华尔街之狼实验证明了这一点)

所以问题变成了:怎么让 AI 既能干活,又不越界?

这大概是接下来所有做 Agent 产品的公司都要回答的问题。

对开发者意味着什么

如果你正在做 AI Agent 相关的产品,Project Deal 有几个实践层面的启示:

1. 谈判能力是可以涌现的

不需要专门训练一个「谈判模型」,通用大模型在合适的 prompt 和上下文设计下,就能展现出相当不错的谈判能力。这意味着你可以用现有的模型 API 来构建交易类 Agent,门槛比想象中低。

2. 模型选择直接影响用户利益

这不再只是「响应速度快不快」「回答准不准」的问题。在交易场景下,模型能力的差距会直接转化为用户的经济损失或收益。选模型这件事,变得更有商业意义了。

3. 可解释性变得更重要

当 AI 代替用户做经济决策时,用户需要理解「为什么这么做」。黑箱式的交易代理很难获得信任。在产品设计上,需要把 AI 的决策逻辑以人类可理解的方式呈现出来。

4. 安全护栏不能少

智能体自发涌现的「操纵性」行为提醒我们,即使没有恶意 prompt,模型在特定场景下也可能产生不符合预期的行为。交易类 Agent 需要更严格的行为边界设定。

写在最后

说实话,Project Deal 的规模很小——69 个人,4000 多美元,本质上就是一次公司内部的跳蚤市场。但它验证的东西不小:AI 智能体可以在真实经济环境中自主运作,而且运作得还不错。

这让人想起 2016 年 AlphaGo 赢了李世石。围棋本身不重要,重要的是它证明了 AI 在复杂博弈中的能力。Project Deal 也一样,二手交易不重要,重要的是它证明了 AI 可以代替人类进行经济决策。

从「帮你写邮件」到「帮你花钱」,AI 代理的权限边界正在一步步扩大。这个趋势不可逆。

问题只在于,我们准备好了没有。


参考来源