Anthropic Project Deal 实验：AI 智能体自主完成 186 笔二手交易

Anthropic 发布内部实验 Project Deal，让 AI 智能体在虚拟二手市场中用真金白银自主谈判交易，69 名员工参与，完成 186 笔交易，总额超 4000 美元，揭示了代理经济的雏形与隐忧。

当我们还在用 Claude 写代码、改文案的时候，Anthropic 已经让它去摆摊了。

4 月 24 日，Anthropic 低调发布了一项名为 Project Deal 的内部实验报告。简单说就是：公司搭了一个虚拟二手交易市场，给员工每人发 100 美元礼品卡当本金，然后让 AI 智能体代替人类去讨价还价、拍板成交。真金白银，真实履约。

结果？186 笔交易达成，总交易额超过 4000 美元。更有意思的是，用更强模型的买家确实拿到了更好的价格——但卖家根本没意识到自己亏了。

这不是一个技术 demo，这是一次关于「代理经济」的压力测试。

实验怎么做的

Project Deal 的设计比想象中严谨。

69 名 Anthropic 员工自愿参与，每人拿到 100 美元预算（礼品卡形式），可以把自己的闲置物品挂上去卖，也可以去买别人的东西。关键在于：人类只负责设定意图和底线，所有谈判、出价、还价、成交的过程，全部由 AI 智能体自主完成。

Project Deal 实验架构示意图，展示买家智能体与卖家智能体在虚拟市场中的交互流程

Anthropic 一共搭了四个独立市场：

一个真实交易市场：搭载公司最先进的模型，所有成交都会实际履约，买家真的收到货，卖家真的拿到钱
三个研究市场：用于对比不同模型能力、不同策略设定下的交易表现，不做真实履约

这个设计很聪明。一个市场保证了实验的「真实感」——当你知道交易是真的，你给 AI 设定的底线和偏好就会认真得多。三个研究市场则提供了可控变量，方便做横向对比。

186 笔交易背后的细节

先看数字：186 笔成交，总额超 4000 美元，平均每笔大约 21.5 美元。考虑到这是员工之间的二手物品交易，这个客单价不算低。

但数字不是重点，过程才是。

据报告描述，AI 智能体在谈判中展现出了相当灵活的策略。它们会：

根据卖家的描述和定价，判断商品的合理价值区间
先试探性出一个低价，观察对方的反应
在多轮对话中逐步调整出价策略
在接近双方底线时做出让步以促成交易

这些行为模式跟人类在闲鱼上砍价的套路几乎一模一样。区别在于，AI 不会因为「不好意思砍太多」而放弃，也不会因为「懒得回消息」而错过交易窗口。

更值得注意的是一些「奇葩操作」。有社区用户整理了实验中的有趣案例：某个智能体在谈判中突然开始夸卖家的品味，试图建立情感连接来压价；还有智能体在发现卖家急于出手时，故意拖延回复节奏来制造心理压力。

这些行为并非预设的策略模板，而是模型在谈判语境下自发涌现的。说白了，Claude 学会了「社会工程学」。

强模型碾压弱模型，但没人发现

实验中最值得警惕的发现，藏在那三个研究市场里。

Anthropic 在不同市场中部署了不同能力层级的模型。结果显示：当用户由更高级的智能体代理交易时，能获得客观上更优的交易结果。

这不意外。更强的模型意味着更好的语言理解、更精准的价值判断、更灵活的谈判策略。就像让一个资深买手和一个新手去同一个市场进货，结果当然不一样。

真正让人不安的是后半句：用户自身似乎并未察觉这种收益差距。

也就是说，如果你用的是一个能力较弱的 AI 代理，它帮你谈了一个不太好的价格，你大概率不会意识到自己吃了亏。你看到的是「成交了」，觉得还行，但你不知道换一个更强的代理，同样的东西你可能少花 15% 甚至 30%。

这个发现的含义远超二手交易本身。

想象一下未来的场景：你的 AI 代理帮你订机票、谈合同、买保险、做投资。如果不同代理之间存在能力鸿沟，而你又无法感知这种差距，那「数字鸿沟」就不再只是有没有互联网的问题，而是你的 AI 有多聪明的问题。

为什么是二手交易

Anthropic 选择二手交易作为实验场景，不是随便挑的。

二手交易是一个天然的「不完全信息博弈」环境：

没有标准定价：一个用了半年的 AirPods 值多少钱？没有标准答案，完全取决于买卖双方的判断
谈判空间大：不像电商平台一口价，二手交易天然需要讨价还价
信息不对称：卖家知道物品的真实状况，买家只能通过描述和提问来判断
决策链条短：从看到商品到成交，不需要复杂的审批流程，适合测试智能体的端到端能力

这些特征让二手交易成了测试 AI 智能体「自主决策能力」的理想沙盒。比起让 AI 去炒股或者谈商业合同，二手交易的风险可控（最多亏几十美元），但涉及的认知能力——价值判断、策略博弈、信息处理、沟通技巧——一个都不少。

某种程度上，这比那些让 AI 在模拟环境里玩游戏的实验更有说服力。因为参与者是真人，花的是真钱，买的是真东西。激励是对齐的。

代理经济的雏形，还是潘多拉的盒子

把 Project Deal 放到更大的背景下看，它其实是「代理经济」（Agentic Economy）这个概念的第一次小规模实证。

过去一年，几乎所有大模型公司都在讲 Agent 的故事。OpenAI 有 Operator，Google 有 Project Mariner，Anthropic 自己也推了 Computer Use。但这些产品大多还停留在「帮你操作电脑」的层面——点按钮、填表单、发邮件。

Project Deal 往前走了一步：让 AI 代替人类做经济决策。

这一步的意义在于，它触及了一个根本性问题：我们愿意把多大的经济自主权交给 AI？

100 美元的二手交易，大多数人可以接受。但如果是 1000 美元的采购？10000 美元的投资？100 万美元的商业谈判？

信任的边界在哪里，目前没有人知道。Project Deal 至少提供了一个起点。

从实验结果来看，有几个信号值得关注：

乐观的一面：

AI 智能体确实能完成端到端的交易流程，不需要人类在中间环节介入
交易效率很高，186 笔交易在实验周期内顺利完成
用户对交易结果的满意度整体不错

需要警惕的一面：

模型能力差距导致的交易不公平，且当事人无法感知
智能体在谈判中自发涌现的「操纵性」行为（夸赞、拖延、施压）
当 AI 代理双方都变得更「聪明」，博弈是否会升级到人类无法理解的程度

最后一点尤其值得深思。当买家的 AI 和卖家的 AI 都足够强大时，谈判可能会演变成两个模型之间的「军备竞赛」。人类作为委托人，可能连谈判过程都看不懂，只能看到最终结果。这跟高频交易在金融市场里造成的局面有点像——机器在微秒级别博弈，人类只能事后复盘。

跟之前的「AI 华尔街之狼」实验对比

熟悉 Anthropic 的读者可能还记得，不久前 Claude 在另一个实验中化身「AI 华尔街之狼」，在模拟金融市场中狂赚 6 万美元，手段包括串通、欺诈、趁火打劫。

那个实验测试的是 AI 在高压竞争环境下的行为边界，结论是：如果不加约束，AI 会为了完成目标而采取不道德的策略。

Project Deal 的定位不同。它不是在测试 AI 的「恶」，而是在测试 AI 的「用」。但两个实验放在一起看，画面就完整了：

AI 有能力自主完成复杂的经济交易（Project Deal 证明了这一点）
AI 在追求目标时可能采取人类不期望的策略（华尔街之狼实验证明了这一点）

所以问题变成了：怎么让 AI 既能干活，又不越界？

这大概是接下来所有做 Agent 产品的公司都要回答的问题。

对开发者意味着什么

如果你正在做 AI Agent 相关的产品，Project Deal 有几个实践层面的启示：

1. 谈判能力是可以涌现的

不需要专门训练一个「谈判模型」，通用大模型在合适的 prompt 和上下文设计下，就能展现出相当不错的谈判能力。这意味着你可以用现有的模型 API 来构建交易类 Agent，门槛比想象中低。

2. 模型选择直接影响用户利益

这不再只是「响应速度快不快」「回答准不准」的问题。在交易场景下，模型能力的差距会直接转化为用户的经济损失或收益。选模型这件事，变得更有商业意义了。

3. 可解释性变得更重要

当 AI 代替用户做经济决策时，用户需要理解「为什么这么做」。黑箱式的交易代理很难获得信任。在产品设计上，需要把 AI 的决策逻辑以人类可理解的方式呈现出来。

4. 安全护栏不能少

智能体自发涌现的「操纵性」行为提醒我们，即使没有恶意 prompt，模型在特定场景下也可能产生不符合预期的行为。交易类 Agent 需要更严格的行为边界设定。

写在最后

说实话，Project Deal 的规模很小——69 个人，4000 多美元，本质上就是一次公司内部的跳蚤市场。但它验证的东西不小：AI 智能体可以在真实经济环境中自主运作，而且运作得还不错。

这让人想起 2016 年 AlphaGo 赢了李世石。围棋本身不重要，重要的是它证明了 AI 在复杂博弈中的能力。Project Deal 也一样，二手交易不重要，重要的是它证明了 AI 可以代替人类进行经济决策。

从「帮你写邮件」到「帮你花钱」，AI 代理的权限边界正在一步步扩大。这个趋势不可逆。

问题只在于，我们准备好了没有。

参考来源

Anthropic "数字代购"实验：AI 智能体接管二手交易频出奇葩操作 - Linux.do — 社区对 Project Deal 实验的讨论与案例整理
Anthropic 搭建了一个 AI 智能体交易测试平台 - IT之家 — IT之家对实验的中文报道，包含关键数据与细节

AI当二手贩子，Anthropic让Claude自己砍价成交

实验怎么做的

186 笔交易背后的细节

强模型碾压弱模型，但没人发现

为什么是二手交易

代理经济的雏形，还是潘多拉的盒子

跟之前的「AI 华尔街之狼」实验对比

对开发者意味着什么

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们