支付宝将引入AI智能体"阿宝"：点外卖、买基金都能搞定

蚂蚁正在给支付宝做一次AI Agent化改造，新助手"阿宝"可用语音/文字直接下单网约车、外卖、咖啡，授权后还能买基金、管投资账户。这是一次从超级App向Agent入口的迁移尝试。

彭博社今天爆了个料：蚂蚁集团正在给支付宝做一次自2008年以来罕见的大改版，核心动作是把整个App的交互层换成AI Agent。新助手有个挺接地气的中文名——"阿宝"（Ah Bao）。

根据彭博记者看到的内部演示视频，改版后的支付宝长这样：用户打开App，不再是一堆九宫格小程序入口，而是直接对着"阿宝"说话或者打字——"帮我叫辆车去虹桥"、"来杯瑞幸生椰拿铁送到公司"、"晚饭随便点个轻食"。在用户额外授权后，阿宝甚至可以直接执行金融指令：买某只基金、调整定投、管理投资账户里的持仓。

上线时间还没定，蚂蚁官方也没正式确认。但这事的信号意义比时间表更重要。

支付宝为什么非改不可

先说一个被忽略的背景：支付宝其实已经很久没动过筋骨了。

这个App从2013年开始走"超级App"路线，把所有能塞的东西都塞进首页——出行、外卖、医疗、政务、理财、保险、生活缴费。九宫格越加越多，二级页越藏越深。结果就是大多数用户除了扫码付款、打开健康码、偶尔还信用卡之外，剩下90%的功能都用不到，也找不到。

这是所有超级App共同的诅咒：功能堆叠到一定程度，发现入口本身就是用户体验的天花板。微信也好、美团也好、支付宝也好，都在这个临界点上。

AI Agent的出现，给了一个绕过"入口设计"的可能性——用户不用再去找按钮，按钮自己来找用户。这套逻辑下，App的形态可以从"功能货架"变成"一个会干活的人"。

蚂蚁这次显然是想抢在微信和美团之前，先把这一刀切下去。

支付宝改版示意图——首页从九宫格变为对话式Agent入口

"阿宝"到底是个什么形态

从演示视频透露的细节看，阿宝不是简单的Chatbot套壳，而是一个有执行权限的Agent。两个关键点值得注意：

第一，跨服务的任务编排能力。 用户说"叫车"，阿宝需要知道调用哪个网约车服务（高德？滴滴？还是支付宝自家的）、用户的常用地址、支付方式、是否拼车。说"点咖啡"，要解决品牌选择、门店定位、菜单匹配、配送地址、订单确认。这背后是支付宝沉淀了十几年的服务调用链路，第三方小程序、生活号、商家API都得对接到Agent的工具层里去。

这事的难度，不在于模型推理，而在于把一个堆了上千个小程序的生态，重新做一遍"Agent-ready"的接入规范。

第二，理财场景的Agent化。 这是真正大胆的一步。叫车点外卖出错最多丢几十块，但让Agent去买基金、管理账户，每一步都涉及合规和资金安全。蚂蚁的处理方式是"额外授权"——也就是分级权限设计，普通生活类指令默认放行，涉及钱的动作单独二次确认。

这个设计不算激进，但放在国内强监管的金融环境下，能做到"AI下单基金"已经算是踩着红线在走了。可以预见，初期阿宝在理财端的能力会比较克制，可能更多是"推荐+辅助确认"，而不是真正自主决策。

蚂蚁的底牌：百灵大模型和服务生态

阿宝背后跑的大概率是蚂蚁自研的百灵大模型（Bailing），而不是接外部API。这一点几乎没悬念——支付宝这种体量的应用，每天调用量随便就是百亿级别，没法依赖第三方推理。

但模型本身不是阿宝的护城河，真正的护城河是支付宝十几年攒下来的两个东西：

实名身份和支付能力：Agent要替你下单，最难的不是理解你说什么，而是合法合规地代你掏钱。这一步支付宝已经过了。
服务调用网络：从外卖到政务，支付宝里跑着的是一张已经Plug-and-Play的服务图谱。新接一个咖啡品牌，可能比让一个新Agent平台从零谈合作要快10倍。

这两点决定了阿宝在国内是有独特优势的，比通用Agent（比如某些创业公司做的所谓"超级智能助手"）更接近能干活的样子。

几个值得追问的问题

但别急着叫好。这事的执行难度其实非常高，几个问题现在还没答案：

Agent经济学怎么算？ 支付宝里的小程序生态，长期靠的是流量分发——商家在首页买位置、买推荐位、买广告。当用户不再去首页"逛"，而是让Agent直接执行，流量分发模型就崩了。商家凭什么排到阿宝推荐的第一个？Ranking算法怎么定？这背后是一整套商业模式的重写。

多Agent竞争怎么办？ 用户今天可能在支付宝里用阿宝点外卖，明天打开美团又用美团自己的Agent，后天微信也搞个出来。Agent会不会变成新一轮"超级App入口战争"？很可能。蚂蚁要做的不只是上线一个Agent，而是让用户养成"找阿宝办事"的习惯——这比当年培养扫码支付习惯难得多。

幻觉和误操作怎么兜底？ Agent最大的风险是"听错指令"。说"买1000块基金"听成"买10000块"，说"取消订单"听成"再下一单"。在金融和支付场景下，这种错误是要付出代价的。蚂蚁需要在交互上做大量"二次确认"+"撤销窗口"的设计，这又会反过来损耗Agent"丝滑"的体验。

这是Agent落地的国内样本

把视角拉远一点。过去一年，AI Agent是被讲烂了的词，但真正能跑通商业闭环的产品极少。海外OpenAI的Operator、Anthropic的Computer Use都还在Beta阶段，国内字节的扣子、智谱的AutoGLM也都在小步迭代。

蚂蚁这一刀，是少数把Agent直接放进"日活几亿的国民应用"里的尝试。这意味着：

场景密度足够大：一个App里同时跑着出行、餐饮、金融、政务，这是验证Agent通用性最好的实验场。
数据反馈足够快：用户怎么用、哪些指令成功率高、哪些场景容易失败，反馈循环以小时计。
风险也足够大：一旦出问题，影响的是亿级用户的钱包和体验。

如果阿宝跑得通，那国内移动互联网可能真的会进入一个新形态——App不再以页面为单位组织，而以"意图-执行"为单位组织。这不是渐进式升级，是范式切换。

如果跑不通，那大概率说明：Agent这套东西，在C端的成熟度还不够，至少不够替代传统的图形界面。这也会是一个标志性的判断。

阿宝执行多任务的流程示意——语音输入到服务调用的链路图

写在最后

顺便提一句——对开发者来说，国内做Agent类应用最大的痛点是模型调用。OpenAI、Anthropic、Google等海外模型直连不便，国内模型API风格又各不相同。OpenAI Hub（openai-hub.com）的思路是用一个Key打通GPT、Claude、Gemini、DeepSeek等主流模型，全部兼容OpenAI格式，国内直连。在做Agent这类需要跨模型对比、A/B测试不同推理引擎的场景里，能省下不少接入成本。

回到阿宝本身。蚂蚁这次的动作，胆子比技术更值得注意。把一个14亿用户的支付应用直接Agent化，没有半点保留的余地——一旦推送给用户，要么用、要么删，没有中间态。

现在唯一确定的是：支付宝团队已经把演示视频做出来了。剩下的就看，正式上线那天，阿宝是真能干活，还是一个戴着AI皮套的智能客服。

答案，应该不会让我们等太久。