AI账单失控：硅谷巨头从Tokenmaxxing转向Tokenminimizing

AT&T、Meta、Uber、微软等公司纷纷叫停内部AI"无限畅饮"，从tokenmaxxing转向tokenminimizing。Uber四个月烧光全年34亿预算，微软单个工程师月耗2000美元，AI编码工具的蜜月期正式结束。

昨天 The Information 那篇报道一出，硅谷的 HR 群和 FinOps 群基本都炸了。AT&T、Meta、Uber、微软、沃尔玛、亚马逊——能数得上名字的大厂，过去一个季度几乎都在做同一件事：给员工的 AI 工具套上紧箍咒。

这事的拐点其实在 4 月就显现了。Uber CTO Praveen Neppalli Naga 当时在内部通气会上承认，公司 2026 年给 AI 编码工具拨了 34 亿美元年度预算，结果到 4 月就花光了。给 5000 名工程师铺开 Claude Code 之后，月活直接干到 85%-95%，人均 API 调用账单 500 到 2000 美元一个月，账单像雪崩一样滚下来。Uber 现在的硬性规定是：每人每个工具月度上限 1500 美元，超了就停。

硅谷科技公司AI支出账单飙升示意图

一年前还不是这个画风。2025 年所有人都在喊 tokenmaxxing——亚马逊、迪士尼、摩根大通、毕马威都搞了内部排行榜，谁烧的 token 多谁就是创新先锋。Visa 还搞了积分制，token 烧得猛能换咖啡机。那时候的逻辑很简单：AI 是新质生产力，员工敢用就是好事，不用才该批评。

现在反过来了。

从"排行榜激励"到"配额制管控"

Meta 这边的剧情最戏剧化。4 月份一个员工自发搭了个叫 Claudeonomics 的非官方排行榜，结果排第一的那位老兄 30 天烧了 2810 亿到 3285 亿 token，按 Anthropic 公开定价折算接近 200 万美元——一个人一个月。报道出来当天榜就被撤了，扎克伯格据说在内部承认"激励机制设错了"，然后开始悄悄削减在 Anthropic 平台上的支出。

亚马逊的剧情更典型。他们之前有个叫 Kirorank 的排行榜，基于内部 Kiro 平台给员工 AI 使用行为打分。结果大家发现了一个简单的套利方式：用 Agent 跑一堆没必要的任务来刷分。亚马逊高级副总裁 Dave Treadwell 上个月在内部信里写得直白："请不要为了使用 AI 而使用 AI。" 5 月直接把榜单下线了。

几家公司的具体动作可以列一下：

Uber：每工具人均月度上限 1500 美元
沃尔玛：内部 AI 助手设置使用上限
亚马逊：取消 Kirorank 排行榜
Meta：削减 Anthropic 平台支出，叫停 Claudeonomics
AT&T：限制员工 GitHub Copilot 权限
Coinbase：按职级设周度预算，500 到 5000 美元不等
微软：6 月 30 日终止"体验与设备"部门的 Claude Code 集体许可

微软那个例子尤其离谱——内部审计发现部分工程师个人月度编码 token 消耗高达 2000 美元，2025 年 12 月高调铺开的 Claude Code 试点，半年不到就被强令撤回 GitHub Copilot CLI。自家有便宜的工具不用，跑去烧 Anthropic 的 token，财务那边肯定坐不住。

涨价才是真正的导火索

这波"急刹车"表面上看是企业内控觉醒，但底层的触发因素其实很简单：模型厂商集体涨价了。

今年 2 月到 6 月，OpenAI、Anthropic 和 GitHub 几乎同步把定价模式从固定费率切到按 token 计费。GPT-5.5 直接把价格翻倍，每百万输入 5 美元、输出 30 美元；Gemini Flash 3.5 是前代的 3 到 6 倍。过去半年前沿模型的高质量推理 token 累计涨了大约 40%。

这背后是几股力量挤在一起：高性能 GPU 持续紧缺、数据中心能耗成本上涨 15%-20%、Agent 化场景带来的需求爆炸。即便模型效率一年提升了大约 2 倍，token 溢价 40%-50%的涨幅依然让 API 依赖型企业的净成本暴增 20%-30%。

GitHub 首席产品官 Mario Rodriguez 的解释很有意思："在旧模式下，一个闲聊问题和一个跑数小时的自主编码任务收费一样，这种补贴已经不可持续。" 翻译成人话就是：之前是模型厂商在补贴重度用户，现在不补了。德勤一位资深工程师估算，按量计费下一个详细 prompt 让模型工作几小时，单次费用就能超过 100 美元。

Priceline IT 财务高级总监 Chris Reed 用了一个更狠的比喻，说这是一场"快克可卡因式的成瘾疫情"——"他们让你先试，让你上瘾，然后你就被绑住了。"

ROI 这道题，谁也没算明白

如果烧钱真能换来对应的生产力提升，账还能算。问题恰恰在这里——钱烧了，产出没看到。

几个数据可以摆出来比较：

工程管理平台 Jellyfish 的研究显示，受 Agent 驱动，开发者人均 token 消耗 9 个月内上升了 18.6 倍。但烧 token 最多的工程师生产力大约只是低用量者的 2 倍，token 消耗却是 10 倍。
创业公司 EntelligenceAI 汇总了 2000 多家用高级 AI 编码工具的公司数据，结论是只有 18% 的 token 支出最终转化成能触达真实用户的已交付代码。
贝恩 6 月份的报告：能量化 AI 降本效果的企业里，40% 的实际成本降幅在 10% 及以下，原本设定 11%-20% 降本目标的 37% 企业，最终达标的只有 31%。

AI 初创公司 Modal 联合创始人 Akshat Bubna 说得最直接："我非常确定 50% 的内部 token 支出是完全没用的，但现在很难知道是哪 50%。"

Uber COO Andrew Macdonald 上周的表态也很有代表性——"我没观察到 token 消耗量的增加直接提高了生产力。"

Faros AI CEO Vitaly Gordon 分享过一个真实案例：某 CTO 发现手下一名工程师一个月烧了 4 万美元 token，纠结到底该制止还是该鼓励。这种"既怕浪费又怕错过"的拧巴状态，基本就是 2026 年上半年所有 CIO 的心态。

"AI 网关"和"平替模型"成了新关键词

企业当然不会全面回退。两个新趋势正在快速形成共识。

第一是 AI 网关层。 微软、Databricks、Factory 都在推这个东西——本质上是个智能路由器，根据任务复杂度自动派单：写邮件、改格式、查文档这种行政类任务直接走开源便宜模型，复杂推理才放行到 Claude Opus、GPT-5.5 这种顶配。Salesforce CTO Parker Harris 上周公开承认 2026 财年 token 支出"远超"计划，公司正在推一个叫"Effective Output Score"的内部指标，预测回报来反向约束支出。

第二是中国轻量级模型成了平替首选。 Coinbase 已经把基础工作转给国内的轻量模型跑，编码 Agent 创业公司 Command Code 因为廉价模型需求暴增，30 天新增 1 万客户。Harness 高级副总裁 Trevor Stuart 的比喻很到位："用顶尖 AI 模型做基本文本摘要，就像开法拉利去买菜。"

这其实是 OpenAI Hub 这类聚合平台被推到前台的真实背景——一个 Key 调所有主流模型（GPT、Claude、Gemini、DeepSeek 等），意味着企业可以在网关层做模型路由和成本控制，简单任务走 DeepSeek 或 Qwen，复杂推理才上 Claude Opus 或 GPT-5.5，账单立刻就能压下来一大截。国内直连和 OpenAI 兼容格式则省掉了多套 SDK 维护的工程成本。这不是广告，这就是现在企业 FinOps 团队真在做的事。

微软 CEO 萨提亚·纳德拉最近那篇行业文章主张建立"可互换的 AI 架构"，说白了是不想让少数几个大模型吸走全部企业经济价值——这话从微软嘴里说出来当然有自己的算盘（毕竟 OpenAI 是它最大的对手兼盟友），但方向本身没错。

不是泡沫破了，是补贴结束了

要不要把这事解读成"AI 泡沫破裂"？我觉得言重了。

富国银行首席股票策略师 Ohsung Kwon 把整体立场从 4 月的"看多"调到"坚定中性"，但他强调的是 token 需求增速可能见顶，而不是需求本身见顶。英伟达应用深度学习副总裁 Bryan Catanzaro 承认"我带的团队里算力成本已经远超人员成本"，但同一句话反过来读——算力已经能替代人力了，这本身就是商业化最强的证据。

更合理的描述是：廉价"AI 吃到饱"时代结束了，精细化运营时代开始了。

Linux 基金会 7 月要正式成立的"Tokenomics"基金会，IBM、甲骨文、摩根大通都签了字。FinOps 基金会执行董事 J.R. Storment 那个对比挺形象——追踪云成本是每月数亿行数据，追踪 token 成本是每月数兆行数据的问题。新基金会要建的两个核心指标是"每单位智能成本"和"每瓦 token 数"，AI 支出正在被纳入和云计算一样的财务纪律框架。

硬件这块短期指望不上。英伟达收 Groq、AMD 和 Intel 重新设计 AI 加速器，但 Gartner 分析师 Will Sommer 提醒得很到位："首席产品官们不应该把商品 token 的通缩，跟前沿推理的普及化混为一谈。"——基础模型会越来越便宜，但前沿推理和 Agent 任务消耗的 token 量增速大概率会超过单位成本下降速度。

高盛预测到 2030 年全球 token 月使用量会暴增 24 倍到 120 千兆个。这意味着今天大家在 AI 网关、配额制、Token 路由上踩过的坑，未来五年还会再踩好几遍。 唯一的区别是：踩得起的公司活下来，踩不起的公司被账单埋掉。

tokenmaxxing 这个词大概率会成为 2025 年的年度热词遗产。而 2026 年的关键词，已经换成了 tokenminimizing。