AI 快讯Token账单杀疯了:硅谷巨头集体踩刹车
行业快讯

Token账单杀疯了:硅谷巨头集体踩刹车

2026-06-19T03:04:41.604Z
Token账单杀疯了:硅谷巨头集体踩刹车

AT&T、Meta、Uber、微软等公司纷纷叫停内部AI"无限畅饮",从tokenmaxxing转向tokenminimizing。Uber四个月烧光全年34亿预算,微软单个工程师月耗2000美元,AI编码工具的蜜月期正式结束。

昨天 The Information 那篇报道一出,硅谷的 HR 群和 FinOps 群基本都炸了。AT&T、Meta、Uber、微软、沃尔玛、亚马逊——能数得上名字的大厂,过去一个季度几乎都在做同一件事:给员工的 AI 工具套上紧箍咒

这事的拐点其实在 4 月就显现了。Uber CTO Praveen Neppalli Naga 当时在内部通气会上承认,公司 2026 年给 AI 编码工具拨了 34 亿美元年度预算,结果到 4 月就花光了。给 5000 名工程师铺开 Claude Code 之后,月活直接干到 85%-95%,人均 API 调用账单 500 到 2000 美元一个月,账单像雪崩一样滚下来。Uber 现在的硬性规定是:每人每个工具月度上限 1500 美元,超了就停。

硅谷科技公司AI支出账单飙升示意图

一年前还不是这个画风。2025 年所有人都在喊 tokenmaxxing——亚马逊、迪士尼、摩根大通、毕马威都搞了内部排行榜,谁烧的 token 多谁就是创新先锋。Visa 还搞了积分制,token 烧得猛能换咖啡机。那时候的逻辑很简单:AI 是新质生产力,员工敢用就是好事,不用才该批评。

现在反过来了。

从"排行榜激励"到"配额制管控"

Meta 这边的剧情最戏剧化。4 月份一个员工自发搭了个叫 Claudeonomics 的非官方排行榜,结果排第一的那位老兄 30 天烧了 2810 亿到 3285 亿 token,按 Anthropic 公开定价折算接近 200 万美元——一个人一个月。报道出来当天榜就被撤了,扎克伯格据说在内部承认"激励机制设错了",然后开始悄悄削减在 Anthropic 平台上的支出。

亚马逊的剧情更典型。他们之前有个叫 Kirorank 的排行榜,基于内部 Kiro 平台给员工 AI 使用行为打分。结果大家发现了一个简单的套利方式:用 Agent 跑一堆没必要的任务来刷分。亚马逊高级副总裁 Dave Treadwell 上个月在内部信里写得直白:"请不要为了使用 AI 而使用 AI。" 5 月直接把榜单下线了。

几家公司的具体动作可以列一下:

  • Uber:每工具人均月度上限 1500 美元
  • 沃尔玛:内部 AI 助手设置使用上限
  • 亚马逊:取消 Kirorank 排行榜
  • Meta:削减 Anthropic 平台支出,叫停 Claudeonomics
  • AT&T:限制员工 GitHub Copilot 权限
  • Coinbase:按职级设周度预算,500 到 5000 美元不等
  • 微软:6 月 30 日终止"体验与设备"部门的 Claude Code 集体许可

微软那个例子尤其离谱——内部审计发现部分工程师个人月度编码 token 消耗高达 2000 美元,2025 年 12 月高调铺开的 Claude Code 试点,半年不到就被强令撤回 GitHub Copilot CLI。自家有便宜的工具不用,跑去烧 Anthropic 的 token,财务那边肯定坐不住。

涨价才是真正的导火索

这波"急刹车"表面上看是企业内控觉醒,但底层的触发因素其实很简单:模型厂商集体涨价了

今年 2 月到 6 月,OpenAI、Anthropic 和 GitHub 几乎同步把定价模式从固定费率切到按 token 计费。GPT-5.5 直接把价格翻倍,每百万输入 5 美元、输出 30 美元;Gemini Flash 3.5 是前代的 3 到 6 倍。过去半年前沿模型的高质量推理 token 累计涨了大约 40%。

这背后是几股力量挤在一起:高性能 GPU 持续紧缺、数据中心能耗成本上涨 15%-20%、Agent 化场景带来的需求爆炸。即便模型效率一年提升了大约 2 倍,token 溢价 40%-50%的涨幅依然让 API 依赖型企业的净成本暴增 20%-30%。

GitHub 首席产品官 Mario Rodriguez 的解释很有意思:"在旧模式下,一个闲聊问题和一个跑数小时的自主编码任务收费一样,这种补贴已经不可持续。" 翻译成人话就是:之前是模型厂商在补贴重度用户,现在不补了。德勤一位资深工程师估算,按量计费下一个详细 prompt 让模型工作几小时,单次费用就能超过 100 美元。

Priceline IT 财务高级总监 Chris Reed 用了一个更狠的比喻,说这是一场"快克可卡因式的成瘾疫情"——"他们让你先试,让你上瘾,然后你就被绑住了。"

ROI 这道题,谁也没算明白

如果烧钱真能换来对应的生产力提升,账还能算。问题恰恰在这里——钱烧了,产出没看到

几个数据可以摆出来比较:

  • 工程管理平台 Jellyfish 的研究显示,受 Agent 驱动,开发者人均 token 消耗 9 个月内上升了 18.6 倍。但烧 token 最多的工程师生产力大约只是低用量者的 2 倍,token 消耗却是 10 倍。
  • 创业公司 EntelligenceAI 汇总了 2000 多家用高级 AI 编码工具的公司数据,结论是只有 18% 的 token 支出最终转化成能触达真实用户的已交付代码
  • 贝恩 6 月份的报告:能量化 AI 降本效果的企业里,40% 的实际成本降幅在 10% 及以下,原本设定 11%-20% 降本目标的 37% 企业,最终达标的只有 31%。

AI 初创公司 Modal 联合创始人 Akshat Bubna 说得最直接:"我非常确定 50% 的内部 token 支出是完全没用的,但现在很难知道是哪 50%。"

Uber COO Andrew Macdonald 上周的表态也很有代表性——"我没观察到 token 消耗量的增加直接提高了生产力。"

Faros AI CEO Vitaly Gordon 分享过一个真实案例:某 CTO 发现手下一名工程师一个月烧了 4 万美元 token,纠结到底该制止还是该鼓励。这种"既怕浪费又怕错过"的拧巴状态,基本就是 2026 年上半年所有 CIO 的心态。

"AI 网关"和"平替模型"成了新关键词

企业当然不会全面回退。两个新趋势正在快速形成共识。

第一是 AI 网关层。 微软、Databricks、Factory 都在推这个东西——本质上是个智能路由器,根据任务复杂度自动派单:写邮件、改格式、查文档这种行政类任务直接走开源便宜模型,复杂推理才放行到 Claude Opus、GPT-5.5 这种顶配。Salesforce CTO Parker Harris 上周公开承认 2026 财年 token 支出"远超"计划,公司正在推一个叫"Effective Output Score"的内部指标,预测回报来反向约束支出。

第二是中国轻量级模型成了平替首选。 Coinbase 已经把基础工作转给国内的轻量模型跑,编码 Agent 创业公司 Command Code 因为廉价模型需求暴增,30 天新增 1 万客户。Harness 高级副总裁 Trevor Stuart 的比喻很到位:"用顶尖 AI 模型做基本文本摘要,就像开法拉利去买菜。"

这其实是 OpenAI Hub 这类聚合平台被推到前台的真实背景——一个 Key 调所有主流模型(GPT、Claude、Gemini、DeepSeek 等),意味着企业可以在网关层做模型路由和成本控制,简单任务走 DeepSeek 或 Qwen,复杂推理才上 Claude Opus 或 GPT-5.5,账单立刻就能压下来一大截。国内直连和 OpenAI 兼容格式则省掉了多套 SDK 维护的工程成本。这不是广告,这就是现在企业 FinOps 团队真在做的事。

微软 CEO 萨提亚·纳德拉最近那篇行业文章主张建立"可互换的 AI 架构",说白了是不想让少数几个大模型吸走全部企业经济价值——这话从微软嘴里说出来当然有自己的算盘(毕竟 OpenAI 是它最大的对手兼盟友),但方向本身没错。

不是泡沫破了,是补贴结束了

要不要把这事解读成"AI 泡沫破裂"?我觉得言重了。

富国银行首席股票策略师 Ohsung Kwon 把整体立场从 4 月的"看多"调到"坚定中性",但他强调的是 token 需求增速可能见顶,而不是需求本身见顶。英伟达应用深度学习副总裁 Bryan Catanzaro 承认"我带的团队里算力成本已经远超人员成本",但同一句话反过来读——算力已经能替代人力了,这本身就是商业化最强的证据。

更合理的描述是:廉价"AI 吃到饱"时代结束了,精细化运营时代开始了。

Linux 基金会 7 月要正式成立的"Tokenomics"基金会,IBM、甲骨文、摩根大通都签了字。FinOps 基金会执行董事 J.R. Storment 那个对比挺形象——追踪云成本是每月数亿行数据,追踪 token 成本是每月数兆行数据的问题。新基金会要建的两个核心指标是"每单位智能成本"和"每瓦 token 数",AI 支出正在被纳入和云计算一样的财务纪律框架。

硬件这块短期指望不上。英伟达收 Groq、AMD 和 Intel 重新设计 AI 加速器,但 Gartner 分析师 Will Sommer 提醒得很到位:"首席产品官们不应该把商品 token 的通缩,跟前沿推理的普及化混为一谈。"——基础模型会越来越便宜,但前沿推理和 Agent 任务消耗的 token 量增速大概率会超过单位成本下降速度。

高盛预测到 2030 年全球 token 月使用量会暴增 24 倍到 120 千兆个。这意味着今天大家在 AI 网关、配额制、Token 路由上踩过的坑,未来五年还会再踩好几遍。 唯一的区别是:踩得起的公司活下来,踩不起的公司被账单埋掉。

tokenmaxxing 这个词大概率会成为 2025 年的年度热词遗产。而 2026 年的关键词,已经换成了 tokenminimizing。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: