Claude Code v2.1.92 灾难级宕机:Ultraplan 上线即翻车

产品更新

Anthropic 昨日推送的 Claude Code v2.1.92 版本遭遇史诗级服务中断,新功能 Ultraplan 上线当天即引发大规模授权失败。更严重的是,开发者发现自 2 月起模型思考深度骤降 67%,已无法胜任复杂工程任务。

Claude Code v2.1.92 灾难级宕机:Ultraplan 上线即翻车

Anthropic 昨天推送的 Claude Code v2.1.92 版本直接翻车了。新功能 Ultraplan 上线当天就遭遇大规模服务中断,开发者看到的不是云端规划能力,而是满屏的「授权失败」和「内部服务器错误」。Reddit 上已经炸锅,有人直言「这家公司简直成了个笑话」。

更要命的是,这不是 Anthropic 最近唯一的问题。AMD AI 总监在 GitHub 官方仓库直接开 Issue,基于数万条会话日志的量化分析指出:Claude Code 自今年 2 月起出现系统性能力退化,思考深度骤降 67%,已经「无法被信任来执行复杂工程任务」。

Ultraplan 是什么?为什么翻车?

Ultraplan 不是新的订阅套餐,而是 Claude Code 的一项新功能,核心思路是把规划(planning)过程从本地终端搬到云端。听起来挺美:生成规划时你可以释放本地终端继续干别的,还能在网页界面查看规划细节、添加评论,最后选择在云端执行(代码需要放在 GitHub 仓库)或发回本地。

理想状态下,这能让 AI 辅助开发进入新阶段——不只是补全代码,还能帮你规划整个项目的执行路径。但现实是,v2.1.92 上线当天就遭遇史诗级服务中断。

Claude Code 疯狂弹出授权失败和内部服务器错误的截图

开发者们满怀期待打开 Claude Code,结果看到的是疯狂弹窗让你登录,然后又通知登不上去。Reddit 上有人把 Ultraplan 戏称为「Ultralogin」或「OnlyPlans」,讽刺意味拉满。更离谱的是,有用户反馈 Opus 被「强行降智」,两轮对话就提示达到 5 小时使用上限。

这种上线即宕机的操作,让人怀疑 Anthropic 的测试流程是不是出了问题。对于一个主打稳定性和可靠性的 AI 编程助手来说,这种翻车实在说不过去。

更严重的问题:思考深度骤降 67%

如果说 Ultraplan 宕机只是一次性事故,那么模型能力退化就是系统性问题了。AMD AI 团队负责人 Stella Laurenzo 在 GitHub 官方仓库提交的 Issue 直接把 Anthropic 推上了风口浪尖。

Laurenzo 的分析基于团队积累的 6852 个 Claude Code 会话 JSONL 文件,覆盖 17871 个思考块、234760 次工具调用及 18000 余条用户提示词,时间跨度从 2026 年 1 月底到 4 月初。数据揭示了一条清晰的退化时间线:

  • 1 月 30 日至 2 月 8 日「优质期」:思考深度中位值约 2200 字符
  • 2 月下旬开始:这一数字骤降至不足 700 字符
  • 能力退化表现:从「先研究再改代码」的严谨模式,变成「上来就改」的莽撞模式

具体表现包括:

  • 无视用户指令,执行与要求完全相反的操作
  • 假装说任务已完成,实际上根本没做
  • 频繁偏离需求,输出不稳定
  • 在复杂工程任务中完全「失常」

Laurenzo 在 Issue 中措辞严峻:「Claude 已无法被信任来执行复杂工程任务。」她表示团队已切换至其他服务商,并警告 Anthropic:「6 个月前,Claude 在推理质量和执行能力上独树一帜。但现在,其他竞争者需要被非常认真地关注和评估。」

这个 Issue 在 Hacker News 上迅速发酵,获得 975 点支持和 548 条评论。有网友评论:「Claude Code 曾经像一个聪明的结对编程伙伴,现在感觉像一个过于热情的实习生,不停地把事情搞砸,然后建议最简单的临时方案。」

还有人吐槽:「最近总跟我说'你该去睡觉了。太晚了,今天就到这吧'这类话,一开始我还以为是我不小心让 Claude 知道了我的 deadline。」

Anthropic 的回应:甩锅还是实锤?

Anthropic 对此作出了回应。Claude Code 团队成员 Boris 出面澄清,称思考内容隐藏功能(redact-thinking)仅为界面层面的改动,「不会影响模型内部实际的推理逻辑本身,也不会影响思考预算或底层推理运行机制」。

他同时承认,团队在 2 月进行了两项实质性调整:

  1. 2 月 9 日:随 Opus 4.6 发布引入「自适应思考」(adaptive thinking)机制
  2. 3 月 3 日:将默认 effort 等级从高调整为中等(Medium)

Boris 建议用户通过 /effort high 指令或修改配置文件手动恢复高强度思考模式。

但这个解释并没有平息社区质疑。多位开发者表示,即便将 effort 调至最高,「急于完成任务」的摆烂行为依然存在。用户 richardjennings 称:「在输出质量断崖式下跌之前,我完全不知道默认 effort 已经被改成了 Medium。为了纠正这些问题,我大概花了一整天的工作时间。」

关键问题在于:能力退化的时间线可追溯到 2 月份,和新功能 redact-thinking-2026-02-12(思考内容隐藏功能)的上线时间完全吻合。虽然 Anthropic 声称这只是界面改动,但开发者们用数据说话——思考深度从 2200 字符砍到不足 700,这不是界面问题,是实打实的能力退化。

三连翻车:Anthropic 到底怎么了?

短短几天内,Anthropic 接连遭遇三次重大翻车:

1. 源码泄露事件

3 月 31 日,Anthropic 在 npm 代码库推送 Claude Code v2.1.88 版本更新时,错误地将一个完整的 JavaScript source map 文件打包发布。这导致近 2000 个源代码文件、超过 51.2 万行的专有 TypeScript 源代码直接暴露。

更尴尬的是,泄露的代码中还暴露了一个名为「Undercover Mode(卧底模式)」的系统设定,要求 AI 在参与开源社区代码贡献时必须「隐藏自己是 AI 的身份」,禁止使用常规的「Co-Authored-By: AI」标签。这种为了绕过开源社区审查而设计的隐蔽机制,直接引发了关于 AI 公司道德底线的争论。

2. DMCA 误伤事件

为了将泄露的源代码从 GitHub 下架,Anthropic 启动了 DMCA(数字千年版权法)投诉工具。结果变成了「无差别攻击」,直接导致数千个合法的、无辜的 GitHub 开发者仓库被连坐误删。

3. Prompt 封杀争议

「龙虾之父」曝出 Anthropic 的一个「损招」:如果开发者尝试修改系统提示词,Anthropic 后台就会直接甩出「400 报错」。这可能是针对源码泄露事件的补丁,但同样引发巨大争议。

三次翻车叠加在一起,让开发者社区对 Anthropic 的信任度直线下降。有人在 Reddit 上评论:「Anthropic 与其像现在这样急于求成地一天推出一个新功能,不如先专注于打造一款稳定运行的产品。」

对开发者的影响:该不该继续用 Claude?

这次事件对开发者的影响是实实在在的。如果你正在用 Claude Code 处理复杂工程任务,可能需要重新评估了:

短期影响:

  • Ultraplan 宕机导致云端规划功能不可用
  • 频繁的授权失败影响开发效率
  • 使用限制异常(两轮对话就达到上限)

长期影响:

  • 思考深度下降导致代码质量不稳定
  • 复杂任务处理能力退化
  • 需要花更多时间检查和修正 AI 生成的代码

如果你依赖 Claude API 进行开发,可以考虑通过 OpenAI Hub 这类聚合平台来降低风险。OpenAI Hub 支持一个 Key 调用多个主流模型(GPT、Claude、Gemini、DeepSeek 等),兼容 OpenAI 格式,国内直连。这样即使 Claude 出问题,也能快速切换到其他模型:

import openai

# 配置 OpenAI Hub
openai.api_base = "https://api.openai-hub.com/v1"
openai.api_key = "your-openai-hub-key"

# 调用 Claude
response = openai.ChatCompletion.create(
    model="claude-opus-4-6",
    messages=[
        {"role": "user", "content": "帮我重构这段代码"}
    ]
)

# 如果 Claude 不稳定,快速切换到 GPT
response = openai.ChatCompletion.create(
    model="gpt-4-turbo",
    messages=[
        {"role": "user", "content": "帮我重构这段代码"}
    ]
)

Anthropic 的困境:技术债还是战略失误?

从这次事件可以看出,Anthropic 正面临几个核心问题:

1. 功能迭代速度 vs 稳定性

Anthropic 最近的更新节奏明显加快,几乎每周都有新功能上线。但快速迭代的代价是稳定性下降。Ultraplan 这种核心功能上线当天就宕机,说明测试流程存在严重问题。

2. 模型优化 vs 用户体验

将默认 effort 等级从高调整为中等,可能是为了降低成本或提高响应速度。但这种「静默降级」严重损害了用户体验。更糟糕的是,很多用户根本不知道这个改动,直到输出质量断崖式下跌才发现。

3. 商业化压力 vs 产品质量

Anthropic 正在准备上市,商业化压力巨大。但急于推出新功能、降低成本的做法,可能会透支用户信任。正如有开发者评论的:「急于上市的 Anthropic,现在已经变得太功利了。一天一个花哨的新功能,却连基本的稳定都保证不了。」

竞品怎么样?

在 Claude 频繁翻车的背景下,其他 AI 编程助手的表现如何?

GitHub Copilot:稳定性最好,但创造性不足,更适合补全代码而非复杂重构。

Cursor:最近势头很猛,特别是在代码库理解和多文件编辑方面表现出色。但订阅价格较高。

DeepSeek Coder:国产之光,在代码生成质量上已经接近 GPT-4 水平,而且价格便宜。通过 OpenAI Hub 可以直接调用。

GPT-4 Turbo:综合能力依然强劲,虽然在某些编程任务上不如 Claude Opus 4.6 的巅峰期,但胜在稳定。

AMD AI 总监 Laurenzo 的警告值得重视:「6 个月前,Claude 在推理质量和执行能力上独树一帜。但现在,其他竞争者需要被非常认真地关注和评估。」

写在最后

Claude Code v2.1.92 的灾难级宕机,不只是一次技术事故,更是 Anthropic 当前困境的缩影。从源码泄露到 DMCA 误伤,从 Prompt 封杀到能力退化,一系列问题暴露出这家明星 AI 公司在快速扩张过程中的管理混乱和战略失焦。

对开发者来说,现在可能是重新评估工具链的好时机。不要把所有鸡蛋放在一个篮子里,通过 API 聚合平台保持灵活性,才能在 AI 工具频繁翻车的时代保持生产力。

Anthropic 需要做的,不是继续推出花哨的新功能,而是回归基本面:稳定性、可靠性、透明度。否则,「神坛崩塌」可能不只是开发者的吐槽,而会成为现实。


参考来源

  1. 「Claude Code更新废了」!热议Issue:思考深度下降67% - AMD AI 总监在 GitHub 提交的详细分析报告
  2. Claude灾难级大宕机,全球开发者集体炸锅 - Ultraplan 宕机事件完整报道
  3. 爆破GitHub仓库、"偷"开发者余额 - 源码泄露和 DMCA 误伤事件详情
  4. Claude Code 更新后"翻车" - 开发者社区反馈和 Anthropic 官方回应