OpenAI 又崩了:ChatGPT 与 API 高延迟事故复盘
如果你昨晚(5月27日)在调 OpenAI 的 API 写代码或者跑批量任务,大概率感受到了一种熟悉的卡顿——请求发出去,半天没动静,偶尔还吐个超时。不是你的网络问题,是 OpenAI 自己又出状况了。
北京时间 5 月 27 日 22 点 47 分,OpenAI 在状态页面正式确认 ChatGPT 和 API 出现"高延迟"(Elevated Latency),同时在 X 平台发了推文。整个事故持续了约 5 个多小时,直到今天(5 月 28 日)凌晨 4 点 06 分,官方宣布修复完成。
这事本身不算大新闻——大模型服务抖一抖早就不新鲜了。但放在最近这一两个月的语境里看,味道就不太一样了。

事故经过:一次典型的"高负载型"抖动
根据用户在 X、Reddit 和国内社区的反馈,问题最早从北京时间 5 月 27 日凌晨开始出现苗头——ChatGPT 网页端响应明显变慢,提交一个普通问题后,思考圆圈能转上十几二十秒才开始吐字。API 侧的表现更直观:p95 延迟飙升,部分长上下文请求直接 504。
OpenAI 的官方时间线大致是这样:
- 凌晨起:用户陆续反馈延迟异常,但未触发官方告警
- 22:47:状态页挂出 "Elevated latency on ChatGPT and API"
- 次日 04:06:标记为已修复(Resolved)
值得注意的是,从用户感知到官方确认,中间有接近一天的时间差。这不是 OpenAI 第一次被吐槽"故障响应慢"——它的状态页面历来偏保守,往往要等到错误率指标越过某个内部阈值才会公开承认。
官方这次没有公布详细的事后分析(postmortem),只笼统归为"高延迟"。但从故障形态看,几乎可以肯定和容量调度有关——要么是某个区域的推理集群过载,要么是新版本灰度时遇到了流量尖峰未做好限流。
没修完的尾巴:Codex 和企业版还有遗留问题
主事故虽然标记为已解决,状态页面上其实还挂着两个小红点:
- Codex 上下文压缩速度慢于预期——这个对长文档编程任务影响比较直接,特别是用 Codex 处理大型代码库的场景,压缩慢意味着每一轮交互的首 token 延迟(TTFT)都会被拉长
- Android 版 ChatGPT 企业版切换工作区异常——这个是客户端层面的问题,影响范围相对有限,但企业用户多账号场景下挺糟心
这两个问题挂了好几天没修完,说明 OpenAI 内部确实有一些更深层的工程债务没还清。Codex 的上下文压缩慢,本质上是模型侧的优化问题,可能涉及 KV cache 管理或者投机解码(speculative decoding)路径的调优,不是简单重启服务能搞定的。
为什么最近 OpenAI 总掉链子?
把时间线拉长一点看,问题更明显。把今年以来 OpenAI 几次比较显著的事件串起来:
- 5 月 27 日:本次高延迟事故,持续 5+ 小时
- 此前的 11 月初:ChatGPT 与 API 错误率飙升,服务中断超 1 小时,OpenAI 自己定义为"Major Outage"
- 更早:多次 GPT-4 系列模型在欧美早高峰时段出现限流加重
这背后有几个绕不开的结构性原因。
第一,用户增长还在跑赢容量扩张。 ChatGPT 现在的周活早就过 10 亿了,而且最近 GPT-5 系列和新版 Sora 上线之后,每个用户的平均 token 消耗量是指数级增长的——尤其是带视觉理解、长上下文、推理模式的请求,对 GPU 算力的吞噬远超传统对话。
第二,模型路由和混合部署越来越复杂。 OpenAI 现在同时维护着 GPT-5、GPT-5-mini、o 系列推理模型、Codex 专用模型等多条产品线,背后涉及不同的硬件配比和调度策略。任何一条线的容量调整都可能波及全局——比如把推理算力优先给 o 系列,那 GPT-5 主线就容易在高峰期掉链子。
第三,全球流量的不均衡。 北美工作日早高峰(对应北京时间凌晨到上午)历来是 OpenAI 的事故高发时段。这次事故也是从北京时间凌晨开始的,跟这个模式完全吻合。
开发者该怎么应对?
如果你是把 OpenAI API 接入到生产业务里的开发者,这种事故再次提醒:任何单一供应商都不能 100% 信赖。我说几条比较实在的工程建议。
1. 流式输出是底线,不是优化项
这个老生常谈了但还是要强调。如果你还在用同步阻塞模式调 API,遇到高延迟事故基本就是全员超时。stream=true 起码能让用户在前几秒看到响应开始,心理上接受度完全不同:
response = client.chat.completions.create(
model="gpt-5",
messages=[{"role": "user", "content": prompt}],
stream=True,
)
for chunk in response:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
配合 SSE 推到前端,体验提升立竿见影。
2. 配置合理的超时和重试策略
很多人犯的错是用 SDK 默认配置——默认超时往往是 600 秒(10 分钟),高延迟事故来的时候连接会一直挂着,瞬间堆出大量僵尸请求。建议显式设置:
- 短任务(普通问答):超时 30-60 秒
- 长任务(代码生成、长文档):60-180 秒
- 重试用指数退避,但限制总次数(2-3 次足够)
- 对幂等请求才重试,非幂等的(如带 Function Call 副作用的)要小心
3. 多模型 fallback 不是奢侈品
这次 OpenAI 挂了 5 个小时,如果你的服务在这段时间能自动切到 Claude 或者 Gemini 上,业务连续性完全是另一回事。技术上其实不难——所有主流模型 API 现在都已经统一到 OpenAI 兼容格式,切换基本就是改个 base_url 和模型名。
顺带一提,这也是为什么聚合型 API 网关最近越来越受欢迎。像 OpenAI Hub(openai-hub.com)这种平台,一个 Key 同时对接 GPT、Claude、Gemini、DeepSeek 等主流模型,并且兼容 OpenAI 格式,国内直连——出现这种 OpenAI 官方抖动的场景,业务侧可以做无感切换,不用每家都申请 Key、各自维护一套 SDK。
4. 缓存和降级要前置设计
热门 prompt 的语义缓存、规则降级方案(直接返回模板回复或转人工),这些不是事故来了才临时加的,得在架构阶段就想清楚。
结语:稳定性正在变成竞争壁垒
两年前大家比的是模型能力,谁的 benchmark 高谁就赢。现在 GPT-5、Claude、Gemini 在各种榜单上互有胜负,差距不像以前那么显著了。模型能力进入对峙期之后,SLA、稳定性、延迟、价格——这些工程指标反而成了 to B 决策的关键变量。
OpenAI 这次 5 小时高延迟,对个人用户来说就是抱怨两句的事,但对那些把 API 写进核心业务流程的公司来说,可能意味着真金白银的损失。每次这种事故都会推动一批用户去做多供应商的兜底架构——这个趋势已经持续了一年多了,每次故障都会让它加速一点。
OpenAI 自己肯定也清楚问题在哪。Sam Altman 在最近的几次访谈里反复提到"compute is the bottleneck"——算力是瓶颈。但算力扩张是个慢变量,新一批数据中心要到下半年才陆续投产。在那之前,类似的延迟事件大概率还会再来几次。
做好心理准备,做好工程准备。
参考来源
- IT之家:OpenAI 确认 ChatGPT 与 API 昨日出现高延迟,现已修复 - 本次事件的中文一手报道,包含时间线
- Reddit r/ChatGPT:ChatGPT 长会话延迟相关讨论 - 海外用户对延迟问题的反馈
- 知乎:提升 ChatGPT API 响应速度的解决方案 - 关于 API 延迟优化的技术讨论