土豆熟了
距离 4 月 14 日还有一周多,关于 GPT-6 的消息已经兜不住了。
X 平台爆料人 @iruletheworldmo(圈内人称「草莓哥」)连发多条推文,声称从 OpenAI 内部获得大量信息:代号「Spud」(土豆)的 GPT-6 预训练早在 3 月 17 日就已完成,后训练和红队安全测试也已收尾,模型处于「随时可以上线」的状态,内定发布日期是 4 月 14 日。
消息一出,社区炸了。但也有人泼冷水——这条推文下方挂着 X 社区注释,提示该账号「反复编造完全虚假的 AI 泄密和内幕消息」。Reddit 上最高赞评论的方向也很直接:「这个人一直在瞎编,现在还在继续编。」
不过,这次的情况有点不一样。
OpenAI 联合创始人 Greg Brockman 近期在播客中亲口确认了几件事:一个重新预训练的新模型即将到来,凝聚了过去两年的技术积累;AGI 的进度已经完成了 70%-80%;OpenAI 正在把主要精力收拢到 GPT 系列上。他甚至用了一个很有意味的说法——「等你上手就会意识到,它将变得有多聪明且顺从」。
这些公开表态,和草莓哥的爆料内容高度吻合。即便爆料人本身的信誉存疑,拼图的各块碎片正在自己拼到一起。

40% 是什么概念
先说最抓眼球的数字:GPT-6 在代码生成、逻辑推理、智能体任务三个核心维度上,比 GPT-5.4 强了 40% 以上。
40% 这个数字需要放在上下文里理解。从 GPT-4 到 GPT-4o,再到 GPT-5 系列的几次迭代,每一代的提升幅度大概在 10%-20% 之间,而且越往后越难拉开差距——这是所有做大模型的人都心知肚明的事。40% 的跳跃,如果属实,意味着 OpenAI 在预训练阶段做了根本性的架构变革,而不只是在后训练上修修补补。
具体到开发者最关心的场景:
代码能力:这是 OpenAI 过去一年最痛的地方。Brockman 自己都在播客里承认了,OpenAI 之前「光顾着刷榜单」,结果在编程领域被 Anthropic 的 Claude Code 狠狠摆了一道,大量开发者用脚投票。GPT-6 在代码维度的大幅提升,与其说是技术突破,不如说是一次战略级的补课。从 2025 年 12 月起,OpenAI 内部就处于「编程红色警报」状态,这个 40% 里有多少是被 Claude 逼出来的,不好说,但肯定不少。
推理能力:爆料称长上下文推理中的信息召回准确率提升至 98% 以上,幻觉发生率大幅下降。如果你经常用大模型处理复杂的多步推理任务——比如分析一份几十页的技术方案、梳理一个大型项目的依赖关系——你一定体会过模型在中途「忘事」或者「编东西」的痛苦。98% 的召回率意味着,模型终于能在长战线上保持靠谱了。
智能体任务:这是最值得关注的方向。不是模型回答一个问题就完事,而是模型能自主规划、分步执行、遇到问题自己调整。40% 的提升如果落在这个维度上,直接影响的是所有基于大模型构建 Agent 工作流的团队。
200 万 Token:从「分段喂」到「整本吞」
上下文窗口从 GPT-5.4 的 100 万 Token 直接翻倍到 200 万 Token。
200 万 Token 大概是 150 万字。一本《红楼梦》全文大约 73 万字,也就是说你可以把两本《红楼梦》一次性塞进去,模型还有余量。换成代码,一个中大型项目的核心代码库,基本可以一次性全量输入。
这个提升的意义不只是「能处理更长的文本」这么简单。
过去用 100 万 Token 窗口的模型处理大型任务时,开发者需要做大量的分块、摘要、检索增强(RAG)工作,本质上是在用工程手段弥补模型的能力边界。200 万 Token 不会让 RAG 消失,但它会大幅抬高「不需要 RAG 就能搞定」的任务复杂度上限。很多原本需要精心设计 chunking 策略的场景,现在可能直接扔进去就行了。
对企业用户来说,这意味着可以把整个合同库、代码仓库、数据文档一次性接入模型做全量分析。对开发者来说,这意味着构建应用时的架构复杂度可以显著降低——少写一层 RAG,就少一层出 bug 的地方。
当然,200 万 Token 的实际可用性还要看推理速度和注意力衰减的表现。窗口大不等于窗口好用,这一点需要等模型真正放出来之后才能验证。
原生多模态:不是拼接,是统一
GPT-6 采用原生多模态统一架构,一套模型同时处理文本、音频、图像和视频。
这句话听起来平平无奇,但如果你了解当前多模态模型的实现方式,就知道这一步跨得有多大。
目前市面上绝大多数「多模态模型」,本质上是一个文本大模型加上若干个模态编码器/解码器的拼接体。图像走一个 ViT,音频走一个 Whisper,视频再走一套,最后在文本模型的表征空间里对齐。这种架构能用,但模态之间的理解是割裂的——模型并不是真的「看懂」了图片和文字之间的关系,而是在做特征空间的映射。
原生多模态意味着,从预训练阶段开始,所有模态的数据就在同一个架构里联合训练。模型对图像的理解和对文本的理解共享同一套表征,不需要中间的对齐层。这带来的直接好处是跨模态推理能力的质变:比如你给模型一段视频和一份文档,让它分析视频中的操作是否符合文档中的规范——这种任务在拼接式架构下很容易出错,但在统一架构下会自然得多。
对开发者而言,统一架构还意味着 API 调用的简化。不再需要针对不同模态调用不同的端点或模型,一个接口搞定所有输入输出类型。
定价:Mythos 的脑子,Sonnet 的价格
爆料中的定价信息:每百万 Token 输入 $2.50,输出 $12.00。
对比 GPT-5.4 的定价,基本没涨多少。考虑到 40% 的性能提升和翻倍的上下文窗口,这个定价策略非常激进。用草莓哥的原话说:「拥有 Mythos 级别的智能,却只收 Sonnet 级别的定价。」
这背后的逻辑不难理解。OpenAI 现在的收入主要来自个人订阅,但企业端正在展现出惊人的付费意愿。压低 API 价格、做大开发者生态、靠企业级部署赚钱——这条路 OpenAI 已经走了两年,GPT-6 的定价只是延续了这个策略。
对于通过 API 调用模型的开发者来说,这是个好消息。如果你目前的项目在用 GPT-5.4,切换到 GPT-6 的成本增量几乎可以忽略,但能力提升是实打实的。通过 OpenAI Hub 这类聚合平台调用的话,切换成本更低——改个模型名就行,接口格式完全兼容。
假设 GPT-6 发布后 API 如期开放,调用方式大概率和现有的 OpenAI 兼容格式一致:
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.openai-hub.com/v1" # OpenAI Hub 聚合接口,国内直连
)
response = client.chat.completions.create(
model="gpt-6", # 发布后以实际模型名为准
messages=[
{"role": "system", "content": "你是一个资深代码审查员。"},
{"role": "user", "content": "请审查以下代码仓库的架构设计,指出潜在的性能瓶颈和安全风险。"},
# 200万Token窗口,大型代码库可以一次性全量输入
],
max_tokens=8192,
)
print(response.choices[0].message.content)
// Node.js 示例
import OpenAI from 'openai';
const client = new OpenAI({
apiKey: 'your-api-key',
baseURL: 'https://api.openai-hub.com/v1',
});
const response = await client.chat.completions.create({
model: 'gpt-6',
messages: [
{ role: 'system', content: '你是一个全栈工程师,擅长架构设计和性能优化。' },
{ role: 'user', content: '分析这个项目的完整代码,给出重构建议。' },
],
});
console.log(response.choices[0].message.content);
超级应用:ChatGPT + Codex + Atlas 三合一
GPT-6 不只是一个更强的模型,它还是 OpenAI「超级应用」战略的引擎。
按照爆料和 Brockman 的公开表态,GPT-6 将驱动一个桌面端超级应用,把 ChatGPT(对话)、Codex(编程)和 Atlas 浏览器(网页浏览)整合成一个统一的智能体。用户不再需要在不同产品之间切换,一个入口搞定所有事。
这个方向其实不新鲜。Anthropic 的 Claude 已经在做类似的事——Claude Code 让模型直接操作终端和文件系统,Cowork 让模型在浏览器里自主完成任务。OpenAI 的不同之处在于,它想把这些能力全部塞进一个客户端应用里,而不是分散在不同的产品形态中。
能不能做成,取决于 GPT-6 的智能体能力到底有多强。一个能自主规划、执行、纠错的模型,和一个只能回答问题的模型,对产品形态的支撑力是完全不同的。如果 40% 的提升确实落在了智能体维度上,这个超级应用就有戏;如果只是基准测试好看,实际的 Agent 表现拉胯,那就只是又一个 demo。
All in AGI:砍掉一切,赌这一把
理解 GPT-6,不能只看技术参数,还得看 OpenAI 为它付出了什么代价。
为了集中资源给 GPT-6,OpenAI 做了几个非常激进的决定:
- 砍掉 Sora。这个曾经让全世界惊艳的视频生成模型,网页端和 App 将于 4 月 26 日正式关停,API 也将在 9 月下线。与迪士尼传闻中价值数十亿美元的合作,也因此告吹。
- 产品部门更名为「AGI Deployment」。不是改个名字那么简单,这是在组织架构层面宣告:我们只干一件事,就是把 AGI 部署出去。
- 安全部门划归首席风险官(CRO)管辖。Altman 本人完全退出安全监督,专注于数据中心建设。
内部员工的说法是:Brockman 认为 AGI 已经完成了 70%-80%,GPT-6 就是剩下的那 20%。这是「AGI 的最后一公里」,他们要砍光一切来赌。
这个策略争议很大。砍掉 Sora 意味着放弃了视频生成这个巨大的市场机会,也意味着承认了一件事——视频模型和文本模型是技术树上不同的分支,OpenAI 选择了文本这条路。Brockman 的原话是:「我们已经确信文本模型可以走向 AGI。」
这个判断对不对,可能要等好几年才能验证。但至少在当下,它解释了 OpenAI 为什么愿意为 GPT-6 押上这么多筹码。
冷静一下:这些信息有多可信?
必须说清楚:截至发稿,以上关于 GPT-6 的具体参数、发布日期、内部定位,全部来自爆料人 @iruletheworldmo 的推文,OpenAI 官方没有确认任何一条。
这个账号的可信度是有争议的。X 社区注释明确标注了他「反复编造虚假泄密信息」,Reddit 上的主流评价也不太客气。他确实有一些大佬关注者——Gavin Baker、Jim Fan 等——但关注不等于背书。
不过,有几个可以交叉验证的点:
- Brockman 确实公开说了新模型即将到来,且是重新预训练的。
- OpenAI 确实在砍非核心业务,Sora 关停已经官宣。
- OpenAI 确实在编程领域承受了来自 Anthropic 的巨大压力,这一点 Brockman 自己承认了。
- 产品组织架构的调整,多个信源有交叉印证。
所以,合理的态度是:GPT-6 大概率存在,大概率很快会发布,大概率会有显著的能力提升。但具体的 40%、200 万 Token、4 月 14 日这些精确数字,等官宣再说。
对开发者意味着什么
不管最终参数是多少,GPT-6 的到来对开发者生态的影响是确定的:
短期:如果你在用 GPT-5.4 的 API,准备好切换测试。200 万 Token 的上下文窗口如果属实,很多现有的 RAG 架构可以大幅简化。建议提前梳理一下哪些场景可以从「检索增强」切换到「全量输入」。
中期:原生多模态统一架构会催生一批新的应用形态。过去因为跨模态能力不够而搁置的产品想法,可以重新拿出来评估了。
长期:如果超级应用真的落地,OpenAI 会从「模型提供商」变成「平台入口」。这对所有基于 OpenAI API 构建产品的团队来说,既是机会也是威胁——你的产品如果和超级应用的功能重叠,就得想清楚差异化在哪里。
还有一点值得注意:OpenAI 的激进定价策略会进一步压缩其他模型厂商的空间。如果 GPT-6 真的能以接近 GPT-5.4 的价格提供 40% 的性能提升,Anthropic、Google 都得跟进降价或者加速迭代。对开发者来说,这意味着用同样的预算能调用更强的模型——不管你用的是哪家的。
4 月 14 日,看 OpenAI 怎么端这盘土豆上桌。
参考来源
- GPT-6 曝光了 - 网易:草莓哥爆料的详细整理,包含性能参数、定价、发布日期等核心信息
- OpenAI 新模型不是 GPTX!全新预训练「土豆」曝光 - 百家号:Brockman 播客发言整理,涉及 Sora 战略调整和新模型定位
- OpenAI 新模型不是 GPTX!全新预训练「土豆」曝光 - 知乎:Super App 战略和企业付费意愿分析
- AGI 时代临近 GPT-6 被指 4 月 14 日发布 - 快科技:发布时间线和 Sora 关停细节
- 重磅!GPT-6 曝光了 - 新浪财经:社区对爆料可信度的讨论,包含 X 社区注释和 Reddit 评价
- GPT-6 被曝 4 月发布 - 百家号:200 万 Token 上下文和原生多模态架构的技术分析