GPT-6「土豆」4月14日发布：性能暴涨40%，200万Token上下文，原生多模态

OpenAI 代号「Spud」的 GPT-6 被曝将于 4 月 14 日发布，性能较 GPT-5.4 暴涨 40%，原生多模态统一架构，上下文窗口扩至 200 万 Token，定价却几乎持平。OpenAI 为此砍掉 Sora、All in AGI。

土豆熟了

距离 4 月 14 日还有一周多，关于 GPT-6 的消息已经兜不住了。

X 平台爆料人 @iruletheworldmo（圈内人称「草莓哥」）连发多条推文，声称从 OpenAI 内部获得大量信息：代号「Spud」（土豆）的 GPT-6 预训练早在 3 月 17 日就已完成，后训练和红队安全测试也已收尾，模型处于「随时可以上线」的状态，内定发布日期是 4 月 14 日。

消息一出，社区炸了。但也有人泼冷水——这条推文下方挂着 X 社区注释，提示该账号「反复编造完全虚假的 AI 泄密和内幕消息」。Reddit 上最高赞评论的方向也很直接：「这个人一直在瞎编，现在还在继续编。」

不过，这次的情况有点不一样。

OpenAI 联合创始人 Greg Brockman 近期在播客中亲口确认了几件事：一个重新预训练的新模型即将到来，凝聚了过去两年的技术积累；AGI 的进度已经完成了 70%-80%；OpenAI 正在把主要精力收拢到 GPT 系列上。他甚至用了一个很有意味的说法——「等你上手就会意识到，它将变得有多聪明且顺从」。

这些公开表态，和草莓哥的爆料内容高度吻合。即便爆料人本身的信誉存疑，拼图的各块碎片正在自己拼到一起。

GPT-6「Spud」核心参数对比图，包含 GPT-5.4、Claude Opus 4.6 的上下文窗口、性能基准、定价对比

40% 是什么概念

先说最抓眼球的数字：GPT-6 在代码生成、逻辑推理、智能体任务三个核心维度上，比 GPT-5.4 强了 40% 以上。

40% 这个数字需要放在上下文里理解。从 GPT-4 到 GPT-4o，再到 GPT-5 系列的几次迭代，每一代的提升幅度大概在 10%-20% 之间，而且越往后越难拉开差距——这是所有做大模型的人都心知肚明的事。40% 的跳跃，如果属实，意味着 OpenAI 在预训练阶段做了根本性的架构变革，而不只是在后训练上修修补补。

具体到开发者最关心的场景：

代码能力：这是 OpenAI 过去一年最痛的地方。Brockman 自己都在播客里承认了，OpenAI 之前「光顾着刷榜单」，结果在编程领域被 Anthropic 的 Claude Code 狠狠摆了一道，大量开发者用脚投票。GPT-6 在代码维度的大幅提升，与其说是技术突破，不如说是一次战略级的补课。从 2025 年 12 月起，OpenAI 内部就处于「编程红色警报」状态，这个 40% 里有多少是被 Claude 逼出来的，不好说，但肯定不少。
推理能力：爆料称长上下文推理中的信息召回准确率提升至 98% 以上，幻觉发生率大幅下降。如果你经常用大模型处理复杂的多步推理任务——比如分析一份几十页的技术方案、梳理一个大型项目的依赖关系——你一定体会过模型在中途「忘事」或者「编东西」的痛苦。98% 的召回率意味着，模型终于能在长战线上保持靠谱了。
智能体任务：这是最值得关注的方向。不是模型回答一个问题就完事，而是模型能自主规划、分步执行、遇到问题自己调整。40% 的提升如果落在这个维度上，直接影响的是所有基于大模型构建 Agent 工作流的团队。

200 万 Token：从「分段喂」到「整本吞」

上下文窗口从 GPT-5.4 的 100 万 Token 直接翻倍到 200 万 Token。

200 万 Token 大概是 150 万字。一本《红楼梦》全文大约 73 万字，也就是说你可以把两本《红楼梦》一次性塞进去，模型还有余量。换成代码，一个中大型项目的核心代码库，基本可以一次性全量输入。

这个提升的意义不只是「能处理更长的文本」这么简单。

过去用 100 万 Token 窗口的模型处理大型任务时，开发者需要做大量的分块、摘要、检索增强（RAG）工作，本质上是在用工程手段弥补模型的能力边界。200 万 Token 不会让 RAG 消失，但它会大幅抬高「不需要 RAG 就能搞定」的任务复杂度上限。很多原本需要精心设计 chunking 策略的场景，现在可能直接扔进去就行了。

对企业用户来说，这意味着可以把整个合同库、代码仓库、数据文档一次性接入模型做全量分析。对开发者来说，这意味着构建应用时的架构复杂度可以显著降低——少写一层 RAG，就少一层出 bug 的地方。

当然，200 万 Token 的实际可用性还要看推理速度和注意力衰减的表现。窗口大不等于窗口好用，这一点需要等模型真正放出来之后才能验证。

原生多模态：不是拼接，是统一

GPT-6 采用原生多模态统一架构，一套模型同时处理文本、音频、图像和视频。

这句话听起来平平无奇，但如果你了解当前多模态模型的实现方式，就知道这一步跨得有多大。

目前市面上绝大多数「多模态模型」，本质上是一个文本大模型加上若干个模态编码器/解码器的拼接体。图像走一个 ViT，音频走一个 Whisper，视频再走一套，最后在文本模型的表征空间里对齐。这种架构能用，但模态之间的理解是割裂的——模型并不是真的「看懂」了图片和文字之间的关系，而是在做特征空间的映射。

原生多模态意味着，从预训练阶段开始，所有模态的数据就在同一个架构里联合训练。模型对图像的理解和对文本的理解共享同一套表征，不需要中间的对齐层。这带来的直接好处是跨模态推理能力的质变：比如你给模型一段视频和一份文档，让它分析视频中的操作是否符合文档中的规范——这种任务在拼接式架构下很容易出错，但在统一架构下会自然得多。

对开发者而言，统一架构还意味着 API 调用的简化。不再需要针对不同模态调用不同的端点或模型，一个接口搞定所有输入输出类型。

定价：Mythos 的脑子，Sonnet 的价格

爆料中的定价信息：每百万 Token 输入 $2.50，输出 $12.00。

对比 GPT-5.4 的定价，基本没涨多少。考虑到 40% 的性能提升和翻倍的上下文窗口，这个定价策略非常激进。用草莓哥的原话说：「拥有 Mythos 级别的智能，却只收 Sonnet 级别的定价。」

这背后的逻辑不难理解。OpenAI 现在的收入主要来自个人订阅，但企业端正在展现出惊人的付费意愿。压低 API 价格、做大开发者生态、靠企业级部署赚钱——这条路 OpenAI 已经走了两年，GPT-6 的定价只是延续了这个策略。

对于通过 API 调用模型的开发者来说，这是个好消息。如果你目前的项目在用 GPT-5.4，切换到 GPT-6 的成本增量几乎可以忽略，但能力提升是实打实的。通过 OpenAI Hub 这类聚合平台调用的话，切换成本更低——改个模型名就行，接口格式完全兼容。

假设 GPT-6 发布后 API 如期开放，调用方式大概率和现有的 OpenAI 兼容格式一致：

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.openai-hub.com/v1"  # OpenAI Hub 聚合接口，国内直连
)

response = client.chat.completions.create(
    model="gpt-6",  # 发布后以实际模型名为准
    messages=[
        {"role": "system", "content": "你是一个资深代码审查员。"},
        {"role": "user", "content": "请审查以下代码仓库的架构设计，指出潜在的性能瓶颈和安全风险。"},
        # 200万Token窗口，大型代码库可以一次性全量输入
    ],
    max_tokens=8192,
)

print(response.choices[0].message.content)

// Node.js 示例
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'your-api-key',
  baseURL: 'https://api.openai-hub.com/v1',
});

const response = await client.chat.completions.create({
  model: 'gpt-6',
  messages: [
    { role: 'system', content: '你是一个全栈工程师，擅长架构设计和性能优化。' },
    { role: 'user', content: '分析这个项目的完整代码，给出重构建议。' },
  ],
});

console.log(response.choices[0].message.content);

超级应用：ChatGPT + Codex + Atlas 三合一

GPT-6 不只是一个更强的模型，它还是 OpenAI「超级应用」战略的引擎。

按照爆料和 Brockman 的公开表态，GPT-6 将驱动一个桌面端超级应用，把 ChatGPT（对话）、Codex（编程）和 Atlas 浏览器（网页浏览）整合成一个统一的智能体。用户不再需要在不同产品之间切换，一个入口搞定所有事。

这个方向其实不新鲜。Anthropic 的 Claude 已经在做类似的事——Claude Code 让模型直接操作终端和文件系统，Cowork 让模型在浏览器里自主完成任务。OpenAI 的不同之处在于，它想把这些能力全部塞进一个客户端应用里，而不是分散在不同的产品形态中。

能不能做成，取决于 GPT-6 的智能体能力到底有多强。一个能自主规划、执行、纠错的模型，和一个只能回答问题的模型，对产品形态的支撑力是完全不同的。如果 40% 的提升确实落在了智能体维度上，这个超级应用就有戏；如果只是基准测试好看，实际的 Agent 表现拉胯，那就只是又一个 demo。

All in AGI：砍掉一切，赌这一把

理解 GPT-6，不能只看技术参数，还得看 OpenAI 为它付出了什么代价。

为了集中资源给 GPT-6，OpenAI 做了几个非常激进的决定：

砍掉 Sora。这个曾经让全世界惊艳的视频生成模型，网页端和 App 将于 4 月 26 日正式关停，API 也将在 9 月下线。与迪士尼传闻中价值数十亿美元的合作，也因此告吹。
产品部门更名为「AGI Deployment」。不是改个名字那么简单，这是在组织架构层面宣告：我们只干一件事，就是把 AGI 部署出去。
安全部门划归首席风险官（CRO）管辖。Altman 本人完全退出安全监督，专注于数据中心建设。

内部员工的说法是：Brockman 认为 AGI 已经完成了 70%-80%，GPT-6 就是剩下的那 20%。这是「AGI 的最后一公里」，他们要砍光一切来赌。

这个策略争议很大。砍掉 Sora 意味着放弃了视频生成这个巨大的市场机会，也意味着承认了一件事——视频模型和文本模型是技术树上不同的分支，OpenAI 选择了文本这条路。Brockman 的原话是：「我们已经确信文本模型可以走向 AGI。」

这个判断对不对，可能要等好几年才能验证。但至少在当下，它解释了 OpenAI 为什么愿意为 GPT-6 押上这么多筹码。

冷静一下：这些信息有多可信？

必须说清楚：截至发稿，以上关于 GPT-6 的具体参数、发布日期、内部定位，全部来自爆料人 @iruletheworldmo 的推文，OpenAI 官方没有确认任何一条。

这个账号的可信度是有争议的。X 社区注释明确标注了他「反复编造虚假泄密信息」，Reddit 上的主流评价也不太客气。他确实有一些大佬关注者——Gavin Baker、Jim Fan 等——但关注不等于背书。

不过，有几个可以交叉验证的点：

Brockman 确实公开说了新模型即将到来，且是重新预训练的。
OpenAI 确实在砍非核心业务，Sora 关停已经官宣。
OpenAI 确实在编程领域承受了来自 Anthropic 的巨大压力，这一点 Brockman 自己承认了。
产品组织架构的调整，多个信源有交叉印证。

所以，合理的态度是：GPT-6 大概率存在，大概率很快会发布，大概率会有显著的能力提升。但具体的 40%、200 万 Token、4 月 14 日这些精确数字，等官宣再说。

对开发者意味着什么

不管最终参数是多少，GPT-6 的到来对开发者生态的影响是确定的：

短期：如果你在用 GPT-5.4 的 API，准备好切换测试。200 万 Token 的上下文窗口如果属实，很多现有的 RAG 架构可以大幅简化。建议提前梳理一下哪些场景可以从「检索增强」切换到「全量输入」。

中期：原生多模态统一架构会催生一批新的应用形态。过去因为跨模态能力不够而搁置的产品想法，可以重新拿出来评估了。

长期：如果超级应用真的落地，OpenAI 会从「模型提供商」变成「平台入口」。这对所有基于 OpenAI API 构建产品的团队来说，既是机会也是威胁——你的产品如果和超级应用的功能重叠，就得想清楚差异化在哪里。

还有一点值得注意：OpenAI 的激进定价策略会进一步压缩其他模型厂商的空间。如果 GPT-6 真的能以接近 GPT-5.4 的价格提供 40% 的性能提升，Anthropic、Google 都得跟进降价或者加速迭代。对开发者来说，这意味着用同样的预算能调用更强的模型——不管你用的是哪家的。

4 月 14 日，看 OpenAI 怎么端这盘土豆上桌。

参考来源

GPT-6 曝光了 - 网易：草莓哥爆料的详细整理，包含性能参数、定价、发布日期等核心信息
OpenAI 新模型不是 GPTX！全新预训练「土豆」曝光 - 百家号：Brockman 播客发言整理，涉及 Sora 战略调整和新模型定位
OpenAI 新模型不是 GPTX！全新预训练「土豆」曝光 - 知乎：Super App 战略和企业付费意愿分析
AGI 时代临近 GPT-6 被指 4 月 14 日发布 - 快科技：发布时间线和 Sora 关停细节
重磅！GPT-6 曝光了 - 新浪财经：社区对爆料可信度的讨论，包含 X 社区注释和 Reddit 评价
GPT-6 被曝 4 月发布 - 百家号：200 万 Token 上下文和原生多模态架构的技术分析

GPT-6「土豆」熟了，4月14日上桌

土豆熟了

40% 是什么概念

200 万 Token：从「分段喂」到「整本吞」

原生多模态：不是拼接，是统一

定价：Mythos 的脑子，Sonnet 的价格

超级应用：ChatGPT + Codex + Atlas 三合一

All in AGI：砍掉一切，赌这一把

冷静一下：这些信息有多可信？

对开发者意味着什么

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们