OpenAI正式发布GPT-5.6系列，推出Sol/Terra/Luna三档模型。旗舰版Sol编程跑分超越Claude Mythos 5，但应美国政府要求仅向「可信合作伙伴」限量预览，OpenAI罕见公开表态：这不应成为长期默认做法。

GPT-5.6来了：三档定价，政府限流

OpenAI今天（6月27日）正式发布GPT-5.6系列模型。

这次发布有两个看点：一是产品层面，OpenAI一口气推出三档模型，定价策略相当激进；二是发布方式——应美国政府要求，GPT-5.6暂时只向少数「可信合作伙伴」开放预览，这在OpenAI历史上还是头一回。

更值得玩味的是，OpenAI在公告里罕见地公开表达了不满：「我们认为，这种政府介入的访问流程不应成为长期默认模式。」

三档模型：Sol、Terra、Luna

GPT-5.6系列包含三个版本，命名走的是天体路线——Sol（太阳）、Terra（地球）、Luna（月亮），分别对应旗舰、均衡、入门三档定位。

GPT-5.6 Sol：旗舰担当

Sol是OpenAI目前最强的模型，定位很明确——复杂推理、科研、软件开发、网络安全、生物研究以及Agent工作流。

能力上有几个关键升级：

新增Max推理强度：可以让模型在复杂问题上「想得更深」
Ultra模式：借助子智能体加速复杂任务执行，类似于让多个Agent并行协作
编程能力显著提升：在Terminal-Bench 2.1测试中，标准模式得分88.8%，超过Claude Mythos 5的88.0%；开启Ultra模式后达到91.9%

Terminal-Bench 2.1测的是命令行工作流能力，需要规划、迭代和工具协调，是目前衡量模型「干活能力」的主流基准之一。

网络安全方面，Sol在漏洞研究和利用这类长链路任务上提升明显。在ExploitBench测试中，它用大约1/3的输出token就能接近Mythos Preview的表现——换句话说，同样的活儿，花费更少。

GPT-5.6 Terra：性价比之选

Terra的定位是「平替GPT-5.5」，性能基本持平，但价格直接砍半。

对于大多数日常开发场景——写代码、改Bug、做文档、处理数据——Terra应该是最具性价比的选择。从测试数据看，Terra在Terminal-Bench 2.1上的表现甚至超过了Claude Fable 5，这个成绩放在中端模型里相当能打。

GPT-5.6 Luna：跑量神器

Luna主打速度快、价格低，适合高频次、大规模任务。

OpenAI的说法是Luna能力「仅次于GPT-5.5」，但胜在便宜。如果你的场景是批量处理、在线服务、高吞吐调用，Luna会是成本最优解。

定价：比Anthropic便宜一半

三档模型的API定价如下（每百万token）：

| 模型 | 输入价格 | 缓存价格 | 输出价格 | |------|----------|----------|----------| | Sol | $5 | $0.5 | $30 | | Terra | $2.5 | $0.25 | $15 | | Luna | $1 | $0.1 | $6 |

换算成人民币（按当前汇率）：

Sol：输入约34元，输出约204元/百万token
Terra：输入约17元，输出约102元/百万token
Luna：输入约6.8元，输出约41元/百万token

横向对比一下：Anthropic旗舰模型Claude Fable 5的定价是输入$10、输出$50。Sol作为同级别旗舰，价格只有Fable 5的一半左右。

这个定价策略很激进。OpenAI显然在用价格战抢市场——既然性能上已经领先（至少在编程基准上），价格再打下来，竞争对手的日子就不太好过了。

另外值得注意的是，OpenAI优化了提示词缓存机制。如果调用过程中出现重复的提示词，会自动走缓存计费，成本更低、更可预测。这对Agent场景和多轮对话场景是个利好。

核心能力深挖

编程能力：Terminal-Bench实测数据

先看具体数据：

| 模型 | Terminal-Bench 2.1 得分 | |------|------------------------| | GPT-5.6 Sol (Ultra) | 91.9% | | GPT-5.6 Sol (标准) | 88.8% | | Claude Mythos 5 | 88.0% | | GPT-5.6 Terra | 超过Fable 5 |

Terminal-Bench测的是什么？简单说，就是让模型在真实的命令行环境里完成开发任务——读代码、改代码、跑测试、修Bug、部署服务。这不是选择题式的知识问答，而是要真刀真枪地「干活」。

88.8%超过Mythos 5的88.0%，差距不算大。但开启Ultra模式后跳到91.9%，这个提升就相当可观了。Ultra模式的原理是调用子智能体并行处理，本质上是用更多计算换更好结果——当然，费用也会相应增加。

生物学：GeneBench表现

在GeneBench v1测试中，GPT-5.6 Sol比GPT-5.5更强，同时消耗更少token。

这对生物信息学、基因组分析等场景的开发者是个好消息。模型能力提升的同时成本下降，ROI直接改善。

网络安全：ExploitBench效率提升

网络安全是这次升级的重点领域之一。

GPT-5.6 Sol在ExploitBench中展现了两个优势：

性能接近顶尖：与Mythos Preview相近
效率大幅提升：只用了约1/3的输出token

漏洞研究和利用属于长链路任务，需要模型理解代码逻辑、分析攻击面、构造利用方案。能用更少token完成同样任务，意味着成本下降、响应速度提升。

安全设计：分层防护体系

OpenAI强调GPT-5.6采用了分层防护体系，包括：

模型内置拒答：对危险请求直接拒绝
生成过程实时分类器：边生成边检测
账户级风险审查：识别高风险账户
差异化访问：不同用户不同权限
监控和执法机制：事后追溯

对于高风险情况，系统可以暂停生成，把内容交给更大的推理模型复核；如果判定违规，内容会在展示给用户之前被拦截。

发布前，OpenAI进行了超过70万GPU小时的自动化安全测试，以及大量外部红队评估。

根据Deployment Safety报告，GPT-5.6虽然在自主执行任务、漏洞分析和复杂推理方面能力增强，但OpenAI认为它尚未达到Preparedness Framework中需要最高等级限制的危险阈值。

简单说：模型更强了，但还没强到「必须严格限制部署」的程度。

发布方式：美国政府介入

这次发布最特殊的地方，不是模型本身，而是发布方式。

OpenAI在公告中写道：

「作为与美国政府持续沟通的一部分，在今天发布之前，我们先行展示了我们的计划及模型能力。应政府要求，我们将首先向一小部分受信任的合作伙伴提供有限预览，这些合作伙伴的参与情况已向政府报备，随后再进行更广泛的发布。」

翻译一下：美国政府要求OpenAI在全面发布前，先把模型给政府过一遍，然后只能向「经过批准的机构」开放。

首批获得权限的企业大约二十家左右。普通开发者和企业用户，暂时只能等。

OpenAI的公开不满

有意思的是，OpenAI在官方公告里直接表达了对这种安排的不满：

「我们认为，这种政府介入的访问流程不应成为长期默认模式。它阻碍了那些真正需要这些顶尖工具的用户、开发者、企业、网络安全防御者及全球合作伙伴获取这些资源。」

这种公开「怼」政府的做法，在科技公司里相当罕见。

OpenAI的立场很清楚：短期配合是为了换取未来几周内的更广泛发布，但这不应该成为常态。他们希望与政府合作，建立一套「可重复执行的审批流程」，而不是让政府逐案审批成为AI行业的长期运行方式。

背景：特朗普政府的AI监管

这事要放在大背景下看。

特朗普政府近期明显加强了对前沿AI模型的国家安全监管。此前，Anthropic就被要求撤回部分新模型的公开发布。美国政府正在建立针对「受监管前沿模型」（Covered Frontier Models）的评估体系。

政府的逻辑是：具有强大网络安全能力的AI模型可能被用于攻击关键基础设施，所以需要在公开前进行安全审查。

OpenAI的逻辑是：限制开放会让真正需要这些工具的人（包括网络安全防御者）无法及时获取，反而可能损害整体安全。

谁对谁错？这是个没有标准答案的问题。但可以确定的是，AI行业的竞争已经不仅仅是模型能力的竞争，还包括监管博弈。

API调用示例

对于已经获得访问权限的开发者，或者等到GPT-5.6全面开放后想第一时间尝试的开发者，这里提供一个调用示例。

国内开发者可以通过OpenAI Hub直接调用，兼容OpenAI格式，省去网络问题的折腾：

import openai

client = openai.OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

# 调用GPT-5.6 Sol
response = client.chat.completions.create(
    model="gpt-5.6-sol",  # 或 gpt-5.6-terra / gpt-5.6-luna
    messages=[
        {"role": "system", "content": "You are a senior software engineer."},
        {"role": "user", "content": "Review this code and suggest optimizations..."}
    ],
    # 可选：设置推理强度
    # reasoning_effort="max"  # 仅Sol支持
)

print(response.choices[0].message.content)

如果想启用Ultra模式（子智能体加速），需要额外的参数配置，具体文档等OpenAI正式公开后会更新。

对开发者的实际影响

短期：等

如果你不在首批「可信合作伙伴」名单里，目前能做的就是等。OpenAI说会在「未来几周内」全面开放，具体时间取决于政府审查流程的推进。

中期：选择合适的档位

等到全面开放后，三档模型怎么选？

Sol：复杂Agent工作流、科研、安全研究、需要最强推理能力的场景
Terra：日常开发、代码审查、文档生成、大部分企业应用场景
Luna：高QPS在线服务、批量数据处理、成本敏感场景

大多数开发者的日常需求，Terra应该就够了。Sol的价格是Terra的两倍，适合「不差钱但求最强」的场景。

长期：关注监管趋势

这次发布暴露出一个趋势：美国政府正在更深度地介入前沿AI模型的发布流程。

对于依赖最新模型的开发者和企业来说，这意味着未来可能需要考虑更多的合规因素。模型发布时间、访问权限、使用限制，都可能受到监管影响。

和竞品比怎么样？

目前能直接对比的是Claude系列。

| 维度 | GPT-5.6 Sol | Claude Mythos 5 | Claude Fable 5 | |------|-------------|-----------------|----------------| | Terminal-Bench 2.1 | 88.8% (标准) / 91.9% (Ultra) | 88.0% | 低于Terra | | 输入价格 | $5 | - | $10 | | 输出价格 | $30 | - | $50 |

从编程基准和定价看，GPT-5.6的竞争力相当强：性能领先，价格更低。

但需要注意几点：

基准测试不代表一切：不同任务、不同场景，模型表现可能差异很大
Ultra模式有额外成本：91.9%的成绩是开Ultra模式跑出来的，实际使用成本会更高
可用性是关键：目前GPT-5.6只有限量预览，Claude系列可能已经全面可用

总结

GPT-5.6系列是一次相当扎实的升级：

三档定价满足不同场景需求
编程能力在主流基准上领先Mythos 5
价格策略激进，比Anthropic便宜一半
新增Max推理和Ultra模式，拉高了能力上限

但这次发布最值得关注的，可能不是模型本身，而是发布方式的变化。美国政府首次深度介入全球最先进AI模型的发布流程，OpenAI也罕见地公开表达不满。

AI行业正在进入一个新阶段：不仅要比模型，还要比监管。

对于国内开发者，等GPT-5.6全面开放后，通过OpenAI Hub这类聚合平台可以第一时间体验新模型。在此之前，可以先用GPT-5.5或其他模型把业务跑起来，等新模型到位后平滑切换。

参考来源

IT之家：OpenAI最强AI模型GPT-5.6系列登场 - 详细报道GPT-5.6发布及性能数据
Linux.do：GPT-5.6已经向有限用户推出 - 社区讨论及定价信息汇总

GPT-5.6来了：三档定价，政府限流

GPT-5.6来了：三档定价，政府限流

三档模型：Sol、Terra、Luna

GPT-5.6 Sol：旗舰担当

GPT-5.6 Terra：性价比之选

GPT-5.6 Luna：跑量神器

定价：比Anthropic便宜一半

核心能力深挖

编程能力：Terminal-Bench实测数据

生物学：GeneBench表现

网络安全：ExploitBench效率提升

安全设计：分层防护体系

发布方式：美国政府介入

OpenAI的公开不满

背景：特朗普政府的AI监管

API调用示例

对开发者的实际影响

短期：等

中期：选择合适的档位

长期：关注监管趋势

和竞品比怎么样？

总结

参考来源

相关推荐

苹果Vision Pro掌门人跳槽OpenAI，硬件战争正式打响

Sakana AI 发布 Fugu：不卷参数，卷调度

RewardSpy：专治 Reward Hacking 的 RL 训练调试神器

联系我们