GPT-5.6来了:三档定价,政府限流

OpenAI正式发布GPT-5.6系列,推出Sol/Terra/Luna三档模型。旗舰版Sol编程跑分超越Claude Mythos 5,但应美国政府要求仅向「可信合作伙伴」限量预览,OpenAI罕见公开表态:这不应成为长期默认做法。
GPT-5.6来了:三档定价,政府限流
OpenAI今天(6月27日)正式发布GPT-5.6系列模型。
这次发布有两个看点:一是产品层面,OpenAI一口气推出三档模型,定价策略相当激进;二是发布方式——应美国政府要求,GPT-5.6暂时只向少数「可信合作伙伴」开放预览,这在OpenAI历史上还是头一回。
更值得玩味的是,OpenAI在公告里罕见地公开表达了不满:「我们认为,这种政府介入的访问流程不应成为长期默认模式。」
三档模型:Sol、Terra、Luna
GPT-5.6系列包含三个版本,命名走的是天体路线——Sol(太阳)、Terra(地球)、Luna(月亮),分别对应旗舰、均衡、入门三档定位。
GPT-5.6 Sol:旗舰担当
Sol是OpenAI目前最强的模型,定位很明确——复杂推理、科研、软件开发、网络安全、生物研究以及Agent工作流。
能力上有几个关键升级:
- 新增Max推理强度:可以让模型在复杂问题上「想得更深」
- Ultra模式:借助子智能体加速复杂任务执行,类似于让多个Agent并行协作
- 编程能力显著提升:在Terminal-Bench 2.1测试中,标准模式得分88.8%,超过Claude Mythos 5的88.0%;开启Ultra模式后达到91.9%
Terminal-Bench 2.1测的是命令行工作流能力,需要规划、迭代和工具协调,是目前衡量模型「干活能力」的主流基准之一。
网络安全方面,Sol在漏洞研究和利用这类长链路任务上提升明显。在ExploitBench测试中,它用大约1/3的输出token就能接近Mythos Preview的表现——换句话说,同样的活儿,花费更少。
GPT-5.6 Terra:性价比之选
Terra的定位是「平替GPT-5.5」,性能基本持平,但价格直接砍半。
对于大多数日常开发场景——写代码、改Bug、做文档、处理数据——Terra应该是最具性价比的选择。从测试数据看,Terra在Terminal-Bench 2.1上的表现甚至超过了Claude Fable 5,这个成绩放在中端模型里相当能打。
GPT-5.6 Luna:跑量神器
Luna主打速度快、价格低,适合高频次、大规模任务。
OpenAI的说法是Luna能力「仅次于GPT-5.5」,但胜在便宜。如果你的场景是批量处理、在线服务、高吞吐调用,Luna会是成本最优解。
定价:比Anthropic便宜一半
三档模型的API定价如下(每百万token):
| 模型 | 输入价格 | 缓存价格 | 输出价格 | |------|----------|----------|----------| | Sol | $5 | $0.5 | $30 | | Terra | $2.5 | $0.25 | $15 | | Luna | $1 | $0.1 | $6 |
换算成人民币(按当前汇率):
- Sol:输入约34元,输出约204元/百万token
- Terra:输入约17元,输出约102元/百万token
- Luna:输入约6.8元,输出约41元/百万token
横向对比一下:Anthropic旗舰模型Claude Fable 5的定价是输入$10、输出$50。Sol作为同级别旗舰,价格只有Fable 5的一半左右。
这个定价策略很激进。OpenAI显然在用价格战抢市场——既然性能上已经领先(至少在编程基准上),价格再打下来,竞争对手的日子就不太好过了。
另外值得注意的是,OpenAI优化了提示词缓存机制。如果调用过程中出现重复的提示词,会自动走缓存计费,成本更低、更可预测。这对Agent场景和多轮对话场景是个利好。
核心能力深挖
编程能力:Terminal-Bench实测数据
先看具体数据:
| 模型 | Terminal-Bench 2.1 得分 | |------|------------------------| | GPT-5.6 Sol (Ultra) | 91.9% | | GPT-5.6 Sol (标准) | 88.8% | | Claude Mythos 5 | 88.0% | | GPT-5.6 Terra | 超过Fable 5 |
Terminal-Bench测的是什么?简单说,就是让模型在真实的命令行环境里完成开发任务——读代码、改代码、跑测试、修Bug、部署服务。这不是选择题式的知识问答,而是要真刀真枪地「干活」。
88.8%超过Mythos 5的88.0%,差距不算大。但开启Ultra模式后跳到91.9%,这个提升就相当可观了。Ultra模式的原理是调用子智能体并行处理,本质上是用更多计算换更好结果——当然,费用也会相应增加。
生物学:GeneBench表现
在GeneBench v1测试中,GPT-5.6 Sol比GPT-5.5更强,同时消耗更少token。
这对生物信息学、基因组分析等场景的开发者是个好消息。模型能力提升的同时成本下降,ROI直接改善。
网络安全:ExploitBench效率提升
网络安全是这次升级的重点领域之一。
GPT-5.6 Sol在ExploitBench中展现了两个优势:
- 性能接近顶尖:与Mythos Preview相近
- 效率大幅提升:只用了约1/3的输出token
漏洞研究和利用属于长链路任务,需要模型理解代码逻辑、分析攻击面、构造利用方案。能用更少token完成同样任务,意味着成本下降、响应速度提升。
安全设计:分层防护体系
OpenAI强调GPT-5.6采用了分层防护体系,包括:
- 模型内置拒答:对危险请求直接拒绝
- 生成过程实时分类器:边生成边检测
- 账户级风险审查:识别高风险账户
- 差异化访问:不同用户不同权限
- 监控和执法机制:事后追溯
对于高风险情况,系统可以暂停生成,把内容交给更大的推理模型复核;如果判定违规,内容会在展示给用户之前被拦截。
发布前,OpenAI进行了超过70万GPU小时的自动化安全测试,以及大量外部红队评估。
根据Deployment Safety报告,GPT-5.6虽然在自主执行任务、漏洞分析和复杂推理方面能力增强,但OpenAI认为它尚未达到Preparedness Framework中需要最高等级限制的危险阈值。
简单说:模型更强了,但还没强到「必须严格限制部署」的程度。
发布方式:美国政府介入
这次发布最特殊的地方,不是模型本身,而是发布方式。
OpenAI在公告中写道:
「作为与美国政府持续沟通的一部分,在今天发布之前,我们先行展示了我们的计划及模型能力。应政府要求,我们将首先向一小部分受信任的合作伙伴提供有限预览,这些合作伙伴的参与情况已向政府报备,随后再进行更广泛的发布。」
翻译一下:美国政府要求OpenAI在全面发布前,先把模型给政府过一遍,然后只能向「经过批准的机构」开放。
首批获得权限的企业大约二十家左右。普通开发者和企业用户,暂时只能等。
OpenAI的公开不满
有意思的是,OpenAI在官方公告里直接表达了对这种安排的不满:
「我们认为,这种政府介入的访问流程不应成为长期默认模式。它阻碍了那些真正需要这些顶尖工具的用户、开发者、企业、网络安全防御者及全球合作伙伴获取这些资源。」
这种公开「怼」政府的做法,在科技公司里相当罕见。
OpenAI的立场很清楚:短期配合是为了换取未来几周内的更广泛发布,但这不应该成为常态。他们希望与政府合作,建立一套「可重复执行的审批流程」,而不是让政府逐案审批成为AI行业的长期运行方式。
背景:特朗普政府的AI监管
这事要放在大背景下看。
特朗普政府近期明显加强了对前沿AI模型的国家安全监管。此前,Anthropic就被要求撤回部分新模型的公开发布。美国政府正在建立针对「受监管前沿模型」(Covered Frontier Models)的评估体系。
政府的逻辑是:具有强大网络安全能力的AI模型可能被用于攻击关键基础设施,所以需要在公开前进行安全审查。
OpenAI的逻辑是:限制开放会让真正需要这些工具的人(包括网络安全防御者)无法及时获取,反而可能损害整体安全。
谁对谁错?这是个没有标准答案的问题。但可以确定的是,AI行业的竞争已经不仅仅是模型能力的竞争,还包括监管博弈。
API调用示例
对于已经获得访问权限的开发者,或者等到GPT-5.6全面开放后想第一时间尝试的开发者,这里提供一个调用示例。
国内开发者可以通过OpenAI Hub直接调用,兼容OpenAI格式,省去网络问题的折腾:
import openai
client = openai.OpenAI(
api_key="your-openai-hub-key",
base_url="https://api.openai-hub.com/v1"
)
# 调用GPT-5.6 Sol
response = client.chat.completions.create(
model="gpt-5.6-sol", # 或 gpt-5.6-terra / gpt-5.6-luna
messages=[
{"role": "system", "content": "You are a senior software engineer."},
{"role": "user", "content": "Review this code and suggest optimizations..."}
],
# 可选:设置推理强度
# reasoning_effort="max" # 仅Sol支持
)
print(response.choices[0].message.content)
如果想启用Ultra模式(子智能体加速),需要额外的参数配置,具体文档等OpenAI正式公开后会更新。
对开发者的实际影响
短期:等
如果你不在首批「可信合作伙伴」名单里,目前能做的就是等。OpenAI说会在「未来几周内」全面开放,具体时间取决于政府审查流程的推进。
中期:选择合适的档位
等到全面开放后,三档模型怎么选?
- Sol:复杂Agent工作流、科研、安全研究、需要最强推理能力的场景
- Terra:日常开发、代码审查、文档生成、大部分企业应用场景
- Luna:高QPS在线服务、批量数据处理、成本敏感场景
大多数开发者的日常需求,Terra应该就够了。Sol的价格是Terra的两倍,适合「不差钱但求最强」的场景。
长期:关注监管趋势
这次发布暴露出一个趋势:美国政府正在更深度地介入前沿AI模型的发布流程。
对于依赖最新模型的开发者和企业来说,这意味着未来可能需要考虑更多的合规因素。模型发布时间、访问权限、使用限制,都可能受到监管影响。
和竞品比怎么样?
目前能直接对比的是Claude系列。
| 维度 | GPT-5.6 Sol | Claude Mythos 5 | Claude Fable 5 | |------|-------------|-----------------|----------------| | Terminal-Bench 2.1 | 88.8% (标准) / 91.9% (Ultra) | 88.0% | 低于Terra | | 输入价格 | $5 | - | $10 | | 输出价格 | $30 | - | $50 |
从编程基准和定价看,GPT-5.6的竞争力相当强:性能领先,价格更低。
但需要注意几点:
- 基准测试不代表一切:不同任务、不同场景,模型表现可能差异很大
- Ultra模式有额外成本:91.9%的成绩是开Ultra模式跑出来的,实际使用成本会更高
- 可用性是关键:目前GPT-5.6只有限量预览,Claude系列可能已经全面可用
总结
GPT-5.6系列是一次相当扎实的升级:
- 三档定价满足不同场景需求
- 编程能力在主流基准上领先Mythos 5
- 价格策略激进,比Anthropic便宜一半
- 新增Max推理和Ultra模式,拉高了能力上限
但这次发布最值得关注的,可能不是模型本身,而是发布方式的变化。美国政府首次深度介入全球最先进AI模型的发布流程,OpenAI也罕见地公开表达不满。
AI行业正在进入一个新阶段:不仅要比模型,还要比监管。
对于国内开发者,等GPT-5.6全面开放后,通过OpenAI Hub这类聚合平台可以第一时间体验新模型。在此之前,可以先用GPT-5.5或其他模型把业务跑起来,等新模型到位后平滑切换。
参考来源
- IT之家:OpenAI最强AI模型GPT-5.6系列登场 - 详细报道GPT-5.6发布及性能数据
- Linux.do:GPT-5.6已经向有限用户推出 - 社区讨论及定价信息汇总



