OpenAI 最新推理模型独立证明推翻了保罗·埃尔德什 1946 年提出的几何猜想，这是 AI 首次在数学核心领域自主攻克重大未解难题，标志着通用推理能力的关键突破。

OpenAI 推理模型推翻 80 年几何猜想：通用推理能力迎来关键突破

OpenAI 刚刚宣布了一个足以载入 AI 史册的成果：其最新推理模型独立推导出原创数学证明,推翻了匈牙利数学家保罗·埃尔德什(Paul Erdős)在 1946 年提出的一道著名几何猜想。这不是 AI 第一次解数学题,但这是第一次,一个通用模型在没有针对性训练的情况下,自主攻克了某个数学核心领域的重大未解难题。

这次 OpenAI 学聪明了。七个月前,时任副总裁凯文·韦尔(Kevin Weil)在 X 平台发文称 GPT-5 攻克了 10 道埃尔德什难题,结果被扒出来只是找到了文献里的现成答案,引来杨立昆、DeepMind CEO 德米斯·哈萨比斯等一众大佬嘲讽,韦尔灰溜溜删了推文。这次不一样,OpenAI 直接拉来了多位数学家背书,包括诺加·阿隆(Noga Alon)、梅兰妮·伍德(Melanie Wood),以及当初打脸韦尔最狠的托马斯·布鲁姆(Thomas Bloom)——他运营着埃尔德什难题专题网站,这次却公开为 OpenAI 站台。

OpenAI 推理模型证明过程示意图,展示从传统正方形网格到新构造体系的转变

推翻的是什么猜想?

埃尔德什在组合几何领域提出过大量问题,这次被推翻的猜想涉及点集的最优配置问题。近 80 年来,数学家们普遍认为最优解应该接近正方形网格结构——这是一种直觉上很自然的对称性假设。但 OpenAI 的模型发现了一类全新的构造体系,性能明显优于传统网格,直接推翻了这个长期共识。

这类问题看似抽象,实际应用广泛。点集配置问题关系到编码理论、网络设计、材料科学中的晶格结构优化等领域。更重要的是,这道题属于组合数学的核心问题,解法往往需要跨越多个子领域的技巧,对 AI 的推理深度和知识整合能力要求极高。

这次为什么可信?

首先,OpenAI 这次给出的是原创证明,不是从文献里抄答案。布鲁姆在声明中明确表示,这个构造体系此前从未出现在数学文献中,是模型独立发现的。其次,证明已经过多位专业数学家验证,不是 OpenAI 自说自话。

更关键的是,这个模型不是专门为解数学题训练的专用系统,而是一个通用推理模型。OpenAI 强调,这是同一个模型在处理各类推理任务时展现出的能力,不是针对埃尔德什问题做了特殊优化。这意味着这种推理能力是可迁移的,不局限于数学领域。

从技术路径看,这应该是 OpenAI 去年 9 月发布的 o1 系列推理模型的后续版本。o1 采用"思维链"(chain of thought)机制,在输出答案前会进行长时间的内部推理,类似人类解题时的草稿纸过程。这次能推翻埃尔德什猜想,说明新一代模型在推理深度和探索能力上又有了质的提升。

推理模型到底强在哪?

传统大模型像 GPT-4 在数学推理上已经很强,但面对真正的未解决问题,往往只能给出似是而非的尝试,无法保证严格性。推理模型的核心区别在于:

1. 更长的推理链条
o1 系列模型可以维持数千步的推理过程,每一步都在验证前面的结论、探索新的方向。这种"慢思考"模式让模型有时间尝试多种策略,而不是像传统模型那样快速给出第一反应。

2. 自我验证机制
推理模型会主动检查自己的推导是否存在逻辑漏洞,发现错误后回溯重来。这类似数学家做证明时的反复推敲,而不是一条路走到黑。

3. 跨领域知识整合
OpenAI 特别强调,模型能"以科研人员此前未曾设想的方式打通不同学科领域的知识关联"。埃尔德什问题的解法可能借鉴了代数、拓扑、概率论等多个分支的技巧,这种综合能力是专用系统难以企及的。

去年 o1 发布时,OpenAI 公布的基准测试数据已经很惊人:在国际数学奥林匹克(IMO)题目上,o1 正确率达到 83%,而 GPT-4o 只有 13%。在博士级别的物理、化学、生物问题上,o1 的表现也大幅超越前代模型。但那些都是已有标准答案的题目,这次推翻埃尔德什猜想,是真正意义上的原创性突破。

o1 系列模型在数学、编程、科学推理等基准测试中的性能对比图

对其他领域意味着什么?

OpenAI 认为这次突破的意义远超数学本身。如果模型能在组合几何这种高度抽象的领域做出原创贡献,那在其他科研领域同样有潜力:

生物学: 蛋白质折叠、基因调控网络分析需要处理海量组合可能性,推理模型可能发现新的结构模式或调控机制。

物理学: 理论物理中的猜想验证、新材料性质预测,都需要长链条的逻辑推导和跨学科知识整合。

工程学: 复杂系统的优化设计,比如芯片布局、网络拓扑,本质上也是组合优化问题,与埃尔德什问题有相似性。

医学: 药物分子设计、疾病机理推断,需要在庞大的化学空间和生物通路中寻找最优解,推理模型的探索能力可能加速这一过程。

布鲁姆的评论很有意思:"人工智能正助力我们全方位探索数百年来人类搭建起的数学知识殿堂,还有多少未曾发掘的精妙奥秘,正静待世人发现?" 这暗示了一个可能性:大量数学猜想之所以悬而未决,不是因为它们本质上无法证明,而是因为人类数学家的探索路径受限于直觉和经验。AI 不受这些限制,可能在看似不相关的领域找到突破口。

这是 AGI 的前兆吗?

去年 12 月 OpenAI 发布 o3 模型时,在 ARC-AGI 基准测试中取得了接近人类水平的成绩,一度引发"AGI 今夜降临"的讨论。ARC-AGI 专门测试抽象推理能力,被认为是通向通用人工智能的关键指标。陶哲轩曾预言这类测试会难住 AI 好几年,结果 o3 直接破解。

这次推翻埃尔德什猜想,进一步印证了推理模型在抽象思维上的突破。但要说 AGI 已经到来,还为时尚早。数学证明是一个相对封闭的领域,规则明确、反馈清晰,AI 容易验证自己的推理是否正确。现实世界的问题往往模糊、多变、缺乏明确标准,推理模型能否在这些场景下保持同样的能力,还需要更多验证。

不过有一点可以确定:推理能力的提升,正在改变 AI 的应用边界。过去大模型主要用于生成、总结、翻译这类"浅层"任务,现在开始进入需要深度思考的领域。如果推理模型能稳定地在科研、工程、医疗等专业领域做出原创贡献,那它的价值将远超现有的 AI 应用。

OpenAI 的策略转向

从 GPT-4 到 o1,OpenAI 的技术路线发生了明显转向。GPT-4 追求的是更大规模、更多数据、更强的模式识别能力,本质上是"快思考"模式的极致。o1 系列则引入了"慢思考",用更多计算换取更深的推理,这是一种质的变化。

这次推翻埃尔德什猜想,可能是 OpenAI 为下一代模型造势。如果新模型能在更多科研问题上取得突破,OpenAI 就能把自己定位为"科研助手"而不仅仅是"聊天机器人",这对商业化和融资都有巨大价值。毕竟,帮科学家解决未解难题的 AI,比写邮件的 AI 值钱得多。

但也要警惕过度炒作。七个月前 GPT-5 的乌龙事件还历历在目,OpenAI 这次虽然拉来了数学家背书,但具体的证明细节、模型架构、训练方法都没有公开。在正式论文发表、同行评议完成之前,保持一定的审慎是必要的。

对开发者的启示

推理模型的崛起,对 AI 应用开发者意味着什么?首先,不要再把大模型当成简单的"文本生成器"。如果你的应用需要复杂决策、多步规划、逻辑推导,推理模型可能比传统大模型更合适,即使它的响应速度更慢、成本更高。

其次,推理模型的能力边界还在快速扩展。今天它能推翻数学猜想,明天可能就能设计新药、优化芯片、发现物理定律。如果你在做科研工具、专业决策系统、复杂优化平台,现在就该考虑如何集成推理模型。

最后,推理模型的出现,可能会改变 AI 产品的交互模式。用户不再需要快速得到答案,而是愿意等待几分钟甚至更长时间,换取一个经过深度思考的结果。这对产品设计提出了新要求:如何让用户理解模型在"思考"什么?如何展示推理过程?如何让用户信任一个需要长时间计算的 AI?

OpenAI Hub 已经支持 o1 系列模型的调用,开发者可以用统一的 API 格式测试推理能力在自己场景下的表现。考虑到推理模型的计算成本较高,建议先在小规模数据上验证效果,确认有明显提升后再大规模部署。

from openai import OpenAI

client = OpenAI(
    api_key=\"your-openai-hub-key\",
    base_url=\"https://api.openai-hub.com/v1\"
)

response = client.chat.completions.create(
    model=\"o1-preview\",  # 或 o1-mini
    messages=[
        {
            \"role\": \"user\",
            \"content\": \"请证明:对于任意正整数n,存在n个不同的正整数,使得它们的倒数之和等于1。\"
        }
    ],
    # 推理模型不支持 temperature 等参数
    # 会自动进行内部推理,响应时间较长
)

print(response.choices[0].message.content)

写在最后

推翻埃尔德什猜想,对 AI 来说是一个里程碑,但对数学来说只是开始。数学中还有无数未解难题,从黎曼猜想到 P vs NP,从孪生素数猜想到哥德巴赫猜想,每一个都比埃尔德什的几何问题更难、更重要。AI 能走多远,取决于推理能力能提升到什么程度。

但有一点可以确定:AI 不会取代数学家,就像计算器没有取代数学家一样。数学的核心不是计算或证明,而是提出好问题、建立新概念、发现深层联系。AI 可以成为强大的工具,帮助数学家探索更广阔的空间,但数学的方向,仍然需要人类来指引。

布鲁姆的那句话说得好:"还有多少未曾发掘的精妙奥秘,正静待世人发现?" 现在,我们有了一个新的探索伙伴。

参考来源

AI 推翻著名几何猜想,OpenAI 宣布攻克 80 年数学难题 - IT之家
OpenAI 官方宣布推理模型推翻埃尔德什几何猜想的详细报道
主流大模型数学猜想证明创新生成能力评估 - 知乎
对比分析各大模型在数学推理和猜想证明方面的能力差异