Mistral 发布 Leanstral 1.5：6.5B 激活参数的 Lean 4 证明模型

Mistral 6 月 30 日更新了专攻 Lean 4 形式化证明的 Leanstral 1.5，119B 总参数、6.5B 激活的稀疏架构，跑一遍基准只要 36 美元，价格是 Claude Sonnet 4.6 的零头。

6 月 30 日，Mistral 悄悄把 Leanstral 更新到了 1.5 版本。发布节奏一如既往地欧洲人风格——没有发布会、没有预热，就一篇博客加一张模型卡，扔进 playground 就算完事。

这是继 3 月首版 Leanstral 之后的第一次大更新。定位没变：一个专门给 Lean 4 写形式化证明的代码代理模型。总参数 119B，激活 6.5B，稀疏 MoE 架构，跑起来比一个 7B 稠密模型还轻，但吃的活儿是数学家和验证工程师的活儿。

Leanstral 1.5 模型卡截图，展示 119B 总参数 / 6.5B 激活参数的架构信息

先说这次更新到底改了什么

坦白讲，Mistral 这次的信息披露相当克制。模型卡里没有放新的 benchmark 数字，也没说清楚相比 3 月版本的具体提升点。目前能确认的是：

架构参数不变——119B 总参数、6.5B 激活；
继续针对 Lean 4 的两大核心任务优化：自动定理证明（ATP）和自动形式化（autoformalization）；
可以在 Mistral AI playground 免费试用；
权重发布政策官方还没正式表态，3 月首版是 Apache 2.0，1.5 版本会不会跟随，得再等等。

所以更准确地说，这次是一次在架构不动的前提下重新训练+微调的迭代，不是一次算力翻倍的大版本。Mistral 自己在博客里用了「Proof Abundance for All」这个标题，翻译过来大概意思是：让形式化证明这件事变得便宜、够用、不再是学术圈的奢侈品。

这个定位其实挺关键，我们后面会聊。

一个专门做「证明」的模型，为什么值得关注

先把背景补齐。Lean 4 是一门用来写形式化数学证明和验证程序正确性的编程语言，由微软研究院和莱布尼茨中心主导开发。跟普通编程语言不一样的是，Lean 4 写出来的每一行不只是「能跑」，而是「被机器逐行验证过、逻辑上无懈可击」。

听起来很酷，但用过的人都知道痛在哪：极难写。一个数学系博士生用 Lean 证明一个本科教材上的引理，可能要花一周。写代码的人如果想用 Lean 证明自己函数的正确性，那更是要把每个不变量、每个边界条件都手动喂给证明器。

这就是为什么 AI 圈这两年一直在往这个方向砸资源。DeepMind 有 AlphaProof，OpenAI 内部有相关探索，国内的 Kimi 和智谱都在做数学证明的模型。逻辑很简单：能自动证明数学定理的 AI，大概率也能自动证明代码没 bug。

这在金融清算、航天嵌入式、密码学库这些「一个 bug 死一片」的场景里，是刚需。

Mistral 3 月份切进来做 Leanstral，用的是这个思路的极致版本——把「形式化证明」当成一个独立的模型能力，而不是通用模型的一个 side task。

稀疏架构 + 专业化，成本上直接把 Claude 拉下水

性能这块，3 月版本的对比数据我们有，1.5 版本 Mistral 没重新跑 benchmark，但架构没变，可以做参考。

在 miniF2F、ProofNet 这类 Lean 4 主流基准上，Leanstral 的 pass@2 是 26.3 分，比 Claude Sonnet 4.6 高 2.6 分。这个差距不算特别夸张，真正吓人的是成本对比：

| 模型 | pass@2 | 跑完基准成本 | |------|--------|-------------| | Leanstral | 26.3 | $36 | | Claude Sonnet 4.6 | 23.7 | $549 | | Claude Opus 4.6 | 更高 | 更贵 |

一次证明任务，Leanstral 是 Sonnet 的 1/15 价格。

为什么能便宜到这个程度？稀疏 MoE 是一半原因，激活参数只有 6.5B，推理时该走的算力路径就是那么点。另一半是专业化——通用模型在 Lean 上要绕一大堆弯路，Leanstral 训练时就是喂 Lean 4 的语料和证明轨迹长大的，没有认知税。

对比的开源阵营也不轻松。Qwen3.5 397B-A17B、Kimi-K2.5 1T-A32B、GLM5 744B-A40B 这几个都是激活参数几十 B 起步的重量级选手，在通用 Lean 任务上被一个 6.5B 激活的模型打，说明专业化模型在垂直领域仍然打得过通用大模型——至少在这个成本区间是这样。

这也是 Mistral 一贯的产品哲学：不追 SOTA，追 Pareto。你要最好的，去用 Opus；你要够用又便宜的，那用 Mistral 家的。

「可自证的代码」不是营销词，是真需求

讲点技术细节。Leanstral 在实际工作流里是怎么用的？

简单说，两种模式：

第一种：自动定理证明（ATP）。 你写好一个数学命题，比如「对任意自然数 n，n 加 0 等于 n」，模型自动生成 Lean 4 的证明脚本。这在数学库（比如 mathlib4）的补全、教育、研究里都有用。

第二种：自动形式化（autoformalization）。 你用自然语言或者 Python/Rust 代码描述一个规范，比如「这个排序函数返回一个有序且元素相同的列表」，模型帮你把它翻译成 Lean 4 的形式化规范，然后再生成证明。

第二种模式是真正有产业价值的。举个具体场景：

-- 一段简化的 IMP 语言语义规则
E_Seq (c1 c2 : com) (st st' st'' : state) 
      (h1 : ceval c1 st st') 
      (h2 : ceval c2 st' st'') :
      ceval (CSeq c1 c2) st st''

这样的规则一个中型编译器可能有几百条，每条都要证明保持某些不变量。人肉写要几个月，Leanstral 这类模型可以把周期压到几天。

把范围放大点看——这几年 vibe coding、AI 全自动写代码的路线，一个死结就是「AI 写的代码你敢不敢上生产」。银行敢不敢让 Claude 直接改核心账务？航天敢不敢让 GPT 生成的 C 代码烧进控制器？答案基本都是不敢。

但如果 AI 写出来的每个函数都带一份 Lean 4 证明，证明它满足预先声明的规范，那画风就变了。Mistral 官方那篇博客里把这套东西叫「trustworthy vibe coding」——可信氛围编程，翻译得有点别扭，但意思到位了。

Leanstral 应用场景示意图，展示从自然语言规范到 Lean 4 证明的自动化流水线

也有值得吐槽的地方

夸完了说几句实话。

第一，1.5 版本的更新透明度太低。 没新 benchmark，没跟老版本的对比图，没说 weight 什么时候放出来。Mistral 这两年在开放性上其实是在往回收的——你看 Medium 3.5、Voxtral TTS 都不再是完全开源，Leanstral 首版是 Apache 2.0，1.5 版本会不会延续这个政策，官方回避了这个问题。开源社区已经在 HuggingFace 的 discussion 里追问了。

第二，Lean 4 的绝对生态还是太小。 全球会用 Lean 4 熟练写证明的人可能不到一万，模型再便宜，用户基数不涨，商业化天花板就在那儿。Mistral 押这个方向更像是「押未来」，不是「押现在」。

第三，pass@2 才 26.3 分意味着什么。 意思是给模型两次尝试，成功率四分之一多一点。这个成绩比 Sonnet 好，但远没到「可以自动化取代人类」的水平。真要落地到金融系统、核心基础设施，这个通过率至少要翻两倍。Mistral 定位「Proof Abundance」——让证明变多变便宜，但没说「让证明变对」，措辞其实很谨慎。

对开发者意味着什么

如果你在做形式化验证、数学库开发、编译器正确性证明这类事情，Leanstral 1.5 值得试一下 playground，一分钱不花，对着自己手头的 Lean 4 项目跑几个 tactic 生成，看看命中率。

如果你是做通用 AI 编程工具的（比如 IDE 插件、Copilot 类产品），可以留意 Leanstral 后面会不会集成到主流的 Lean 4 工具链里。3 月版本已经有社区做了 vscode 插件的适配，1.5 版本大概率会跟进。

如果你只是普通业务开发者——短期内没什么直接影响，但可以留个印象：AI 生成的代码开始有能力「自证清白」了。这条路径走通之后，行业对 AI 编程可靠性的信任门槛会重新校准。

最后说个观察。这两年模型发布的节奏已经明显分层了：一层是 Opus、GPT、Gemini 那种大而全的旗舰，卷通用能力；另一层是像 Leanstral 这样的专业化小模型，卷成本、卷垂直领域的极致效率。Mistral 明显选了后者作为差异化路线。在通用大模型的「智力过剩」逐渐显现的今天，这个选择未必是防守，反而可能是主动的定位。

跟一个稀疏 MoE 的 119B 模型比智商没意思，比它在你需要的那件小事上便宜多少、准多少，才是真的有用。