面壁智能联合清华大学发布 ForgeTrain，全球首个完全由 AI 编写的生产级训练框架，并用它在华为昇腾上训出 2B 以下全球最优的 MiniCPM5-1B 模型，打通「AI 制造 AI」完整闭环。

AI 写代码训练 AI：面壁智能开源首个零人类代码训练框架

面壁智能今天（5 月 27 日）联合清华大学、OpenBMB 开源社区发布了 ForgeTrain——全球首个完全由 AI 编写、零人类程序员参与的生产级大模型训练框架。更关键的是，他们用这个框架在华为昇腾芯片上成功训练出新一代端侧模型 MiniCPM5-1B，在 AA-Index 榜单上拿下 2B 参数以下全球第一。

这标志着「AI 写的框架 → 在国产芯片上运行 → 训出领先的 AI 模型」这条完整闭环被打通。框架代码和制造框架的完整工具链 Agent Harness 已同步开源。

ForgeTrain 架构示意图与 MiniCPM5-1B 性能对比

训练框架也能让 AI 写了

训练框架是大模型开发的基础设施，相当于盖楼的脚手架。过去这类框架都由人类工程师手写，比如英伟达的 Megatron、微软的 DeepSpeed。ForgeTrain 的特殊之处在于，从第一行代码到最后一个函数，全部由 AI 生成，没有人类程序员参与编写。

面壁智能的做法是构建了一套完整的 AI Agent 工具链 Agent Harness，包含评测标准、测试规约和智能体编排方案。AI 按照这套规范自主生成代码、运行测试、修复 bug、优化性能，整个过程像是让 AI 当了一回「全栈工程师」。

这不是玩具级别的实验。ForgeTrain 是一个完整的预训练框架，支持分布式训练、混合精度、梯度累积等生产环境必需的特性。更重要的是，它的训练速度比英伟达 Megatron 还快 10%。在华为昇腾芯片上，这个优势进一步扩大到 10% 的加速。

MiniCPM5-1B：1B 参数打败 2B 对手

ForgeTrain 不是纸上谈兵。面壁智能用它训练出了 MiniCPM5-1B，一个仅 1B 参数的端侧文本基座模型。这个模型在国际知名榜单 AA-Index（Artificial Analysis Intelligence Index）上超越了所有 2B 参数以下的模型，包括三个月前发布的 Qwen3.5-2B。

对比更直观：MiniCPM5-1B 参数量只有 Qwen3.5-2B 的一半，但性能更优。INT4 量化后权重仅 0.5GB，能直接跑在手机上、跑在浏览器里。这是面壁智能「密度法则」的又一次验证——用更少的参数装下更多知识。

面壁智能联合创始人、清华大学计算机系副教授刘知远曾提出大模型的「密度法则」（Densing Law）：模型的能力密度每 100 天可以倍增一次。意思是每过 100 天就可以用一半的参数实现 100 天之前模型的能力。MiniCPM5-1B 的表现再次印证了这一规律。

从逐比特对齐到性能反超

ForgeTrain 的开源不只是放出框架代码，还包括完整的制造工具链 Agent Harness。任何团队都可以用它复现从逐比特对齐到性能反超的全过程。

所谓「逐比特对齐」，是指 AI 生成的代码在数值精度上与人类编写的参考实现完全一致。这是验证 AI 代码正确性的严格标准。Agent Harness 提供了完整的评测标准和测试规约，确保 AI 生成的代码不仅能跑通，还能在精度、性能、稳定性上达到生产级要求。

更进一步，ForgeTrain 在某些场景下的性能已经超过人类编写的框架。在华为昇腾芯片上训练时，ForgeTrain 比 Megatron 快 10%。这说明 AI 不仅能写出正确的代码,还能通过大量实验和优化找到人类可能忽略的性能瓶颈。

国产芯片 + AI 框架 + 领先模型

这次发布最值得关注的是完整闭环的打通。ForgeTrain 在华为昇腾芯片上完成了 MiniCPM5-1B 的预训练,训练速度比英伟达 Megatron 快 10%。这意味着国产芯片 + AI 生成的训练框架 + 全球领先的模型,整条链路已经跑通。

过去大模型训练严重依赖英伟达 GPU 和配套的软件栈。ForgeTrain 的出现打破了这种依赖。它不仅能在昇腾芯片上高效运行,还通过 AI 自动生成代码的方式,大幅降低了适配新硬件的成本。理论上,只要提供硬件的基础算子,AI 就能自动生成适配的训练框架。

这对国产 AI 生态的意义不言而喻。芯片、框架、模型三个环节都实现了自主可控,而且性能不输甚至超过国际主流方案。

端侧模型的「以小博大」

面壁智能从成立之初就选择了一条与众不同的路径——端侧模型。当其他公司在「百模大战」中比拼参数规模时,面壁智能专注于提高模型的能力密度,让模型能在手机、PC 等终端设备上运行。

MiniCPM5-1B 是这一路线的最新成果。1B 参数的规模意味着它可以在几乎所有终端设备上流畅运行,包括中低端手机。INT4 量化后仅 0.5GB 的权重,下载和部署都非常轻量。但性能上它超越了所有 2B 以下的模型,甚至在某些任务上能挑战更大规模的模型。

这种「以小博大」的能力来自三个方面：

高效的模型架构：MiniCPM 系列采用了面壁智能自研的架构,能在有限参数下装下更多知识。最新的 MiniCPM 4.1 文本基座模型在架构上做了创新,推理速度比同尺寸模型快五倍。
数据治理：从 PB 级数据中筛选出真正高信息量的「教材」,而不是简单地用更多数据喂模型。
模型风洞：通过大量小规模实验掌握训练规律,再把规律外推到真正需要训练的模型上,避免盲目试错。

开源策略与生态构建

ForgeTrain 和 MiniCPM5-1B 都选择了完全开源。框架代码、模型权重、训练数据集、部署方案全部公开。这在商业公司中并不常见,尤其是训练框架这种核心技术。

面壁智能的开源策略有两个考量。一是通过开源建立技术影响力。MiniCPM 系列模型在国际开源社区 HuggingFace 上多次登顶,甚至被美国斯坦福大学的团队「抄袭」过（后来致歉撤下）。这种影响力反过来吸引更多开发者和合作伙伴。

二是加速端侧 AI 生态的成熟。端侧模型的落地需要整个生态的配合,包括芯片厂商、终端厂商、应用开发者。开源降低了接入门槛,让更多参与者能基于 MiniCPM 构建自己的应用。

目前 MiniCPM 系列已经在汽车、手机等终端领域实现规模化落地。刘知远预计,装载其端侧模型的设备数量将在不久的将来实现十倍增长。

AI 制造 AI 的未来

ForgeTrain 的意义不止于一个训练框架。它代表了一种新的软件开发范式：让 AI 承担越来越多的编程工作,人类专注于定义目标、设计规范、验证结果。

这种范式在大模型训练这种复杂系统中尤其有价值。训练框架涉及分布式计算、数值优化、硬件适配等多个专业领域,传统上需要资深工程师花费数月甚至数年开发。AI 可以在几天内生成初版代码,然后通过自动化测试和优化快速迭代。

更进一步,AI 生成的代码可能探索出人类不会尝试的优化路径。ForgeTrain 在昇腾芯片上比 Megatron 快 10%,部分原因就是 AI 通过大量实验找到了更优的算子组合和调度策略。

当然,这不意味着人类工程师会被取代。Agent Harness 的设计、评测标准的制定、训练目标的确定,这些都需要人类的专业判断。AI 是工具,帮助人类更高效地实现目标,而不是替代人类做决策。

技术细节与开源资源

ForgeTrain 的核心是一套 AI Agent 编排系统。它将训练框架的开发分解为多个子任务：

代码生成：根据功能需求生成初版代码
单元测试：自动生成测试用例并执行
性能优化：通过 profiling 找到瓶颈并优化
逐比特对齐：与参考实现进行数值精度对比
集成测试：在真实训练任务中验证稳定性

每个子任务由专门的 Agent 负责,Agent 之间通过消息传递协作。整个过程是迭代式的：生成代码 → 测试 → 发现问题 → 修复 → 再测试,直到满足所有质量标准。

Agent Harness 提供了完整的工具链,包括：

评测标准：定义什么样的代码是合格的
测试规约：如何验证代码的正确性和性能
智能体编排方案：如何组织多个 Agent 协作

开源资源已发布在 GitHub：

ForgeTrain 框架代码：https://github.com/OpenBMB/ForgeTrain
MiniCPM5-1B 模型权重和数据集：通过 HuggingFace 和 ModelScope 分发

行业影响与竞争格局

ForgeTrain 的发布会对大模型训练领域产生几个影响：

降低训练框架的开发门槛：过去只有大公司和顶尖研究机构有能力开发生产级训练框架。现在任何团队都可以用 Agent Harness 生成自己的框架,或者基于 ForgeTrain 定制。
加速硬件适配：新硬件（如国产 AI 芯片）的软件生态建设一直是难点。AI 自动生成适配代码可以大幅缩短这个周期。
推动端侧 AI 落地：MiniCPM5-1B 证明了小参数模型也能达到很高的性能。随着端侧模型能力的提升,更多应用会从云端迁移到终端,降低延迟和成本。

在竞争格局上,面壁智能走的是差异化路线。当 OpenAI、Anthropic、Google 在云端大模型上竞争时,面壁智能专注端侧,避开了正面交锋。当其他端侧模型厂商还在手工优化时,面壁智能已经用 AI 生成训练框架,建立了方法论上的领先。

这种领先不只是技术层面的。面壁智能背靠清华大学自然语言处理实验室,有十几年的研究积累。团队在 2020 年就训练了全球第一个中文开源大模型 CPM,是中国奠基性大模型「悟道」的前身。这种深厚的学术背景和工程经验,是短期内难以复制的。

未来方向：自主强化学习

刘知远在接受采访时透露,明年和后年 AI 领域将出现重要的里程碑式突破——「自主强化学习」技术的成熟。

过去模型的学习方式是逐字学习,按照训练数据的顺序一个 token 一个 token 地预测。从去年到今年,学习范式开始扩展到探索式强化学习。模型可以自己创造数据来学习,比如对一个数学题,模型会探索出十几种不同解题思路,用标准答案验证对错,然后从中学习。

这是非常重要的学习范式突破。人类智能的高水平体现不是沿着教材逐字学习,而是具备自主学习能力。任何一个优秀毕业生放到工作岗位上待半年就能成为专家,这种自主性非常关键。

突破自主强化学习后,模型将在任何一个给定领域里持续演化成长。从全球分布来看,最大的算力其实位于用户的终端之上。如果能把这样的模型放到终端上运行,就会成为每个人的专属智能个人助理。

ForgeTrain 和 MiniCPM5-1B 是朝这个方向迈出的一步。AI 生成训练框架,降低了模型开发的门槛。端侧模型的能力密度持续提升,让复杂的 AI 能力可以在终端运行。当这两条线交汇时,每个人都能拥有一个在本地持续学习、不断进化的 AI 助手。

这不是科幻,而是正在发生的现实。面壁智能用三年时间证明了端侧 AI 的可行性,现在又用 AI 制造 AI 的方式加速了这个进程。接下来的问题不是能不能做到,而是谁能更快做到。

参考来源

AI 制造 AI：面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain - IT之家官方报道
面壁智能开源MiniCPM5-1B：在AA-Index 上超越所有2B 参数以下模型 - MiniCPM5-1B 技术细节
ForgeTrain GitHub 仓库 - 开源代码和文档
2B以下全球最佳！AI训练AI，面壁小钢炮训练成本比英伟达低10% - 知乎技术讨论