面壁智能联合清华大学开源国内首个完全基于华为昇腾训练的三值大模型 BitCPM-CANN，推理显存占用降至 1/6，能力保留率达 95%-97%，8B 模型可在主流旗舰手机运行。

面壁智能开源 BitCPM-CANN:昇腾平台首个 1.58-bit 端侧大模型

面壁智能今天联合清华大学、OpenBMB 开源社区发布 BitCPM-CANN——国内首个完全基于华为昇腾平台端到端训练并开源的三值（1.58-bit）大模型。从量化算子、训练算法到全链路框架,全部在昇腾上原生完成,包含 0.5B、1B、3B、8B 四个尺寸,与同规模 MiniCPM4 全精度版本对比,性能保留率在 90%-97.2% 之间。

这是国产算力平台在低比特大模型训练上的首次完整闭环验证。更重要的是,它证明了一条不依赖英伟达 GPU、用自主算力跑通世界级端侧模型的技术路径。

BitCPM-CANN 模型架构示意图,展示从量化算子到训练框架的完整技术栈

6 倍显存红利,8B 模型装进手机

相比传统 BF16 精度,BitCPM-CANN 在推理阶段释放约 6 倍显存空间。这个数字意味着什么?一个 8B 参数的 BitCPM-CANN 模型,可以在当前主流旗舰手机上流畅运行——而同等规模的全精度模型,通常需要 48GB 显存才能完整加载。

面壁智能给出的技术细节显示,BitCPM-CANN 采用三值量化方案,将模型权重压缩至 1.58 bit,同时通过改进的量化算法和训练策略,把能力损失控制在 3%-10% 之间。这个保留率在低比特量化领域已经是相当优秀的水平——要知道,业界常见的 INT8 量化方案,能力保留率通常在 85%-90%。

更关键的是,这套方案不是在实验室里跑通就完事。面壁智能基于 MindSpeed × Megatron-LM 搭建了完整的低比特训练底座,包含环境适配、32K 长序列支持、并行策略、融合算子等完整工程体系。这意味着后续所有面向昇腾的低比特训练工作,都可以直接复用这套基础设施,而不用从零开始造轮子。

为什么是 1.58-bit?

1.58-bit 这个数字看起来很奇怪——为什么不是整数?这其实是三值量化的理论极限:用 {-1, 0, 1} 三个值表示权重,理论信息熵是 log₂(3) ≈ 1.585 bit。

三值量化的优势在于,它在极致压缩和能力保留之间找到了一个甜蜜点。相比二值量化(1-bit),三值多了一个零值,可以更灵活地表达权重分布;相比 INT4(4-bit),三值的计算复杂度更低,硬件实现更简单。

Microsoft Research 在 2024 年提出的 BitNet 架构,首次证明了三值量化在大模型上的可行性。但 BitNet 的训练和推理都依赖英伟达 GPU 生态。BitCPM-CANN 的价值在于,它把这套技术路线完整移植到了国产算力平台上,并且做了大量工程优化,让它真正能用、好用。

面壁智能 AI 基础架构技术负责人、清华大学计算机系博士后李宇轩透露,团队在昇腾平台上重写了所有量化算子,针对昇腾的 CANN(Compute Architecture for Neural Networks)异构计算架构做了深度优化。这些优化不是简单的算子替换,而是从计算图编译、内存管理、算子融合等多个层面的系统性改造。

端侧大模型的内存危机

今年以来,大模型行业正在经历一场"内存危机"。云端推理成本居高不下,端侧部署又受限于设备内存,行业被迫在"模型能力"和"内存预算"之间做取舍:要么缩小模型、牺牲智能,要么承受高昂成本、限制部署规模。

更尴尬的是,低比特大模型的核心技术路线和标杆模型,此前几乎全部来自国外。BitNet 来自微软,1-bit LLM 来自 Meta,国内既缺乏系统性的工程验证,也缺少自主可控的训练底座。这种局面下,即使有了国产芯片,也只能跑别人的模型、用别人的框架。

BitCPM-CANN 的发布改变了这个格局。它证明了国产算力平台不仅能跑低比特模型,还能从头训练、端到端优化,性能不输国际主流方案。

从技术指标看,BitCPM-CANN 在中英双语通用能力上的保留率达到 95%-97%,这个数字已经接近全精度模型的表现。面壁智能公布的评测数据显示,在 MMLU、C-Eval、HumanEval 等标准测试集上,BitCPM-CANN 8B 的得分与 MiniCPM4 8B 全精度版本相差不到 3 个百分点。

昇腾生态的关键拼图

对华为昇腾来说,BitCPM-CANN 是一块关键拼图。昇腾芯片在云端训练和推理上已经有不少落地案例,但在端侧场景,尤其是手机、PC、车载等消费级设备上,一直缺少杀手级应用。

低比特大模型恰好是端侧 AI 的最佳载体。6 倍的显存红利意味着,原本需要高端旗舰机才能跑的 8B 模型,现在中端机型也能流畅运行。如果再结合 MoE(混合专家模型)和 Offloading(算力/显存卸载)技术,未来甚至可能把 60B 级别的大模型塞进手机——这会彻底打破"端侧模型要么太小能力不足、要么太大跑不动"的困境。

面壁智能与华为的合作始于 2024 年。当时面壁刚推出 MiniCPM 系列端侧模型,华为正在推动昇腾生态的端侧布局,双方一拍即合。从 MiniCPM 全面适配昇腾,到推理深度优化,再到现在的低比特训练,面壁已经成为华为在端侧大模型领域最重要的技术合作伙伴之一。

这种深度协同不是简单的模型移植。李宇轩透露,团队在昇腾平台上遇到的第一个挑战就是算子适配——昇腾的 CANN 架构与 CUDA 有本质区别,很多在 GPU 上高效的算子,在昇腾上需要完全重写。更麻烦的是,低比特量化涉及大量自定义算子,这些算子在 PyTorch 或 TensorFlow 的标准算子库里根本找不到。

团队最终选择了一条更激进的路线:基于 MindSpeed(华为自研的大模型训练框架)和 Megatron-LM(英伟达开源的分布式训练框架)搭建混合底座,既保留 Megatron-LM 成熟的并行策略和优化器,又充分利用 MindSpeed 对昇腾硬件的深度适配。这套底座不仅支持低比特训练,还支持 32K 长序列、多维并行、混合精度等高级特性,基本覆盖了大模型训练的所有常见需求。

开源策略:从模型到工具链

BitCPM-CANN 采用全面开源策略。0.5B、1B、3B、8B 四个尺寸的模型权重已经上传到 HuggingFace 和 ModelScope,训练代码、推理框架、评测脚本也一并开源。

这种开源力度在国内大模型公司里并不多见。很多公司开源模型权重,但训练代码和工具链往往保留。面壁的逻辑是:只有把整套技术栈开放出来,才能真正推动生态发展。开发者不仅能用 BitCPM-CANN,还能基于它做二次开发、微调、蒸馏,甚至训练自己的低比特模型。

从商业角度看,这种开源策略也有其合理性。端侧大模型的商业模式不是卖模型本身,而是提供端到端的解决方案——从模型训练、压缩、部署到应用集成,每个环节都有商业化空间。开源模型可以快速建立技术影响力,吸引开发者和企业客户,后续再通过商业化服务变现。

面壁智能在端侧大模型领域已经积累了不少案例。MiniCPM 系列模型发布以来,已经被集成到多款手机、PC、车载系统中。BitCPM-CANN 的发布,进一步降低了端侧部署的门槛——6 倍的显存红利意味着,原本需要 12GB 显存的模型,现在 2GB 就能跑,这会让更多中低端设备也能用上大模型。

技术细节:如何在昇腾上训练低比特模型

BitCPM-CANN 的训练流程可以分为三个阶段:

预训练阶段:使用标准 BF16 精度在大规模语料上预训练基座模型。这一阶段与常规大模型训练没有本质区别,主要目的是让模型学习语言的基本规律和知识。
量化感知训练(QAT):在预训练基座上,逐步引入三值量化约束。这个阶段是关键——如果直接把全精度权重量化到三值,模型性能会断崖式下跌。QAT 的思路是在训练过程中模拟量化效果,让模型逐步适应低比特表示。面壁团队使用了改进的直通估计器(Straight-Through Estimator)和自适应量化阈值,在保持训练稳定性的同时,最大化能力保留率。
指令微调(SFT):在量化后的模型上进行指令微调,进一步提升模型在实际任务上的表现。这一阶段使用高质量的指令数据集,覆盖问答、推理、代码、多语言等多个领域。

整个训练过程在昇腾 910B 集群上完成,8B 模型的训练时间约为 2-3 周。相比全精度训练,低比特训练的计算量并没有显著降低——量化感知训练需要额外的前向和反向传播来模拟量化效果,反而会增加一些开销。但推理阶段的收益是巨大的:显存占用降至 1/6,推理速度提升 2-3 倍。

面壁团队还公布了一些工程优化细节:

融合算子:将量化、激活函数、归一化等操作融合成单个算子,减少内存访问开销
混合并行:结合数据并行、张量并行、流水线并行,充分利用昇腾集群的算力
梯度检查点:在训练过程中只保存部分中间激活值,用计算换内存,支持更大的 batch size
动态 loss scaling:自动调整 loss 缩放因子,避免梯度下溢或上溢

这些优化不是昇腾平台独有的,但在昇腾上实现它们需要对 CANN 架构有深入理解。李宇轩表示,团队在适配过程中得到了华为昇腾团队的大力支持,很多底层算子和编译器优化都是双方联合开发的。

性能评测:接近全精度的能力保留

面壁智能公布了 BitCPM-CANN 在多个标准测试集上的表现:

模型	MMLU	C-Eval	HumanEval	GSM8K	平均保留率
MiniCPM4-8B (BF16)	68.2	71.5	62.8	74.3	100%
BitCPM-CANN-8B (1.58-bit)	66.1	69.8	60.2	72.1	97.2%
MiniCPM4-3B (BF16)	61.5	65.2	54.3	68.7	100%
BitCPM-CANN-3B (1.58-bit)	58.3	62.1	51.8	65.4	95.1%

从数据看,BitCPM-CANN 在各个尺寸上的能力保留率都在 95% 以上,8B 模型甚至达到了 97.2%。这个表现在低比特量化领域已经是顶尖水平。

更值得关注的是推理性能。面壁团队在昇腾 310P 推理卡上测试了 BitCPM-CANN-8B 的推理速度:

首 token 延迟:BF16 版本 180ms,1.58-bit 版本 95ms,提升 47%
生成速度:BF16 版本 28 tokens/s,1.58-bit 版本 65 tokens/s,提升 132%
显存占用:BF16 版本 16.2GB,1.58-bit 版本 2.7GB,降低 83%

这些数字意味着,在同等硬件条件下,BitCPM-CANN 可以支持更高的并发、更快的响应,或者在更低端的设备上运行。

未来:60B 模型装进手机?

面壁智能在发布会上提到,BitCPM-CANN 未来有望结合 MoE 和 Offloading 技术,把 60B 级别的大模型装进手机。这听起来有点科幻,但技术路径是清晰的:

MoE 架构:混合专家模型只激活部分参数,60B 模型实际推理时可能只用到 8-10B 参数
低比特量化:1.58-bit 量化可以把 60B 模型压缩到 10GB 左右
Offloading:把不常用的专家模块卸载到外部存储,需要时再加载进内存

三者结合,理论上可以在 12GB 内存的手机上运行 60B 模型。当然,这需要解决很多工程问题:Offloading 的延迟控制、MoE 的路由策略、低比特推理的精度损失等等。但方向是明确的,技术上也没有不可逾越的障碍。

如果这条路走通,端侧 AI 的想象空间会被彻底打开。现在的端侧模型,受限于参数规模,在复杂推理、长文本理解、多模态交互等任务上还有明显短板。60B 模型的能力已经接近 GPT-4 级别,如果能在手机上流畅运行,很多云端应用都可以迁移到端侧,隐私、成本、响应速度都会有质的提升。

国产算力的突围路径

BitCPM-CANN 的意义不止于技术本身,它更像是国产算力生态的一次集体突围。

过去几年,国产 AI 芯片在云端训练和推理上取得了不少进展,但在端侧场景,尤其是消费级设备上,一直缺少有说服力的案例。原因很简单:端侧应用对功耗、延迟、成本的要求更苛刻,对软件生态的依赖更强。没有好用的模型、没有完善的工具链,芯片性能再强也没人用。

BitCPM-CANN 补上了这块短板。它不仅证明了昇腾平台可以训练世界级的低比特模型,还提供了一套完整的开源工具链,让开发者可以零门槛上手。这对昇腾生态的价值是战略性的——有了标杆模型和成熟工具,后续的应用开发、商业落地都会顺畅很多。

从更宏观的角度看,BitCPM-CANN 代表了一条"算力自主+模型高效"的技术路线。在算力受限的情况下,通过模型压缩、量化、蒸馏等技术,用更少的资源实现更强的能力。这条路线不是权宜之计,而是端侧 AI 的必然选择——即使有了最先进的芯片,功耗和成本的约束也不会消失。

面壁智能和华为的合作,某种程度上是这条路线的一次验证。面壁提供模型和算法,华为提供算力和工具链,双方优势互补,形成了从芯片到应用的完整闭环。这种模式如果能复制到更多场景、更多合作伙伴,国产 AI 生态的自主性和竞争力都会上一个台阶。

写在最后

BitCPM-CANN 的发布,标志着国产算力平台在低比特大模型训练上完成了从 0 到 1 的突破。6 倍显存红利、95%-97% 能力保留率、完整开源工具链,这些数字背后是面壁智能和华为昇腾团队数月的深度协同。

更重要的是,它证明了一条不依赖英伟达 GPU、用自主算力跑通世界级端侧模型的技术路径。这条路还很长,但方向是对的。当 8B 模型可以在主流手机上流畅运行,当 60B 模型有望装进口袋,端侧 AI 的想象空间才刚刚打开。

BitCPM-CANN 全系列模型权重已在 HuggingFace 和 ModelScope 开源,开发者可以直接下载使用。对于想在昇腾平台上探索低比特训练的团队,这是一个不错的起点。

参考来源

面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN - IT之家 - 官方发布信息和技术细节
BitCPM-CANN 模型权重 - HuggingFace - 开源模型下载地址

面壁智能开源 BitCPM-CANN：昇腾平台首个 1.58-bit 端侧大模型