面壁智能开源 BitCPM-CANN:昇腾平台首个 1.58-bit 端侧大模型
面壁智能今天联合清华大学、OpenBMB 开源社区发布 BitCPM-CANN——国内首个完全基于华为昇腾平台端到端训练并开源的三值(1.58-bit)大模型。从量化算子、训练算法到全链路框架,全部在昇腾上原生完成,包含 0.5B、1B、3B、8B 四个尺寸,与同规模 MiniCPM4 全精度版本对比,性能保留率在 90%-97.2% 之间。
这是国产算力平台在低比特大模型训练上的首次完整闭环验证。更重要的是,它证明了一条不依赖英伟达 GPU、用自主算力跑通世界级端侧模型的技术路径。

6 倍显存红利,8B 模型装进手机
相比传统 BF16 精度,BitCPM-CANN 在推理阶段释放约 6 倍显存空间。这个数字意味着什么?一个 8B 参数的 BitCPM-CANN 模型,可以在当前主流旗舰手机上流畅运行——而同等规模的全精度模型,通常需要 48GB 显存才能完整加载。
面壁智能给出的技术细节显示,BitCPM-CANN 采用三值量化方案,将模型权重压缩至 1.58 bit,同时通过改进的量化算法和训练策略,把能力损失控制在 3%-10% 之间。这个保留率在低比特量化领域已经是相当优秀的水平——要知道,业界常见的 INT8 量化方案,能力保留率通常在 85%-90%。
更关键的是,这套方案不是在实验室里跑通就完事。面壁智能基于 MindSpeed × Megatron-LM 搭建了完整的低比特训练底座,包含环境适配、32K 长序列支持、并行策略、融合算子等完整工程体系。这意味着后续所有面向昇腾的低比特训练工作,都可以直接复用这套基础设施,而不用从零开始造轮子。
为什么是 1.58-bit?
1.58-bit 这个数字看起来很奇怪——为什么不是整数?这其实是三值量化的理论极限:用 {-1, 0, 1} 三个值表示权重,理论信息熵是 log₂(3) ≈ 1.585 bit。
三值量化的优势在于,它在极致压缩和能力保留之间找到了一个甜蜜点。相比二值量化(1-bit),三值多了一个零值,可以更灵活地表达权重分布;相比 INT4(4-bit),三值的计算复杂度更低,硬件实现更简单。
Microsoft Research 在 2024 年提出的 BitNet 架构,首次证明了三值量化在大模型上的可行性。但 BitNet 的训练和推理都依赖英伟达 GPU 生态。BitCPM-CANN 的价值在于,它把这套技术路线完整移植到了国产算力平台上,并且做了大量工程优化,让它真正能用、好用。
面壁智能 AI 基础架构技术负责人、清华大学计算机系博士后李宇轩透露,团队在昇腾平台上重写了所有量化算子,针对昇腾的 CANN(Compute Architecture for Neural Networks)异构计算架构做了深度优化。这些优化不是简单的算子替换,而是从计算图编译、内存管理、算子融合等多个层面的系统性改造。
端侧大模型的内存危机
今年以来,大模型行业正在经历一场"内存危机"。云端推理成本居高不下,端侧部署又受限于设备内存,行业被迫在"模型能力"和"内存预算"之间做取舍:要么缩小模型、牺牲智能,要么承受高昂成本、限制部署规模。
更尴尬的是,低比特大模型的核心技术路线和标杆模型,此前几乎全部来自国外。BitNet 来自微软,1-bit LLM 来自 Meta,国内既缺乏系统性的工程验证,也缺少自主可控的训练底座。这种局面下,即使有了国产芯片,也只能跑别人的模型、用别人的框架。
BitCPM-CANN 的发布改变了这个格局。它证明了国产算力平台不仅能跑低比特模型,还能从头训练、端到端优化,性能不输国际主流方案。
从技术指标看,BitCPM-CANN 在中英双语通用能力上的保留率达到 95%-97%,这个数字已经接近全精度模型的表现。面壁智能公布的评测数据显示,在 MMLU、C-Eval、HumanEval 等标准测试集上,BitCPM-CANN 8B 的得分与 MiniCPM4 8B 全精度版本相差不到 3 个百分点。
昇腾生态的关键拼图
对华为昇腾来说,BitCPM-CANN 是一块关键拼图。昇腾芯片在云端训练和推理上已经有不少落地案例,但在端侧场景,尤其是手机、PC、车载等消费级设备上,一直缺少杀手级应用。
低比特大模型恰好是端侧 AI 的最佳载体。6 倍的显存红利意味着,原本需要高端旗舰机才能跑的 8B 模型,现在中端机型也能流畅运行。如果再结合 MoE(混合专家模型)和 Offloading(算力/显存卸载)技术,未来甚至可能把 60B 级别的大模型塞进手机——这会彻底打破"端侧模型要么太小能力不足、要么太大跑不动"的困境。
面壁智能与华为的合作始于 2024 年。当时面壁刚推出 MiniCPM 系列端侧模型,华为正在推动昇腾生态的端侧布局,双方一拍即合。从 MiniCPM 全面适配昇腾,到推理深度优化,再到现在的低比特训练,面壁已经成为华为在端侧大模型领域最重要的技术合作伙伴之一。
这种深度协同不是简单的模型移植。李宇轩透露,团队在昇腾平台上遇到的第一个挑战就是算子适配——昇腾的 CANN 架构与 CUDA 有本质区别,很多在 GPU 上高效的算子,在昇腾上需要完全重写。更麻烦的是,低比特量化涉及大量自定义算子,这些算子在 PyTorch 或 TensorFlow 的标准算子库里根本找不到。
团队最终选择了一条更激进的路线:基于 MindSpeed(华为自研的大模型训练框架)和 Megatron-LM(英伟达开源的分布式训练框架)搭建混合底座,既保留 Megatron-LM 成熟的并行策略和优化器,又充分利用 MindSpeed 对昇腾硬件的深度适配。这套底座不仅支持低比特训练,还支持 32K 长序列、多维并行、混合精度等高级特性,基本覆盖了大模型训练的所有常见需求。
开源策略:从模型到工具链
BitCPM-CANN 采用全面开源策略。0.5B、1B、3B、8B 四个尺寸的模型权重已经上传到 HuggingFace 和 ModelScope,训练代码、推理框架、评测脚本也一并开源。
这种开源力度在国内大模型公司里并不多见。很多公司开源模型权重,但训练代码和工具链往往保留。面壁的逻辑是:只有把整套技术栈开放出来,才能真正推动生态发展。开发者不仅能用 BitCPM-CANN,还能基于它做二次开发、微调、蒸馏,甚至训练自己的低比特模型。
从商业角度看,这种开源策略也有其合理性。端侧大模型的商业模式不是卖模型本身,而是提供端到端的解决方案——从模型训练、压缩、部署到应用集成,每个环节都有商业化空间。开源模型可以快速建立技术影响力,吸引开发者和企业客户,后续再通过商业化服务变现。
面壁智能在端侧大模型领域已经积累了不少案例。MiniCPM 系列模型发布以来,已经被集成到多款手机、PC、车载系统中。BitCPM-CANN 的发布,进一步降低了端侧部署的门槛——6 倍的显存红利意味着,原本需要 12GB 显存的模型,现在 2GB 就能跑,这会让更多中低端设备也能用上大模型。
技术细节:如何在昇腾上训练低比特模型
BitCPM-CANN 的训练流程可以分为三个阶段:
预训练阶段:使用标准 BF16 精度在大规模语料上预训练基座模型。这一阶段与常规大模型训练没有本质区别,主要目的是让模型学习语言的基本规律和知识。
量化感知训练(QAT):在预训练基座上,逐步引入三值量化约束。这个阶段是关键——如果直接把全精度权重量化到三值,模型性能会断崖式下跌。QAT 的思路是在训练过程中模拟量化效果,让模型逐步适应低比特表示。面壁团队使用了改进的直通估计器(Straight-Through Estimator)和自适应量化阈值,在保持训练稳定性的同时,最大化能力保留率。
指令微调(SFT):在量化后的模型上进行指令微调,进一步提升模型在实际任务上的表现。这一阶段使用高质量的指令数据集,覆盖问答、推理、代码、多语言等多个领域。
整个训练过程在昇腾 910B 集群上完成,8B 模型的训练时间约为 2-3 周。相比全精度训练,低比特训练的计算量并没有显著降低——量化感知训练需要额外的前向和反向传播来模拟量化效果,反而会增加一些开销。但推理阶段的收益是巨大的:显存占用降至 1/6,推理速度提升 2-3 倍。
面壁团队还公布了一些工程优化细节:
- 融合算子:将量化、激活函数、归一化等操作融合成单个算子,减少内存访问开销
- 混合并行:结合数据并行、张量并行、流水线并行,充分利用昇腾集群的算力
- 梯度检查点:在训练过程中只保存部分中间激活值,用计算换内存,支持更大的 batch size
- 动态 loss scaling:自动调整 loss 缩放因子,避免梯度下溢或上溢
这些优化不是昇腾平台独有的,但在昇腾上实现它们需要对 CANN 架构有深入理解。李宇轩表示,团队在适配过程中得到了华为昇腾团队的大力支持,很多底层算子和编译器优化都是双方联合开发的。
性能评测:接近全精度的能力保留
面壁智能公布了 BitCPM-CANN 在多个标准测试集上的表现:
| 模型 | MMLU | C-Eval | HumanEval | GSM8K | 平均保留率 |
|---|---|---|---|---|---|
| MiniCPM4-8B (BF16) | 68.2 | 71.5 | 62.8 | 74.3 | 100% |
| BitCPM-CANN-8B (1.58-bit) | 66.1 | 69.8 | 60.2 | 72.1 | 97.2% |
| MiniCPM4-3B (BF16) | 61.5 | 65.2 | 54.3 | 68.7 | 100% |
| BitCPM-CANN-3B (1.58-bit) | 58.3 | 62.1 | 51.8 | 65.4 | 95.1% |
从数据看,BitCPM-CANN 在各个尺寸上的能力保留率都在 95% 以上,8B 模型甚至达到了 97.2%。这个表现在低比特量化领域已经是顶尖水平。
更值得关注的是推理性能。面壁团队在昇腾 310P 推理卡上测试了 BitCPM-CANN-8B 的推理速度:
- 首 token 延迟:BF16 版本 180ms,1.58-bit 版本 95ms,提升 47%
- 生成速度:BF16 版本 28 tokens/s,1.58-bit 版本 65 tokens/s,提升 132%
- 显存占用:BF16 版本 16.2GB,1.58-bit 版本 2.7GB,降低 83%
这些数字意味着,在同等硬件条件下,BitCPM-CANN 可以支持更高的并发、更快的响应,或者在更低端的设备上运行。
未来:60B 模型装进手机?
面壁智能在发布会上提到,BitCPM-CANN 未来有望结合 MoE 和 Offloading 技术,把 60B 级别的大模型装进手机。这听起来有点科幻,但技术路径是清晰的:
- MoE 架构:混合专家模型只激活部分参数,60B 模型实际推理时可能只用到 8-10B 参数
- 低比特量化:1.58-bit 量化可以把 60B 模型压缩到 10GB 左右
- Offloading:把不常用的专家模块卸载到外部存储,需要时再加载进内存
三者结合,理论上可以在 12GB 内存的手机上运行 60B 模型。当然,这需要解决很多工程问题:Offloading 的延迟控制、MoE 的路由策略、低比特推理的精度损失等等。但方向是明确的,技术上也没有不可逾越的障碍。
如果这条路走通,端侧 AI 的想象空间会被彻底打开。现在的端侧模型,受限于参数规模,在复杂推理、长文本理解、多模态交互等任务上还有明显短板。60B 模型的能力已经接近 GPT-4 级别,如果能在手机上流畅运行,很多云端应用都可以迁移到端侧,隐私、成本、响应速度都会有质的提升。
国产算力的突围路径
BitCPM-CANN 的意义不止于技术本身,它更像是国产算力生态的一次集体突围。
过去几年,国产 AI 芯片在云端训练和推理上取得了不少进展,但在端侧场景,尤其是消费级设备上,一直缺少有说服力的案例。原因很简单:端侧应用对功耗、延迟、成本的要求更苛刻,对软件生态的依赖更强。没有好用的模型、没有完善的工具链,芯片性能再强也没人用。
BitCPM-CANN 补上了这块短板。它不仅证明了昇腾平台可以训练世界级的低比特模型,还提供了一套完整的开源工具链,让开发者可以零门槛上手。这对昇腾生态的价值是战略性的——有了标杆模型和成熟工具,后续的应用开发、商业落地都会顺畅很多。
从更宏观的角度看,BitCPM-CANN 代表了一条"算力自主+模型高效"的技术路线。在算力受限的情况下,通过模型压缩、量化、蒸馏等技术,用更少的资源实现更强的能力。这条路线不是权宜之计,而是端侧 AI 的必然选择——即使有了最先进的芯片,功耗和成本的约束也不会消失。
面壁智能和华为的合作,某种程度上是这条路线的一次验证。面壁提供模型和算法,华为提供算力和工具链,双方优势互补,形成了从芯片到应用的完整闭环。这种模式如果能复制到更多场景、更多合作伙伴,国产 AI 生态的自主性和竞争力都会上一个台阶。
写在最后
BitCPM-CANN 的发布,标志着国产算力平台在低比特大模型训练上完成了从 0 到 1 的突破。6 倍显存红利、95%-97% 能力保留率、完整开源工具链,这些数字背后是面壁智能和华为昇腾团队数月的深度协同。
更重要的是,它证明了一条不依赖英伟达 GPU、用自主算力跑通世界级端侧模型的技术路径。这条路还很长,但方向是对的。当 8B 模型可以在主流手机上流畅运行,当 60B 模型有望装进口袋,端侧 AI 的想象空间才刚刚打开。
BitCPM-CANN 全系列模型权重已在 HuggingFace 和 ModelScope 开源,开发者可以直接下载使用。对于想在昇腾平台上探索低比特训练的团队,这是一个不错的起点。
参考来源
- 面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN - IT之家 - 官方发布信息和技术细节
- BitCPM-CANN 模型权重 - HuggingFace - 开源模型下载地址