近日,面壁智能联合清华大学及 OpenBMB 开源社区,正式发布并开源了中国首个基于华为昇腾平台训练的三值(1.58-bit)大模型 ——BitCPM-CANN。该模型在低比特大模型训练领域取得了重大突破,标志着中国在人工智能技术上的又一里程碑。

BitCPM-CANN 的发布,是国产算力平台能力的一次集中体现,它从底层量化算子到上层训练算法,均实现了全链路的原生化开发。该系列模型提供了0.5B、1B、3B和8B四种规格,在性能上表现出色。通过与同规格的全精度模型MiniCPM4进行逐项对比评测,BitCPM-CANN展现了令人瞩目的优势。特别是在推理阶段,它能释放约6倍的显存红利,这意味着即便是拥有80亿参数的模型,也能在当前的主流旗舰手机上流畅运行,为手机行业带来了革命性的便利。

image.png

官方介绍,面壁智能基于 MindSpeed 与 Megatron-LM 搭建了完整的低比特训练底座,涵盖了环境适配、32K 长序列支持、并行策略、融合算子等工程体系。今后,所有面向昇腾的低比特训练工作都可以依托这一套公共基础设施。这不仅降低了开发门槛,也加快了技术的迭代速度。

image.png

为了让这项技术更广泛地惠及开发者,BitCPM-CANN 所有模型的权重均已开源。开发者们可以直接从HuggingFace和ModelScope平台下载使用。这无疑为整个社区提供了一个极具价值的工具,有望催生出更多创新的AI应用。

综上所述,BitCPM-CANN 的发布标志着中国在 AI 大模型训练领域迈出了坚实的一步,为未来的智能应用铺平了道路。