DeepSeek发布mHC新架构：解决大规模训练不稳定性，性能全面超越传统超连接

💡 站外导读：随着基础模型参数规模突破千亿级，传统神经网络架构在超大规模训练中面临严重的信号不稳定、梯度消失与爆炸等问题，制约了模型能力的进一步提升。DeepSeek团队针对这一核心痛点，提出了名为mHC（流形约束超连接）的新型架构，旨在从底层信号传播机制上解决扩展性难题，为构建更强大、更稳定的基础模型铺平道路。

mHC是什么

mHC（Manifold-Constrained Hyper-Connections）是DeepSeek团队推出的新型的神经网络架构设计方法，解决传统超连接（Hyper-Connections, HC）架构在大规模训练中的稳定性问题。mHC通过将HC的残差连接空间投影到特定的流形上，恢复了残差连接的恒等映射特性，有效避免了梯度爆炸或消失的问题。mHC利用Sinkhorn-Knopp算法将残差连接矩阵投影到双随机矩阵构成的流形上，确保信号在传播过程中的均值保持不变，同时严格规范信号范数。mHC结合了高效的基础设施优化，如内核融合、选择性重计算和通信重叠等技术，确保在大规模模型中的高效实现。实验表明，mHC在训练稳定性、收敛速度和下游任务性能上均优于基线模型和HC，且在大规模训练中的时间开销仅略有增加。mHC作为一种通用框架，为深度学习架构设计提供了新的思路，有望推动下一代基础架构的演进。

阅读目录

mHC是什么
mHC的主要功能
mHC的技术原理
mHC的项目地址
mHC的应用场景

📝 站长洞察 (Editor’s Insight)

mHC

mHC的主要功能

恢复恒等映射特性：通过将残差连接空间投影到特定流形上，mHC恢复了残差连接的恒等映射特性，有效解决了传统超连接架构在多层扩展时导致的信号不稳定问题，显著提升了大规模训练的稳定性。
流形约束与信号规范：利用双随机矩阵流形，mHC确保信号在传播过程中保持均值不变，并严格规范信号范数，有效避免了梯度爆炸或消失的问题，显著增强了信号传播的稳定性。
高效基础设施优化：通过内核融合、选择性重计算和通信重叠等技术，mHC在大规模模型中实现了高效运行，仅引入极小的训练开销，确保了在实际应用中的高效性和可扩展性。
提升模型性能：实验表明，mHC在多个下游任务中显著优于基线模型和传统超连接架构，特别是在复杂任务如BBH和DROP中表现突出，提升了模型的推理能力和整体性能。
可扩展性与灵活性：mHC作为一种通用框架，适用于多种模型规模，为未来探索不同的流形约束提供了新的方向，有望推动下一代基础架构的演进。

mHC的技术原理

流形投影：mHC通过将残差连接矩阵投影到特定的流形空间（如双随机矩阵的Birkhoff多面体）来约束连接矩阵的性质。这种投影确保了信号在传播过程中保持稳定，同时保留了信息交互的能力。
双随机矩阵的应用：双随机矩阵具有行和列之和均为1的特性，使信号在传播时保持均值不变，严格规范信号范数，有效避免梯度爆炸或消失的问题。
Sinkhorn-Knopp算法：mHC利用Sinkhorn-Knopp算法实现对残差连接矩阵的流形投影。通过迭代归一化行和列，将任意非负矩阵调整为双随机矩阵，实现稳定的信号传播。
恒等映射的恢复：通过流形约束，mHC恢复了残差连接的恒等映射特性，确保信号在多层网络中稳定传播，解决了传统超连接架构中因缺乏恒等映射而导致的训练不稳定性。
高效计算与优化：mHC结合了内核融合、混合精度计算、选择性重计算等技术，优化了计算效率，降低了内存访问开销，使得该架构在大规模模型训练中具有较高的效率和可扩展性。
信号传播的稳定性：mHC通过约束残差连接矩阵，确保信号在前向传播和反向传播过程中保持稳定，显著降低了信号增益的极端值，提高了模型训练的稳定性和收敛速度。

mHC的项目地址

arXiv技术论文：https://arxiv.org/pdf/2512.24880

mHC的应用场景

大规模语言模型预训练：mHC能有效提升语言模型在大规模数据集上的训练稳定性，适用于27B等超大规模语言模型的预训练任务，显著改善模型的收敛速度和性能表现。
多任务学习与推理：在涉及多种下游任务（如BBH、DROP、GSM8K等）的场景中，mHC通过增强模型的推理能力和稳定性，帮助模型在复杂任务中取得更好的成绩，提升多任务学习的效率。
高效分布式训练：mHC结合优化的基础设施设计，如内核融合和通信重叠，适用于分布式训练环境，尤其在大规模集群中能显著降低训练开销，提高训练效率。
下一代架构演进：mHC作为一种通用框架，为探索新型神经网络架构提供了基础，支持研究者在不同的流形约束和优化策略下进行创新，推动下一代基础架构的演进。
资源受限环境：由于mHC在保持性能的同时引入的计算开销极小，适用于资源受限的环境，如移动设备或边缘计算场景，能在有限的计算资源下实现高效的模型部署。
学术研究与理论探索：mHC为研究深度学习中的信号传播和架构设计提供了新的视角，适用于学术研究中对神经网络拓扑结构和优化策略的深入探索。

📝 站长洞察 (Editor’s Insight)

mHC的提出，标志着深度学习架构设计正从经验主义向更严格的数学约束范式演进。它将残差连接的优化置于“流形约束”这一更高维度的思考框架下，这不仅是对现有HC架构的修补，更是一次深刻的范式探索。在AGI竞赛白热化的当下，架构的稳定性与可扩展性已成为决定胜负的隐形基石。DeepSeek此举，不仅展示了其深厚的理论功底，更精准地瞄准了行业下一步规模化发展的“卡脖子”环节。这或将引发新一轮关于“如何为超级模型设计稳定骨架”的技术竞赛，其影响将从学术界迅速蔓延至所有致力于训练前沿模型的企业。

DeepSeek发布mHC新架构：解决大规模训练不稳定性，性能全面超越传统超连接

mHC是什么

mHC的主要功能

mHC的技术原理

mHC的项目地址

mHC的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

Monday.com 员 630 人，聚焦人工智能战略

[AI生图咒语] 3D 渲染

[AI生图咒语] 漫画 / 图画小说

[AI生图咒语] 草图 / 线稿

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

mHC是什么

mHC的主要功能

mHC的技术原理

mHC的项目地址

mHC的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复