Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepSeek发布mHC新架构:解决大规模训练不稳定性,性能全面超越传统超连接
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > DeepSeek发布mHC新架构:解决大规模训练不稳定性,性能全面超越传统超连接
AI 工具AIGC 资讯

DeepSeek发布mHC新架构:解决大规模训练不稳定性,性能全面超越传统超连接

站外新闻
最近更新: 2026年6月7日 下午8:08
DeepSeek 基础模型 大规模训练 梯度消失 神经网络架构
SHARE

💡 站外导读:随着基础模型参数规模突破千亿级,传统神经网络架构在超大规模训练中面临严重的信号不稳定、梯度消失与爆炸等问题,制约了模型能力的进一步提升。DeepSeek团队针对这一核心痛点,提出了名为mHC(流形约束超连接)的新型架构,旨在从底层信号传播机制上解决扩展性难题,为构建更强大、更稳定的基础模型铺平道路。

mHC是什么

mHC(Manifold-Constrained Hyper-Connections)是DeepSeek团队推出的新型的神经网络架构设计方法,解决传统超连接(Hyper-Connections, HC)架构在大规模训练中的稳定性问题。mHC通过将HC的残差连接空间投影到特定的流形上,恢复了残差连接的恒等映射特性,有效避免了梯度爆炸或消失的问题。mHC利用Sinkhorn-Knopp算法将残差连接矩阵投影到双随机矩阵构成的流形上,确保信号在传播过程中的均值保持不变,同时严格规范信号范数。mHC结合了高效的基础设施优化,如内核融合、选择性重计算和通信重叠等技术,确保在大规模模型中的高效实现。实验表明,mHC在训练稳定性、收敛速度和下游任务性能上均优于基线模型和HC,且在大规模训练中的时间开销仅略有增加。mHC作为一种通用框架,为深度学习架构设计提供了新的思路,有望推动下一代基础架构的演进。

阅读目录
  • mHC是什么
  • mHC的主要功能
  • mHC的技术原理
  • mHC的项目地址
  • mHC的应用场景
      • 📝 站长洞察 (Editor’s Insight)

mHC

mHC的主要功能

  • 恢复恒等映射特性:通过将残差连接空间投影到特定流形上,mHC恢复了残差连接的恒等映射特性,有效解决了传统超连接架构在多层扩展时导致的信号不稳定问题,显著提升了大规模训练的稳定性。
  • 流形约束与信号规范:利用双随机矩阵流形,mHC确保信号在传播过程中保持均值不变,并严格规范信号范数,有效避免了梯度爆炸或消失的问题,显著增强了信号传播的稳定性。
  • 高效基础设施优化:通过内核融合、选择性重计算和通信重叠等技术,mHC在大规模模型中实现了高效运行,仅引入极小的训练开销,确保了在实际应用中的高效性和可扩展性。
  • 提升模型性能:实验表明,mHC在多个下游任务中显著优于基线模型和传统超连接架构,特别是在复杂任务如BBH和DROP中表现突出,提升了模型的推理能力和整体性能。
  • 可扩展性与灵活性:mHC作为一种通用框架,适用于多种模型规模,为未来探索不同的流形约束提供了新的方向,有望推动下一代基础架构的演进。

mHC的技术原理

  • 流形投影:mHC通过将残差连接矩阵投影到特定的流形空间(如双随机矩阵的Birkhoff多面体)来约束连接矩阵的性质。这种投影确保了信号在传播过程中保持稳定,同时保留了信息交互的能力。
  • 双随机矩阵的应用:双随机矩阵具有行和列之和均为1的特性,使信号在传播时保持均值不变,严格规范信号范数,有效避免梯度爆炸或消失的问题。
  • Sinkhorn-Knopp算法:mHC利用Sinkhorn-Knopp算法实现对残差连接矩阵的流形投影。通过迭代归一化行和列,将任意非负矩阵调整为双随机矩阵,实现稳定的信号传播。
  • 恒等映射的恢复:通过流形约束,mHC恢复了残差连接的恒等映射特性,确保信号在多层网络中稳定传播,解决了传统超连接架构中因缺乏恒等映射而导致的训练不稳定性。
  • 高效计算与优化:mHC结合了内核融合、混合精度计算、选择性重计算等技术,优化了计算效率,降低了内存访问开销,使得该架构在大规模模型训练中具有较高的效率和可扩展性。
  • 信号传播的稳定性:mHC通过约束残差连接矩阵,确保信号在前向传播和反向传播过程中保持稳定,显著降低了信号增益的极端值,提高了模型训练的稳定性和收敛速度。

mHC的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2512.24880

mHC的应用场景

  • 大规模语言模型预训练:mHC能有效提升语言模型在大规模数据集上的训练稳定性,适用于27B等超大规模语言模型的预训练任务,显著改善模型的收敛速度和性能表现。
  • 多任务学习与推理:在涉及多种下游任务(如BBH、DROP、GSM8K等)的场景中,mHC通过增强模型的推理能力和稳定性,帮助模型在复杂任务中取得更好的成绩,提升多任务学习的效率。
  • 高效分布式训练:mHC结合优化的基础设施设计,如内核融合和通信重叠,适用于分布式训练环境,尤其在大规模集群中能显著降低训练开销,提高训练效率。
  • 下一代架构演进:mHC作为一种通用框架,为探索新型神经网络架构提供了基础,支持研究者在不同的流形约束和优化策略下进行创新,推动下一代基础架构的演进。
  • 资源受限环境:由于mHC在保持性能的同时引入的计算开销极小,适用于资源受限的环境,如移动设备或边缘计算场景,能在有限的计算资源下实现高效的模型部署。
  • 学术研究与理论探索:mHC为研究深度学习中的信号传播和架构设计提供了新的视角,适用于学术研究中对神经网络拓扑结构和优化策略的深入探索。

📝 站长洞察 (Editor’s Insight)

mHC的提出,标志着深度学习架构设计正从经验主义向更严格的数学约束范式演进。它将残差连接的优化置于“流形约束”这一更高维度的思考框架下,这不仅是对现有HC架构的修补,更是一次深刻的范式探索。在AGI竞赛白热化的当下,架构的稳定性与可扩展性已成为决定胜负的隐形基石。DeepSeek此举,不仅展示了其深厚的理论功底,更精准地瞄准了行业下一步规模化发展的“卡脖子”环节。这或将引发新一轮关于“如何为超级模型设计稳定骨架”的技术竞赛,其影响将从学术界迅速蔓延至所有致力于训练前沿模型的企业。

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
Quasar Alpha – 支持百万 token 上下文的免费 AI 模型
DICE-Talk – 复旦联合腾讯优图推出的情感化动态肖像生成框架
VOGE
NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型
TAGGED:DeepSeek基础模型大规模训练梯度消失神经网络架构
分享
Email 复制链接 打印
Share
上一篇 IQuest-Coder-V1开源!128K上下文+循环架构,40B参数挑战顶尖代码大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

IQuest-Coder-V1开源!128K上下文+循环架构,40B参数挑战顶尖代码大模型
AI 工具 AIGC 资讯
Vibe Kanban:开源自研AI编程Agent可视化看板,智能调度Claude Code/Gemini CLI多代理并行开发
AI 工具
ClipSketch AI:开源AI视频工具,自动提取B站小红书关键帧生成手绘故事板,免费使用
AIGC 资讯
元象XVERSE-Ent开源:专为泛娱乐打造的中英双语底座大模型,支持单卡部署
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架

站外新闻
AIGC 资讯

TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变

站外新闻
AIGC 资讯

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

站外新闻
AI 工具

Content Company

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小米 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.