💡 站外导读:随着万亿参数大模型时代到来,混合专家(MoE)架构在异构芯片(如NPU)上的推理性能瓶颈日益凸显,数据搬运不充分、激活反复搬运等底层算子问题严重制约部署效率。国际机器学习系统顶会MLSys2026举办MoE推理优化挑战赛,直指这一行业痛点。清华大学与腾讯混元团队联合攻克,展示了我国在大模型系统适配与算子优化领域的突破。
清华大学存储实验室与腾讯混元AI Infra团队近日联合宣布,在国际机器学习系统顶级会议MLSys2026举办的MoE模型推理优化挑战赛中荣获全球冠军。

面对万亿参数时代,混合专家(MoE)架构在异构芯片(如NPU)上进行推理时,性能常遇到瓶颈。为此,联合团队专门针对官方指定的模型及NPU硬件,设计了一套全链路的优化方案。他们引入了“E-Shard”策略,将任务按专家拆分到双核处理;同时结合PSUM三维张量批量读出、将输出打散至多个Bank并行处理的GEMV路径,并利用标量引擎降低数据搬运的初始延迟。这一系列“组合拳”有效解决了数据搬运不充分、激活值反复搬运等底层算子的关键难题。
同时,针对注意力模块,团队重构片上数据布局并融合Transformer关键算子,实现了比特级高精度对齐。

图3展示了该MoE优化结构的整体示意图,其中包含了E-Shard专家切分、连续DMA传输、PSUM与GEMV的并发执行、冷启动流水线以及预取控制等多个关键模块。
在此次角逐中,团队还联合研发了基于Agent的推理算子优化器“Knight”,通过方案提出、代码落地与复盘迭代的自动化闭环,大幅拓展了优化搜索空间。最终,该方案将模型端到端推理时间由14.91s缩短至3.56s,性能加速达4.1倍;单步解码延迟从12.63ms降至5.45ms,权重加载期间的DMA引擎利用率攀升至约80%。
此次击败Stanford、MIT等国际顶尖高校并成功夺冠,不仅体现了我国团队在大模型底层系统适配与算子优化方面积累的深厚实力,也为未来在超节点算力平台上部署万亿参数级别的MoE模型,提供了极具参考价值的工程实践范例。
📝 站长洞察 (Editor’s Insight)
此次夺冠绝非偶然,而是中国在大模型底层系统竞赛中持续发力的缩影。万亿参数MoE模型的崛起,使推理优化从单纯的算法问题转向全栈系统工程,涉及硬件调度、数据流水、算子融合等多维度。团队提出的E-Shard策略与PSUM并发方案,体现了对NPU硬件特性的深度挖掘,而基于Agent的优化器‘Knight’则预示着AI驱动AI优化的自动化趋势。这标志着大模型竞争已从训练规模延伸至推理效率,未来超节点算力平台的部署将更依赖此类工程范式,推动行业从‘能用’到‘好用’的关键跨越。
