清华大学存储实验室与腾讯混元AI Infra团队近日联合宣布,在国际机器学习系统顶级会议MLSys2026举办的MoE模型推理优化挑战赛中荣获全球冠军。

QQ20260525-090728.jpg

面对万亿参数时代,混合专家(MoE)架构在异构芯片(如NPU)上进行推理时,性能常遇到瓶颈。为此,联合团队专门针对官方指定的模型及NPU硬件,设计了一套全链路的优化方案。他们引入了“E-Shard”策略,将任务按专家拆分到双核处理;同时结合PSUM三维张量批量读出、将输出打散至多个Bank并行处理的GEMV路径,并利用标量引擎降低数据搬运的初始延迟。这一系列“组合拳”有效解决了数据搬运不充分、激活值反复搬运等底层算子的关键难题。

同时,针对注意力模块,团队重构片上数据布局并融合Transformer关键算子,实现了比特级高精度对齐。

QQ20260525-090739.jpg

图3展示了该MoE优化结构的整体示意图,其中包含了E-Shard专家切分、连续DMA传输、PSUM与GEMV的并发执行、冷启动流水线以及预取控制等多个关键模块。

在此次角逐中,团队还联合研发了基于Agent的推理算子优化器“Knight”,通过方案提出、代码落地与复盘迭代的自动化闭环,大幅拓展了优化搜索空间。最终,该方案将模型端到端推理时间由14.91s缩短至3.56s,性能加速达4.1倍;单步解码延迟从12.63ms降至5.45ms,权重加载期间的DMA引擎利用率攀升至约80%。

此次击败Stanford、MIT等国际顶尖高校并成功夺冠,不仅体现了我国团队在大模型底层系统适配与算子优化方面积累的深厚实力,也为未来在超节点算力平台上部署万亿参数级别的MoE模型,提供了极具参考价值的工程实践范例。