💡 站外导读:随着大模型推理规模进入万卡时代,PD分离部署成为主流范式,但其产生的动态、不对称KV Cache传输流量,正给传统三层网络架构带来结构性拥塞、高昂硬件成本和尾延迟飙升的严峻挑战。如何用更低的成本构建无阻塞、高弹性的AI算力底座,已成为行业核心痛点。智谱AI与清华大学联合发布的ZCube架构,正是针对这一难题提出的下一代解决方案。
ZCube是什么
ZCube是智谱AI联合驭驯网络与清华大学推出的下一代大模型推理网络架构,专为解决PD分离部署中的结构性网络拥塞设计。架构取消传统Spine层交换机,采用全网扁平化拓扑与单/多轨混合接入机制,实现全局流量解耦与离散化路由。在GLM-5.1 coding生产环境实测中,ZCube在保持GPU和软件栈不变的前提下,将交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,TTFT P99降低40.6%。
阅读目录

ZCube的主要功能
-
取消Spine层的扁平化组网:打破传统Clos架构层次化堆叠思路,保留Leaf交换机层并通过完全二部图互联,将网络直径从3跳压缩至2跳。
-
单/多轨混合接入机制:一组Leaf交换机用单轨方式连接连续标号的GPU,另一组用多轨方式连接相同标号的GPU,使PD分离产生的动态不对称流量天然离散化。
-
全局负载均衡路由:ZCube路由策略确保任意GPU对之间仅存在一条唯一最优路径,避免多路径选路引发的流量冲突,在训练和推理场景均实现全网理想负载均衡。
-
结构性拥塞消除:通过架构层创新将KV Cache跨节点传输流量进行全局解耦与离散化,从根本上消除局部热点链路和PFC反压。
ZCube的技术原理
-
完全二部图拓扑:将Leaf交换机按奇偶分为两组,组内交换机互不连接,组间每台交换机与另一组所有交换机全连接,形成扁平化网络。
-
双端口差异化接入:每张GPU网卡的两个端口分别用单轨(连接奇数交换机)和多轨(连接偶数交换机)方式接入,用数学映射公式实现确定性路由。
-
确定性最短路径路由:基于GPU编号与交换机编号的模运算和向上取整映射,确保任意两GPU之间仅有一条经过两台Leaf交换机的最优路径。
-
流量模式适配:针对PD分离产生的源-目的不对称、动态变化的KV Cache传输特征,通过拓扑结构本身实现流量天然分散,无需依赖自适应路由或报文喷洒等传输层机制。
如何使用ZCube
- 架构规划:将Leaf交换机按奇偶序号分为两组,设计完全二部图互联拓扑,取消传统Spine层。
- 端口接入配置:为每张GPU网卡的双端口分别配置单轨与多轨混合接入策略,连接至对应奇偶交换机。
- 自动化部署:用ZCube控制器、机房布局设计工具和连线正确性检测程序,完成配置自动生成与批量下发。
- 生产验证:在推理服务上线前进行带宽、时延和PFC事件监控,确认无结构性拥塞热点后正式切流。
ZCube的核心优势
-
成本显著降低:相同规模下比Clos/ROFT减少约33%的交换机和光模块投入,万卡智算集群可节省网络硬件投资约2.1亿至6.4亿元。
-
推理性能提升:在GLM-5.1 coding生产实测中,GPU平均推理吞吐提升15%以上,TTFT的P99分位数下降40.6%。
-
超强扩展能力:基于现有51.2T交换机可构建连接16384块400Gbps网卡的扁平网络,通过多平面划分可支持数万至数十万GPU互联。
-
零侵入式升级:无需改动GPU硬件、软件栈或应用逻辑,仅通过网络架构层调优即可释放现有硬件潜能。
ZCube的项目地址
- 项目官网:https://z.ai/blog/zcube
ZCube的同类竞品对比
| 对比维度 | ZCube | ROFT(Rail-Optimized Fat-Tree) |
|---|---|---|
| 网络架构 | 扁平化二部图,取消Spine层 | 两层Fat-Tree,保留Spine层 |
| 网络直径 | 2跳 | 3跳 |
| 负载均衡 | 全局理想均衡,单路径无冲突 | 静态Rail映射,推理场景易失衡 |
| 拥塞控制 | 从架构层消除结构性拥塞 | 易产生局部热点和PFC反压 |
| 硬件成本 | 降低33%交换机和光模块 | 标准Clos成本 |
| 推理吞吐 | 提升15% | 基准 |
| TTFT P99 | 降低40.6% | 基准 |
| 扩展规模 | 数万至数十万GPU | 受Spine层容量限制 |
ZCube的应用场景
-
超大规模LLM推理集群:适用PD分离部署的千卡至万卡级推理集群,解决KV Cache跨节点传输导致的网络瓶颈。
-
长上下文推理服务:架构能有效缓解长序列场景下网络带宽对首Token时延和整体吞吐的制约。
-
高密度智算中心:为训练与推理混合负载提供高均衡、低时延、高带宽利用率的网络底座。
-
MaaS云服务平台:架构能降低推理服务综合成本,提升多租户高并发场景下的尾时延稳定性。
📝 站长洞察 (Editor’s Insight)
ZCube的发布标志着AI基础设施的竞争从单纯堆叠GPU,正式进入了“网络架构定义算力效率”的深水区。其核心洞察在于:传统为通用计算设计的层次化Clos网络,无法匹配大模型推理特有的“动态、不对称、突发”流量模型。ZCube通过“全网扁平化”和“确定性最短路径”这两个看似回归原始的设计哲学,却用精巧的二部图数学模型实现了对复杂流量模式的“降维打击”,这本身就是一种高维度的系统创新。这预示着,未来AI竞赛的护城河将不仅是算法和模型,更是底层硬件、网络、软件栈的垂直整合与协同设计能力。ZCube这类专域优化架构的涌现,将极大加速万卡级推理集群的普及,并为通向百万卡AGI基础设施铺平道路。
