ZCube架构深度解析：智谱AI联合清华发布，如何降低33%网络成本并提升40%推理性能？

💡 站外导读：随着大模型推理规模进入万卡时代，PD分离部署成为主流范式，但其产生的动态、不对称KV Cache传输流量，正给传统三层网络架构带来结构性拥塞、高昂硬件成本和尾延迟飙升的严峻挑战。如何用更低的成本构建无阻塞、高弹性的AI算力底座，已成为行业核心痛点。智谱AI与清华大学联合发布的ZCube架构，正是针对这一难题提出的下一代解决方案。

ZCube是什么

ZCube是智谱AI联合驭驯网络与清华大学推出的下一代大模型推理网络架构，专为解决PD分离部署中的结构性网络拥塞设计。架构取消传统Spine层交换机，采用全网扁平化拓扑与单/多轨混合接入机制，实现全局流量解耦与离散化路由。在GLM-5.1 coding生产环境实测中，ZCube在保持GPU和软件栈不变的前提下，将交换机与光模块资本支出降低33%，GPU平均推理吞吐提升15%，TTFT P99降低40.6%。

阅读目录

ZCube是什么
ZCube的主要功能
ZCube的技术原理
如何使用ZCube
ZCube的核心优势
ZCube的项目地址
ZCube的同类竞品对比
ZCube的应用场景

📝 站长洞察 (Editor’s Insight)

ZCube

ZCube的主要功能

取消Spine层的扁平化组网：打破传统Clos架构层次化堆叠思路，保留Leaf交换机层并通过完全二部图互联，将网络直径从3跳压缩至2跳。
单/多轨混合接入机制：一组Leaf交换机用单轨方式连接连续标号的GPU，另一组用多轨方式连接相同标号的GPU，使PD分离产生的动态不对称流量天然离散化。
全局负载均衡路由：ZCube路由策略确保任意GPU对之间仅存在一条唯一最优路径，避免多路径选路引发的流量冲突，在训练和推理场景均实现全网理想负载均衡。
结构性拥塞消除：通过架构层创新将KV Cache跨节点传输流量进行全局解耦与离散化，从根本上消除局部热点链路和PFC反压。

ZCube的技术原理

完全二部图拓扑：将Leaf交换机按奇偶分为两组，组内交换机互不连接，组间每台交换机与另一组所有交换机全连接，形成扁平化网络。
双端口差异化接入：每张GPU网卡的两个端口分别用单轨（连接奇数交换机）和多轨（连接偶数交换机）方式接入，用数学映射公式实现确定性路由。
确定性最短路径路由：基于GPU编号与交换机编号的模运算和向上取整映射，确保任意两GPU之间仅有一条经过两台Leaf交换机的最优路径。
流量模式适配：针对PD分离产生的源-目的不对称、动态变化的KV Cache传输特征，通过拓扑结构本身实现流量天然分散，无需依赖自适应路由或报文喷洒等传输层机制。

如何使用ZCube

架构规划：将Leaf交换机按奇偶序号分为两组，设计完全二部图互联拓扑，取消传统Spine层。
端口接入配置：为每张GPU网卡的双端口分别配置单轨与多轨混合接入策略，连接至对应奇偶交换机。
自动化部署：用ZCube控制器、机房布局设计工具和连线正确性检测程序，完成配置自动生成与批量下发。
生产验证：在推理服务上线前进行带宽、时延和PFC事件监控，确认无结构性拥塞热点后正式切流。

ZCube的核心优势

成本显著降低：相同规模下比Clos/ROFT减少约33%的交换机和光模块投入，万卡智算集群可节省网络硬件投资约2.1亿至6.4亿元。
推理性能提升：在GLM-5.1 coding生产实测中，GPU平均推理吞吐提升15%以上，TTFT的P99分位数下降40.6%。
超强扩展能力：基于现有51.2T交换机可构建连接16384块400Gbps网卡的扁平网络，通过多平面划分可支持数万至数十万GPU互联。
零侵入式升级：无需改动GPU硬件、软件栈或应用逻辑，仅通过网络架构层调优即可释放现有硬件潜能。

ZCube的项目地址

项目官网：https://z.ai/blog/zcube

ZCube的同类竞品对比

对比维度	ZCube	ROFT（Rail-Optimized Fat-Tree）
网络架构	扁平化二部图，取消Spine层	两层Fat-Tree，保留Spine层
网络直径	2跳	3跳
负载均衡	全局理想均衡，单路径无冲突	静态Rail映射，推理场景易失衡
拥塞控制	从架构层消除结构性拥塞	易产生局部热点和PFC反压
硬件成本	降低33%交换机和光模块	标准Clos成本
推理吞吐	提升15%	基准
TTFT P99	降低40.6%	基准
扩展规模	数万至数十万GPU	受Spine层容量限制

ZCube的应用场景

超大规模LLM推理集群：适用PD分离部署的千卡至万卡级推理集群，解决KV Cache跨节点传输导致的网络瓶颈。
长上下文推理服务：架构能有效缓解长序列场景下网络带宽对首Token时延和整体吞吐的制约。
高密度智算中心：为训练与推理混合负载提供高均衡、低时延、高带宽利用率的网络底座。
MaaS云服务平台：架构能降低推理服务综合成本，提升多租户高并发场景下的尾时延稳定性。

📝 站长洞察 (Editor’s Insight)

ZCube的发布标志着AI基础设施的竞争从单纯堆叠GPU，正式进入了“网络架构定义算力效率”的深水区。其核心洞察在于：传统为通用计算设计的层次化Clos网络，无法匹配大模型推理特有的“动态、不对称、突发”流量模型。ZCube通过“全网扁平化”和“确定性最短路径”这两个看似回归原始的设计哲学，却用精巧的二部图数学模型实现了对复杂流量模式的“降维打击”，这本身就是一种高维度的系统创新。这预示着，未来AI竞赛的护城河将不仅是算法和模型，更是底层硬件、网络、软件栈的垂直整合与协同设计能力。ZCube这类专域优化架构的涌现，将极大加速万卡级推理集群的普及，并为通向百万卡AGI基础设施铺平道路。

ZCube架构深度解析：智谱AI联合清华发布，如何降低33%网络成本并提升40%推理性能？

ZCube是什么

ZCube的主要功能

ZCube的技术原理

如何使用ZCube

ZCube的核心优势

ZCube的项目地址

ZCube的同类竞品对比

ZCube的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

110 亿参数塞进六类科学大脑：上智院开放”神珍”多模态模型，从蛋白质到气象场一个模型全读懂

人形机器人迎来飞跃！逐际动力张巍：智能水平已达 GPT-3 阶段

索尼音乐再诉AI巨头Udio：指控其违规复制逾三万段录音

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

ZCube是什么

ZCube的主要功能

ZCube的技术原理

如何使用ZCube

ZCube的核心优势

ZCube的项目地址

ZCube的同类竞品对比

ZCube的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复