Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
AI 工具AIGC 资讯

ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?

站外新闻
最近更新: 2026年5月21日 下午1:27
PD分离部署 ZCube 大模型推理 智谱AI 网络架构
SHARE

💡 站外导读:随着大模型推理规模进入万卡时代,PD分离部署成为主流范式,但其产生的动态、不对称KV Cache传输流量,正给传统三层网络架构带来结构性拥塞、高昂硬件成本和尾延迟飙升的严峻挑战。如何用更低的成本构建无阻塞、高弹性的AI算力底座,已成为行业核心痛点。智谱AI与清华大学联合发布的ZCube架构,正是针对这一难题提出的下一代解决方案。

ZCube是什么

ZCube是智谱AI联合驭驯网络与清华大学推出的下一代大模型推理网络架构,专为解决PD分离部署中的结构性网络拥塞设计。架构取消传统Spine层交换机,采用全网扁平化拓扑与单/多轨混合接入机制,实现全局流量解耦与离散化路由。在GLM-5.1 coding生产环境实测中,ZCube在保持GPU和软件栈不变的前提下,将交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,TTFT P99降低40.6%。

阅读目录
  • ZCube是什么
  • ZCube的主要功能
  • ZCube的技术原理
  • 如何使用ZCube
  • ZCube的核心优势
  • ZCube的项目地址
  • ZCube的同类竞品对比
  • ZCube的应用场景
      • 📝 站长洞察 (Editor’s Insight)

ZCube

ZCube的主要功能

  • 取消Spine层的扁平化组网:打破传统Clos架构层次化堆叠思路,保留Leaf交换机层并通过完全二部图互联,将网络直径从3跳压缩至2跳。
  • 单/多轨混合接入机制:一组Leaf交换机用单轨方式连接连续标号的GPU,另一组用多轨方式连接相同标号的GPU,使PD分离产生的动态不对称流量天然离散化。
  • 全局负载均衡路由:ZCube路由策略确保任意GPU对之间仅存在一条唯一最优路径,避免多路径选路引发的流量冲突,在训练和推理场景均实现全网理想负载均衡。
  • 结构性拥塞消除:通过架构层创新将KV Cache跨节点传输流量进行全局解耦与离散化,从根本上消除局部热点链路和PFC反压。

ZCube的技术原理

  • 完全二部图拓扑:将Leaf交换机按奇偶分为两组,组内交换机互不连接,组间每台交换机与另一组所有交换机全连接,形成扁平化网络。
  • 双端口差异化接入:每张GPU网卡的两个端口分别用单轨(连接奇数交换机)和多轨(连接偶数交换机)方式接入,用数学映射公式实现确定性路由。
  • 确定性最短路径路由:基于GPU编号与交换机编号的模运算和向上取整映射,确保任意两GPU之间仅有一条经过两台Leaf交换机的最优路径。
  • 流量模式适配:针对PD分离产生的源-目的不对称、动态变化的KV Cache传输特征,通过拓扑结构本身实现流量天然分散,无需依赖自适应路由或报文喷洒等传输层机制。

如何使用ZCube

  • 架构规划:将Leaf交换机按奇偶序号分为两组,设计完全二部图互联拓扑,取消传统Spine层。
  • 端口接入配置:为每张GPU网卡的双端口分别配置单轨与多轨混合接入策略,连接至对应奇偶交换机。
  • 自动化部署:用ZCube控制器、机房布局设计工具和连线正确性检测程序,完成配置自动生成与批量下发。
  • 生产验证:在推理服务上线前进行带宽、时延和PFC事件监控,确认无结构性拥塞热点后正式切流。

ZCube的核心优势

  • 成本显著降低:相同规模下比Clos/ROFT减少约33%的交换机和光模块投入,万卡智算集群可节省网络硬件投资约2.1亿至6.4亿元。
  • 推理性能提升:在GLM-5.1 coding生产实测中,GPU平均推理吞吐提升15%以上,TTFT的P99分位数下降40.6%。
  • 超强扩展能力:基于现有51.2T交换机可构建连接16384块400Gbps网卡的扁平网络,通过多平面划分可支持数万至数十万GPU互联。
  • 零侵入式升级:无需改动GPU硬件、软件栈或应用逻辑,仅通过网络架构层调优即可释放现有硬件潜能。

ZCube的项目地址

  • 项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

对比维度 ZCube ROFT(Rail-Optimized Fat-Tree)
网络架构 扁平化二部图,取消Spine层 两层Fat-Tree,保留Spine层
网络直径 2跳 3跳
负载均衡 全局理想均衡,单路径无冲突 静态Rail映射,推理场景易失衡
拥塞控制 从架构层消除结构性拥塞 易产生局部热点和PFC反压
硬件成本 降低33%交换机和光模块 标准Clos成本
推理吞吐 提升15% 基准
TTFT P99 降低40.6% 基准
扩展规模 数万至数十万GPU 受Spine层容量限制

ZCube的应用场景

  • 超大规模LLM推理集群:适用PD分离部署的千卡至万卡级推理集群,解决KV Cache跨节点传输导致的网络瓶颈。
  • 长上下文推理服务:架构能有效缓解长序列场景下网络带宽对首Token时延和整体吞吐的制约。
  • 高密度智算中心:为训练与推理混合负载提供高均衡、低时延、高带宽利用率的网络底座。
  • MaaS云服务平台:架构能降低推理服务综合成本,提升多租户高并发场景下的尾时延稳定性。

📝 站长洞察 (Editor’s Insight)

ZCube的发布标志着AI基础设施的竞争从单纯堆叠GPU,正式进入了“网络架构定义算力效率”的深水区。其核心洞察在于:传统为通用计算设计的层次化Clos网络,无法匹配大模型推理特有的“动态、不对称、突发”流量模型。ZCube通过“全网扁平化”和“确定性最短路径”这两个看似回归原始的设计哲学,却用精巧的二部图数学模型实现了对复杂流量模式的“降维打击”,这本身就是一种高维度的系统创新。这预示着,未来AI竞赛的护城河将不仅是算法和模型,更是底层硬件、网络、软件栈的垂直整合与协同设计能力。ZCube这类专域优化架构的涌现,将极大加速万卡级推理集群的普及,并为通向百万卡AGI基础设施铺平道路。

TrendPublish – AI内容发布工具,支持智能总结和自动发布
Imgcreator AI
Brandix AI
Context7 – 为大模型和AI编辑器提供最新文档和代码示例的平台
Probly – AI电子表格工具,交互式生成分析结果或可视化图表
TAGGED:PD分离部署ZCube大模型推理智谱AI网络架构
分享
Email 复制链接 打印
Share
上一篇 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
下一篇 Odyssey发布Agora-1:全球首个多智能体世界模型,4人实时共享AI生成游戏世界
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

小红书开源FireRedASR2S语音识别模型:2.89%超低字错率,支持20+方言与端到端部署
AI 工具 AIGC 资讯
ZeroClaw:Rust编写的8.8MB极简AI Agent框架,开源免费、零厂商锁定,从树莓派到企业集群一键部署
AI 工具 AIGC 资讯
马斯克 xAI 发布 Grok 4.20:四智能体协作架构如何碾压 OpenAI?实盘交易唯一盈利 AI
AI 工具 AIGC 资讯
OpenAkita:全球首个支持自我进化的开源AI助手框架,8种人格、9+大模型热切换,释放Agent无限潜能
AI 工具

相关推荐

AIGC 资讯

VMix – 字节联合中科大推出增强模型生成美学质量的适配器

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

B站2026Q1财报深度解析:AI驱动扭亏为盈,单季净利2.02亿背后的三大增长引擎

站外新闻
AI b站 哔哩哔哩 商业化 大语言模型 财报
AIGC 资讯

告别空间焦虑!Chrome149 正式版全面开放AI管理,一键清除4GB本地模型

站外新闻
AIGC 资讯

Qwen2.5-VL – 阿里通义千问开源的视觉语言模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.