Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
AI 工具AIGC 资讯

ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?

站外新闻
最近更新: 2026年5月21日 下午1:27
PD分离部署 ZCube 大模型推理 智谱AI 网络架构
SHARE

💡 站外导读:随着大模型推理规模进入万卡时代,PD分离部署成为主流范式,但其产生的动态、不对称KV Cache传输流量,正给传统三层网络架构带来结构性拥塞、高昂硬件成本和尾延迟飙升的严峻挑战。如何用更低的成本构建无阻塞、高弹性的AI算力底座,已成为行业核心痛点。智谱AI与清华大学联合发布的ZCube架构,正是针对这一难题提出的下一代解决方案。

ZCube是什么

ZCube是智谱AI联合驭驯网络与清华大学推出的下一代大模型推理网络架构,专为解决PD分离部署中的结构性网络拥塞设计。架构取消传统Spine层交换机,采用全网扁平化拓扑与单/多轨混合接入机制,实现全局流量解耦与离散化路由。在GLM-5.1 coding生产环境实测中,ZCube在保持GPU和软件栈不变的前提下,将交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,TTFT P99降低40.6%。

阅读目录
  • ZCube是什么
  • ZCube的主要功能
  • ZCube的技术原理
  • 如何使用ZCube
  • ZCube的核心优势
  • ZCube的项目地址
  • ZCube的同类竞品对比
  • ZCube的应用场景
      • 📝 站长洞察 (Editor’s Insight)

ZCube

ZCube的主要功能

  • 取消Spine层的扁平化组网:打破传统Clos架构层次化堆叠思路,保留Leaf交换机层并通过完全二部图互联,将网络直径从3跳压缩至2跳。
  • 单/多轨混合接入机制:一组Leaf交换机用单轨方式连接连续标号的GPU,另一组用多轨方式连接相同标号的GPU,使PD分离产生的动态不对称流量天然离散化。
  • 全局负载均衡路由:ZCube路由策略确保任意GPU对之间仅存在一条唯一最优路径,避免多路径选路引发的流量冲突,在训练和推理场景均实现全网理想负载均衡。
  • 结构性拥塞消除:通过架构层创新将KV Cache跨节点传输流量进行全局解耦与离散化,从根本上消除局部热点链路和PFC反压。

ZCube的技术原理

  • 完全二部图拓扑:将Leaf交换机按奇偶分为两组,组内交换机互不连接,组间每台交换机与另一组所有交换机全连接,形成扁平化网络。
  • 双端口差异化接入:每张GPU网卡的两个端口分别用单轨(连接奇数交换机)和多轨(连接偶数交换机)方式接入,用数学映射公式实现确定性路由。
  • 确定性最短路径路由:基于GPU编号与交换机编号的模运算和向上取整映射,确保任意两GPU之间仅有一条经过两台Leaf交换机的最优路径。
  • 流量模式适配:针对PD分离产生的源-目的不对称、动态变化的KV Cache传输特征,通过拓扑结构本身实现流量天然分散,无需依赖自适应路由或报文喷洒等传输层机制。

如何使用ZCube

  • 架构规划:将Leaf交换机按奇偶序号分为两组,设计完全二部图互联拓扑,取消传统Spine层。
  • 端口接入配置:为每张GPU网卡的双端口分别配置单轨与多轨混合接入策略,连接至对应奇偶交换机。
  • 自动化部署:用ZCube控制器、机房布局设计工具和连线正确性检测程序,完成配置自动生成与批量下发。
  • 生产验证:在推理服务上线前进行带宽、时延和PFC事件监控,确认无结构性拥塞热点后正式切流。

ZCube的核心优势

  • 成本显著降低:相同规模下比Clos/ROFT减少约33%的交换机和光模块投入,万卡智算集群可节省网络硬件投资约2.1亿至6.4亿元。
  • 推理性能提升:在GLM-5.1 coding生产实测中,GPU平均推理吞吐提升15%以上,TTFT的P99分位数下降40.6%。
  • 超强扩展能力:基于现有51.2T交换机可构建连接16384块400Gbps网卡的扁平网络,通过多平面划分可支持数万至数十万GPU互联。
  • 零侵入式升级:无需改动GPU硬件、软件栈或应用逻辑,仅通过网络架构层调优即可释放现有硬件潜能。

ZCube的项目地址

  • 项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

对比维度 ZCube ROFT(Rail-Optimized Fat-Tree)
网络架构 扁平化二部图,取消Spine层 两层Fat-Tree,保留Spine层
网络直径 2跳 3跳
负载均衡 全局理想均衡,单路径无冲突 静态Rail映射,推理场景易失衡
拥塞控制 从架构层消除结构性拥塞 易产生局部热点和PFC反压
硬件成本 降低33%交换机和光模块 标准Clos成本
推理吞吐 提升15% 基准
TTFT P99 降低40.6% 基准
扩展规模 数万至数十万GPU 受Spine层容量限制

ZCube的应用场景

  • 超大规模LLM推理集群:适用PD分离部署的千卡至万卡级推理集群,解决KV Cache跨节点传输导致的网络瓶颈。
  • 长上下文推理服务:架构能有效缓解长序列场景下网络带宽对首Token时延和整体吞吐的制约。
  • 高密度智算中心:为训练与推理混合负载提供高均衡、低时延、高带宽利用率的网络底座。
  • MaaS云服务平台:架构能降低推理服务综合成本,提升多租户高并发场景下的尾时延稳定性。

📝 站长洞察 (Editor’s Insight)

ZCube的发布标志着AI基础设施的竞争从单纯堆叠GPU,正式进入了“网络架构定义算力效率”的深水区。其核心洞察在于:传统为通用计算设计的层次化Clos网络,无法匹配大模型推理特有的“动态、不对称、突发”流量模型。ZCube通过“全网扁平化”和“确定性最短路径”这两个看似回归原始的设计哲学,却用精巧的二部图数学模型实现了对复杂流量模式的“降维打击”,这本身就是一种高维度的系统创新。这预示着,未来AI竞赛的护城河将不仅是算法和模型,更是底层硬件、网络、软件栈的垂直整合与协同设计能力。ZCube这类专域优化架构的涌现,将极大加速万卡级推理集群的普及,并为通向百万卡AGI基础设施铺平道路。

字节跳动Seed3D 2.0发布:单图生成生产级3D资产,几何精度与PBR材质双SOTA
颠覆性突破!全球首个多智能体AI科学家Robin 2小时完成900小时科研,登顶Nature
MAI-Image-2.5 – 微软推出的旗舰级文生图模型
Flame – 开源的多模态前端代码生成模型
OpenAI员工揭秘Codex自我蒸馏玩法:简单提示词如何自动生成可复用工具,让AI效率飙升?
TAGGED:PD分离部署ZCube大模型推理智谱AI网络架构
分享
Email 复制链接 打印
Share
上一篇 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
下一篇 Odyssey发布Agora-1:全球首个多智能体世界模型,4人实时共享AI生成游戏世界
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
AIGC 资讯
AlphaGeometry2 – 谷歌 DeepMind 推出解决复杂几何问题的AI系统
AIGC 资讯
OpenDeepResearcher – 开源 AI 研究工具,自动完成搜索、评估、提取和报告生成
AIGC 资讯
TokenVerse – DeepMind等机构推出的多概念个性化图像生成方法
AIGC 资讯

相关推荐

AI 工具

EmbedAI

remaker
AIGC 资讯

AutoGLM沉思 – 首个免费、具备深度研究和操作能力的AI Agent

站外新闻
AI 工具

Deciphr AI

remaker
AI 工具AIGC 资讯

Claude Mythos:Anthropic「秘密武器」能力超人类安全专家,因太强而限制发布

站外新闻
AI模型 Anthropic Claude Mythos 网络安全 零日漏洞
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.