Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
AI 工具AIGC 资讯

ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?

站外新闻
最近更新: 2026年5月21日 下午1:27
PD分离部署 ZCube 大模型推理 智谱AI 网络架构
SHARE

💡 站外导读:随着大模型推理规模进入万卡时代,PD分离部署成为主流范式,但其产生的动态、不对称KV Cache传输流量,正给传统三层网络架构带来结构性拥塞、高昂硬件成本和尾延迟飙升的严峻挑战。如何用更低的成本构建无阻塞、高弹性的AI算力底座,已成为行业核心痛点。智谱AI与清华大学联合发布的ZCube架构,正是针对这一难题提出的下一代解决方案。

ZCube是什么

ZCube是智谱AI联合驭驯网络与清华大学推出的下一代大模型推理网络架构,专为解决PD分离部署中的结构性网络拥塞设计。架构取消传统Spine层交换机,采用全网扁平化拓扑与单/多轨混合接入机制,实现全局流量解耦与离散化路由。在GLM-5.1 coding生产环境实测中,ZCube在保持GPU和软件栈不变的前提下,将交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,TTFT P99降低40.6%。

阅读目录
  • ZCube是什么
  • ZCube的主要功能
  • ZCube的技术原理
  • 如何使用ZCube
  • ZCube的核心优势
  • ZCube的项目地址
  • ZCube的同类竞品对比
  • ZCube的应用场景
      • 📝 站长洞察 (Editor’s Insight)

ZCube

ZCube的主要功能

  • 取消Spine层的扁平化组网:打破传统Clos架构层次化堆叠思路,保留Leaf交换机层并通过完全二部图互联,将网络直径从3跳压缩至2跳。
  • 单/多轨混合接入机制:一组Leaf交换机用单轨方式连接连续标号的GPU,另一组用多轨方式连接相同标号的GPU,使PD分离产生的动态不对称流量天然离散化。
  • 全局负载均衡路由:ZCube路由策略确保任意GPU对之间仅存在一条唯一最优路径,避免多路径选路引发的流量冲突,在训练和推理场景均实现全网理想负载均衡。
  • 结构性拥塞消除:通过架构层创新将KV Cache跨节点传输流量进行全局解耦与离散化,从根本上消除局部热点链路和PFC反压。

ZCube的技术原理

  • 完全二部图拓扑:将Leaf交换机按奇偶分为两组,组内交换机互不连接,组间每台交换机与另一组所有交换机全连接,形成扁平化网络。
  • 双端口差异化接入:每张GPU网卡的两个端口分别用单轨(连接奇数交换机)和多轨(连接偶数交换机)方式接入,用数学映射公式实现确定性路由。
  • 确定性最短路径路由:基于GPU编号与交换机编号的模运算和向上取整映射,确保任意两GPU之间仅有一条经过两台Leaf交换机的最优路径。
  • 流量模式适配:针对PD分离产生的源-目的不对称、动态变化的KV Cache传输特征,通过拓扑结构本身实现流量天然分散,无需依赖自适应路由或报文喷洒等传输层机制。

如何使用ZCube

  • 架构规划:将Leaf交换机按奇偶序号分为两组,设计完全二部图互联拓扑,取消传统Spine层。
  • 端口接入配置:为每张GPU网卡的双端口分别配置单轨与多轨混合接入策略,连接至对应奇偶交换机。
  • 自动化部署:用ZCube控制器、机房布局设计工具和连线正确性检测程序,完成配置自动生成与批量下发。
  • 生产验证:在推理服务上线前进行带宽、时延和PFC事件监控,确认无结构性拥塞热点后正式切流。

ZCube的核心优势

  • 成本显著降低:相同规模下比Clos/ROFT减少约33%的交换机和光模块投入,万卡智算集群可节省网络硬件投资约2.1亿至6.4亿元。
  • 推理性能提升:在GLM-5.1 coding生产实测中,GPU平均推理吞吐提升15%以上,TTFT的P99分位数下降40.6%。
  • 超强扩展能力:基于现有51.2T交换机可构建连接16384块400Gbps网卡的扁平网络,通过多平面划分可支持数万至数十万GPU互联。
  • 零侵入式升级:无需改动GPU硬件、软件栈或应用逻辑,仅通过网络架构层调优即可释放现有硬件潜能。

ZCube的项目地址

  • 项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

对比维度 ZCube ROFT(Rail-Optimized Fat-Tree)
网络架构 扁平化二部图,取消Spine层 两层Fat-Tree,保留Spine层
网络直径 2跳 3跳
负载均衡 全局理想均衡,单路径无冲突 静态Rail映射,推理场景易失衡
拥塞控制 从架构层消除结构性拥塞 易产生局部热点和PFC反压
硬件成本 降低33%交换机和光模块 标准Clos成本
推理吞吐 提升15% 基准
TTFT P99 降低40.6% 基准
扩展规模 数万至数十万GPU 受Spine层容量限制

ZCube的应用场景

  • 超大规模LLM推理集群:适用PD分离部署的千卡至万卡级推理集群,解决KV Cache跨节点传输导致的网络瓶颈。
  • 长上下文推理服务:架构能有效缓解长序列场景下网络带宽对首Token时延和整体吞吐的制约。
  • 高密度智算中心:为训练与推理混合负载提供高均衡、低时延、高带宽利用率的网络底座。
  • MaaS云服务平台:架构能降低推理服务综合成本,提升多租户高并发场景下的尾时延稳定性。

📝 站长洞察 (Editor’s Insight)

ZCube的发布标志着AI基础设施的竞争从单纯堆叠GPU,正式进入了“网络架构定义算力效率”的深水区。其核心洞察在于:传统为通用计算设计的层次化Clos网络,无法匹配大模型推理特有的“动态、不对称、突发”流量模型。ZCube通过“全网扁平化”和“确定性最短路径”这两个看似回归原始的设计哲学,却用精巧的二部图数学模型实现了对复杂流量模式的“降维打击”,这本身就是一种高维度的系统创新。这预示着,未来AI竞赛的护城河将不仅是算法和模型,更是底层硬件、网络、软件栈的垂直整合与协同设计能力。ZCube这类专域优化架构的涌现,将极大加速万卡级推理集群的普及,并为通向百万卡AGI基础设施铺平道路。

JoyAI-Echo – 京东开源的长音视频生成框架
HeyGen CLI:释放AI生产力,用自然语言直接调用API生成数字人视频
OpenBB:开源AI金融分析平台深度解析 – 一键捕捉期权异动,免费获取专业级投资洞察
ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架
松下联手UCLA发布OmniFlow:革命性多模态AI实现文本、图像、音频任意生成
TAGGED:PD分离部署ZCube大模型推理智谱AI网络架构
分享
Email 复制链接 打印
Share
上一篇 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
下一篇 Odyssey发布Agora-1:全球首个多智能体世界模型,4人实时共享AI生成游戏世界
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势
量子芯片科技感占位特色图
宝马全面部署Agentic AI:从智能体到自主决策,重构汽车业数字化未来
AI 工具 AIGC 资讯

相关推荐

AI 工具

腾讯混元Tencent-HY-MT1.5开源翻译模型:1.8B端侧量化仅需1GB,33种语言离线秒译

站外新闻
多语言翻译 开源大模型 端侧部署 翻译模型 腾讯混元
AI 工具AIGC 资讯

字节跳动Lance开源:3B参数统一模型,一模型搞定图像视频理解生成编辑全链路

站外新闻
AIGC Lance 图像生成 多模态大模型 字节跳动 视频编辑
AI 工具

Remove.bg

remaker
AI 工具AIGC 资讯

英伟达重磅开源NemoClaw!企业级AI Agent安全框架,深度适配RTX/DGX硬件,赋能GaaS新时代

站外新闻
AI Agent GaaS OpenClaw 企业级安全 英伟达
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.