Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计
AIGC 资讯

DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计

站外新闻
最近更新: 2026年6月9日 上午4:10
SHARE

DeepEP是什么

DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的开源 EP(专家并行)通信库。提供了高吞吐量和低延迟的全对全 GPU 内核,支持节点内和节点间的 NVLink 和 RDMA 通信。DeepEP 特别针对 DeepSeek-V3 论文中的组限制门控算法进行了优化,支持 FP8 数据格式调度,引入了基于 Hook 的通信-计算重叠方法,不占用 GPU 计算资源。低延迟内核在推理解码阶段表现出色,延迟低至 163 微秒。DeepEP 适用于 Hopper GPU 架构,需要 Python 3.8、CUDA 12.3 和 PyTorch 2.1 及以上版本。

阅读目录
  • DeepEP是什么
  • DeepEP的主要功能
  • DeepEP的项目地址
  • DeepEP的性能表现
  • DeepEP的系统要求
  • DeepEP的应用场景

DeepEP

DeepEP的主要功能

  • 高效通信内核:DeepEP 提供高吞吐量和低延迟的全对全(all-to-all)GPU 内核,适用于 MoE 的分发(dispatch)和合并(combine)操作。
  • 低精度计算支持:支持 FP8 和 BF16 等低精度数据格式,显著提升计算效率并降低内存需求。
  • 优化的通信机制:针对 DeepSeek-V3 论文中提出的组限制门控算法,DeepEP 提供了优化的内核,支持从 NVLink 到 RDMA 的非对称带宽转发,适用于训练和推理预填充任务。
  • 低延迟推理解码:提供纯 RDMA 的低延迟内核,特别适合对延迟敏感的推理解码场景,延迟低至 163 微秒。
  • 通信与计算重叠:引入基于 Hook 的通信-计算重叠方法,不占用 GPU 的流多处理器(SM)资源,最大化计算效率。
  • 灵活的资源管理:支持灵活的 GPU 资源管理,支持用户控制 SM 的使用数量,适应不同的工作负载。
  • 网络配置优化:DeepEP 在 InfiniBand 网络上进行了全面测试,支持通过虚拟通道(VL)实现流量隔离,防止不同类型流量之间的干扰。

DeepEP的项目地址

  • Github仓库:https://github.com/deepseek-ai/DeepEP

DeepEP的性能表现

  • 高吞吐量内核:DeepEP 在 H800 GPU 和 CX7 InfiniBand 400 Gb/s RDMA 网络卡上进行了测试,展现了出色的吞吐量表现:
    • 内节点通信:使用 NVLink 的内节点通信中,分发和合并操作的瓶颈带宽分别达到 153 GB/s 和 158 GB/s。
    • 跨节点通信:使用 RDMA 的跨节点通信中,分发和合并操作的瓶颈带宽分别达到 43-47 GB/s。
  • 低延迟内核:DeepEP 的低延迟内核专为推理解码设计,使用纯 RDMA 技术,显著降低了延迟:
    • 在处理 8 个专家 时,分发操作的延迟为 163 微秒,合并操作的延迟为 318 微秒,RDMA 带宽为 46 GB/s。
    • 随着专家数量增加,延迟略有上升,但在 256 个专家 时,分发和合并操作的延迟分别为 194 微秒 和 360 微秒。
  • 系统兼容性:DeepEP 主要与 InfiniBand 网络兼容,也支持在收敛以太网(RoCE)上运行。需要 Hopper 架构 GPU、Python 3.8 及以上版本、CUDA 12.3 及以上版本以及 PyTorch 2.1 及以上版本。

DeepEP的系统要求

  • 硬件要求:
    • 支持 Hopper 架构的 GPU(如 H100、H800),未来可能会支持更多架构。
    • 需要支持 GPUDirect RDMA 的设备,具体要求可参考 NVSHMEM 的硬件规格。
    • 节点内通信需要 NVLink,节点间通信需要 RDMA 网络。
  • 软件要求:
    • Python 3.8 及以上版本。
    • CUDA 12.3 及以上版本。
    • PyTorch 2.1 及以上版本。
    • 需要安装修改版的 NVSHMEM,具体安装指南可参考相关文档。
    • 推荐安装 GDRCopy(v2.4 及以上版本),用于低延迟 GPU 内存拷贝。
  • 网络要求:
    • 主要测试环境为 InfiniBand 网络,兼容 RDMA over Converged Ethernet (RoCE)。
    • 支持通过虚拟通道(VL)进行流量隔离,以防止不同工作负载之间的干扰。
  • 其他要求:
    • 在容器化环境中,需要确保主机加载了必要的内核模块(如 gdrdrv),正确安装了相关 DEB 包。
    • 安装完成后,需要设置环境变量(如 NVSHMEM_DIR)以供 DeepEP 使用。

DeepEP的应用场景

  • 大规模模型训练:DeepEP 提供高效的并行通信支持,适用于混合专家模型(MoE)的训练,显著提升训练效率。
  • 推理任务:适合对延迟敏感的推理解码场景,能显著降低延迟,提高推理吞吐量。
  • 高性能计算:支持多种硬件平台,包括 Hopper GPU 架构,优化了 NVLink 和 RDMA 网络的通信性能。
  • 智能客服:通过优化推理过程,DeepSeek 的智能客服系统能快速响应用户问题,提升服务效率。
  • 金融领域:用于风险评估、自动化报告生成等,通过分析企业财报和舆情数据,预测违约概率。
谷歌Gemini Omni Flash深度解析:多模态世界模型如何统一视频生成、编辑与交互
MedRAG – 南洋理工团队推出的医学诊断模型
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
谷歌Coral Board开发板发布:本地运行Gemma3,RISC-V架构赋能边缘AI革命
PsycoLLM – 合肥工业大学推出的中文心理大语言模型
分享
Email 复制链接 打印
Share
上一篇 RAG Logger – 专为检索增强生成应用设计的开源日志工具
下一篇 StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

DataClaw开源发布:一键导出AI对话,自动生成安全训练集,助力大模型微调
AI 工具 AIGC 资讯
OpenSandbox:阿里巴巴开源AI应用安全沙箱平台,为Agent与代码执行构建企业级隔离环境
AI 工具 AIGC 资讯
Goose:Block开源本地AI Agent框架,自主Debug、多模型切换,颠覆传统开发!
AI 工具 AIGC 资讯
阿里通义Fun-CosyVoice3.5重磅发布:一句话控制语气语速,13语种低延迟语音生成
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

OSUM – 西北工业大学开源的语音理解模型

站外新闻
AIGC 资讯

Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架

站外新闻
AIGC 资讯

TokenVerse – DeepMind等机构推出的多概念个性化图像生成方法

站外新闻
AI 工具AIGC 资讯

阿里通义EAPO框架:30B小模型反超120B闭源大模型的强化学习突破,ACL 2026论文详解

站外新闻
EAPO 大模型 强化学习 长文本推理 阿里通义
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.