Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计
AIGC 资讯

DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计

站外新闻
最近更新: 2026年6月9日 上午4:10
SHARE

DeepEP是什么

DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的开源 EP(专家并行)通信库。提供了高吞吐量和低延迟的全对全 GPU 内核,支持节点内和节点间的 NVLink 和 RDMA 通信。DeepEP 特别针对 DeepSeek-V3 论文中的组限制门控算法进行了优化,支持 FP8 数据格式调度,引入了基于 Hook 的通信-计算重叠方法,不占用 GPU 计算资源。低延迟内核在推理解码阶段表现出色,延迟低至 163 微秒。DeepEP 适用于 Hopper GPU 架构,需要 Python 3.8、CUDA 12.3 和 PyTorch 2.1 及以上版本。

阅读目录
  • DeepEP是什么
  • DeepEP的主要功能
  • DeepEP的项目地址
  • DeepEP的性能表现
  • DeepEP的系统要求
  • DeepEP的应用场景

DeepEP

DeepEP的主要功能

  • 高效通信内核:DeepEP 提供高吞吐量和低延迟的全对全(all-to-all)GPU 内核,适用于 MoE 的分发(dispatch)和合并(combine)操作。
  • 低精度计算支持:支持 FP8 和 BF16 等低精度数据格式,显著提升计算效率并降低内存需求。
  • 优化的通信机制:针对 DeepSeek-V3 论文中提出的组限制门控算法,DeepEP 提供了优化的内核,支持从 NVLink 到 RDMA 的非对称带宽转发,适用于训练和推理预填充任务。
  • 低延迟推理解码:提供纯 RDMA 的低延迟内核,特别适合对延迟敏感的推理解码场景,延迟低至 163 微秒。
  • 通信与计算重叠:引入基于 Hook 的通信-计算重叠方法,不占用 GPU 的流多处理器(SM)资源,最大化计算效率。
  • 灵活的资源管理:支持灵活的 GPU 资源管理,支持用户控制 SM 的使用数量,适应不同的工作负载。
  • 网络配置优化:DeepEP 在 InfiniBand 网络上进行了全面测试,支持通过虚拟通道(VL)实现流量隔离,防止不同类型流量之间的干扰。

DeepEP的项目地址

  • Github仓库:https://github.com/deepseek-ai/DeepEP

DeepEP的性能表现

  • 高吞吐量内核:DeepEP 在 H800 GPU 和 CX7 InfiniBand 400 Gb/s RDMA 网络卡上进行了测试,展现了出色的吞吐量表现:
    • 内节点通信:使用 NVLink 的内节点通信中,分发和合并操作的瓶颈带宽分别达到 153 GB/s 和 158 GB/s。
    • 跨节点通信:使用 RDMA 的跨节点通信中,分发和合并操作的瓶颈带宽分别达到 43-47 GB/s。
  • 低延迟内核:DeepEP 的低延迟内核专为推理解码设计,使用纯 RDMA 技术,显著降低了延迟:
    • 在处理 8 个专家 时,分发操作的延迟为 163 微秒,合并操作的延迟为 318 微秒,RDMA 带宽为 46 GB/s。
    • 随着专家数量增加,延迟略有上升,但在 256 个专家 时,分发和合并操作的延迟分别为 194 微秒 和 360 微秒。
  • 系统兼容性:DeepEP 主要与 InfiniBand 网络兼容,也支持在收敛以太网(RoCE)上运行。需要 Hopper 架构 GPU、Python 3.8 及以上版本、CUDA 12.3 及以上版本以及 PyTorch 2.1 及以上版本。

DeepEP的系统要求

  • 硬件要求:
    • 支持 Hopper 架构的 GPU(如 H100、H800),未来可能会支持更多架构。
    • 需要支持 GPUDirect RDMA 的设备,具体要求可参考 NVSHMEM 的硬件规格。
    • 节点内通信需要 NVLink,节点间通信需要 RDMA 网络。
  • 软件要求:
    • Python 3.8 及以上版本。
    • CUDA 12.3 及以上版本。
    • PyTorch 2.1 及以上版本。
    • 需要安装修改版的 NVSHMEM,具体安装指南可参考相关文档。
    • 推荐安装 GDRCopy(v2.4 及以上版本),用于低延迟 GPU 内存拷贝。
  • 网络要求:
    • 主要测试环境为 InfiniBand 网络,兼容 RDMA over Converged Ethernet (RoCE)。
    • 支持通过虚拟通道(VL)进行流量隔离,以防止不同工作负载之间的干扰。
  • 其他要求:
    • 在容器化环境中,需要确保主机加载了必要的内核模块(如 gdrdrv),正确安装了相关 DEB 包。
    • 安装完成后,需要设置环境变量(如 NVSHMEM_DIR)以供 DeepEP 使用。

DeepEP的应用场景

  • 大规模模型训练:DeepEP 提供高效的并行通信支持,适用于混合专家模型(MoE)的训练,显著提升训练效率。
  • 推理任务:适合对延迟敏感的推理解码场景,能显著降低延迟,提高推理吞吐量。
  • 高性能计算:支持多种硬件平台,包括 Hopper GPU 架构,优化了 NVLink 和 RDMA 网络的通信性能。
  • 智能客服:通过优化推理过程,DeepSeek 的智能客服系统能快速响应用户问题,提升服务效率。
  • 金融领域:用于风险评估、自动化报告生成等,通过分析企业财报和舆情数据,预测违约概率。
智谱GLM-ASR开源:SOTA级端侧语音识别,1.5B参数实现方言耳语识别与隐私保护
AgentCLUE-ICabin发布:首个汽车智能座舱AI Agent评测基准,揭秘70+工具调用与多轮交互新标准
VoltAgent – 开源的AI Agent构建和编排框架
腾讯LeVo:3秒克隆音色的AI唱歌模型,Suno4.5级别的音乐生成革命
Moonlight-16B-A3B – 月之暗面开源的 MoE 模型
分享
Email 复制链接 打印
Share
上一篇 RAG Logger – 专为检索增强生成应用设计的开源日志工具
下一篇 StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

GPT-5.4重磅发布:OpenAI旗舰模型首次在电脑操作上超越人类,专业工作效率提升83%
AI 工具 AIGC 资讯
蚂蚁集团发布Ming-flash-omni-2.0:开源全模态大模型,引领AI理解与生成一体化新范式
AI 工具 AIGC 资讯
OpenAI发布GPT-5.3-Codex-Spark:1000+ tokens/s实时编程模型,速度提升80%的开发神器
AI 工具 AIGC 资讯
GPT-5.3 Instant深度解析:免费轻量级对话模型,幻觉率降27%全面升级
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

FinGPT – 开源金融领域大模型,可预测股票价格走势

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

AI生成内容反超人类:互联网一半文章已非人造,我们正面临‘精神断粮’危机

站外新闻
AIGC AI生成内容 Slop 大语言模型 认知退化
AI 工具AIGC 资讯

字节跳动Lance开源:3B参数统一模型,一模型搞定图像视频理解生成编辑全链路

站外新闻
AIGC Lance 图像生成 多模态大模型 字节跳动 视频编辑
AIGC 资讯

超线性回报 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.