Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库
AIGC 资讯

DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

站外新闻
最近更新: 2026年6月8日 下午11:10
SHARE

DeepGEMM是什么

DeepGEMM是DeepSeek开源的为高效简洁的FP8矩阵乘法(GEMM)设计的库,目前仅支持NVIDIA Hopper张量核心。DeepGEMM支持普通和混合专家(MoE)分组的GEMM操作,基于即时编译(JIT)技术,无需安装时编译,支持在运行时动态优化。DeepGEMM基于细粒度缩放和CUDA核心双级累加技术,解决FP8精度不足的问题,同时用Hopper的Tensor Memory Accelerator(TMA)特性提升数据传输效率。DeepGEMM核心代码仅约300行,易于学习和优化。DeepGEMM的轻量设计,在多种矩阵形状上均达到或超过专家级优化库。

阅读目录
  • DeepGEMM是什么
  • DeepGEMM的主要功能
  • DeepGEMM的项目地址
  • DeepGEMM的性能表现
  • DeepGEMM的系统要求
  • DeepGEMM的应用场景

DeepGEMM

DeepGEMM的主要功能

  • 高效FP8矩阵乘法(GEMM):DeepGEMM是专为FP8(8位浮点)矩阵乘法设计的高效库,支持细粒度缩放,显著提升矩阵运算的性能和精度。
  • 支持普通和分组GEMM:
    • 普通GEMM:适用于常规的矩阵乘法操作。
    • 分组GEMM:支持混合专家(MoE)模型中的分组矩阵乘法,包括连续布局(contiguous layout)和掩码布局(masked layout),优化多专家共享形状的场景。
  • 即时编译(JIT)设计:基于即时编译技术,所有内核在运行时动态编译,无需安装时编译。根据矩阵形状、块大小等参数进行优化,节省寄存器提升性能。
  • Hopper架构优化:专为NVIDIA Hopper架构设计,充分利用Tensor Memory Accelerator(TMA)特性,包括TMA加载、存储、多播和描述符预取,显著提升数据传输效率。
  • 细粒度缩放和双级累加:为解决FP8精度不足的问题,DeepGEMM引入细粒度缩放技术,基于CUDA核心的双级累加机制,将FP8计算结果提升到更高精度的格式(如BF16),确保计算精度。
  • 轻量级设计:核心代码简洁,仅约300行,易于理解和扩展。避免复杂模板或代数结构的依赖,降低学习和优化的难度。

DeepGEMM的项目地址

  • GitHub仓库:https://github.com/deepseek-ai/DeepGEMM

DeepGEMM的性能表现

  • 普通GEMM(非分组)性能
    • 最高加速比:在某些矩阵形状下,DeepGEMM能达到2.7倍的加速比,显著提升矩阵乘法的效率。
    • 计算性能:在大规模矩阵运算中,DeepGEMM能够实现超过1000 TFLOPS的计算性能,接近Hopper架构GPU的理论峰值。

DeepGEMM

  • 分组GEMM(MoE模型)性能
    • 加速比:在分组GEMM中,DeepGEMM能实现1.1-1.2倍的加速比,显著提升MoE模型的训练和推理效率。
    • 内存带宽优化:基于TMA特性,DeepGEMM在内存带宽利用上表现出色,达到接近硬件极限的性能。
      • 连续布局(Contiguous Layout)

DeepGEMM

      • 掩码布局(Masked Layout)

DeepGEMM

DeepGEMM的系统要求

  • 硬件要求:
    • GPU架构:必须支持NVIDIA Hopper架构,具体要求为支持sm_90a的GPU。推荐使用H800或H100等Hopper架构的GPU,专为FP8计算和Tensor Core优化设计。
    • CUDA兼容性:需要支持CUDA 12.3或更高版本,推荐使用CUDA 12.8或更高版本获得最佳性能。
  • 软件要求:
    • 操作系统推荐:使用Linux操作系统(如Ubuntu、CentOS等),因为CUDA和PyTorch在Linux上支持更好。
    • Python版本:Python 3.8或更高版本。
    • CUDA工具包:CUDA 12.3或更高版本。CUDA版本必须与GPU架构匹配,推荐使用12.8或更高版本以充分利用Hopper架构的特性。
    • PyTorch:PyTorch 2.1或更高版本。
    • CUTLASS库:CUTLASS 3.6或更高版本。
  • 其他要求:
    • 常规的编译工具(如gcc、make等)。
    • torch.utils.cpp_extension模块,用于CUDA扩展。

DeepGEMM的应用场景

  • 大规模AI模型推理:加速高维矩阵乘法,提升推理速度。
  • 混合专家(MoE)模型:优化分组矩阵乘法,提高计算效率。
  • 低精度计算:通过细粒度缩放解决FP8精度问题,保持高精度输出。
  • 高性能计算:基于Hopper架构特性,提升矩阵运算效率。
  • 深度学习框架优化:作为底层优化库,加速模型训练和推理。
Anthropic 深耕韩国:前 Snowflake 高管挂帅首尔办公室,Claude 成全球最活跃 AI 市场核心引擎
腾讯云发布音视频 AI 品牌 WAND:内置六大自研模型与60+项AI能力
Cloudflare 作为 AI 领域的新动向:与 CEO Matthew Prince 的专访 [译]
HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架
KuaiMod – 快手推出的自动化短视频质量判别框架
分享
Email 复制链接 打印
Share
上一篇 VersaGen – 实现文本到图像合成中视觉控制能力的生成式 AI 代理
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

VersaGen – 实现文本到图像合成中视觉控制能力的生成式 AI 代理
AIGC 资讯
Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
AIGC 资讯
CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架
AIGC 资讯
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

MiniMax发布MMX-CLI:专为AI Agent打造的全模态命令行神器,一键集成七大生成能力

站外新闻
AI Agent MiniMax MMX-CLI 全模态生成 自动化工作流
AI 工具AIGC 资讯

SPARK2026腾讯游戏发布会重磅盘点:超40款游戏动态与AI技术全面革新

站外新闻
AI游戏 代号Craft 游戏发布会 神经动态全局光照 腾讯游戏
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

Snowflake与AWS签下60亿美元天价合同:AI算力新战场转向CPU自研,英伟达霸主地位受挑战

站外新闻
AI算力 AWS Graviton芯片 Snowflake 英伟达
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

OpenAI 2.34亿美金落子新加坡:揭秘首个海外AI实验室的战略野心与全球布局

站外新闻
AI人才培养 openai 人工智能实验室 全球AI枢纽 新加坡
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.