Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库
AIGC 资讯

DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

站外新闻
最近更新: 2026年6月8日 下午11:10
SHARE

DeepGEMM是什么

DeepGEMM是DeepSeek开源的为高效简洁的FP8矩阵乘法(GEMM)设计的库,目前仅支持NVIDIA Hopper张量核心。DeepGEMM支持普通和混合专家(MoE)分组的GEMM操作,基于即时编译(JIT)技术,无需安装时编译,支持在运行时动态优化。DeepGEMM基于细粒度缩放和CUDA核心双级累加技术,解决FP8精度不足的问题,同时用Hopper的Tensor Memory Accelerator(TMA)特性提升数据传输效率。DeepGEMM核心代码仅约300行,易于学习和优化。DeepGEMM的轻量设计,在多种矩阵形状上均达到或超过专家级优化库。

阅读目录
  • DeepGEMM是什么
  • DeepGEMM的主要功能
  • DeepGEMM的项目地址
  • DeepGEMM的性能表现
  • DeepGEMM的系统要求
  • DeepGEMM的应用场景

DeepGEMM

DeepGEMM的主要功能

  • 高效FP8矩阵乘法(GEMM):DeepGEMM是专为FP8(8位浮点)矩阵乘法设计的高效库,支持细粒度缩放,显著提升矩阵运算的性能和精度。
  • 支持普通和分组GEMM:
    • 普通GEMM:适用于常规的矩阵乘法操作。
    • 分组GEMM:支持混合专家(MoE)模型中的分组矩阵乘法,包括连续布局(contiguous layout)和掩码布局(masked layout),优化多专家共享形状的场景。
  • 即时编译(JIT)设计:基于即时编译技术,所有内核在运行时动态编译,无需安装时编译。根据矩阵形状、块大小等参数进行优化,节省寄存器提升性能。
  • Hopper架构优化:专为NVIDIA Hopper架构设计,充分利用Tensor Memory Accelerator(TMA)特性,包括TMA加载、存储、多播和描述符预取,显著提升数据传输效率。
  • 细粒度缩放和双级累加:为解决FP8精度不足的问题,DeepGEMM引入细粒度缩放技术,基于CUDA核心的双级累加机制,将FP8计算结果提升到更高精度的格式(如BF16),确保计算精度。
  • 轻量级设计:核心代码简洁,仅约300行,易于理解和扩展。避免复杂模板或代数结构的依赖,降低学习和优化的难度。

DeepGEMM的项目地址

  • GitHub仓库:https://github.com/deepseek-ai/DeepGEMM

DeepGEMM的性能表现

  • 普通GEMM(非分组)性能
    • 最高加速比:在某些矩阵形状下,DeepGEMM能达到2.7倍的加速比,显著提升矩阵乘法的效率。
    • 计算性能:在大规模矩阵运算中,DeepGEMM能够实现超过1000 TFLOPS的计算性能,接近Hopper架构GPU的理论峰值。

DeepGEMM

  • 分组GEMM(MoE模型)性能
    • 加速比:在分组GEMM中,DeepGEMM能实现1.1-1.2倍的加速比,显著提升MoE模型的训练和推理效率。
    • 内存带宽优化:基于TMA特性,DeepGEMM在内存带宽利用上表现出色,达到接近硬件极限的性能。
      • 连续布局(Contiguous Layout)

DeepGEMM

      • 掩码布局(Masked Layout)

DeepGEMM

DeepGEMM的系统要求

  • 硬件要求:
    • GPU架构:必须支持NVIDIA Hopper架构,具体要求为支持sm_90a的GPU。推荐使用H800或H100等Hopper架构的GPU,专为FP8计算和Tensor Core优化设计。
    • CUDA兼容性:需要支持CUDA 12.3或更高版本,推荐使用CUDA 12.8或更高版本获得最佳性能。
  • 软件要求:
    • 操作系统推荐:使用Linux操作系统(如Ubuntu、CentOS等),因为CUDA和PyTorch在Linux上支持更好。
    • Python版本:Python 3.8或更高版本。
    • CUDA工具包:CUDA 12.3或更高版本。CUDA版本必须与GPU架构匹配,推荐使用12.8或更高版本以充分利用Hopper架构的特性。
    • PyTorch:PyTorch 2.1或更高版本。
    • CUTLASS库:CUTLASS 3.6或更高版本。
  • 其他要求:
    • 常规的编译工具(如gcc、make等)。
    • torch.utils.cpp_extension模块,用于CUDA扩展。

DeepGEMM的应用场景

  • 大规模AI模型推理:加速高维矩阵乘法,提升推理速度。
  • 混合专家(MoE)模型:优化分组矩阵乘法,提高计算效率。
  • 低精度计算:通过细粒度缩放解决FP8精度问题,保持高精度输出。
  • 高性能计算:基于Hopper架构特性,提升矩阵运算效率。
  • 深度学习框架优化:作为底层优化库,加速模型训练和推理。
​AI 音乐创作新趋势:杭州男子月入十几万,40 秒生成一首歌
微软发布万亿参数大模型MAI-1-preview:1.5万H100集群训练,性能直逼GPT-4
蚂蚁开源全模态大模型Ming-Flash-Omni 2.0:100B参数MoE架构,统一理解生成,刷新开源SOTA
字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
谷歌DeepMind发布SIMA 2:Gemini驱动的新一代AI游戏智能体,能听会看善学习
分享
Email 复制链接 打印
Share
上一篇 VersaGen – 实现文本到图像合成中视觉控制能力的生成式 AI 代理
下一篇 Vibe Draw – AI 3D建模工具,涂鸦草图一键转为3D模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

Google DeepMind与UCL强强联手:免费AI研究基础课程,手把手教你从零构建Transformer模型

站外新闻
AI课程 Google DeepMind Transformer UCL 语言模型
AIGC 资讯

VPP – 清华和星动纪元推出的首个AIGC机器人大模型

站外新闻
AI 工具AIGC 资讯

Meta推出Muse Spark:原生多模态大模型,多智能体协同,性能全面超越GPT-5.4

站外新闻
GPT-5.4 meta Muse Spark 原生多模态大模型 多智能体协同
AI 工具AIGC 资讯

昆仑万维发布Mureka V7.5:中文AI音乐生成模型,实现演唱级音色与情感表达

站外新闻
AIGC AI音乐生成 Mureka 中文歌曲 昆仑万维
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.