Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
AIGC 资讯

MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法

站外新闻
最近更新: 2026年6月8日 下午5:18
SHARE

MHA2MLA是什么

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transformer的LLM的推理效率,降低推理成本。MHA2MLA基于两个关键策略实现:一是partial-RoPE,移除对注意力分数贡献较小的查询和键的旋转位置编码(RoPE)维度;二是低秩近似,基于联合奇异值分解(SVD)对键和值进行压缩,减少KV缓存的内存占用。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调,能在大幅减少KV缓存(如92.19%)的同时,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。

阅读目录
  • MHA2MLA是什么
  • MHA2MLA的主要功能
  • MHA2MLA的技术原理
  • MHA2MLA的项目地址
  • MHA2MLA的应用场景

MHA2MLA

MHA2MLA的主要功能

  • 显著减少KV缓存:基于低秩压缩技术,将KV缓存的大小大幅减少(最高可达96.87%),降低推理时的内存占用。
  • 保持模型性能:在极低的数据量(0.3%到0.6%的原始训练数据)下进行微调,将性能损失控制在极小范围内(如LongBench性能仅下降0.5%)。
  • 与现有技术兼容:与量化技术(如4-bit量化)结合使用,进一步提升推理效率。
  • 数据高效性:仅需少量数据即可完成从MHA到MLA的架构转换,适合在资源受限的环境中快速部署。

MHA2MLA的技术原理

  • Partial-RoPE(部分旋转位置编码):在MHA中,旋转位置编码(RoPE)基于旋转操作将位置信息融入查询向量(Q)和键向量(K),帮助模型捕捉序列中的位置关系。基于计算每个维度对注意力分数的贡献,移除贡献较小的RoPE维度(即“不重要的”维度),减少计算量和内存占用。这一过程称为“部分RoPE”,在保留关键位置信息的同时,为低秩压缩腾出空间。
  • 低秩近似(Low-Rank Approximation):MLA基于低秩联合压缩键值(KV)减少内存占用。MHA2MLA借鉴这一思想,对MHA中的键和值参数矩阵进行奇异值分解(SVD)。将键和值矩阵分解为低秩矩阵的乘积,用更少的参数近似原始矩阵。为更好地保留键和值之间的交互信息,MHA2MLA联合SVD(SVDjoint)策略,对键和值矩阵进行联合分解,而不是分别处理。

MHA2MLA的项目地址

  • GitHub仓库:https://github.com/JT-Ushio/MHA2MLA
  • arXiv技术论文:https://arxiv.org/pdf/2502.14837

MHA2MLA的应用场景

  • 边缘设备部署:降低模型内存占用,使其适配资源受限的智能终端和物联网设备。
  • 大规模模型推理:减少KV缓存,提升推理效率,降低硬件成本和能耗。
  • 结合量化技术:与量化技术结合,进一步优化推理性能,适用于实时对话和在线翻译等场景。
  • 长文本处理:降低长文本任务的内存瓶颈,高效处理长文档摘要和长篇生成。
  • 快速模型迁移:仅需少量数据微调,快速将MHA模型转换为MLA架构,降低迁移成本。
MagicArticulate – 南洋理工和字节推出的静态 3D 模型转骨架生成框架
ChatTS-14B – 字节开源的时间序列理解和推理大模型
Light-A-Video – 上海AI Lab联合交大等高校推出的视频重照明方法
Meta全面押注订阅经济:Meta One品牌整合三大应用Plus,AI升级方案引爆付费用户增长
亚马逊重构游戏版图:携手 007 与 AI 史努比狗狗发力云端
分享
Email 复制链接 打印
Share
上一篇 LangManus – AI自动化框架,多智能体协同完成复杂任务
下一篇 子曰-o1 – 网易有道推出国内首个输出分步式讲解的推理模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

子曰-o1 – 网易有道推出国内首个输出分步式讲解的推理模型
AIGC 资讯
LangManus – AI自动化框架,多智能体协同完成复杂任务
AIGC 资讯
AutoMouser – AI Chrome扩展程序,实时交互跟踪自动生成测试代码
AIGC 资讯
LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阿里开源Qwen3.6-35B-A3B:3B激活参数超越27B,MoE架构编程与多模态新标杆

站外新闻
MoE模型 Qwen3.6-35B-A3B 多模态大模型 智能体编程 混合专家模型
AI 工具AIGC 资讯

突破推理长度瓶颈!阿里通义FIPO算法实现Token级精准奖惩,纯RL训练超越o1-mini

站外新闻
FIPO Token级信用分配 大模型推理 强化学习 阿里通义
AI 工具AIGC 资讯

小米OmniVoice震撼开源:600+语种、40倍实时,定义下一代多语言TTS新标杆

站外新闻
OmniVoice TTS模型 小米AI 开源大模型 语音合成
AIGC 资讯

Aholo Viewer – 群核科技开源的 3D 高斯浏览器

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.