Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 清华联手智谱推出IndexCache:稀疏注意力加速技术,长上下文推理提速近2倍,零性能损失
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 清华联手智谱推出IndexCache:稀疏注意力加速技术,长上下文推理提速近2倍,零性能损失
AI 工具AIGC 资讯

清华联手智谱推出IndexCache:稀疏注意力加速技术,长上下文推理提速近2倍,零性能损失

站外新闻
最近更新: 2026年6月7日 下午8:04
GLM-5 IndexCache 大模型推理加速 智谱AI 稀疏注意力
SHARE

💡 站外导读:随着大模型上下文窗口迈向百万Token时代,超长文本的处理效率成为AI落地的核心瓶颈。传统稀疏注意力(DSA)中的索引器,在200K上下文下竟占据高达81%的预填充时间,成为显著的性能瓶颈。清华大学与智谱AI团队敏锐地洞察到,相邻模型层在决定关注哪些关键Token时,选择结果惊人地相似。基于此发现,他们推出了IndexCache技术,通过智能的跨层索引复用,大幅削减了冗余计算,为长上下文推理带来了接近翻倍的速度提升。

IndexCache是什么

IndexCache 是清华与智谱团队推出的稀疏注意力加速技术,针对 DeepSeek 稀疏注意力(DSA)中索引器计算开销大的问题,通过跨层复用索引来减少冗余计算。IndexCache发现相邻层选择的 top-k token 重叠率高达 70%-100%,因此将层分为”全量层”(计算并缓存索引)和”共享层”(直接复用缓存)。此方法可去除 75% 的索引器计算,在 200K 上下文场景下实现预填充 1.82 倍、解码 1.48 倍加速,且几乎不损失模型性能,已在 30B 参数模型及 744B 参数的 GLM-5 上验证有效。

阅读目录
  • IndexCache是什么
  • IndexCache的主要功能
  • IndexCache的技术原理
  • IndexCache的关键信息和使用要求
  • IndexCache的核心优势
  • IndexCache的项目地址
  • IndexCache的同类竞品对比
  • IndexCache的应用场景
      • 📝 站长洞察 (Editor’s Insight)

IndexCache

IndexCache的主要功能

  • 跨层索引复用:用相邻层 top-k 索引 70%-100% 的高重叠率,让共享层直接复用全量层的缓存索引,避免重复计算。
  • 大幅降低索引器开销:可去除 75% 的索引器计算,仅保留 1/4 索引器即可维持模型性能。
  • 显著加速推理:在 200K 上下文下实现预填充 1.82 倍、解码 1.48 倍加速,缩短用户等待时间。
  • 零额外内存开销:通过一个条件分支实现复用,无需分配额外 GPU 显存。
  • 提供两种部署方案:无训练方案通过贪心搜索确定最优层模式,训练感知方案通过多层蒸馏损失优化索引器参数。
  • 生产级验证:已在 30B 参数模型和 744B 参数的 GLM-5 上验证有效,支持 SGLang 和 vLLM 推理框架。

IndexCache的技术原理

  • 跨层索引相似性发现:研究团队通过热力图分析发现,DSA 模型相邻层的索引器输出的 top-k token 集合具有极高相似性,重叠率普遍在 70% 至 100% 之间,表明大量索引计算存在冗余。
  • 层角色划分机制:IndexCache 将模型层划分为两类:全量层(Full Layer)保留原有索引器,负责计算并缓存当前最新的 top-k 索引;共享层(Shared Layer)不再运行自身索引器,直接复用最近一个全量层所缓存的索引进行稀疏注意力计算。
  • 动态模式选择策略:针对已训练模型,采用基于校准数据的贪心搜索算法,逐一尝试将层转为共享层并评估对模型输出的影响,保留关键层作为全量层;针对从头训练场景,引入多层蒸馏损失,让每个全量层索引器同时学习服务其后多个共享层的需求。
  • 推理流程优化:在推理过程中,每层仅增加一个简单的条件判断,根据预设模式在计算新索引与复用缓存索引之间切换,实现索引器的跨层共享,无需修改模型架构或增加额外存储。

IndexCache的关键信息和使用要求

  • 提出机构:清华大学与智谱(Z.ai)联合研发。
  • 针对问题:解决 DeepSeek 稀疏注意力中索引器在长上下文场景下的计算瓶颈,200K token 时占预填充时间高达 81%。
  • 核心原理:基于相邻层 top-k 索引 70%-100% 的高重叠率,通过跨层复用减少冗余计算。
  • 加速效果:保留 1/4 索引器即可实现预填充 1.82 倍、解码 1.48 倍加速。
  • 性能损失:几乎无质量损失,部分推理任务甚至表现更优。
  • 验证模型:在 30B 参数 DSA 模型及 744B 参数 GLM-5 上均验证有效。
  • 硬件要求:需 NVIDIA GPU(如 H100),但无需额外显存,复用标准 DSA 内存空间。
  • 软件环境:支持 SGLang 或 vLLM 框架,提供现成补丁可直接用于 DeepSeek-V3.2、GLM-5 等模型。
  • 无训练方案:适用已训练好的 DSA 模型,需准备小批量校准数据运行贪心搜索确定最优层模式。

IndexCache的核心优势

  • 显著加速:支持200K 上下文下预填充提速 1.82 倍、解码提速 1.48 倍,大幅降低用户等待时间。
  • 零性能损失:去除 75% 索引器计算后,模型质量几乎无损,部分任务甚至略有提升。
  • 零额外开销:一个条件分支实现复用,不增加 GPU 显存占用,复用标准 DSA 已分配内存。
  • 即插即用:提供 SGLang 和 vLLM 补丁,无需修改模型架构,可直接应用于 DeepSeek-V3.2、GLM-5 等主流模型。
  • 灵活部署:支持无训练和训练感知两种方案,适配已训练模型和从头训练场景,索引器保留比例可灵活配置。
  • 生产级验证:已在 744B 参数的 GLM-5 大模型上验证有效,具备规模化部署能力。

IndexCache的项目地址

  • GitHub仓库:https://github.com/THUDM/IndexCache
  • arXiv技术论文:https://arxiv.org/pdf/2603.12201

IndexCache的同类竞品对比

对比维度 IndexCache 原生 DSA Full Attention Anchor 方法
核心机制 跨层复用索引器输出的 top-k 索引 每层独立运行轻量级索引器 依赖全注意力锚点层复用索引
计算开销 去除 75% 索引器,预填充加速 1.82 倍 200K 上下文下索引器占 81% 预填充时间 需保留全注意力层,计算成本较高
适用场景 完全消除全注意力的 DSA 架构 标准 DSA 部署 需全注意力作为锚点的架构
实现复杂度 一个 if/else 分支,零额外显存 标准实现 需设计锚点层策略
训练要求 支持无训练部署或训练感知优化 需完整训练 通常需联合训练
生产验证 744B GLM-5 验证 DeepSeek-V3 生产应用 多为中小规模实验

IndexCache的应用场景

  • 长文档处理:适用论文阅读、法律合同分析等场景,200K 上下文下预填充提速 1.82 倍,显著降低用户等待首 token 的时间。
  • 多步推理任务:支持数学证明、代码生成等复杂逻辑链推理,解码提速 1.48 倍,加速思维链生成过程。
  • Agent 工作流:赋能多轮工具调用、自主任务规划等 agentic 流程,降低长上下文推理成本,支持更复杂的智能体交互。
  • RAG 系统:用在大规模知识库检索增强生成,高效处理 web-scale 检索结果的长上下文整合与生成。
  • 实时对话服务:适用客服机器人、智能助手等在线服务,提升吞吐量并降低 serving 成本,改善终端用户体验。

📝 站长洞察 (Editor’s Insight)

IndexCache的出现,标志着大模型推理优化正从粗放的算力堆砌,走向对计算流的精细外科手术式改造。其核心洞察——相邻层索引的高度重叠,揭示了深度学习模型中存在大量未被充分利用的“计算冗余”。这不仅是一项具体的加速技术,更是一种系统优化的新范式:通过分析模型内部的计算依赖与模式,用极低的工程代价(如一个条件分支)换取巨大的效率提升。在追求更大、更强模型的同时,如何让现有算力发挥出120%甚至200%的效能,才是产业界最务实、最紧迫的需求。IndexCache在744B参数GLM-5上的成功验证,预示着此类“内功修炼”式的优化将从实验室论文快速走向生产环境,成为支撑下一代AI Agent和实时长上下文应用的隐形基石。

Magnitude – 开源 AI Agent 驱动的端到端测试框架
OpenAI高薪招安全研究员:年薪最高44.5万美元,要求「良好品位」引热议
商汤开源 SenseNova-Skills:20+ 模块化 AI 办公技能,一键驱动 Agent 完成 PPT/Excel/信息图全流程
阿里通义Wan2.7-Image:AI图像生成新标杆,告别‘AI脸’乱码,精准控制品牌色
ScriptMe
TAGGED:GLM-5IndexCache大模型推理加速智谱AI稀疏注意力
分享
Email 复制链接 打印
Share
上一篇 VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型
下一篇 Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Playwriter:开源AI浏览器自动化神器,解决登录验证难题,节省80% Token消耗
AI 工具
VerseCrafter:复旦腾讯联手开源,4D几何控制重塑动态视频生成新范式
AI 工具 AIGC 资讯
英伟达开源PersonaPlex全双工语音AI模型:同时听和说,角色可定制,重新定义人机交互
AI 工具 AIGC 资讯
智谱开源GLM-4.7-Flash:300亿参数免费调用,编程中文写作翻译全面超越同类模型
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Gamma-World – 英伟达推出的多智能体世界模型

站外新闻
AIGC 资讯

PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景

站外新闻
AIGC 资讯

MiniMind – 开源的AI模型训练工具,2小时训练25.8M小模型

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

OpenAI 2.34亿美金落子新加坡:揭秘首个海外AI实验室的战略野心与全球布局

站外新闻
AI人才培养 openai 人工智能实验室 全球AI枢纽 新加坡
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小米 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.