清华联手智谱推出IndexCache：稀疏注意力加速技术，长上下文推理提速近2倍，零性能损失

💡 站外导读：随着大模型上下文窗口迈向百万Token时代，超长文本的处理效率成为AI落地的核心瓶颈。传统稀疏注意力（DSA）中的索引器，在200K上下文下竟占据高达81%的预填充时间，成为显著的性能瓶颈。清华大学与智谱AI团队敏锐地洞察到，相邻模型层在决定关注哪些关键Token时，选择结果惊人地相似。基于此发现，他们推出了IndexCache技术，通过智能的跨层索引复用，大幅削减了冗余计算，为长上下文推理带来了接近翻倍的速度提升。

IndexCache是什么

IndexCache 是清华与智谱团队推出的稀疏注意力加速技术，针对 DeepSeek 稀疏注意力（DSA）中索引器计算开销大的问题，通过跨层复用索引来减少冗余计算。IndexCache发现相邻层选择的 top-k token 重叠率高达 70%-100%，因此将层分为”全量层”（计算并缓存索引）和”共享层”（直接复用缓存）。此方法可去除 75% 的索引器计算，在 200K 上下文场景下实现预填充 1.82 倍、解码 1.48 倍加速，且几乎不损失模型性能，已在 30B 参数模型及 744B 参数的 GLM-5 上验证有效。

阅读目录

IndexCache是什么
IndexCache的主要功能
IndexCache的技术原理
IndexCache的关键信息和使用要求
IndexCache的核心优势
IndexCache的项目地址
IndexCache的同类竞品对比
IndexCache的应用场景

📝 站长洞察 (Editor’s Insight)

IndexCache

IndexCache的主要功能

跨层索引复用：用相邻层 top-k 索引 70%-100% 的高重叠率，让共享层直接复用全量层的缓存索引，避免重复计算。
大幅降低索引器开销：可去除 75% 的索引器计算，仅保留 1/4 索引器即可维持模型性能。
显著加速推理：在 200K 上下文下实现预填充 1.82 倍、解码 1.48 倍加速，缩短用户等待时间。
零额外内存开销：通过一个条件分支实现复用，无需分配额外 GPU 显存。
提供两种部署方案：无训练方案通过贪心搜索确定最优层模式，训练感知方案通过多层蒸馏损失优化索引器参数。
生产级验证：已在 30B 参数模型和 744B 参数的 GLM-5 上验证有效，支持 SGLang 和 vLLM 推理框架。

IndexCache的技术原理

跨层索引相似性发现：研究团队通过热力图分析发现，DSA 模型相邻层的索引器输出的 top-k token 集合具有极高相似性，重叠率普遍在 70% 至 100% 之间，表明大量索引计算存在冗余。
层角色划分机制：IndexCache 将模型层划分为两类：全量层（Full Layer）保留原有索引器，负责计算并缓存当前最新的 top-k 索引；共享层（Shared Layer）不再运行自身索引器，直接复用最近一个全量层所缓存的索引进行稀疏注意力计算。
动态模式选择策略：针对已训练模型，采用基于校准数据的贪心搜索算法，逐一尝试将层转为共享层并评估对模型输出的影响，保留关键层作为全量层；针对从头训练场景，引入多层蒸馏损失，让每个全量层索引器同时学习服务其后多个共享层的需求。
推理流程优化：在推理过程中，每层仅增加一个简单的条件判断，根据预设模式在计算新索引与复用缓存索引之间切换，实现索引器的跨层共享，无需修改模型架构或增加额外存储。

IndexCache的关键信息和使用要求

提出机构：清华大学与智谱（Z.ai）联合研发。
针对问题：解决 DeepSeek 稀疏注意力中索引器在长上下文场景下的计算瓶颈，200K token 时占预填充时间高达 81%。
核心原理：基于相邻层 top-k 索引 70%-100% 的高重叠率，通过跨层复用减少冗余计算。
加速效果：保留 1/4 索引器即可实现预填充 1.82 倍、解码 1.48 倍加速。
性能损失：几乎无质量损失，部分推理任务甚至表现更优。
验证模型：在 30B 参数 DSA 模型及 744B 参数 GLM-5 上均验证有效。
硬件要求：需 NVIDIA GPU（如 H100），但无需额外显存，复用标准 DSA 内存空间。
软件环境：支持 SGLang 或 vLLM 框架，提供现成补丁可直接用于 DeepSeek-V3.2、GLM-5 等模型。
无训练方案：适用已训练好的 DSA 模型，需准备小批量校准数据运行贪心搜索确定最优层模式。

IndexCache的核心优势

显著加速：支持200K 上下文下预填充提速 1.82 倍、解码提速 1.48 倍，大幅降低用户等待时间。
零性能损失：去除 75% 索引器计算后，模型质量几乎无损，部分任务甚至略有提升。
零额外开销：一个条件分支实现复用，不增加 GPU 显存占用，复用标准 DSA 已分配内存。
即插即用：提供 SGLang 和 vLLM 补丁，无需修改模型架构，可直接应用于 DeepSeek-V3.2、GLM-5 等主流模型。
灵活部署：支持无训练和训练感知两种方案，适配已训练模型和从头训练场景，索引器保留比例可灵活配置。
生产级验证：已在 744B 参数的 GLM-5 大模型上验证有效，具备规模化部署能力。

IndexCache的项目地址

GitHub仓库：https://github.com/THUDM/IndexCache
arXiv技术论文：https://arxiv.org/pdf/2603.12201

IndexCache的同类竞品对比

对比维度	IndexCache	原生 DSA	Full Attention Anchor 方法
核心机制	跨层复用索引器输出的 top-k 索引	每层独立运行轻量级索引器	依赖全注意力锚点层复用索引
计算开销	去除 75% 索引器，预填充加速 1.82 倍	200K 上下文下索引器占 81% 预填充时间	需保留全注意力层，计算成本较高
适用场景	完全消除全注意力的 DSA 架构	标准 DSA 部署	需全注意力作为锚点的架构
实现复杂度	一个 if/else 分支，零额外显存	标准实现	需设计锚点层策略
训练要求	支持无训练部署或训练感知优化	需完整训练	通常需联合训练
生产验证	744B GLM-5 验证	DeepSeek-V3 生产应用	多为中小规模实验

IndexCache的应用场景

长文档处理：适用论文阅读、法律合同分析等场景，200K 上下文下预填充提速 1.82 倍，显著降低用户等待首 token 的时间。
多步推理任务：支持数学证明、代码生成等复杂逻辑链推理，解码提速 1.48 倍，加速思维链生成过程。
Agent 工作流：赋能多轮工具调用、自主任务规划等 agentic 流程，降低长上下文推理成本，支持更复杂的智能体交互。
RAG 系统：用在大规模知识库检索增强生成，高效处理 web-scale 检索结果的长上下文整合与生成。
实时对话服务：适用客服机器人、智能助手等在线服务，提升吞吐量并降低 serving 成本，改善终端用户体验。

📝 站长洞察 (Editor’s Insight)

IndexCache的出现，标志着大模型推理优化正从粗放的算力堆砌，走向对计算流的精细外科手术式改造。其核心洞察——相邻层索引的高度重叠，揭示了深度学习模型中存在大量未被充分利用的“计算冗余”。这不仅是一项具体的加速技术，更是一种系统优化的新范式：通过分析模型内部的计算依赖与模式，用极低的工程代价（如一个条件分支）换取巨大的效率提升。在追求更大、更强模型的同时，如何让现有算力发挥出120%甚至200%的效能，才是产业界最务实、最紧迫的需求。IndexCache在744B参数GLM-5上的成功验证，预示着此类“内功修炼”式的优化将从实验室论文快速走向生产环境，成为支撑下一代AI Agent和实时长上下文应用的隐形基石。

清华联手智谱推出IndexCache：稀疏注意力加速技术，长上下文推理提速近2倍，零性能损失

IndexCache是什么

IndexCache的主要功能

IndexCache的技术原理

IndexCache的关键信息和使用要求

IndexCache的核心优势

IndexCache的项目地址

IndexCache的同类竞品对比

IndexCache的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

红果短剧发布AI角色规范，专项整治“高频AI脸”与素材侵权

黑森林实验室FLUX3 多模态模型登场：单次生成 20 秒音视频，胜率碾压Grok与Seedance

菲尔兹奖新得主齐默尔曼官宣加入OpenAI，数学最高荣誉得主转向AI安全

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

IndexCache是什么

IndexCache的主要功能

IndexCache的技术原理

IndexCache的关键信息和使用要求

IndexCache的核心优势

IndexCache的项目地址

IndexCache的同类竞品对比

IndexCache的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复