Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: APB – 清华联合腾讯等机构推出的分布式长上下文推理框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > APB – 清华联合腾讯等机构推出的分布式长上下文推理框架
AIGC 资讯

APB – 清华联合腾讯等机构推出的分布式长上下文推理框架

站外新闻
最近更新: 2026年6月8日 上午7:30
SHARE

APB是什么

APB(Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs)是清华大学等机构联合提出的分布式长上下文推理框架。通过稀疏注意力机制和序列并行推理方式,有效解决了大模型处理长文本时的效率瓶颈。APB采用更小的Anchor block和Passing block,结合查询感知的上下文压缩技术,减少计算开销的同时,精准传递关键信息,实现长距离语义依赖的高效处理。在128K文本上,APB推理速度比Flash Attention快约10倍,比英伟达的Star Attention快1.6倍,且性能优异。具备卓越的兼容性,能适应不同分布式设定和模型大小。

阅读目录
  • APB是什么
  • APB的主要功能
  • APB的技术原理
  • APB的项目地址
  • APB的应用场景

APB

APB的主要功能

  • 加速长上下文推理:APB通过多主机近似注意力机制显著提升推理速度,相比Flash Attention、Ring Attention和Star Attention分别实现了高达9.2倍、4.2倍和1.6倍的速度提升。通过序列并行化和近似注意力机制的结合,APB在保持任务性能的同时,大幅减少了计算量和通信开销。
  • 高效的分布式计算:
    • 上下文分割:输入序列被均匀分配到多个主机上,在每个主机的本地上下文块前附加一个锚点块(Anchor Block),保留对输入序列初始部分的可见性。
    • 块压缩:在每个主机上,使用Locret的保留头(Retaining Heads)对KV缓存进行压缩,减少通信和计算开销。
    • 通信机制:通过AllGather通信机制,将压缩后的上下文块发送到所有主机,并构建传递块(Passing Block),以传递前序主机的重要KV缓存单元。
    • 计算:在每个主机上,结合锚点块、传递块和本地上下文块进行注意力计算。传递块在注意力计算后被丢弃,不参与后续计算。
  • 适应性强:APB支持多种模型和并行配置,能适应不同的分布式设置和模型大小,具有良好的可扩展性,通过调整锚点块和传递块的大小,APB可以在不同长度的输入序列上实现最佳性能。
  • 保持任务性能:在长上下文推理任务中,APB速度更快,在性能上与全注意力计算(Full Attention)相当,在某些任务上表现更好。通过查询感知的上下文压缩技术,APB能更精准地识别和传递与查询相关的上下文信息,保持或提升任务性能。

APB的技术原理

  • 稀疏注意力机制:APB框架整合了稀疏注意力机制,通过减少计算量来提升推理速度。通过以下方式实现稀疏注意力:
    • 更小的Anchor block:与Star Attention相比,APB将Anchor block的大小缩小到上下文块的1/4或1/8,从而减少了额外的计算开销。
    • Passing block:为了解决长距离语义依赖问题,APB通过构建Passing block来传递重要信息。Passing block由前面设备上的重要KV对组成,每个上下文块被压缩后通信到后续GPU上构建Passing block。
    • 查询感知的上下文压缩:APB在Anchor block的开头嵌入查询,使上下文压缩器能够看到查询的内容,更精准地识别出查询相关的KV对,通过通信机制传给后续设备。
  • 序列并行推理:APB框架采用序列并行的方式,将长文本均匀分配到多个GPU上进行并行处理,同时通过局部KV缓存压缩和精简的跨GPU通信机制,解决了长上下文中的远距离语义依赖问题。

APB的项目地址

  • Github仓库:https://github.com/thunlp/APB
  • arXiv技术论文:https://arxiv.org/pdf/2502.12085

APB的应用场景

  • 长文本推理:如长文本生成、长文本问答等,需要处理极长输入序列的应用。
  • 多Agent协作:多个Agent需要协同处理长上下文信息的场景。
  • 大规模模型服务:需要在分布式环境中高效处理长上下文的模型服务。
  • 知识图谱构建:知识图谱构建任务需要处理大量的文本数据,提取和整合知识。APB框架通过高效的上下文压缩和传递机制,能显著提升知识图谱构建的效率。
  • 实时交互系统:实时交互系统需要快速处理用户的输入生成准确的回复。APB框架通过高效的上下文压缩和传递机制,能显著提升实时交互系统的效率。
蚂蚁灵波LingBot-VA论文入选RSS2026:全球首个开源因果世界模型如何让机器人‘边想边做’?
Grok 4 Fast:xAI推出极速AI模型,响应提速10倍,每秒生成75个token
蚂蚁开源万亿参数思考大模型Ring-1T:性能逼近GPT-5,领跑开源推理新纪元
英伟达发布NitroGen:斯坦福联合打造开源通用游戏AI模型,泛化能力飙升52%
Cooragent – 清华 LeapLab 开源的 AI Agent 协作框架
分享
Email 复制链接 打印
Share
上一篇 Chatlog – 开源AI聊天记录分析工具,自动解析、可视化和挖掘聊天记录
下一篇 ChatTS-14B – 字节开源的时间序列理解和推理大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯
PreenCut开源AI视频剪辑工具:基于WhisperX与大模型,实现自然语言秒搜定位,高效视频剪辑新革命
AI 工具 AIGC 资讯
阿里达摩院「灵枢」大模型:12种医学影像秒级分析,性能碾压GPT-4.1,开源引爆医疗AI新浪潮
AI 工具 AIGC 资讯
Ring-lite:仅2.75B激活参数,蚂蚁技术开源轻量级推理模型刷新SOTA
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

QVQ-72B-Preview – 阿里通义开源的多模态推理模型

站外新闻
AIGC 资讯

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

站外新闻
AIGC 资讯

Evolving Agents – 开源的AI Agent管理与进化框架

站外新闻
AI 工具AIGC 资讯

InternSVG:上海AI Lab统一SVG建模套件发布,覆盖理解、编辑与生成,性能全面超越GPT-4o

站外新闻
AIGC InternSVG SVG建模 上海人工智能实验室 多模态大模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.