Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MoBA – Moonshot AI 提出的新型注意力机制
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > MoBA – Moonshot AI 提出的新型注意力机制
AIGC 资讯

MoBA – Moonshot AI 提出的新型注意力机制

站外新闻
最近更新: 2026年6月9日 上午3:31
SHARE

MoBA是什么

MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文任务的效率。通过将上下文划分为多个块(block),引入无参数的 top-k 门控机制,让每个查询 token 动态选择最相关的键值(KV)块进行注意力计算。显著降低了计算复杂度,保持了与全注意力机制相当的性能。MoBA 的核心优势在于能无缝切换全注意力和稀疏注意力模式,同时遵循“少结构”原则,避免引入预定义的偏见,让模型自主决定关注点。实验表明,MoBA 在处理 100 万 token 的长文本时,速度比传统全注意力机制快 6.5 倍。MoBA 已经在 Kimi 平台上得到实际验证,开源了相关代码。

阅读目录
  • MoBA是什么
  • MoBA的主要功能
  • MoBA的技术原理
  • MoBA的项目地址
  • MoBA的应用场景

MoBA

MoBA的主要功能

  • 块稀疏注意力:MoBA 将上下文划分为多个块(block),每个查询 token 动态选择最相关的键值(KV)块进行注意力计算,实现长序列的高效处理。
  • 无参数门控机制:通过一种新颖的 top-k 门控机制,MoBA 为每个查询 token 动态选择最相关的块,确保模型只关注最有信息量的部分。
  • 全注意力与稀疏注意力的无缝切换:MoBA 设计为全注意力的灵活替代品,能在全注意力和稀疏注意力模式之间无缝切换,提高效率,不影响性能。
  • 高性能实现:MoBA 结合了 FlashAttention 和 MoE(混合专家模型)的优化技术,显著降低了计算复杂度。在处理 1M token 的长文本时,MoBA 的速度比传统全注意力机制快 6.5 倍,而在处理 10M token 时,速度提升可达 16 倍。
  • 与现有模型的兼容性:MoBA 可以轻松集成到现有的 Transformer 模型中,无需进行大量训练调整。

MoBA的技术原理

  • 因果性设计:为了保持自回归语言模型的因果关系,MoBA 确保查询 token 不能关注未来的块,在当前块中应用因果掩码。避免了信息泄露,同时保留了局部上下文信息。
  • 细粒度块划分与扩展性:MoBA 支持细粒度的块划分,类似于 MoE(混合专家模型)中的专家划分策略。这种设计提升了性能,使 MoBA 能扩展到极长的上下文(如 10M token),在长上下文任务中表现出色。

MoBA的项目地址

  • Github仓库:https://github.com/MoonshotAI/MoBA
  • 技术论文:https://github.com/MoonshotAI/MoBA

MoBA的应用场景

  • 长文本处理:MoBA 通过将上下文划分为块并动态选择相关块进行注意力计算,降低了计算复杂度,能高效处理长文本,如历史数据分析、复杂推理和决策等任务。
  • 长上下文语言模型:MoBA 已部署支持 Kimi 的长上下文请求处理,显著提升处理效率,在处理 1M 甚至 10M token 的超长文本时,速度分别提升 6.5 倍和 16 倍。
  • 多模态任务:MoBA 的架构可以扩展到多模态任务中,处理和理解多种类型的数据(如文本和图像),结合长上下文处理能力,为复杂任务提供支持。
  • 个人助理与智能家居:在个人助理和智能家居控制中,MoBA 可以高效处理用户的长指令,同时通过动态注意力机制快速响应,提升用户体验。
  • 教育与学习:在教育领域,MoBA 可以帮助学生处理长篇学习资料,辅助完成作业,或提供基于长上下文的智能辅导。
  • 复杂推理与决策:MoBA 的动态注意力机制能高效处理复杂的推理任务,如长链推理(CoT)和多步决策,同时保持与全注意力机制相当的性能。
AutoRAG – Cloudflare 推出的全托管检索增强生成服务
Spotify CEO公开辩护AI音乐战略:以正版授权对抗盗版与AI垃圾内容泛滥
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
联想AI矩阵全线落地:百应+天禧双引擎驱动,以‘词元经济’重塑企业与个人生产力
分享
Email 复制链接 打印
Share
上一篇 BGE-VL – 智源研究院联合多所高校开源的多模态向量模型
下一篇 ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

FlowDirector:无需训练,一文看懂西湖&中南大学如何用ODE革新AI视频编辑,精准指令直达
AI 工具 AIGC 资讯
字节跳动DreamActor-H1:DiT框架革新电商视频生成,3D动作引导+身份保留引领AIGC商业化
AI 工具
Kimi-Dev 72B 开源代码模型登顶SWE-bench!月之暗面发布,超越DeepSeek-R1,编程能力堪比闭源模型
AI 工具 AIGC 资讯
ThinkChain开源框架:实时反馈工具结果,让AI(如Claude)思考更智能、决策更精准
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架

站外新闻
AI 工具AIGC 资讯

谷歌Generative UI:AI自动生成可交互界面,颠覆人机交互方式 | 教育、游戏、数据分析新范式

站外新闻
AIGC Gemini Generative UI 人机交互 谷歌
AI 工具AIGC 资讯

美团开源LongCat-Flash-Lite:685亿参数MoE大模型,仅激活30亿参数实现256K超长上下文推理

站外新闻
MoE架构 开源大语言模型 美团AI 长上下文
AIGC 资讯

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.