Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型

Magma是什么

Magma 是微软研究院推出的新型多模态AI基础模型，能为多模态人工智能代理（AI agents）提供通用能力。Magma能理解和执行多模态输入的任务，覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行预训练，Magma 结合了语言智能、空间智能和时间智能，能完成从 UI 导航到机器人操作的复杂任务。在实验中，Magma 在零样本和微调设置下均展现出卓越性能，在机器人操作和多模态理解任务中，超越了现有的专用模型。

阅读目录

Magma是什么
Magma的主要功能
Magma的技术原理
Magma的项目地址
Magma的应用场景

Magma

Magma的主要功能

多模态理解：能处理图像、视频、文本等多种模态的数据，理解其语义、空间和时间信息。支持从简单的图像识别到复杂的视频理解任务。
动作规划与执行：将复杂的任务分解为一系列可执行的动作序列。支持从 UI 导航（如网页操作、移动应用操作）到物理环境中的机器人操作（如抓取、放置、移动物体）。
环境适应性：在零样本（zero-shot）的情况下适应多种下游任务，包括 UI 导航、机器人操作和多模态理解。

Magma的技术原理

预训练架构：使用卷积网络（如 ConvNeXt）作为视觉编码器，处理图像和视频数据。将编码后的视觉信息与语言标记一起输入到一个大型语言模型（LLM）中，生成动作序列或语言描述。
Set-of-Mark (SoM)：在图像中标注可操作的视觉对象（如 GUI 中的按钮、机器人手臂的目标位置）。基于预测这些标记的位置，帮助模型理解和执行动作落地（action grounding）。
Trace-of-Mark (ToM)：在视频中标注物体的运动轨迹（如机器人手臂的运动路径）。基于预测未来轨迹，帮助模型理解和规划动作序列，增强时间动态的理解能力。
多模态数据融合：预训练数据包括图像、视频、机器人操作数据和多模态理解任务的数据。基于 SoM 和 ToM 技术，将这些不同类型的数据统一到一个预训练框架中，提升模型的通用性和适应性。
零样本和微调能力：预训练后的模型能直接应用于未见过的任务（零样本），表现出较强的泛化能力。在少量数据上进行微调后，能进一步提升性能，适应特定任务的需求。

Magma的项目地址

项目官网：https://microsoft.github.io/Magma/
GitHub仓库：https://github.com/microsoft/Magma
arXiv技术论文：https://www.arxiv.org/pdf/2502.13130

Magma的应用场景

网页和移动应用操作：自动完成搜索、安装应用、填写表单等任务。
机器人操作：控制机器人完成抓取、放置和移动物体等任务。
视频理解：分析视频内容，回答相关问题。
智能助手：作为虚拟助手，理解指令并完成交互任务。
教育与培训：辅助教学，提供操作指导和反馈。

Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型

Magma是什么

Magma的主要功能

Magma的技术原理

Magma的项目地址

Magma的应用场景

发表评价取消回复

最近更新

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

苹果 41 页诉状点名三人却放过伊夫：古尔曼拆解这份”留白”背后的三重算计

三星电子成立RX机器人事业部，加速机器人业务商业化

[AI生图咒语] 例520 – 月面宇航员 T 恤图形

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Magma是什么

Magma的主要功能

Magma的技术原理

Magma的项目地址

Magma的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复