Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
AIGC 资讯

Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型

站外新闻
最近更新: 2026年6月9日 上午1:01
SHARE

Magma是什么

Magma 是微软研究院推出的新型多模态AI基础模型,能为多模态人工智能代理(AI agents)提供通用能力。Magma能理解和执行多模态输入的任务,覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行预训练,Magma 结合了语言智能、空间智能和时间智能,能完成从 UI 导航到机器人操作的复杂任务。在实验中,Magma 在零样本和微调设置下均展现出卓越性能,在机器人操作和多模态理解任务中,超越了现有的专用模型。

阅读目录
  • Magma是什么
  • Magma的主要功能
  • Magma的技术原理
  • Magma的项目地址
  • Magma的应用场景

Magma

Magma的主要功能

  • 多模态理解:能处理图像、视频、文本等多种模态的数据,理解其语义、空间和时间信息。支持从简单的图像识别到复杂的视频理解任务。
  • 动作规划与执行:将复杂的任务分解为一系列可执行的动作序列。支持从 UI 导航(如网页操作、移动应用操作)到物理环境中的机器人操作(如抓取、放置、移动物体)。
  • 环境适应性:在零样本(zero-shot)的情况下适应多种下游任务,包括 UI 导航、机器人操作和多模态理解。

Magma的技术原理

  • 预训练架构:使用卷积网络(如 ConvNeXt)作为视觉编码器,处理图像和视频数据。将编码后的视觉信息与语言标记一起输入到一个大型语言模型(LLM)中,生成动作序列或语言描述。
  • Set-of-Mark (SoM):在图像中标注可操作的视觉对象(如 GUI 中的按钮、机器人手臂的目标位置)。基于预测这些标记的位置,帮助模型理解和执行动作落地(action grounding)。
  • Trace-of-Mark (ToM):在视频中标注物体的运动轨迹(如机器人手臂的运动路径)。基于预测未来轨迹,帮助模型理解和规划动作序列,增强时间动态的理解能力。
  • 多模态数据融合:预训练数据包括图像、视频、机器人操作数据和多模态理解任务的数据。基于 SoM 和 ToM 技术,将这些不同类型的数据统一到一个预训练框架中,提升模型的通用性和适应性。
  • 零样本和微调能力:预训练后的模型能直接应用于未见过的任务(零样本),表现出较强的泛化能力。在少量数据上进行微调后,能进一步提升性能,适应特定任务的需求。

Magma的项目地址

  • 项目官网:https://microsoft.github.io/Magma/
  • GitHub仓库:https://github.com/microsoft/Magma
  • arXiv技术论文:https://www.arxiv.org/pdf/2502.13130

Magma的应用场景

  • 网页和移动应用操作:自动完成搜索、安装应用、填写表单等任务。
  • 机器人操作:控制机器人完成抓取、放置和移动物体等任务。
  • 视频理解:分析视频内容,回答相关问题。
  • 智能助手:作为虚拟助手,理解指令并完成交互任务。
  • 教育与培训:辅助教学,提供操作指导和反馈。
VideoFusion – AI视频剪辑工具,自动去除视频黑边、水印和字幕
DeepSeek百宝箱 – DeepSeek API在多种软件中的集成应用
领英重拳出击:AI水文末日!深度解析平台如何精准限流低质内容
APB – 清华联合腾讯等机构推出的分布式长上下文推理框架
Neo-1 – VantAI 推出的首个原子生成式AI模型
分享
Email 复制链接 打印
Share
上一篇 NEXUS-O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

NEXUS-O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
AIGC 资讯
FlashVideo – 字节联合港大推出的高分辨率视频生成框架
AIGC 资讯
食神 – 老板电器推出的首个烹饪大模型
AIGC 资讯
LIMO – 上海交大推出的高效推理方法,仅需817条训练样本
AIGC 资讯

相关推荐

流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

微软 Maia 200 芯片联手 Anthropic:AI 算力战升级,30% 效率提升重塑云市场格局?

站外新闻
AI芯片 Anthropic Maia 200 云计算 微软
AIGC 资讯

GPT-4.5 – OpenAI 推出的最强聊天模型

站外新闻
AIGC 资讯

​OpenCV 5 重磅发布:全新 DNN 引擎原生支持大模型,迈入大模型时代

站外新闻
AIGC 资讯

Animate Anyone 2 – 阿里通义推出的高保真角色图像动画生成技术

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.