Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
AIGC 资讯

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

站外新闻
最近更新: 2026年6月8日 下午5:01
SHARE

Migician是什么

Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优数据集MGrounding-630k进行训练,用两阶段训练方法,结合多图像理解和单图像定位能力,实现端到端的多图像定位功能。Migician的设计和训练方法为多模态模型在复杂视觉场景中的应用提供新的思路,推动多图像理解与细粒度视觉定位的融合。

阅读目录
  • Migician是什么
  • Migician的主要功能
  • Migician的技术原理
  • Migician的项目地址
  • Migician的应用场景

Migician

Migician的主要功能

  • 跨图像定位:在多幅图像中找到与查询相关的对象或区域,给出其精确位置(如坐标框)。
  • 灵活的输入形式:支持文本、图像或两者的组合作为查询,例如“在图2中找到与图1相似的物体,但颜色不同”。
  • 多任务支持:处理多种与多图像相关的任务,如对象跟踪、差异识别、共同对象定位等。
  • 高效推理:基于端到端的模型设计,直接在多图像场景中进行推理,避免传统方法中的多步推理和错误传播问题。

Migician的技术原理

  • 端到端的多图像定位框架:基于端到端的模型架构直接处理多图像定位任务,避免传统方法中将任务分解为多个子任务(如先生成文本描述再定位)的复杂性和效率问题。同时理解多幅图像的内容,根据查询直接输出目标对象的位置。
  • 大规模指令调优数据集(MGrounding-630k):包含超过63万条多图像定位任务的数据。数据集涵盖多种任务类型(如静态差异定位、共同对象定位、对象跟踪等),结合自由形式的指令,模型学习到多样化的定位能力。
  • 两阶段训练方法:
    • 第一阶段:模型在多种多图像任务上进行训练,学习基本的多图像理解和定位能力。
    • 第二阶段:基于自由形式的指令调优,提升模型在复杂查询下的定位能力,保持对多样化任务的适应性。
  • 多模态融合与推理:结合视觉和语言模态的信息,基于多模态融合实现对复杂查询的理解和定位,处理抽象的视觉语义信息,例如通过对比、相似性或功能关联定位目标对象。
  • 模型合并技术:基于模型合并技术,将不同训练阶段的权重进行平均,优化整体性能。

Migician的项目地址

  • 项目官网:https://migician-vg.github.io/
  • GitHub仓库:https://github.com/thunlp/Migician
  • HuggingFace模型库:https://huggingface.co/Michael4933/Migician
  • arXiv技术论文:https://arxiv.org/pdf/2501.05767

Migician的应用场景

  • 自动驾驶:快速定位车辆周围目标(如行人、障碍物),支持多视角感知和动态目标跟踪。
  • 安防监控:多摄像头联动识别异常行为或目标,分析人群聚集、快速移动等异常情况。
  • 机器人交互:精准定位目标物体,支持机器人在复杂环境中完成抓取、导航等任务。
  • 图像编辑:分析多幅图像内容,实现对象替换、删除或创意内容生成。
  • 医疗影像:融合多模态影像,快速定位病变区域或异常组织,支持动态监测。
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
BGE-VL – 智源研究院联合多所高校开源的多模态向量模型
EasyControl – Tiamat AI 联合上海科大等开源的图像生成控制框架
TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变
百度MuseSteamer多模态视频生成大模型:AI一键生成电影级音效一体化视频
分享
Email 复制链接 打印
Share
上一篇 Heygem – 硅基智能推出的开源数字人模型
下一篇 Neural4D 2o – DreamTech 推出支持多模态交互的 3D 模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

港科大、美团联手发布PosterCraft:告别模板,用AI生成高美学海报的统一框架

站外新闻
AIGC AI海报生成 PosterCraft 港科大 美团
AI 工具AIGC 资讯

SoulX-FlashTalk:Soul App 14B参数开源模型,0.87秒延迟实现7×24小时实时数字人直播

站外新闻
AIGC SoulX-FlashTalk 实时数字人 开源模型
AI 工具AIGC 资讯

K2-Think开源推理模型:数学代码双冠王,320亿参数重塑AI推理效率

站外新闻
G42 MBZUAI 开源AI模型 推理模型 数学代码推理
AI 工具AIGC 资讯

松下联手UCLA发布OmniFlow:革命性多模态AI实现文本、图像、音频任意生成

站外新闻
AIGC OmniFlow 加州大学洛杉矶分校 多模态AI 松下
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.