Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
AIGC 资讯

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

站外新闻
最近更新: 2026年6月8日 下午5:01
SHARE

Migician是什么

Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优数据集MGrounding-630k进行训练,用两阶段训练方法,结合多图像理解和单图像定位能力,实现端到端的多图像定位功能。Migician的设计和训练方法为多模态模型在复杂视觉场景中的应用提供新的思路,推动多图像理解与细粒度视觉定位的融合。

阅读目录
  • Migician是什么
  • Migician的主要功能
  • Migician的技术原理
  • Migician的项目地址
  • Migician的应用场景

Migician

Migician的主要功能

  • 跨图像定位:在多幅图像中找到与查询相关的对象或区域,给出其精确位置(如坐标框)。
  • 灵活的输入形式:支持文本、图像或两者的组合作为查询,例如“在图2中找到与图1相似的物体,但颜色不同”。
  • 多任务支持:处理多种与多图像相关的任务,如对象跟踪、差异识别、共同对象定位等。
  • 高效推理:基于端到端的模型设计,直接在多图像场景中进行推理,避免传统方法中的多步推理和错误传播问题。

Migician的技术原理

  • 端到端的多图像定位框架:基于端到端的模型架构直接处理多图像定位任务,避免传统方法中将任务分解为多个子任务(如先生成文本描述再定位)的复杂性和效率问题。同时理解多幅图像的内容,根据查询直接输出目标对象的位置。
  • 大规模指令调优数据集(MGrounding-630k):包含超过63万条多图像定位任务的数据。数据集涵盖多种任务类型(如静态差异定位、共同对象定位、对象跟踪等),结合自由形式的指令,模型学习到多样化的定位能力。
  • 两阶段训练方法:
    • 第一阶段:模型在多种多图像任务上进行训练,学习基本的多图像理解和定位能力。
    • 第二阶段:基于自由形式的指令调优,提升模型在复杂查询下的定位能力,保持对多样化任务的适应性。
  • 多模态融合与推理:结合视觉和语言模态的信息,基于多模态融合实现对复杂查询的理解和定位,处理抽象的视觉语义信息,例如通过对比、相似性或功能关联定位目标对象。
  • 模型合并技术:基于模型合并技术,将不同训练阶段的权重进行平均,优化整体性能。

Migician的项目地址

  • 项目官网:https://migician-vg.github.io/
  • GitHub仓库:https://github.com/thunlp/Migician
  • HuggingFace模型库:https://huggingface.co/Michael4933/Migician
  • arXiv技术论文:https://arxiv.org/pdf/2501.05767

Migician的应用场景

  • 自动驾驶:快速定位车辆周围目标(如行人、障碍物),支持多视角感知和动态目标跟踪。
  • 安防监控:多摄像头联动识别异常行为或目标,分析人群聚集、快速移动等异常情况。
  • 机器人交互:精准定位目标物体,支持机器人在复杂环境中完成抓取、导航等任务。
  • 图像编辑:分析多幅图像内容,实现对象替换、删除或创意内容生成。
  • 医疗影像:融合多模态影像,快速定位病变区域或异常组织,支持动态监测。
ChatGPT 升级记忆系统 全面推向用户
龙猫LongCat – 美团自主研发的生成式AI大模型
Step-Audio – 阶跃星辰开源的语音交互模型
SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型
阿里通义Qwen3.7-Max旗舰大模型发布:全能智能体基座,编程推理全面领先,定义AI Agent新标杆
分享
Email 复制链接 打印
Share
上一篇 Heygem – 硅基智能推出的开源数字人模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Heygem – 硅基智能推出的开源数字人模型
AIGC 资讯
potpie.ai – AI代码库Agent构建平台,自动化代码分析、测试和开发任务
AIGC 资讯
kimi-thinking-preview – 月之暗面推出的多模态思考模型
AIGC 资讯
pdf-craft – 开源 PDF 转 Markdown 工具
AIGC 资讯

相关推荐

AIGC 资讯

iOS 27 将整合谷歌 Gemini 模型:苹果本地AI Siri大升级,隐私与性能如何兼得?

站外新闻
Gemini模型 本地AI 模型蒸馏 苹果Siri 隐私计算
AIGC 资讯最新趋势

机器人告别逐帧学动作!全球首个事件级具身智能世界模型WALL-WM重磅发布

站外新闻
VLA模型 世界模型 事件级预测 具身智能 自变量机器人
AIGC 资讯

Toolkami – 开源 AI Agent 框架,七种核心工具支持运行

站外新闻
AI 工具AIGC 资讯

ChatClaw:智麻开源AI智能体,30MB极简部署,5分钟私有化AI助手,支持钉钉飞书企微多平台接入

站外新闻
AI智能体 MCP协议 多平台接入 本地知识库 私有化部署
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.