Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ParGo – 字节与中山大学联合推出的多模态大模型连接器
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > ParGo – 字节与中山大学联合推出的多模态大模型连接器
AIGC 资讯

ParGo – 字节与中山大学联合推出的多模态大模型连接器

站外新闻
最近更新: 2026年6月9日 上午10:18
SHARE

ParGo是什么

ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。

阅读目录
  • ParGo是什么
  • ParGo的主要功能
  • ParGo的技术原理
  • ParGo的项目地址
  • ParGo的应用场景

ParGo的主要功能

  • 高效连接视觉与语言模态:ParGo采用全局+局部视角联合的方式,通过Partial-Global Perception Block(PGP)和Cascaded Partial Perception Block(CPP)两个关键模块,将视觉特征映射为Partial token和Global token,分别提取图像的局部和全局信息,实现了视觉特征和大语言模型(LLM)的高效连接,克服了传统方法对显著区域的过度聚焦问题。
  • 提升多模态大语言模型效果:在多个MLLM基准测试中表现出色,如在MME基准测试中相比传统的Q-Former投影器提升了259.96。特别是在强调细节感知能力的任务中,ParGo显著优于其他投影器,能够更准确地进行文字识别、更好地描述图像细节以及更有效地识别局部元素。
  • 自监督学习增强上下文理解:在训练阶段引入自监督学习策略,通过预测遮挡部分的内容来增强模型对上下文的理解能力,提高了模型的泛化性能,减少了对大规模标注数据的依赖。

ParGo的技术原理

  • 全局+局部视角联合:ParGo采用两种类型的可学习token,基于attention机制,同时从局部和全局视角将视觉特征映射到大语言模型(LLM)中。
  • Partial-Global Perception Block (PGP):在ParGo中,视觉编码器的特征被映射为两种不同类型的token:Partial token和Global token,能够分别提取图像的局部和全局信息。
    • Partial tokens:每个token仅与部分视觉特征进行交互,专注于图像的局部信息。
    • Global tokens:全局token则与所有视觉特征进行交互,捕捉图像的全局信息。
  • Cascaded Partial Perception Block (CPP):ParGo在Partial-Global Perception模块之前引入了Cascaded Partial Perception (CPP)模块。CPP模块的核心是带有特殊设计掩码的自注意力机制,随着层数的增加,每个Partial token能访问到更多的相邻token,逐步扩展其感知范围。
  • 自监督学习策略:在训练阶段,ParGo引入了自监督学习策略,即通过预测遮挡部分的内容来增强模型对上下文的理解能力。

ParGo的项目地址

  • Github仓库:https://github.com/bytedance/ParGo
  • arXiv技术论文:https://arxiv.org/pdf/2408.12928

ParGo的应用场景

  • 视觉问答系统:ParGo能理解图像中的视觉线索,解析文本中的语义信息,在视觉问答任务中表现出色。
  • 图像字幕生成:ParGo在COCO Caption等任务上表现尤为突出,能生成高质量的图像字幕。能描述图像的全局信息,还能捕捉到图像中的局部细节,生成更加准确和丰富的字幕。
  • 跨模态检索:ParGo可以用于跨模态检索任务,帮助用户通过文本查询找到相关的图像,或者通过图像查询找到相关的文本。
  • 情感分析:ParGo能理解图像和文本中的情感信息,在情感分析任务中提供更准确的结果。 图像内容理解:ParGo可以用于图像内容理解任务,帮助系统更好地理解图像中的细节和全局信息。
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
Baichuan-Audio – 百川智能开源的端到端语音交互模型
Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
Zerox – 开源的OCR工具,零样本识别多种格式文件
Pollinations.AI – 开源AI内容生成平台,提供免费文本和图像生成API
分享
Email 复制链接 打印
Share
上一篇 Motion Dreamer – 香港科技大学推出的运动合理视频生成框架
下一篇 Baichuan-M1-preview – 百川智能推出的国内首个全场景深度思考模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

DataClaw开源发布:一键导出AI对话,自动生成安全训练集,助力大模型微调
AI 工具 AIGC 资讯
OpenSandbox:阿里巴巴开源AI应用安全沙箱平台,为Agent与代码执行构建企业级隔离环境
AI 工具 AIGC 资讯
Goose:Block开源本地AI Agent框架,自主Debug、多模型切换,颠覆传统开发!
AI 工具 AIGC 资讯
阿里通义Fun-CosyVoice3.5重磅发布:一句话控制语气语速,13语种低延迟语音生成
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Heygem – 硅基智能推出的开源数字人模型

站外新闻
AIGC 资讯

星火纪要 – 科大讯飞推出的会议交流总结和分析平台

站外新闻
AIGC 资讯

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型

站外新闻
AIGC 资讯

Phi-4-reasoning – 微软推出的Phi-4推理模型系列

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.