Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架
AIGC 资讯

OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

站外新闻
最近更新: 2026年6月8日 上午11:41
SHARE

OThink-MR1是什么

OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色,在同任务验证中超越传统的监督微调(SFT)方法,在跨任务泛化实验中展现强大的适应性。OThink-MR1为多模态模型的通用推理能力发展开辟新路径,有望在更多领域发挥重要作用。

阅读目录
  • OThink-MR1是什么
  • OThink-MR1的主要功能
  • OThink-MR1的技术原理
  • OThink-MR1的项目地址
  • OThink-MR1的应用场景

OThink-MR1

OThink-MR1的主要功能

  • 提升多模态任务性能:基于动态强化学习优化模型,显著提高多模态任务(如视觉计数、几何推理等)的准确性和泛化能力。
  • 跨任务泛化能力:让模型在一种多模态任务上训练后,有效迁移到其他不同类型的多模态任务,减少对特定任务数据的依赖。
  • 动态平衡探索与利用:在训练过程中,动态调整探索新策略和用已有经验的平衡,提升模型的全局优化能力。
  • 增强模型的推理能力:基于奖励模型,引导模型生成准确、符合格式要求的输出,提升整体推理能力。

OThink-MR1的技术原理

  • 动态KL散度策略(GRPO-D):GRPO-D策略受经典强化学习中的ϵ-greedy策略启发,遵循“早期探索,后期利用”的原则。基于动态调整KL散度的权重,平衡模型在训练过程中的探索(尝试新策略)和利用(利用已有经验)。在训练初期,KL散度权重较小,鼓励模型进行广泛探索;随着训练的进行,权重逐渐增加,引导模型利用积累的经验,避免过早收敛到次优解。
  • 奖励模型:评估模型输出的准确性,例如在视觉计数任务中,模型输出与真实计数的匹配程度。确保模型输出符合特定格式要求,例如在几何推理任务中,模型输出的格式是否正确。将验证准确性奖励和格式奖励结合起来,为模型提供更全面的反馈,指导其学习过程。
  • 强化学习优化:基于最大化奖励函数,优化模型的策略,在每个训练步骤中,模型根据当前策略生成输出,奖励模型评估输出的质量,模型根据奖励信号调整策略,逐步提升性能。

OThink-MR1的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2503.16081

OThink-MR1的应用场景

  • 智能视觉问答:准确理解图像内容并生成答案,如识别复杂场景中的物体数量。
  • 图像描述生成:生成丰富且准确的图像描述,提供更详细的视觉信息。
  • 几何问题求解:分析图像中的几何图形,计算角度、长度等几何属性。
  • 多模态内容审核:结合图像和文本信息,判断内容是否符合规定,提高审核效率。
  • 虚拟现实与增强现实:为用户提供智能交互体验,如实时场景解读和导航建议。
智谱GLM-4.6V多模态大模型开源:106B参数性能比肩235B,视觉工具调用引领AI Agent新范式
Piece it Together – Bria AI等机构推出的图像生成框架
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
Magenta RealTime 2 – 谷歌Magenta开源的实时音乐生成模型
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
分享
Email 复制链接 打印
Share
上一篇 Baichuan-Audio – 百川智能开源的端到端语音交互模型
下一篇 豆包·语音播客模型 – 火山引擎推出的语音播客模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Self Forcing: Adobe与德克萨斯大学联合推出实时视频生成模型,单GPU实现17FPS,告别传统AI视频生成延迟
AI 工具 AIGC 资讯
腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

蚂蚁开源全模态大模型Ming-flash-omni 2.0:100B参数MoE架构,实现多模态理解与生成一体化

站外新闻
AIGC MoE架构 全模态大模型 多模态理解与生成 蚂蚁集团
AIGC 资讯

AIMv2 – 苹果开源的多模态自回归预训练视觉模型

站外新闻
AIGC 资讯

AppAgentX – 西湖大学推出的自我进化式 GUI 代理框架

站外新闻
AIGC 资讯

Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.