Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架
AIGC 资讯

OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

站外新闻
最近更新: 2026年6月8日 上午11:41
SHARE

OThink-MR1是什么

OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色,在同任务验证中超越传统的监督微调(SFT)方法,在跨任务泛化实验中展现强大的适应性。OThink-MR1为多模态模型的通用推理能力发展开辟新路径,有望在更多领域发挥重要作用。

阅读目录
  • OThink-MR1是什么
  • OThink-MR1的主要功能
  • OThink-MR1的技术原理
  • OThink-MR1的项目地址
  • OThink-MR1的应用场景

OThink-MR1

OThink-MR1的主要功能

  • 提升多模态任务性能:基于动态强化学习优化模型,显著提高多模态任务(如视觉计数、几何推理等)的准确性和泛化能力。
  • 跨任务泛化能力:让模型在一种多模态任务上训练后,有效迁移到其他不同类型的多模态任务,减少对特定任务数据的依赖。
  • 动态平衡探索与利用:在训练过程中,动态调整探索新策略和用已有经验的平衡,提升模型的全局优化能力。
  • 增强模型的推理能力:基于奖励模型,引导模型生成准确、符合格式要求的输出,提升整体推理能力。

OThink-MR1的技术原理

  • 动态KL散度策略(GRPO-D):GRPO-D策略受经典强化学习中的ϵ-greedy策略启发,遵循“早期探索,后期利用”的原则。基于动态调整KL散度的权重,平衡模型在训练过程中的探索(尝试新策略)和利用(利用已有经验)。在训练初期,KL散度权重较小,鼓励模型进行广泛探索;随着训练的进行,权重逐渐增加,引导模型利用积累的经验,避免过早收敛到次优解。
  • 奖励模型:评估模型输出的准确性,例如在视觉计数任务中,模型输出与真实计数的匹配程度。确保模型输出符合特定格式要求,例如在几何推理任务中,模型输出的格式是否正确。将验证准确性奖励和格式奖励结合起来,为模型提供更全面的反馈,指导其学习过程。
  • 强化学习优化:基于最大化奖励函数,优化模型的策略,在每个训练步骤中,模型根据当前策略生成输出,奖励模型评估输出的质量,模型根据奖励信号调整策略,逐步提升性能。

OThink-MR1的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2503.16081

OThink-MR1的应用场景

  • 智能视觉问答:准确理解图像内容并生成答案,如识别复杂场景中的物体数量。
  • 图像描述生成:生成丰富且准确的图像描述,提供更详细的视觉信息。
  • 几何问题求解:分析图像中的几何图形,计算角度、长度等几何属性。
  • 多模态内容审核:结合图像和文本信息,判断内容是否符合规定,提高审核效率。
  • 虚拟现实与增强现实:为用户提供智能交互体验,如实时场景解读和导航建议。
OpenAI重磅开源隐私过滤模型:本地运行、支持128K长文本的PII脱敏新方案
BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具
PaddleSpeech – 百度飞桨团队开源的语音处理工具
全球AI支付里程碑!支付宝AI原生支付突破3亿笔,Token Pay与AI钱包重塑支付未来
2026年5月27日
分享
Email 复制链接 打印
Share
上一篇 Baichuan-Audio – 百川智能开源的端到端语音交互模型
下一篇 豆包·语音播客模型 – 火山引擎推出的语音播客模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

豆包·语音播客模型 – 火山引擎推出的语音播客模型
AIGC 资讯
Baichuan-Audio – 百川智能开源的端到端语音交互模型
AIGC 资讯
Qihoo-T2X – 360 AI 研究院和中山大学开源的高效多模态生成模型
AIGC 资讯
GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器
AIGC 资讯

相关推荐

量子芯片科技感占位特色图
AI 工具AIGC 资讯

擎朗XMAN-L1人形机器人重磅发布:接入豆包腾讯大模型,42自由度轻量化设计引领商用服务新范式

站外新闻
XMAN-L1 人形机器人 商用服务机器人 擎朗智能
AI 工具AIGC 资讯

阶跃星辰StepAudio 2.5 Realtime重磅发布:端到端实时语音大模型,实现真人级对话、千万人设自定义与行业评测全面领先

站外新闻
AIGC StepAudio 2.5 Realtime 实时语音大模型 端到端语音模型 阶跃星辰
AIGC 资讯

PixelFlow – 港大联合 Adobe 推出的图像生成模型

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

欧盟急谈Anthropic引进”地表最强”网安大模型Mythos:AI安全攻防进入地缘政治博弈新阶段

站外新闻
Anthropic 地缘政治 欧盟AI监管 网安大模型 网络安全漏洞
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.