Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Mini-o3开源:字节+港大联手,视觉推理模型实现数十轮深度交互
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > Mini-o3开源:字节+港大联手,视觉推理模型实现数十轮深度交互
AI 工具AIGC 资讯

Mini-o3开源:字节+港大联手,视觉推理模型实现数十轮深度交互

站外新闻
最近更新: 2026年6月7日 下午8:18
多轮交互 字节跳动 开源模型 强化学习 视觉推理模型
SHARE

💡 站外导读:undefined

Mini-o3是什么

Mini-o3 是字节跳动和香港大学联合推出的开源模型,专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具,能执行深度多轮推理,推理轮次可扩展至数十轮。Mini-o3 通过构建挑战性数据集、采用迭代数据收集流程以及提出过轮遮蔽策略等方法,显著提升模型的推理能力和交互轮次。模型在多个视觉搜索基准测试中取得最佳性能,所有代码、模型和数据集均开源,便于复现和进一步研究。

阅读目录
  • Mini-o3是什么
  • Mini-o3的主要功能
  • Mini-o3的技术原理
  • Mini-o3的项目地址
  • Mini-o3的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Mini-o3

Mini-o3的主要功能

  • 多轮交互推理:能进行深度多轮推理,交互轮次可扩展至数十轮,通过逐步探索和试错解决复杂的视觉搜索问题。
  • 多样化推理模式:支持多种推理模式,包括深度优先搜索、试错和目标维持等。
  • 挑战性视觉搜索:在高分辨率图像中,目标较小且存在大量干扰物体,也能准确地定位和识别目标。
  • 性能卓越:在多个视觉搜索基准测试中(如VisualProbe、V* Bench、HR-Bench、MME-Realworld等)取得最先进的结果,展现出强大的视觉推理能力。
  • 开源性:所有代码、模型和数据集均开源,便于研究人员复现和进一步研究,推动相关技术的发展。

Mini-o3的技术原理

  • 冷启动监督微调(Cold-start Supervised Fine-tuning, SFT):通过少量手工制作的示例,用上下文学习能力的视觉语言模型(VLM)生成高质量、多样化的多轮交互轨迹。
  • 强化学习(Reinforcement Learning, RL):基于过轮遮蔽(over-turn masking)策略,避免因交互轮次超出限制而受到惩罚,在测试时能自然扩展到数十轮交互。
  • 降低图像像素预算(Lower Down Max Pixels):通过减少每张图像的最大像素数,增加单次交互中允许的轮次数量,提高解决长周期问题的能力。
  • 挑战性数据集(Visual Probe Dataset):构建一个包含数千个视觉搜索问题的数据集,问题设计用在鼓励探索性推理,帮助模型在训练过程中学习复杂的推理模式。

Mini-o3的项目地址

  • 项目官网:https://mini-o3.github.io/
  • GitHub仓库:https://github.com/Mini-o3/Mini-o3
  • HuggingFace模型库:https://huggingface.co/Mini-o3/models
  • arXiv技术论文:https://arxiv.org/pdf/2509.07969

Mini-o3的应用场景

  • 电商场景:帮助用户在海量商品图片中快速找到目标商品,在服装电商平台上,用户通过上传一张图片搜索类似款式的服装。
  • 智能家居:在智能家居环境中,通过摄像头捕捉图像,帮助用户快速找到丢失的物品,如钥匙、遥控器等。
  • 监控视频分析:在监控视频中快速定位和识别特定目标,如在人群密集的场所中寻找特定人员或物品。
  • 异常行为检测:通过多轮推理分析监控视频中的异常行为,如入侵检测、异常活动识别等。
  • 复杂场景导航:在复杂路况中,通过多轮视觉推理帮助自动驾驶系统更好地理解和规划路径,例如在有遮挡物或复杂交通标志的场景中。

📝 站长洞察 (Editor’s Insight)

主编点评:Mini-o3的推出标志着视觉AI从静态识别向动态、交互式推理的重要跃迁。它不仅仅是一个模型,更代表了一种解决复杂问题的新范式——通过强化学习驱动的多轮探索,模拟了人类的试错与深度思考过程。这与当前大模型向Agent化、工具化发展的趋势高度契合,尤其在需要精细化理解的垂直领域(如电商找货、安防监控)潜力巨大。字节与港大的此次合作,也再次凸显了产学研结合在攻克前沿技术难题上的高效性。全开源的策略,更是为社区注入了强劲动力,预计将催生大量创新应用。未来,谁能将此类深度推理能力与多模态大模型、机器人硬件相结合,谁就可能在下一代智能体竞争中占据先机。

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
Light-R1 – 360智脑开源的长思维链推理模型
AutoRAG – 中科院开源的自主迭代检索模型
TypingMind
SwiftCover
TAGGED:多轮交互字节跳动开源模型强化学习视觉推理模型
分享
Email 复制链接 打印
Share
上一篇 上海AI Lab开源Lumina-DiMOO:全离散扩散统一多模态生成理解,刷新行业基准
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

上海AI Lab开源Lumina-DiMOO:全离散扩散统一多模态生成理解,刷新行业基准
AI 工具 AIGC 资讯
宇树科技开源 UnifoLM-WMA-0:突破性世界模型赋能通用机器人学习与决策
AI 工具 AIGC 资讯
美团开源InfiniteTalk:用稀疏帧实现高精度数字人驱动,口型表情动作完美同步
AI 工具 AIGC 资讯
阿里通义重磅开源ReSum:突破WebAgent上下文限制,实现无限探索的推理新范式
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

Claude Mythos:Anthropic「秘密武器」能力超人类安全专家,因太强而限制发布

站外新闻
AI模型 Anthropic Claude Mythos 网络安全 零日漏洞
AIGC 资讯

腾讯文档行业首发「人机双写」原生接入WorkBuddy构建AI原生编辑器

站外新闻
AIGC 资讯

DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

站外新闻
量子芯片科技感占位特色图
AI 工具AIGC 资讯

免费开源!Maia 3 AI国际象棋引擎发布:Elo 1800,像人类一样下棋

站外新闻
AI国际象棋 AI陪练 LLaMA架构 Maia 3 开源模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.