DeepEyes多模态模型：小红书&西安交大联手，90.1%准确率实现AI’用图思考’，超越OpenAI o3

💡 站外导读：当多模态大模型还在追求’看懂’图片时，业界已开始探索更深度的’用图思考’。小红书与西安交通大学联合发布的DeepEyes模型，标志着视觉智能从被动识别向主动探索的范式转变。在自动驾驶需要识别远处路标、医生需要分析细微病灶的今天，静态看图已无法满足需求。DeepEyes通过创新的强化学习框架，让AI像人一样在推理中主动裁剪、放大关键区域，从而在复杂场景中实现高达90.1%的视觉推理准确率，为多模态AI的落地应用开辟了全新路径。

DeepEyes是什么

DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习，实现类似 OpenAI o3 的“用图思考”能力，无需依赖监督微调（SFT）。DeepEyes 在推理过程中动态调用图像工具，如裁剪和缩放，增强对细节的感知与理解。模型在视觉推理基准测试 V* Bench 上准确率高达 90.1%，展现出强大的视觉搜索和多模态推理能力。DeepEyes 具备出色的图像定位能力，能有效减少幻觉现象，提升模型的可靠性和泛化能力。

阅读目录

DeepEyes是什么
DeepEyes的主要功能
DeepEyes的技术原理
DeepEyes的项目地址
DeepEyes的应用场景

📝 站长洞察 (Editor’s Insight)

DeepEyes

DeepEyes的主要功能

用图思考：直接将图像融入推理过程，不仅“看图”，还能“用图思考”，在推理过程中动态调用图像信息，增强对细节的感知与理解。
视觉搜索：在高分辨率图像中快速定位小物体或模糊区域，基于裁剪和缩放工具进行详细分析，显著提升搜索准确率。
幻觉缓解：基于聚焦图像细节，减少模型在生成回答时可能出现的幻觉现象，提升回答的准确性和可靠性。
多模态推理：在视觉和文本推理之间实现无缝融合，提升模型在复杂任务中的推理能力。
动态工具调用：模型能自主决定何时调用图像工具，如裁剪、缩放等，无需外部工具支持，实现更高效、更准确的推理。

DeepEyes的技术原理

端到端强化学习：DeepEyes 用端到端强化学习（RL）训练模型，无需冷启动监督微调（SFT）。基于奖励信号直接优化模型的行为，自主学习如何在推理过程中有效利用图像信息。奖励函数包括准确率奖励、格式奖励和条件工具奖励，确保模型在正确回答问题的同时，高效地使用图像工具。
交错多模态思维链（iMCoT）：DeepEyes 引入交错多模态思维链（Interleaved Multimodal Chain-of-Thought, iMCoT），支持模型在推理过程中动态地交替使用视觉和文本信息。模型在每一步推理中决定是否需要进一步的视觉信息，基于生成边界框坐标裁剪图像中的关键区域，将区域重新输入模型，作为新的视觉证据。
工具使用导向的数据选择：为更好地激励模型的工具使用行为，基于工具使用导向的数据选择机制。训练数据经过精心筛选，确保样本有效促进模型的工具调用能力。数据集包括高分辨率图像、图表数据和推理数据，覆盖多种任务类型，提升模型的泛化能力。
动态工具调用行为：在训练过程中，模型的工具调用行为经历三个阶段：初始探索、积极使用和高效利用。模型从最初的随机尝试逐渐发展到高效、准确地调用工具，最终实现与人类类似的视觉推理过程。
多模态融合：DeepEyes 基于将视觉和文本信息深度融合，构建一个统一的推理框架。融合提升了模型在视觉任务中的表现，增强了在多模态任务中的整体性能。

DeepEyes的项目地址

项目官网：https://visual-agent.github.io/
GitHub仓库：https://github.com/Visual-Agent/DeepEyes
HuggingFace模型库：https://huggingface.co/ChenShawn/DeepEyes
arXiv技术论文：https://arxiv.org/pdf/2505.14362

DeepEyes的应用场景

教育辅导：解析试卷中的图表和几何图形，为学生提供详细的解题步骤，提升学习效率。
医疗影像：分析医学影像，辅助医生进行诊断，提高诊断的准确性和效率。
智能交通：实时分析路况图像，辅助自动驾驶系统做出更准确的决策，提升交通安全。
安防监控：分析监控视频，识别异常行为，增强公共安全和犯罪预防能力。
工业制造：在生产线上进行质量检测和设备故障预测，提高生产效率并降低维护成本。

📝 站长洞察 (Editor’s Insight)

DeepEyes的发布绝非仅是又一个模型上线，它揭示了多模态大模型进化的关键方向：从静态感知到动态交互式推理。其核心价值在于，它绕过了成本高昂的监督微调，直接通过强化学习训练出模型的’工具使用’能力，这很像教会一个孩子如何聪明地使用放大镜观察世界。在行业层面，这解决了高分辨率图像细节丢失和模型幻觉两大痛点。结合当前Agent智能体热潮，DeepEyes让视觉模型具备了自主规划工具链的能力，是通往更通用视觉智能体（Visual Agent）的重要一步。它预示着未来AI应用将更少依赖预设流程，而是能根据任务需求，像人类专家一样动态获取和处理信息，其在医疗、工业检测等精密视觉任务中的潜力值得高度关注。

DeepEyes多模态模型：小红书&西安交大联手，90.1%准确率实现AI’用图思考’，超越OpenAI o3

DeepEyes是什么

DeepEyes的主要功能

DeepEyes的技术原理

DeepEyes的项目地址

DeepEyes的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

ReSyncer – 清华联合百度推出的AI视频编辑工具

MotionClone – 文本驱动的AI视频动作克隆框架

Mini-Monkey – 华科联合华南理工推出的多模态AI模型

MDT-A2G – 复旦&腾讯优图推出的AI模型，可根据语音同步生成手势

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

DeepEyes是什么

DeepEyes的主要功能

DeepEyes的技术原理

DeepEyes的项目地址

DeepEyes的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复