DeepEyesV2：小红书开源多模态智能体，引爆AI工具调用与复杂推理新范式

💡 站外导读：在多模态大模型浪潮中，如何让AI超越被动问答，具备主动探索和解决复杂现实问题的能力，是行业核心挑战。小红书团队开源的DeepEyesV2模型，直击这一痛点。它不仅融合图文理解，更创新性地引入了“工具调用”智能体机制，让AI能像人一样，按需调用外部工具（如代码、搜索）获取信息并推理。这标志着AI从“理解”到“行动”的关键一步，为构建更强大、实用的AI助手铺平了道路。

DeepEyesV2是什么

DeepEyesV2 是小红书团队推出的多模态智能体模型，通过两阶段训练法实现强大的工具调用和多模态推理能力。模型能理解图文信息，支持主动调用代码执行、网络搜索等外部工具，将工具返回的结果融入推理过程，解决复杂的真实世界问题。模型第一阶段通过监督微调让模型建立工具使用的基本认知，第二阶段通过强化学习提升模型的工具调用效率和泛化能力。DeepEyesV2 在新提出的 RealX-Bench 基准测试中表现出色，展现出强大的多技能协调能力。

阅读目录

DeepEyesV2是什么
DeepEyesV2的主要功能
DeepEyesV2的技术原理
DeepEyesV2的项目地址
DeepEyesV2的应用场景

📝 站长洞察 (Editor’s Insight)

DeepEyesV2

DeepEyesV2的主要功能

多模态理解：模型能同时处理文本和图像信息，理解复杂的图文内容。
主动工具调用：在需要时主动调用外部工具，如代码执行环境和网络搜索，获取额外信息或执行复杂任务。
动态推理与决策：将工具调用的结果融入推理过程，通过迭代的方式逐步解决问题。
任务自适应：根据不同任务类型（如感知、推理等）智能选择合适的工具，提升效率和准确性。
复杂任务解决：通过工具的组合和迭代推理，解决需要多种能力协同的复杂任务，如结合感知、搜索和推理的综合任务。

DeepEyesV2的技术原理

冷启动阶段（Cold Start）：
- 监督微调（Supervised Fine-tuning, SFT）：通过大量包含工具使用步骤的样本数据（如感知型、推理型和长思维链数据）对模型进行微调，帮助模型建立对工具使用的基本认知。
- 数据设计：数据覆盖多种任务类型，确保模型在不同场景下都能学习到合适的工具调用策略。
强化学习阶段（Reinforcement Learning）：
- 策略优化：在冷启动的基础上，通过强化学习进一步优化模型的工具调用策略，提升效率和泛化能力。
- 目标：减少不必要的工具调用，同时在未见过的复杂场景中创造性地组合工具，提升模型的灵活性和适应性。

DeepEyesV2的项目地址

项目官网：https://visual-agent.github.io/
GitHub仓库：https://github.com/Visual-Agent/DeepEyesV2
arXiv技术论文：https://arxiv.org/pdf/2511.05271

DeepEyesV2的应用场景

智能问答与信息检索：用户上传图片提问，DeepEyesV2 能结合图像识别和网络搜索提供精准答案。
教育与学习辅助：通过图像识别和推理，为学生提供作业辅导和知识探索支持。
内容创作与编辑：分析图片内容，提供图像编辑建议和相关文案生成。
智能客服与技术支持：用图像识别和网络搜索，为用户提供故障诊断和咨询解答。
医疗健康：辅助医生分析医学影像，结合网络搜索提供健康咨询和初步诊断。

📝 站长洞察 (Editor’s Insight)

DeepEyesV2的发布，绝非又一个模型的开源，而是小红书在AI智能体（Agent）范式上的一次重要落子。当前大模型竞赛已从单纯的“百模大战”深化为“应用为王”和“能力构建”的深水区。DeepEyesV2提出的两阶段训练法（SFT+RL）精妙之处在于，它先通过监督微调赋予模型“工具使用”的骨架，再通过强化学习注入“策略优化”的灵魂，使其能泛化到未见场景。这直接呼应了业界共识：下一代AI的核心是“感知-决策-行动”的闭环能力。它将工具从外部API变为模型“思维延伸”，是通往AGI的关键技术路径之一。对于开发者而言，这提供了构建复杂任务智能体的高效蓝图；对于行业，则预示着能自主调用资源、解决实际问题的AI助手将加速普及，重塑内容分析、客服、教育等多个赛道的工作流。

DeepEyesV2：小红书开源多模态智能体，引爆AI工具调用与复杂推理新范式

DeepEyesV2是什么

DeepEyesV2的主要功能

DeepEyesV2的技术原理

DeepEyesV2的项目地址

DeepEyesV2的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

曹操出行在杭州开放Robotaxi主驾无人测试首款原生Robotaxi计划2027年量产

Cursor新一代AI智能体集群完成SQLite重建测试，全部配置实现100%通过率

Midjourney 推出 V8.2 图像模型：审美更锋利、废片大减，个性化更懂你的口味

AI越狱一周无人察觉，OpenAI失控智能体还留下了”逃脱秘籍”

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

DeepEyesV2是什么

DeepEyesV2的主要功能

DeepEyesV2的技术原理

DeepEyesV2的项目地址

DeepEyesV2的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复