Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepEyesV2:小红书开源多模态智能体,引爆AI工具调用与复杂推理新范式
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > DeepEyesV2:小红书开源多模态智能体,引爆AI工具调用与复杂推理新范式
AI 工具AIGC 资讯

DeepEyesV2:小红书开源多模态智能体,引爆AI工具调用与复杂推理新范式

站外新闻
最近更新: 2026年6月7日 下午8:13
AIGC AI工具调用 多模态智能体 小红书 强化学习
SHARE

💡 站外导读:在多模态大模型浪潮中,如何让AI超越被动问答,具备主动探索和解决复杂现实问题的能力,是行业核心挑战。小红书团队开源的DeepEyesV2模型,直击这一痛点。它不仅融合图文理解,更创新性地引入了“工具调用”智能体机制,让AI能像人一样,按需调用外部工具(如代码、搜索)获取信息并推理。这标志着AI从“理解”到“行动”的关键一步,为构建更强大、实用的AI助手铺平了道路。

DeepEyesV2是什么

DeepEyesV2 是小红书团队推出的多模态智能体模型,通过两阶段训练法实现强大的工具调用和多模态推理能力。模型能理解图文信息,支持主动调用代码执行、网络搜索等外部工具,将工具返回的结果融入推理过程,解决复杂的真实世界问题。模型第一阶段通过监督微调让模型建立工具使用的基本认知,第二阶段通过强化学习提升模型的工具调用效率和泛化能力。DeepEyesV2 在新提出的 RealX-Bench 基准测试中表现出色,展现出强大的多技能协调能力。

阅读目录
  • DeepEyesV2是什么
  • DeepEyesV2的主要功能
  • DeepEyesV2的技术原理
  • DeepEyesV2的项目地址
  • DeepEyesV2的应用场景
      • 📝 站长洞察 (Editor’s Insight)

DeepEyesV2

DeepEyesV2的主要功能

  • 多模态理解:模型能同时处理文本和图像信息,理解复杂的图文内容。
  • 主动工具调用:在需要时主动调用外部工具,如代码执行环境和网络搜索,获取额外信息或执行复杂任务。
  • 动态推理与决策:将工具调用的结果融入推理过程,通过迭代的方式逐步解决问题。
  • 任务自适应:根据不同任务类型(如感知、推理等)智能选择合适的工具,提升效率和准确性。
  • 复杂任务解决:通过工具的组合和迭代推理,解决需要多种能力协同的复杂任务,如结合感知、搜索和推理的综合任务。

DeepEyesV2的技术原理

  • 冷启动阶段(Cold Start):
    • 监督微调(Supervised Fine-tuning, SFT):通过大量包含工具使用步骤的样本数据(如感知型、推理型和长思维链数据)对模型进行微调,帮助模型建立对工具使用的基本认知。
    • 数据设计:数据覆盖多种任务类型,确保模型在不同场景下都能学习到合适的工具调用策略。
  • 强化学习阶段(Reinforcement Learning):
    • 策略优化:在冷启动的基础上,通过强化学习进一步优化模型的工具调用策略,提升效率和泛化能力。
    • 目标:减少不必要的工具调用,同时在未见过的复杂场景中创造性地组合工具,提升模型的灵活性和适应性。

DeepEyesV2的项目地址

  • 项目官网:https://visual-agent.github.io/
  • GitHub仓库:https://github.com/Visual-Agent/DeepEyesV2
  • arXiv技术论文:https://arxiv.org/pdf/2511.05271

DeepEyesV2的应用场景

  • 智能问答与信息检索:用户上传图片提问,DeepEyesV2 能结合图像识别和网络搜索提供精准答案。
  • 教育与学习辅助:通过图像识别和推理,为学生提供作业辅导和知识探索支持。
  • 内容创作与编辑:分析图片内容,提供图像编辑建议和相关文案生成。
  • 智能客服与技术支持:用图像识别和网络搜索,为用户提供故障诊断和咨询解答。
  • 医疗健康:辅助医生分析医学影像,结合网络搜索提供健康咨询和初步诊断。

📝 站长洞察 (Editor’s Insight)

DeepEyesV2的发布,绝非又一个模型的开源,而是小红书在AI智能体(Agent)范式上的一次重要落子。当前大模型竞赛已从单纯的“百模大战”深化为“应用为王”和“能力构建”的深水区。DeepEyesV2提出的两阶段训练法(SFT+RL)精妙之处在于,它先通过监督微调赋予模型“工具使用”的骨架,再通过强化学习注入“策略优化”的灵魂,使其能泛化到未见场景。这直接呼应了业界共识:下一代AI的核心是“感知-决策-行动”的闭环能力。它将工具从外部API变为模型“思维延伸”,是通往AGI的关键技术路径之一。对于开发者而言,这提供了构建复杂任务智能体的高效蓝图;对于行业,则预示着能自主调用资源、解决实际问题的AI助手将加速普及,重塑内容分析、客服、教育等多个赛道的工作流。

Deciphr AI
PIKE-RAG – 微软亚洲研究院推出的检索增强型生成框架
SkyReels-A1 – 昆仑万维开源的表情动作可控算法
Tulsk.io
MemOS开源发布:AI长期记忆管理平台,终结碎片化交互,打造个性化智能体
TAGGED:AIGCAI工具调用多模态智能体小红书强化学习
分享
Email 复制链接 打印
Share
上一篇 字节跳动重磅发布 Doubao-Seed-Code:256K长上下文+视觉理解,AI编程模型成本直降国内最低
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动重磅发布 Doubao-Seed-Code:256K长上下文+视觉理解,AI编程模型成本直降国内最低
AI 工具 AIGC 资讯
商汤开源LazyCraft:AI Agent开发平台,低代码构建与管理企业级大模型应用
AI 工具 AIGC 资讯
月之暗面重磅开源Kosong:革新AI Agent开发,异步编排+多模型插件,构建下一代智能体的终极框架
AI 工具
百度开源ERNIE-4.5-VL多模态大模型:28B参数激活3B,128K超长上下文,2-Bit无损量化领跑文档理解与视频分析
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

科大讯飞开源企业级AI智能体平台 Astron Agent:一键部署高可用工作流,集成RPA实现决策到行动闭环

站外新闻
Astron Agent RPA自动化 企业智能工作流 智能体平台 科大讯飞
量子芯片科技感占位特色图
AI 工具AIGC 资讯

国家发改委力挺!’蚂蚁阿福’用户破亿,AI+医疗普惠方案引爆行业

站外新闻
AI医疗 人工智能+ 国家发改委 安诊儿 蚂蚁阿福
AIGC 资讯

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

站外新闻
AI 工具AIGC 资讯

小米MiMo-V2.5发布:1T参数全模态Agent,千轮调用+1M上下文,开源在即

站外新闻
AIGC 全模态Agent 大模型 小米MiMo 开源模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 科大讯飞 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 长上下文 长期记忆 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.