Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DeepEyes多模态模型:小红书&西安交大联手,90.1%准确率实现AI’用图思考’,超越OpenAI o3
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > DeepEyes多模态模型:小红书&西安交大联手,90.1%准确率实现AI’用图思考’,超越OpenAI o3
AI 工具AIGC 资讯

DeepEyes多模态模型:小红书&西安交大联手,90.1%准确率实现AI’用图思考’,超越OpenAI o3

站外新闻
最近更新: 2026年6月7日 下午8:27
AIGC 多模态大模型 小红书 深度思考 视觉推理
SHARE

💡 站外导读:当多模态大模型还在追求’看懂’图片时,业界已开始探索更深度的’用图思考’。小红书与西安交通大学联合发布的DeepEyes模型,标志着视觉智能从被动识别向主动探索的范式转变。在自动驾驶需要识别远处路标、医生需要分析细微病灶的今天,静态看图已无法满足需求。DeepEyes通过创新的强化学习框架,让AI像人一样在推理中主动裁剪、放大关键区域,从而在复杂场景中实现高达90.1%的视觉推理准确率,为多模态AI的落地应用开辟了全新路径。

DeepEyes是什么

DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习,实现类似 OpenAI o3 的“用图思考”能力,无需依赖监督微调(SFT)。DeepEyes 在推理过程中动态调用图像工具,如裁剪和缩放,增强对细节的感知与理解。模型在视觉推理基准测试 V* Bench 上准确率高达 90.1%,展现出强大的视觉搜索和多模态推理能力。DeepEyes 具备出色的图像定位能力,能有效减少幻觉现象,提升模型的可靠性和泛化能力。

阅读目录
  • DeepEyes是什么
  • DeepEyes的主要功能
  • DeepEyes的技术原理
  • DeepEyes的项目地址
  • DeepEyes的应用场景
      • 📝 站长洞察 (Editor’s Insight)

DeepEyes

DeepEyes的主要功能

  • 用图思考:直接将图像融入推理过程,不仅“看图”,还能“用图思考”,在推理过程中动态调用图像信息,增强对细节的感知与理解。
  • 视觉搜索:在高分辨率图像中快速定位小物体或模糊区域,基于裁剪和缩放工具进行详细分析,显著提升搜索准确率。
  • 幻觉缓解:基于聚焦图像细节,减少模型在生成回答时可能出现的幻觉现象,提升回答的准确性和可靠性。
  • 多模态推理:在视觉和文本推理之间实现无缝融合,提升模型在复杂任务中的推理能力。
  • 动态工具调用:模型能自主决定何时调用图像工具,如裁剪、缩放等,无需外部工具支持,实现更高效、更准确的推理。

DeepEyes的技术原理

  • 端到端强化学习:DeepEyes 用端到端强化学习(RL)训练模型,无需冷启动监督微调(SFT)。基于奖励信号直接优化模型的行为,自主学习如何在推理过程中有效利用图像信息。奖励函数包括准确率奖励、格式奖励和条件工具奖励,确保模型在正确回答问题的同时,高效地使用图像工具。
  • 交错多模态思维链(iMCoT):DeepEyes 引入交错多模态思维链(Interleaved Multimodal Chain-of-Thought, iMCoT),支持模型在推理过程中动态地交替使用视觉和文本信息。模型在每一步推理中决定是否需要进一步的视觉信息,基于生成边界框坐标裁剪图像中的关键区域,将区域重新输入模型,作为新的视觉证据。
  • 工具使用导向的数据选择:为更好地激励模型的工具使用行为,基于工具使用导向的数据选择机制。训练数据经过精心筛选,确保样本有效促进模型的工具调用能力。数据集包括高分辨率图像、图表数据和推理数据,覆盖多种任务类型,提升模型的泛化能力。
  • 动态工具调用行为:在训练过程中,模型的工具调用行为经历三个阶段:初始探索、积极使用和高效利用。模型从最初的随机尝试逐渐发展到高效、准确地调用工具,最终实现与人类类似的视觉推理过程。
  • 多模态融合:DeepEyes 基于将视觉和文本信息深度融合,构建一个统一的推理框架。融合提升了模型在视觉任务中的表现,增强了在多模态任务中的整体性能。

DeepEyes的项目地址

  • 项目官网:https://visual-agent.github.io/
  • GitHub仓库:https://github.com/Visual-Agent/DeepEyes
  • HuggingFace模型库:https://huggingface.co/ChenShawn/DeepEyes
  • arXiv技术论文:https://arxiv.org/pdf/2505.14362

DeepEyes的应用场景

  • 教育辅导:解析试卷中的图表和几何图形,为学生提供详细的解题步骤,提升学习效率。
  • 医疗影像:分析医学影像,辅助医生进行诊断,提高诊断的准确性和效率。
  • 智能交通:实时分析路况图像,辅助自动驾驶系统做出更准确的决策,提升交通安全。
  • 安防监控:分析监控视频,识别异常行为,增强公共安全和犯罪预防能力。
  • 工业制造:在生产线上进行质量检测和设备故障预测,提高生产效率并降低维护成本。

📝 站长洞察 (Editor’s Insight)

DeepEyes的发布绝非仅是又一个模型上线,它揭示了多模态大模型进化的关键方向:从静态感知到动态交互式推理。其核心价值在于,它绕过了成本高昂的监督微调,直接通过强化学习训练出模型的’工具使用’能力,这很像教会一个孩子如何聪明地使用放大镜观察世界。在行业层面,这解决了高分辨率图像细节丢失和模型幻觉两大痛点。结合当前Agent智能体热潮,DeepEyes让视觉模型具备了自主规划工具链的能力,是通往更通用视觉智能体(Visual Agent)的重要一步。它预示着未来AI应用将更少依赖预设流程,而是能根据任务需求,像人类专家一样动态获取和处理信息,其在医疗、工业检测等精密视觉任务中的潜力值得高度关注。

Realtime TTS-2:Inworld AI 实时语音合成模型革新,多轮感知与跨语言控制引领下一代对话AI
苹果开源SimpleFold:轻量级AI模型革新蛋白质折叠,计算成本暴降媲美AlphaFold2
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
Seed-OSS:字节跳动开源360亿参数大模型,长文本推理与智能代理能力引领行业
Karpathy 开源 LLM Wiki:终结传统 RAG,用 LLM 主动编译你的个人知识库
TAGGED:AIGC多模态大模型小红书深度思考视觉推理
分享
Email 复制链接 打印
Share
上一篇 银河通用发布TrackVLA:纯视觉端到端导航大模型,无需建图实现机器人自主智能导航与跟踪
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

银河通用发布TrackVLA:纯视觉端到端导航大模型,无需建图实现机器人自主智能导航与跟踪
AIGC 资讯 最新趋势
TEN VAD:革命性实时语音活动检测系统,低延迟轻量级高精度,赋能企业级对话应用
AI 工具
谷歌重磅发布!Google AI Edge Gallery:手机离线运行AI大模型,隐私与性能兼得
AI 工具
VRAG-RL框架详解:阿里通义如何用强化学习突破多模态RAG推理瓶颈?
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

腾讯微信团队发布 Stand-In:仅需1%参数微调,即可打造高保真身份一致的AI视频生成新范式

站外新闻
AIGC LoRA 腾讯微信 视频生成 身份一致性
AIGC 资讯

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

站外新闻
AI 工具

Synthesia

remaker
AI 工具AIGC 资讯

Midjourney V8震撼发布:速度飙升5倍、原生2K直出,AI图像生成进入新时代

站外新闻
AIGC AI图像生成 Midjourney V8 Stable Diffusion竞品 文生图
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.