Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
AI 工具AIGC 资讯

小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%

站外新闻
最近更新: 2026年5月21日 下午1:27
多模态搜索 大模型 小红书 智能体 视觉定位
SHARE

💡 站外导读:在AIGC与多模态技术爆发的时代,传统AI搜索智能体仍深陷“串行裁剪-搜索”的效率泥潭。每处理一个实体,都要重复一次裁剪、定位、检索的流程,导致工具调用轮次多、错误级联风险高,难以应对复杂场景下的实时需求。小红书与剑桥大学联合研发的HyperEyes智能体,直击这一行业痛点,通过重构动作空间,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索,从根本上重塑了效率与准确率的平衡。

HyperEyes是什么

HyperEyes是小红书与剑桥大学联合推出的并行多模态搜索智能体,首创 UGS 范式,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索。HyperEyes采用双粒度效率感知强化学习框架,在6个基准测试中,30B版本准确率超越最强开源同规模模型9.9%,工具调用轮次减少5.3倍,实现准确率与效率的帕累托最优。

阅读目录
  • HyperEyes是什么
  • HyperEyes的主要功能
  • HyperEyes的技术原理
  • 如何使用HyperEyes
  • HyperEyes的核心优势
  • HyperEyes的项目地址
  • HyperEyes的同类竞品对比
  • HyperEyes的应用场景
      • 📝 站长洞察 (Editor’s Insight)

HyperEyes

HyperEyes的主要功能

  • 并行多模态搜索:单轮内并发定位并检索图片中的多个实体,替代传统串行裁剪-搜索流程。
  • 统一有依据搜索:将视觉定位框直接嵌入检索动作参数,一次函数调用携带多个目标框。
  • 渐进式拒绝采样:在递增轮次预算下提纯高效轨迹,构建3万条零冗余并行种子数据。
  • 双粒度效率感知RL:TRACE动态收紧轨迹级效率标尺,OPD在失败轨迹上注入Token级纠正信号。
  • IMEB基准评估:发布300实例多实体视觉评测集,配套CAS评分联合量化准确率与搜索效率。
  • 多工具协同:集成图像搜索与文本搜索工具,支持视觉证据与文字证据的并发获取。

HyperEyes的技术原理

  • UGS动作空间重构:将视觉定位从独立前置步骤转化为检索动作的内嵌参数,物理层面打通单轮多目标并发通路。
  • 并行数据合成流水线:通过多类图片拼接合成多实体查询,基于图谱随机游走构造多约束交集问题并剔除捷径解。
  • TRACE动态参考奖励:用当前最优轨迹为动态标尺,仅当模型比标尺更高效时给予奖励,每轮自动收紧标准。
  • OPD非对称策略蒸馏:在轨迹最终答错时启动235B教师模型,为失败轨迹提供密集Token级监督,保护高效并发本能。
  • 联合优化目标:GRPO结合轨迹级效率奖励与Token级蒸馏损失,同步优化策略网络的准确率与效率。
  • CAS成本感知评分:采用Acc²×100/(N_tok+2N_tool+1)公式,将准确率、Token消耗与工具轮次统一为效率指标。

如何使用HyperEyes

  • 获取开源资源:访问 GitHub 仓库 https://github.com/DeepExperience/HyperEyes 。
  • 准备基础模型:下载并部署 Qwen3-VL-30B 或 235B 作为视觉语言模型 backbone,确保 GPU 显存满足推理需求。
  • 配置外部检索工具:接入图像搜索与文本搜索 API(如 Bing Image Search、Google Custom Search),作为 Agent 执行 UGS 并行搜索的外部工具。
  • 输入多实体查询:上传包含多个实体的复杂图片,输入自然语言问题,HyperEyes 将自动执行 UGS 统一有依据搜索,单轮并发定位并检索所有目标。
  • 查看并行搜索结果:模型返回结构化检索结果与最终答案,包含每个实体的视觉证据与文本证据。
  • 评估搜索效率:通过 CAS(成本感知评分)指标量化评估准确率、Token 消耗与工具调用轮次的综合效率

HyperEyes的核心优势

  • 效率飞跃:30B版本平均工具调用轮次仅2.2次,为同规模最强开源模型的1/5,实现5.3倍效率提升。
  • 准确率领先:在6个基准上超越最强开源同规模模型9.9%,235B版本以1.1%差距逼近Gemini-3.1-Pro。
  • 抗噪声鲁棒:并行策略规避过度检索幻觉,在真假证据混合测试中准确率提升3.7%-5.8%。
  • 消除错误级联:UGS消除串行裁剪依赖,前置定位偏差不再污染后续搜索结果。
  • 帕累托最优:在准确率-效率联合前沿全面占优,CAS评分达次优开源模型的7.6倍。
  • 全栈效率重塑:从动作空间、数据合成到RL训练进行底层重构,系统性解决串行困局。

HyperEyes的项目地址

  • GitHub仓库:https://github.com/DeepExperience/HyperEyes
  • arXiv技术论文:https://arxiv.org/abs/2605.07177

HyperEyes的同类竞品对比

对比维度 HyperEyes-30B DeepEyes-V2 VDR
开发团队 小红书/剑桥大学 小红书 未公开
搜索范式 并行并发(UGS) 串行裁剪-搜索 串行深度搜索
平均工具轮次 2.2 3.6 11.6
6基准平均准确率 64.0% 39.1% 54.1%
IMEB准确率 46.7% 18.0% 21.2%
CAS效率评分 0.910 0.119 0.014
核心机制 TRACE+OPD双粒度RL 工具奖励激励 多轮深度推理
错误级联风险 免疫(原子动作) 高风险 中等风险

HyperEyes的应用场景

  • 多人物视觉推理:识别合影中特定人物的身份、职业与历史事件,并发检索多人生平信息。
  • 电商商品比对:对包含多个商品的复杂场景图进行并发搜索,获取价格、品牌与评价信息。
  • 跨模态知识问答:回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询。
  • 新闻事实核查:对包含多人物、多场景的新闻图片并发检索,验证事件真实性与背景信息。
  • 学术图表解析:对包含多个图表、公式、引用的论文截图进行并行定位与内容检索。
  • 社交媒体审核:对复杂图片中的多个实体并发搜索,快速判断违规或误导性内容。

📝 站长洞察 (Editor’s Insight)

HyperEyes的发布标志着多模态智能体从“串行思维”向“并行原生”的范式跃迁。它不仅是一个模型升级,更是对整个搜索Agent底层架构的重构:通过UGS动作空间将定位与检索物理绑定,再结合双粒度强化学习,系统性解决了效率与准确率的权衡难题。这反映了当前顶尖AI研究的核心趋势——从单一能力堆叠转向系统工程优化。小红书作为实践方,将复杂视觉理解需求(如电商比对、内容审核)反哺至基础模型研究,形成了需求驱动创新的正循环。对于行业而言,HyperEyes的开源意味着“并行搜索”这一新范式将成为标配,倒逼所有多模态智能体重新审视其动作设计哲学。未来,能否在单轮内高效协同多种模态与工具,将是衡量智能体先进性的关键标尺。

SAC-KG – 通用知识图谱构建框架,能构建超百万节点的领域知识图谱
PromptFill:告别提示词焦虑!AI绘画结构化Prompt生成神器深度解析
Klavis AI – 开源MCP集成平台,快速接入生产级MCP服务器
Science Skills – 谷歌 DeepMind 开源的科研技能工具包
Lightpanda:颠覆Chrome!开源AI浏览器,内存仅1/16,速度飙升9倍
TAGGED:多模态搜索大模型小红书智能体视觉定位
分享
Email 复制链接 打印
Share
上一篇 字节跳动Lance开源:3B参数统一模型,一模型搞定图像视频理解生成编辑全链路
下一篇 ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

AnimaX框架:北航清华联合发布,文本驱动多视图3D动画生成,兼容任意骨骼结构

站外新闻
3D动画生成 AIGC 具身智能 视频扩散模型 骨骼动画
AI 工具AIGC 资讯

MiniMax发布MMX-CLI:专为AI Agent打造的全模态命令行神器,一键集成七大生成能力

站外新闻
AI Agent MiniMax MMX-CLI 全模态生成 自动化工作流
AI 工具AIGC 资讯

阶跃星辰Step 3发布:321B参数多模态推理模型,效率提升300%并即将开源

站外新闻
MoE架构 Step 3 多模态推理模型 大模型开源 阶跃星辰
AI 工具AIGC 资讯

浙大北大联手突破!InftyThink:无限深度推理范式,重塑大模型思考极限

站外新闻
InftyThink 推理范式 浙江大学 计算复杂度
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.