💡 站外导读:在AIGC与多模态技术爆发的时代,传统AI搜索智能体仍深陷“串行裁剪-搜索”的效率泥潭。每处理一个实体,都要重复一次裁剪、定位、检索的流程,导致工具调用轮次多、错误级联风险高,难以应对复杂场景下的实时需求。小红书与剑桥大学联合研发的HyperEyes智能体,直击这一行业痛点,通过重构动作空间,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索,从根本上重塑了效率与准确率的平衡。
HyperEyes是什么
HyperEyes是小红书与剑桥大学联合推出的并行多模态搜索智能体,首创 UGS 范式,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索。HyperEyes采用双粒度效率感知强化学习框架,在6个基准测试中,30B版本准确率超越最强开源同规模模型9.9%,工具调用轮次减少5.3倍,实现准确率与效率的帕累托最优。
阅读目录

HyperEyes的主要功能
-
并行多模态搜索:单轮内并发定位并检索图片中的多个实体,替代传统串行裁剪-搜索流程。
-
统一有依据搜索:将视觉定位框直接嵌入检索动作参数,一次函数调用携带多个目标框。
-
渐进式拒绝采样:在递增轮次预算下提纯高效轨迹,构建3万条零冗余并行种子数据。
-
双粒度效率感知RL:TRACE动态收紧轨迹级效率标尺,OPD在失败轨迹上注入Token级纠正信号。
-
IMEB基准评估:发布300实例多实体视觉评测集,配套CAS评分联合量化准确率与搜索效率。
-
多工具协同:集成图像搜索与文本搜索工具,支持视觉证据与文字证据的并发获取。
HyperEyes的技术原理
- UGS动作空间重构:将视觉定位从独立前置步骤转化为检索动作的内嵌参数,物理层面打通单轮多目标并发通路。
- 并行数据合成流水线:通过多类图片拼接合成多实体查询,基于图谱随机游走构造多约束交集问题并剔除捷径解。
- TRACE动态参考奖励:用当前最优轨迹为动态标尺,仅当模型比标尺更高效时给予奖励,每轮自动收紧标准。
- OPD非对称策略蒸馏:在轨迹最终答错时启动235B教师模型,为失败轨迹提供密集Token级监督,保护高效并发本能。
- 联合优化目标:GRPO结合轨迹级效率奖励与Token级蒸馏损失,同步优化策略网络的准确率与效率。
- CAS成本感知评分:采用Acc²×100/(N_tok+2N_tool+1)公式,将准确率、Token消耗与工具轮次统一为效率指标。
如何使用HyperEyes
- 获取开源资源:访问 GitHub 仓库 https://github.com/DeepExperience/HyperEyes 。
- 准备基础模型:下载并部署 Qwen3-VL-30B 或 235B 作为视觉语言模型 backbone,确保 GPU 显存满足推理需求。
- 配置外部检索工具:接入图像搜索与文本搜索 API(如 Bing Image Search、Google Custom Search),作为 Agent 执行 UGS 并行搜索的外部工具。
- 输入多实体查询:上传包含多个实体的复杂图片,输入自然语言问题,HyperEyes 将自动执行 UGS 统一有依据搜索,单轮并发定位并检索所有目标。
- 查看并行搜索结果:模型返回结构化检索结果与最终答案,包含每个实体的视觉证据与文本证据。
- 评估搜索效率:通过 CAS(成本感知评分)指标量化评估准确率、Token 消耗与工具调用轮次的综合效率
HyperEyes的核心优势
-
效率飞跃:30B版本平均工具调用轮次仅2.2次,为同规模最强开源模型的1/5,实现5.3倍效率提升。
-
准确率领先:在6个基准上超越最强开源同规模模型9.9%,235B版本以1.1%差距逼近Gemini-3.1-Pro。
-
抗噪声鲁棒:并行策略规避过度检索幻觉,在真假证据混合测试中准确率提升3.7%-5.8%。
-
消除错误级联:UGS消除串行裁剪依赖,前置定位偏差不再污染后续搜索结果。
-
帕累托最优:在准确率-效率联合前沿全面占优,CAS评分达次优开源模型的7.6倍。
-
全栈效率重塑:从动作空间、数据合成到RL训练进行底层重构,系统性解决串行困局。
HyperEyes的项目地址
- GitHub仓库:https://github.com/DeepExperience/HyperEyes
- arXiv技术论文:https://arxiv.org/abs/2605.07177
HyperEyes的同类竞品对比
| 对比维度 | HyperEyes-30B | DeepEyes-V2 | VDR |
|---|---|---|---|
| 开发团队 | 小红书/剑桥大学 | 小红书 | 未公开 |
| 搜索范式 | 并行并发(UGS) | 串行裁剪-搜索 | 串行深度搜索 |
| 平均工具轮次 | 2.2 | 3.6 | 11.6 |
| 6基准平均准确率 | 64.0% | 39.1% | 54.1% |
| IMEB准确率 | 46.7% | 18.0% | 21.2% |
| CAS效率评分 | 0.910 | 0.119 | 0.014 |
| 核心机制 | TRACE+OPD双粒度RL | 工具奖励激励 | 多轮深度推理 |
| 错误级联风险 | 免疫(原子动作) | 高风险 | 中等风险 |
HyperEyes的应用场景
-
多人物视觉推理:识别合影中特定人物的身份、职业与历史事件,并发检索多人生平信息。
-
电商商品比对:对包含多个商品的复杂场景图进行并发搜索,获取价格、品牌与评价信息。
-
跨模态知识问答:回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询。
-
新闻事实核查:对包含多人物、多场景的新闻图片并发检索,验证事件真实性与背景信息。
-
学术图表解析:对包含多个图表、公式、引用的论文截图进行并行定位与内容检索。
-
社交媒体审核:对复杂图片中的多个实体并发搜索,快速判断违规或误导性内容。
📝 站长洞察 (Editor’s Insight)
HyperEyes的发布标志着多模态智能体从“串行思维”向“并行原生”的范式跃迁。它不仅是一个模型升级,更是对整个搜索Agent底层架构的重构:通过UGS动作空间将定位与检索物理绑定,再结合双粒度强化学习,系统性解决了效率与准确率的权衡难题。这反映了当前顶尖AI研究的核心趋势——从单一能力堆叠转向系统工程优化。小红书作为实践方,将复杂视觉理解需求(如电商比对、内容审核)反哺至基础模型研究,形成了需求驱动创新的正循环。对于行业而言,HyperEyes的开源意味着“并行搜索”这一新范式将成为标配,倒逼所有多模态智能体重新审视其动作设计哲学。未来,能否在单轮内高效协同多种模态与工具,将是衡量智能体先进性的关键标尺。
