小红书×剑桥大学重磅发布HyperEyes：并行多模态搜索智能体，效率飙升5.3倍，准确率提升9.9%

💡 站外导读：在AIGC与多模态技术爆发的时代，传统AI搜索智能体仍深陷“串行裁剪-搜索”的效率泥潭。每处理一个实体，都要重复一次裁剪、定位、检索的流程，导致工具调用轮次多、错误级联风险高，难以应对复杂场景下的实时需求。小红书与剑桥大学联合研发的HyperEyes智能体，直击这一行业痛点，通过重构动作空间，将视觉定位与检索融合为单一原子动作，实现单轮多实体并发搜索，从根本上重塑了效率与准确率的平衡。

HyperEyes是什么

HyperEyes是小红书与剑桥大学联合推出的并行多模态搜索智能体，首创 UGS 范式，将视觉定位与检索融合为单一原子动作，实现单轮多实体并发搜索。HyperEyes采用双粒度效率感知强化学习框架，在6个基准测试中，30B版本准确率超越最强开源同规模模型9.9%，工具调用轮次减少5.3倍，实现准确率与效率的帕累托最优。

阅读目录

HyperEyes是什么
HyperEyes的主要功能
HyperEyes的技术原理
如何使用HyperEyes
HyperEyes的核心优势
HyperEyes的项目地址
HyperEyes的同类竞品对比
HyperEyes的应用场景

📝 站长洞察 (Editor’s Insight)

HyperEyes

HyperEyes的主要功能

并行多模态搜索：单轮内并发定位并检索图片中的多个实体，替代传统串行裁剪-搜索流程。
统一有依据搜索：将视觉定位框直接嵌入检索动作参数，一次函数调用携带多个目标框。
渐进式拒绝采样：在递增轮次预算下提纯高效轨迹，构建3万条零冗余并行种子数据。
双粒度效率感知RL：TRACE动态收紧轨迹级效率标尺，OPD在失败轨迹上注入Token级纠正信号。
IMEB基准评估：发布300实例多实体视觉评测集，配套CAS评分联合量化准确率与搜索效率。
多工具协同：集成图像搜索与文本搜索工具，支持视觉证据与文字证据的并发获取。

HyperEyes的技术原理

UGS动作空间重构：将视觉定位从独立前置步骤转化为检索动作的内嵌参数，物理层面打通单轮多目标并发通路。
并行数据合成流水线：通过多类图片拼接合成多实体查询，基于图谱随机游走构造多约束交集问题并剔除捷径解。
TRACE动态参考奖励：用当前最优轨迹为动态标尺，仅当模型比标尺更高效时给予奖励，每轮自动收紧标准。
OPD非对称策略蒸馏：在轨迹最终答错时启动235B教师模型，为失败轨迹提供密集Token级监督，保护高效并发本能。
联合优化目标：GRPO结合轨迹级效率奖励与Token级蒸馏损失，同步优化策略网络的准确率与效率。
CAS成本感知评分：采用Acc²×100/(N_tok+2N_tool+1)公式，将准确率、Token消耗与工具轮次统一为效率指标。

如何使用HyperEyes

获取开源资源：访问 GitHub 仓库 https://github.com/DeepExperience/HyperEyes 。
准备基础模型：下载并部署 Qwen3-VL-30B 或 235B 作为视觉语言模型 backbone，确保 GPU 显存满足推理需求。
配置外部检索工具：接入图像搜索与文本搜索 API（如 Bing Image Search、Google Custom Search），作为 Agent 执行 UGS 并行搜索的外部工具。
输入多实体查询：上传包含多个实体的复杂图片，输入自然语言问题，HyperEyes 将自动执行 UGS 统一有依据搜索，单轮并发定位并检索所有目标。
查看并行搜索结果：模型返回结构化检索结果与最终答案，包含每个实体的视觉证据与文本证据。
评估搜索效率：通过 CAS（成本感知评分）指标量化评估准确率、Token 消耗与工具调用轮次的综合效率

HyperEyes的核心优势

效率飞跃：30B版本平均工具调用轮次仅2.2次，为同规模最强开源模型的1/5，实现5.3倍效率提升。
准确率领先：在6个基准上超越最强开源同规模模型9.9%，235B版本以1.1%差距逼近Gemini-3.1-Pro。
抗噪声鲁棒：并行策略规避过度检索幻觉，在真假证据混合测试中准确率提升3.7%-5.8%。
消除错误级联：UGS消除串行裁剪依赖，前置定位偏差不再污染后续搜索结果。
帕累托最优：在准确率-效率联合前沿全面占优，CAS评分达次优开源模型的7.6倍。
全栈效率重塑：从动作空间、数据合成到RL训练进行底层重构，系统性解决串行困局。

HyperEyes的项目地址

GitHub仓库：https://github.com/DeepExperience/HyperEyes
arXiv技术论文：https://arxiv.org/abs/2605.07177

HyperEyes的同类竞品对比

对比维度	HyperEyes-30B	DeepEyes-V2	VDR
开发团队	小红书/剑桥大学	小红书	未公开
搜索范式	并行并发(UGS)	串行裁剪-搜索	串行深度搜索
平均工具轮次	2.2	3.6	11.6
6基准平均准确率	64.0%	39.1%	54.1%
IMEB准确率	46.7%	18.0%	21.2%
CAS效率评分	0.910	0.119	0.014
核心机制	TRACE+OPD双粒度RL	工具奖励激励	多轮深度推理
错误级联风险	免疫（原子动作）	高风险	中等风险

HyperEyes的应用场景

多人物视觉推理：识别合影中特定人物的身份、职业与历史事件，并发检索多人生平信息。
电商商品比对：对包含多个商品的复杂场景图进行并发搜索，获取价格、品牌与评价信息。
跨模态知识问答：回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询。
新闻事实核查：对包含多人物、多场景的新闻图片并发检索，验证事件真实性与背景信息。
学术图表解析：对包含多个图表、公式、引用的论文截图进行并行定位与内容检索。
社交媒体审核：对复杂图片中的多个实体并发搜索，快速判断违规或误导性内容。

📝 站长洞察 (Editor’s Insight)

HyperEyes的发布标志着多模态智能体从“串行思维”向“并行原生”的范式跃迁。它不仅是一个模型升级，更是对整个搜索Agent底层架构的重构：通过UGS动作空间将定位与检索物理绑定，再结合双粒度强化学习，系统性解决了效率与准确率的权衡难题。这反映了当前顶尖AI研究的核心趋势——从单一能力堆叠转向系统工程优化。小红书作为实践方，将复杂视觉理解需求（如电商比对、内容审核）反哺至基础模型研究，形成了需求驱动创新的正循环。对于行业而言，HyperEyes的开源意味着“并行搜索”这一新范式将成为标配，倒逼所有多模态智能体重新审视其动作设计哲学。未来，能否在单轮内高效协同多种模态与工具，将是衡量智能体先进性的关键标尺。

小红书×剑桥大学重磅发布HyperEyes：并行多模态搜索智能体，效率飙升5.3倍，准确率提升9.9%

HyperEyes是什么

HyperEyes的主要功能

HyperEyes的技术原理

如何使用HyperEyes

HyperEyes的核心优势

HyperEyes的项目地址

HyperEyes的同类竞品对比

HyperEyes的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

110 亿参数塞进六类科学大脑：上智院开放”神珍”多模态模型，从蛋白质到气象场一个模型全读懂

人形机器人迎来飞跃！逐际动力张巍：智能水平已达 GPT-3 阶段

索尼音乐再诉AI巨头Udio：指控其违规复制逾三万段录音

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

HyperEyes是什么

HyperEyes的主要功能

HyperEyes的技术原理

如何使用HyperEyes

HyperEyes的核心优势

HyperEyes的项目地址

HyperEyes的同类竞品对比

HyperEyes的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复