Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
AI 工具AIGC 资讯

小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%

站外新闻
最近更新: 2026年5月21日 下午1:27
多模态搜索 大模型 小红书 智能体 视觉定位
SHARE

💡 站外导读:在AIGC与多模态技术爆发的时代,传统AI搜索智能体仍深陷“串行裁剪-搜索”的效率泥潭。每处理一个实体,都要重复一次裁剪、定位、检索的流程,导致工具调用轮次多、错误级联风险高,难以应对复杂场景下的实时需求。小红书与剑桥大学联合研发的HyperEyes智能体,直击这一行业痛点,通过重构动作空间,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索,从根本上重塑了效率与准确率的平衡。

HyperEyes是什么

HyperEyes是小红书与剑桥大学联合推出的并行多模态搜索智能体,首创 UGS 范式,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索。HyperEyes采用双粒度效率感知强化学习框架,在6个基准测试中,30B版本准确率超越最强开源同规模模型9.9%,工具调用轮次减少5.3倍,实现准确率与效率的帕累托最优。

阅读目录
  • HyperEyes是什么
  • HyperEyes的主要功能
  • HyperEyes的技术原理
  • 如何使用HyperEyes
  • HyperEyes的核心优势
  • HyperEyes的项目地址
  • HyperEyes的同类竞品对比
  • HyperEyes的应用场景
      • 📝 站长洞察 (Editor’s Insight)

HyperEyes

HyperEyes的主要功能

  • 并行多模态搜索:单轮内并发定位并检索图片中的多个实体,替代传统串行裁剪-搜索流程。
  • 统一有依据搜索:将视觉定位框直接嵌入检索动作参数,一次函数调用携带多个目标框。
  • 渐进式拒绝采样:在递增轮次预算下提纯高效轨迹,构建3万条零冗余并行种子数据。
  • 双粒度效率感知RL:TRACE动态收紧轨迹级效率标尺,OPD在失败轨迹上注入Token级纠正信号。
  • IMEB基准评估:发布300实例多实体视觉评测集,配套CAS评分联合量化准确率与搜索效率。
  • 多工具协同:集成图像搜索与文本搜索工具,支持视觉证据与文字证据的并发获取。

HyperEyes的技术原理

  • UGS动作空间重构:将视觉定位从独立前置步骤转化为检索动作的内嵌参数,物理层面打通单轮多目标并发通路。
  • 并行数据合成流水线:通过多类图片拼接合成多实体查询,基于图谱随机游走构造多约束交集问题并剔除捷径解。
  • TRACE动态参考奖励:用当前最优轨迹为动态标尺,仅当模型比标尺更高效时给予奖励,每轮自动收紧标准。
  • OPD非对称策略蒸馏:在轨迹最终答错时启动235B教师模型,为失败轨迹提供密集Token级监督,保护高效并发本能。
  • 联合优化目标:GRPO结合轨迹级效率奖励与Token级蒸馏损失,同步优化策略网络的准确率与效率。
  • CAS成本感知评分:采用Acc²×100/(N_tok+2N_tool+1)公式,将准确率、Token消耗与工具轮次统一为效率指标。

如何使用HyperEyes

  • 获取开源资源:访问 GitHub 仓库 https://github.com/DeepExperience/HyperEyes 。
  • 准备基础模型:下载并部署 Qwen3-VL-30B 或 235B 作为视觉语言模型 backbone,确保 GPU 显存满足推理需求。
  • 配置外部检索工具:接入图像搜索与文本搜索 API(如 Bing Image Search、Google Custom Search),作为 Agent 执行 UGS 并行搜索的外部工具。
  • 输入多实体查询:上传包含多个实体的复杂图片,输入自然语言问题,HyperEyes 将自动执行 UGS 统一有依据搜索,单轮并发定位并检索所有目标。
  • 查看并行搜索结果:模型返回结构化检索结果与最终答案,包含每个实体的视觉证据与文本证据。
  • 评估搜索效率:通过 CAS(成本感知评分)指标量化评估准确率、Token 消耗与工具调用轮次的综合效率

HyperEyes的核心优势

  • 效率飞跃:30B版本平均工具调用轮次仅2.2次,为同规模最强开源模型的1/5,实现5.3倍效率提升。
  • 准确率领先:在6个基准上超越最强开源同规模模型9.9%,235B版本以1.1%差距逼近Gemini-3.1-Pro。
  • 抗噪声鲁棒:并行策略规避过度检索幻觉,在真假证据混合测试中准确率提升3.7%-5.8%。
  • 消除错误级联:UGS消除串行裁剪依赖,前置定位偏差不再污染后续搜索结果。
  • 帕累托最优:在准确率-效率联合前沿全面占优,CAS评分达次优开源模型的7.6倍。
  • 全栈效率重塑:从动作空间、数据合成到RL训练进行底层重构,系统性解决串行困局。

HyperEyes的项目地址

  • GitHub仓库:https://github.com/DeepExperience/HyperEyes
  • arXiv技术论文:https://arxiv.org/abs/2605.07177

HyperEyes的同类竞品对比

对比维度 HyperEyes-30B DeepEyes-V2 VDR
开发团队 小红书/剑桥大学 小红书 未公开
搜索范式 并行并发(UGS) 串行裁剪-搜索 串行深度搜索
平均工具轮次 2.2 3.6 11.6
6基准平均准确率 64.0% 39.1% 54.1%
IMEB准确率 46.7% 18.0% 21.2%
CAS效率评分 0.910 0.119 0.014
核心机制 TRACE+OPD双粒度RL 工具奖励激励 多轮深度推理
错误级联风险 免疫(原子动作) 高风险 中等风险

HyperEyes的应用场景

  • 多人物视觉推理:识别合影中特定人物的身份、职业与历史事件,并发检索多人生平信息。
  • 电商商品比对:对包含多个商品的复杂场景图进行并发搜索,获取价格、品牌与评价信息。
  • 跨模态知识问答:回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询。
  • 新闻事实核查:对包含多人物、多场景的新闻图片并发检索,验证事件真实性与背景信息。
  • 学术图表解析:对包含多个图表、公式、引用的论文截图进行并行定位与内容检索。
  • 社交媒体审核:对复杂图片中的多个实体并发搜索,快速判断违规或误导性内容。

📝 站长洞察 (Editor’s Insight)

HyperEyes的发布标志着多模态智能体从“串行思维”向“并行原生”的范式跃迁。它不仅是一个模型升级,更是对整个搜索Agent底层架构的重构:通过UGS动作空间将定位与检索物理绑定,再结合双粒度强化学习,系统性解决了效率与准确率的权衡难题。这反映了当前顶尖AI研究的核心趋势——从单一能力堆叠转向系统工程优化。小红书作为实践方,将复杂视觉理解需求(如电商比对、内容审核)反哺至基础模型研究,形成了需求驱动创新的正循环。对于行业而言,HyperEyes的开源意味着“并行搜索”这一新范式将成为标配,倒逼所有多模态智能体重新审视其动作设计哲学。未来,能否在单轮内高效协同多种模态与工具,将是衡量智能体先进性的关键标尺。

Airplane Autopilot
Gimme Summary AI
PromptDrive.ai
Odyssey发布Agora-1:全球首个多智能体世界模型,4人实时共享AI生成游戏世界
孟子GPT
TAGGED:多模态搜索大模型小红书智能体视觉定位
分享
Email 复制链接 打印
Share
上一篇 字节跳动Lance开源:3B参数统一模型,一模型搞定图像视频理解生成编辑全链路
下一篇 ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

阿里通义Qwen3.7-Max旗舰大模型发布:全能智能体基座,编程推理全面领先,定义AI Agent新标杆
AI 工具 AIGC 资讯
腾讯混元 Hy-MT2 开源翻译大模型:7B 参数性能碾压 Gemini,440MB 量化版让手机变身离线翻译机
AI 工具 AIGC 资讯
CloudDM:一站式开源数据库管控平台,30种数据源、54条SQL审核规则,企业级权限与脱敏能力全免费
AIGC 资讯
阿里通义Qwen3.5-LiveTranslate:60语种实时同传延迟仅2.8秒,跨境会议直播出海神器
AI 工具 AIGC 资讯

相关推荐

AI 工具

GenForge

remaker
AI 工具

Staccato

remaker

LogoliveryAI

remaker

Zeemo

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 动物 吉卜力 咒语 图像生成 图标设计 圣诞 壁纸 大模型 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 智能体 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码