Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%
AI 工具AIGC 资讯

小红书×剑桥大学重磅发布HyperEyes:并行多模态搜索智能体,效率飙升5.3倍,准确率提升9.9%

站外新闻
最近更新: 2026年5月21日 下午1:27
多模态搜索 大模型 小红书 智能体 视觉定位
SHARE

💡 站外导读:在AIGC与多模态技术爆发的时代,传统AI搜索智能体仍深陷“串行裁剪-搜索”的效率泥潭。每处理一个实体,都要重复一次裁剪、定位、检索的流程,导致工具调用轮次多、错误级联风险高,难以应对复杂场景下的实时需求。小红书与剑桥大学联合研发的HyperEyes智能体,直击这一行业痛点,通过重构动作空间,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索,从根本上重塑了效率与准确率的平衡。

HyperEyes是什么

HyperEyes是小红书与剑桥大学联合推出的并行多模态搜索智能体,首创 UGS 范式,将视觉定位与检索融合为单一原子动作,实现单轮多实体并发搜索。HyperEyes采用双粒度效率感知强化学习框架,在6个基准测试中,30B版本准确率超越最强开源同规模模型9.9%,工具调用轮次减少5.3倍,实现准确率与效率的帕累托最优。

阅读目录
  • HyperEyes是什么
  • HyperEyes的主要功能
  • HyperEyes的技术原理
  • 如何使用HyperEyes
  • HyperEyes的核心优势
  • HyperEyes的项目地址
  • HyperEyes的同类竞品对比
  • HyperEyes的应用场景
      • 📝 站长洞察 (Editor’s Insight)

HyperEyes

HyperEyes的主要功能

  • 并行多模态搜索:单轮内并发定位并检索图片中的多个实体,替代传统串行裁剪-搜索流程。
  • 统一有依据搜索:将视觉定位框直接嵌入检索动作参数,一次函数调用携带多个目标框。
  • 渐进式拒绝采样:在递增轮次预算下提纯高效轨迹,构建3万条零冗余并行种子数据。
  • 双粒度效率感知RL:TRACE动态收紧轨迹级效率标尺,OPD在失败轨迹上注入Token级纠正信号。
  • IMEB基准评估:发布300实例多实体视觉评测集,配套CAS评分联合量化准确率与搜索效率。
  • 多工具协同:集成图像搜索与文本搜索工具,支持视觉证据与文字证据的并发获取。

HyperEyes的技术原理

  • UGS动作空间重构:将视觉定位从独立前置步骤转化为检索动作的内嵌参数,物理层面打通单轮多目标并发通路。
  • 并行数据合成流水线:通过多类图片拼接合成多实体查询,基于图谱随机游走构造多约束交集问题并剔除捷径解。
  • TRACE动态参考奖励:用当前最优轨迹为动态标尺,仅当模型比标尺更高效时给予奖励,每轮自动收紧标准。
  • OPD非对称策略蒸馏:在轨迹最终答错时启动235B教师模型,为失败轨迹提供密集Token级监督,保护高效并发本能。
  • 联合优化目标:GRPO结合轨迹级效率奖励与Token级蒸馏损失,同步优化策略网络的准确率与效率。
  • CAS成本感知评分:采用Acc²×100/(N_tok+2N_tool+1)公式,将准确率、Token消耗与工具轮次统一为效率指标。

如何使用HyperEyes

  • 获取开源资源:访问 GitHub 仓库 https://github.com/DeepExperience/HyperEyes 。
  • 准备基础模型:下载并部署 Qwen3-VL-30B 或 235B 作为视觉语言模型 backbone,确保 GPU 显存满足推理需求。
  • 配置外部检索工具:接入图像搜索与文本搜索 API(如 Bing Image Search、Google Custom Search),作为 Agent 执行 UGS 并行搜索的外部工具。
  • 输入多实体查询:上传包含多个实体的复杂图片,输入自然语言问题,HyperEyes 将自动执行 UGS 统一有依据搜索,单轮并发定位并检索所有目标。
  • 查看并行搜索结果:模型返回结构化检索结果与最终答案,包含每个实体的视觉证据与文本证据。
  • 评估搜索效率:通过 CAS(成本感知评分)指标量化评估准确率、Token 消耗与工具调用轮次的综合效率

HyperEyes的核心优势

  • 效率飞跃:30B版本平均工具调用轮次仅2.2次,为同规模最强开源模型的1/5,实现5.3倍效率提升。
  • 准确率领先:在6个基准上超越最强开源同规模模型9.9%,235B版本以1.1%差距逼近Gemini-3.1-Pro。
  • 抗噪声鲁棒:并行策略规避过度检索幻觉,在真假证据混合测试中准确率提升3.7%-5.8%。
  • 消除错误级联:UGS消除串行裁剪依赖,前置定位偏差不再污染后续搜索结果。
  • 帕累托最优:在准确率-效率联合前沿全面占优,CAS评分达次优开源模型的7.6倍。
  • 全栈效率重塑:从动作空间、数据合成到RL训练进行底层重构,系统性解决串行困局。

HyperEyes的项目地址

  • GitHub仓库:https://github.com/DeepExperience/HyperEyes
  • arXiv技术论文:https://arxiv.org/abs/2605.07177

HyperEyes的同类竞品对比

对比维度 HyperEyes-30B DeepEyes-V2 VDR
开发团队 小红书/剑桥大学 小红书 未公开
搜索范式 并行并发(UGS) 串行裁剪-搜索 串行深度搜索
平均工具轮次 2.2 3.6 11.6
6基准平均准确率 64.0% 39.1% 54.1%
IMEB准确率 46.7% 18.0% 21.2%
CAS效率评分 0.910 0.119 0.014
核心机制 TRACE+OPD双粒度RL 工具奖励激励 多轮深度推理
错误级联风险 免疫(原子动作) 高风险 中等风险

HyperEyes的应用场景

  • 多人物视觉推理:识别合影中特定人物的身份、职业与历史事件,并发检索多人生平信息。
  • 电商商品比对:对包含多个商品的复杂场景图进行并发搜索,获取价格、品牌与评价信息。
  • 跨模态知识问答:回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询。
  • 新闻事实核查:对包含多人物、多场景的新闻图片并发检索,验证事件真实性与背景信息。
  • 学术图表解析:对包含多个图表、公式、引用的论文截图进行并行定位与内容检索。
  • 社交媒体审核:对复杂图片中的多个实体并发搜索,快速判断违规或误导性内容。

📝 站长洞察 (Editor’s Insight)

HyperEyes的发布标志着多模态智能体从“串行思维”向“并行原生”的范式跃迁。它不仅是一个模型升级,更是对整个搜索Agent底层架构的重构:通过UGS动作空间将定位与检索物理绑定,再结合双粒度强化学习,系统性解决了效率与准确率的权衡难题。这反映了当前顶尖AI研究的核心趋势——从单一能力堆叠转向系统工程优化。小红书作为实践方,将复杂视觉理解需求(如电商比对、内容审核)反哺至基础模型研究,形成了需求驱动创新的正循环。对于行业而言,HyperEyes的开源意味着“并行搜索”这一新范式将成为标配,倒逼所有多模态智能体重新审视其动作设计哲学。未来,能否在单轮内高效协同多种模态与工具,将是衡量智能体先进性的关键标尺。

gpt-4o-mini-transcribe – OpenAI 推出的语音转文本模型
EchoFox
小鹏人形机器人量产时间表敲定:2026年底量产,2027年进店导购,全栈自研引领具身智能商业化
smoltalk-chinese – OpenCSG 开源专为中文大型语言模型设计的合成数据集
阿里通义Fun-CosyVoice3.5重磅发布:一句话控制语气语速,13语种低延迟语音生成
TAGGED:多模态搜索大模型小红书智能体视觉定位
分享
Email 复制链接 打印
Share
上一篇 字节跳动Lance开源:3B参数统一模型,一模型搞定图像视频理解生成编辑全链路
下一篇 ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

小红书开源FireRedASR2S语音识别模型:2.89%超低字错率,支持20+方言与端到端部署
AI 工具 AIGC 资讯
ZeroClaw:Rust编写的8.8MB极简AI Agent框架,开源免费、零厂商锁定,从树莓派到企业集群一键部署
AI 工具 AIGC 资讯
马斯克 xAI 发布 Grok 4.20:四智能体协作架构如何碾压 OpenAI?实盘交易唯一盈利 AI
AI 工具 AIGC 资讯
OpenAkita:全球首个支持自我进化的开源AI助手框架,8种人格、9+大模型热切换,释放Agent无限潜能
AI 工具

相关推荐

AIGC 资讯

story-flicks – AI视频生成工具,一键生成高清故事短视频

站外新闻
AIGC 资讯

GR00T N1 – 英伟达开源的人形机器人基础模型

站外新闻
AI 工具

Discord Diffusion

remaker
AIGC 资讯

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.