Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
AIGC 资讯

Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型

站外新闻
最近更新: 2026年6月8日 下午11:07
SHARE

Aria-UI是什么

Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和指令样本,适应不同环境下的多样化指令。Aria-UI创新性地整合动态动作历史信息,用文本或文本-图像交错格式增强模型在多步任务场景中的定位能力。在包括离线和在线代理任务的广泛基准测试中,Aria-UI均取得优异的性能,展现出强大的零样本泛化能力和跨平台适用性,成为通用GUI定位任务的有力解决方案。

阅读目录
  • Aria-UI是什么
  • Aria-UI的主要功能
  • Aria-UI的技术原理
  • Aria-UI的项目地址
  • Aria-UI的应用场景

Aria-UI

Aria-UI的主要功能

  • GUI元素定位:将语言指令准确地映射到GUI中的目标元素,实现元素的精确定位,为后续的交互操作提供基础。
  • 多模态输入处理:处理包括GUI图像、文本指令、动作历史等多种模态的输入信息,充分理解和利用多模态数据中的丰富信息。
  • 多样化指令适应:基于大规模、多样化的数据合成流程生成的多样化指令样本,有效适应不同环境下的各种指令表达方式。
  • 动态上下文理解:整合动态动作历史信息,用文本或文本-图像交错格式,在多步任务场景中理解当前的动态上下文,为准确的元素定位提供重要参考。
  • 高分辨率图像处理:支持高达3920×2940的图像分辨率,将图像分割成小块处理,显著扩展可处理的图像尺寸范围。

Aria-UI的技术原理

  • 纯视觉方法:采用纯视觉方法,直接从GUI图像中提取视觉特征,用视觉信息理解和定位目标元素。
  • 多模态MoE模型:基于Aria多模态MoE(Mixture of Experts)模型构建,具有3.9B激活参数,擅长处理多模态数据。
  • 数据合成与训练:基于两阶段的数据合成流程,从Common Crawl和公开数据中生成高质量的元素描述和多样化指令样本,覆盖Web、桌面和移动三大GUI环境,为模型训练提供大量、多样化的训练数据,增强模型对不同指令和元素的识别能力。
  • 上下文感知数据扩展:用公开的代理轨迹数据模拟具有上下文的定位任务,构建文本动作历史和文本-图像交错历史两种上下文设置,基于数据合成流程为轨迹数据中的所有定位步骤生成详细的逐步指令,让模型在动态环境中更好地理解和执行任务。
  • 超分辨率支持:将图像分割成小块并进行处理,支持高达3920×2940的图像分辨率,保持图像的细节和准确性。

Aria-UI的项目地址

  • 项目官网:https://ariaui.github.io/
  • GitHub仓库:https://github.com/AriaUI/Aria-UI
  • HuggingFace模型库:https://huggingface.co/Aria-UI
  • arXiv技术论文:https://arxiv.org/pdf/2412.16256

Aria-UI的应用场景

  • 自动化测试:Web应用测试自动点击网页按钮、输入信息,验证功能是否正常。
  • 用户交互辅助:语音指令控制家居设备,如“开灯”自动点击开关按钮。
  • 智能客服:电商平台客服快速定位产品详情,回答用户咨询问题。
  • 教育行业:自动操作代码编辑器,演示编程过程和结果。
  • 自动化办公:自动操作财务软件,生成报表,提高工作效率。
Llama Nemotron – 英伟达推出的系列推理模型
MAGI-1 – Sand AI 开源的首个自回归视频生成模型
HoloPart – 港大联合 VAST 开源生成完整可编辑部件的 3D 模型
UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架
ReasonGraph – 开源可视化与分析LLMs推理过程的AI工具
分享
Email 复制链接 打印
Share
上一篇 CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架
AIGC 资讯
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
AIGC 资讯
PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型
AIGC 资讯
Mercury Coder – Inception Labs 推出的商业级扩散大型语言模型
AIGC 资讯

相关推荐

AIGC 资讯

WebSSL – Meta联合纽约大学等机构推出的视觉自监督学习系列模型

站外新闻
AIGC 资讯

AutoMouser – AI Chrome扩展程序,实时交互跟踪自动生成测试代码

站外新闻
AIGC 资讯

kimi-thinking-preview – 月之暗面推出的多模态思考模型

站外新闻
AIGC 资讯

EasyControl – Tiamat AI 联合上海科大等开源的图像生成控制框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.