豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型

最近更新: 2026年6月8日下午4:02

豆包1.5·UI-TARS是什么

豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互（GUI）的Agent模型。模型基于感知、推理和动作执行等类人能力，与图形界面进行连续、流畅的交互。模型将视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中，无需预定义工作流程或人工规则，实现端到端的任务自动化。豆包1.5·UI-TARS 已在火山方舟平台上线。

阅读目录

豆包1.5·UI-TARS是什么
豆包1.5·UI-TARS的主要功能
豆包1.5·UI-TARS的技术原理
豆包1.5·UI-TARS的项目官网
豆包1.5·UI-TARS的应用场景

豆包1.5·UI-TARS模型

豆包1.5·UI-TARS的主要功能

图形界面交互能力：基于感知、推理和动作执行，与图形用户界面进行连续、流畅的交互，完成复杂的任务。
视觉理解与定位：理解屏幕上的视觉信息，支持多目标、小目标的框定位和点定位，进行定位计数、描述定位内容等。
逻辑推理与决策：结合视觉信息和任务指令，进行逻辑推理，生成合理的操作步骤。
高执行效率：基于方舟豆包大模型推理服务，全网最高吞吐，初始500w TPM，极致的推理延迟，TPOT 30ms。
原生GUI Agent：无需预定义流程或人工规则，实现端到端的自动化GUI交互任务执行。

豆包1.5·UI-TARS的技术原理

视觉大模型（VLM）：模型基于强大的视觉大模型，理解和处理图形界面中的视觉信息，包括图像、文本、图标等。
多模态融合：将视觉感知、逻辑推理和动作执行能力集成到一个模型中，实现多模态信息的融合处理。
端到端学习：基于大量的标注数据和强化学习，模型学习从任务输入到操作输出的端到端映射，无需人工定义规则。

豆包1.5·UI-TARS的项目官网

项目官网：https://www.volcengine.com/docs

豆包1.5·UI-TARS的应用场景

自动化办公：自动处理文档、表格、邮件等任务，提高效率。
软件测试：模拟用户操作，检测软件问题，提升质量。
智能客服：实时解答用户问题，提供操作指导。
机器人交互：指导机器人完成复杂操作，应用在工业和物流。

分享

Auto-Deep-Research – 香港大学开源的全自动个人 AI 助理

Finedefics – 北大团队推出的细粒度多模态大模型

发表评价

发表评价取消回复