Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: AgentCPM-GUI – 清华联合面壁智能开源的端侧GUI智能体模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > AgentCPM-GUI – 清华联合面壁智能开源的端侧GUI智能体模型
AIGC 资讯

AgentCPM-GUI – 清华联合面壁智能开源的端侧GUI智能体模型

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

AgentCPM-GUI是什么

AgentCPM-GUI 是清华大学和面壁智能团队联合推出的开源端侧 GUI Agent ,针对中文应用优化。模型基于 MiniCPM-V(80 亿参数)构建,能接受智能手机截图作为输入,自主执行用户指定的任务。模型基于大规模中文安卓应用界面数据预训练,显著提升对 GUI 元素的理解和定位能力。AgentCPM-GUI 在中文 Grounding Benchmark 和 Agent Benchmark 上均取得 SOTA 性能,是首个针对中文应用精细优化的开源 GUI Agent。

阅读目录
  • AgentCPM-GUI是什么
  • AgentCPM-GUI的主要功能
  • AgentCPM-GUI的技术原理
  • AgentCPM-GUI的项目地址
  • AgentCPM-GUI的应用场景

AgentCPM-GUI

AgentCPM-GUI的主要功能

  • 中文应用操作:理解和操作多种中文应用,如高德地图、大众点评、哔哩哔哩和小红书等。
  • 任务自动化执行:接受用户指令后,自动拆分任务步骤,在对应应用中准确执行,如点单、播放视频等。
  • 高质量 GUI 定位:准确定位屏幕上的按钮、输入框、标签等 GUI 元素。
  • OCR 定位与识别:识别屏幕中的文本内容,根据文本描述执行相应操作。

AgentCPM-GUI的技术原理

  • 预训练:基于大规模中文安卓应用界面数据进行预训练,覆盖常见的按钮、输入框、标签、图标等通用 GUI 控件。基于高质量的 GUI Grounding 预训练,提升模型对视觉界面元素的理解和定位能力。具备 OCR Grounding 能力,准确定位和识别屏幕中的文本内容。
  • 强化微调(RFT):设计动作格式奖励、动作类型奖励、动作参数奖励三个维度的奖励函数,引导模型自主生成高质量的思维链过程。在奖励函数的引导下,模型不断优化自身策略,获取更高的奖励,提升任务的执行成功率。
  • 紧凑动作空间设计:基于紧凑的 JSON 格式,将动作平均长度压缩至 9.7 个 token,减少推理时的计算和内存需求。紧凑的动作空间设计让模型更适合在移动设备上部署,加快端侧推理速度,缓解隐私安全问题。

AgentCPM-GUI的项目地址

  • GitHub仓库:https://github.com/OpenBMB/AgentCPM-GUI
  • HuggingFace模型库:https://huggingface.co/openbmb/AgentCPM-GUI

AgentCPM-GUI的应用场景

  • 智能助手:帮助用户基于语音或文字指令完成各种应用操作,如点外卖、播放音乐等。
  • 自动化测试:用在自动化测试中文应用的功能和界面,提高测试效率。
  • 老年关怀:简化老年人使用智能手机的操作,如视频通话、查看天气等。
  • 视障人士辅助:结合语音指令和屏幕阅读器,帮助视障人士更便捷地使用应用。
  • 企业应用自动化:自动化执行企业中的重复性任务,如数据录入和报表生成,提高效率。
Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架
DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型
智谱AI开源SSVAE:视频生成效率革命,3倍加速收敛、参数量锐减70%!
谷歌AI搜索再出糗:被’2027年是明年吗’恶搞梗带偏,暴露大模型常识推理致命短板
Seedream 5.0:字节跳动AI生图模型重磅更新,支持联网检索与4K超清生成
分享
Email 复制链接 打印
Share
上一篇 Vibe Draw – AI 3D建模工具,涂鸦草图一键转为3D模型
下一篇 FlowiseAI – AI应用构建工具,拖拽可视化组件自定义LLM应用
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

美团开源EvoCUA:56.7%准确率登顶,多模态AI代理如何自动化你的电脑操作?

站外新闻
OSWorld基准测试 多模态AI模型 美团开源 自动化办公 计算机使用代理
AIGC 资讯

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

站外新闻
AI 工具AIGC 资讯

Step-Audio 2 mini:阶跃星辰开源端到端语音模型,多项SOTA性能解读

站外新闻
AIGC 端到端语音模型 语音交互 阶跃星辰
AI 工具AIGC 资讯

智谱AI开源GLM-4.1V-Thinking:9B参数模型性能超越72B,视觉语言模型迎来‘思考’时代

站外新闻
AIGC GLM-4.1V-Thinking 思维链推理 智谱AI 视觉语言模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.