Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架
AIGC 资讯

AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架

站外新闻
最近更新: 2026年6月8日 下午6:27
SHARE

AndroidGen是什么

AndroidGen 是智谱技术团队推出增强基于大语言模型(LLM)的 Agent 能力的框架,特别是在数据稀缺的情况下。框架通过收集人类任务轨迹基于这些轨迹训练语言模型,开发出无需人工标注轨迹的 Agent,显著提升 LLM 执行复杂任务的能力。

阅读目录
  • AndroidGen是什么
  • AndroidGen的主要功能
  • AndroidGen的技术原理
  • AndroidGen的性能效果
  • AndroidGen的应用场景

AndroidGen

AndroidGen的主要功能

  • 无需人工标注的数据收集与训练:AndroidGen 能在无需人工标注轨迹的情况下,通过收集人类任务轨迹并基于这些轨迹训练语言模型,开发出高效的 Agent。
  • 增强 Agent 的任务执行能力:通过四个核心模块(ExpSearch、ReflectPlan、AutoCheck 和 StepCritic),AndroidGen 显著提升了 LLM 执行复杂任务的能力。
    • xpSearch(经验搜索):通过检索已完成的类似轨迹,使 LLM 进行上下文学习,从而提升 Agent 的能力,帮助其实现从简单任务到复杂任务的泛化。
    • ReflectPlan(反思计划):对当前环境进行自我反思并更新计划状态,增强 Agent 的长期推理能力。
    • AutoCheck(自动检查):主动验证每个 Agent 操作的有效性,降低因操作失误导致任务失败的风险。
    • StepCritic(步骤评估):将任务分解为多个子目标,并提供逐步轨迹评估,为模型优化提供细粒度标签。
  • 高效的数据收集管道:AndroidGen 构建了一个高效的数据收集管道,能生成大量高质量的 Android 浏览轨迹。

AndroidGen的技术原理

  • 模型训练:采用 LoRA 技术,针对自动构建的数据集对 GLM-4-9B 和 Llama-3-70B 进行微调,得到 Android Agent 模型。无需人工标注轨迹,通过将轨迹中的每一步作为独立样本进行训练,充分利用了数据集中的信息。
  • 混合规划和执行步骤:将规划和执行步骤混合起来进行微调,使 LLM 能够同时具备规划和执行的能力。
  • 数据收集流程:
    • 任务制定:基于 GPT-4o 根据 AndroidWorld 中的指令生成约 300 条任务指令。
    • Agent 采样:基于 AndroidWorld 和 GPT-4o 对每个任务的轨迹进行采样。
    • 轨迹记录:记录每一步的环境和操作信息,构建可复现的 Android 导航轨迹。
    • 轨迹评估:使用 StepCritic 对记录的轨迹进行评估,确保每个子目标都已完成。
    • 轨迹增强:扩充高质量数据集,最终构建了一个包含 1000 多个轨迹的数据集。

AndroidGen的性能效果

  • AndroidWorld 基准测试:
    • AndroidGen 显著提升了相同基础模型 Agent 的能力,与 M3A 和 SeeAct 相比,性能提升更为显著。
    • AndroidGen + GPT-4o 的平均得分达到了 46.8,远超其他组合。
    • 模型参数更小且开源的 GLM-4-9B + AndroidGen 的平均得分,超过了模型参数更大且闭源的 GPT-4o + M3A。
  • AitW(Android in the Wild) 和八款全球流行的移动应用程序(如 Google Maps、YouTube 等)的评测中,AndroidGen 也表现出色,在真实设备环境中对自然语言指令的理解和交互能力。

AndroidGen的应用场景

  • 自动化任务处理:通过自然语言指令,Agent 可以自动完成如发送邮件、设置提醒、查询信息等任务。
  • 跨应用操作:Agent 能在不同应用之间进行交互,完成如从一个应用复制数据到另一个应用等操作。
  • 智能导航:在 Android 设备上,Agent 可以根据用户指令进行导航,例如打开特定的应用、查找文件等。
  • 智能交互:通过自然语言理解,Agent 能与用户进行交互,提供更智能的用户体验。
IBM开源Granite-4.0-1b-speech:10亿参数多语言语音模型,六语种识别+双向翻译,边缘部署效率惊人
大模型概念股港股狂飙!智谱单日暴涨超17%,MINIMAX跟涨,AI商业化拐点真的来了?
阿里Qwen3-Max-Thinking发布:万亿参数推理模型如何叫板GPT-5.2?
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT-5实测:OpenAI史上最强模型,如何重塑编程、写作与健康咨询?
分享
Email 复制链接 打印
Share
上一篇 ACE++ – 阿里通义推出的升级版图像生成与编辑模型
下一篇 ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯
微软研究院发布Code Researcher:AI Agent深度挖掘代码库与提交历史,自动化修复系统级崩溃
AI 工具 AIGC 资讯
字节跳动Seaweed APT2革新:单GPU 24帧/秒,AAPT技术攻克长视频生成难题,AI视频生成迈入实时交互新纪元
AI 工具 最新趋势

相关推荐

AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
AIGC 资讯

GeneralDyG – 南洋理工推出的通用动态图异常检测方法

站外新闻
AI 工具AIGC 资讯

GPT-5.4重磅发布:OpenAI旗舰AI模型集成电脑操作与深度搜索,专业工作性能首超人类

站外新闻
AI Agent GPT-5.4 openai 计算机操作
AIGC 资讯

SuperGPQA – 豆包大模型联合 M-A-P 开源的知识推理基准测试集

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.