Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 谷歌Gemini 2.5 Computer Use:AI直接操控浏览器,自动化任务引爆效率革命
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 谷歌Gemini 2.5 Computer Use:AI直接操控浏览器,自动化任务引爆效率革命
AI 工具AIGC 资讯

谷歌Gemini 2.5 Computer Use:AI直接操控浏览器,自动化任务引爆效率革命

站外新闻
最近更新: 2026年6月7日 下午8:15
AI智能体 Computer Use Gemini 2.5 浏览器自动化 谷歌DeepMind
SHARE

💡 站外导读:在AI智能体(Agent)从理论走向现实的关键时刻,如何让AI像人类一样与数字世界交互成为核心挑战。传统AI模型多局限于生成文本或分析数据,难以直接操作软件界面。谷歌最新发布的Gemini 2.5 Computer Use模型,正是为解决这一痛点而生,它标志着AI应用从“理解”到“行动”的范式跃迁,开启了人机协作的新篇章。

Gemini 2.5 Computer Use是什么

Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器,执行点击、滚动和输入等操作。模型通过视觉理解和推理能力,帮助用户完成各种任务,例如从网页中获取信息或整理笔记。模型在基准测试中表现优异,速度也很快。开发者能通过 Google AI Studio 和 Vertex AI 使用,用户能在 Browserbase 的托管的演示环境中试用。

阅读目录
  • Gemini 2.5 Computer Use是什么
  • Gemini 2.5 Computer Use的主要功能
  • Gemini 2.5 Computer Use的技术原理
  • Gemini 2.5 Computer Use的项目地址
  • Gemini 2.5 Computer Use的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Gemini 2.5 Computer Use

Gemini 2.5 Computer Use的主要功能

  • 浏览器操作:直接在浏览器中执行点击、滚动、输入等基本操作,帮助用户完成网页任务。
  • 任务自动化:模型能处理多步复杂任务,例如从一个网站获取信息并输入到另一个系统,或安排后续预约。
  • 视觉理解和推理:通过视觉解析网页内容,识别页面元素,根据用户请求推理出下一步操作。
  • 安全机制:在执行每个动作前,独立安全服务会评估风险,对于高风险操作会请求用户确认,确保操作安全。

Gemini 2.5 Computer Use的技术原理

  • 核心工具:通过 Gemini API 中新增的 computer_use 工具实现,支持模型直接与用户界面交互。
  • 输入与输出:
    • 输入:用户请求、当前环境的截图、最近执行动作的历史记录。可以指定是否排除某些 UI 动作或添加自定义函数。
    • 输出:模型生成响应,通常是代表 UI 动作的函数调用(如点击、输入或滚动)。对于某些高风险操作,模型会请求用户确认。
  • 循环流程:模型在一个循环流程中运行,每次执行动作后,系统将最新截图和当前 URL 返回给模型,重新启动循环。循环会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。
  • 安全机制:在推理阶段,独立安全服务评估每个模型拟执行的动作,确保操作的安全性。开发者能设定在特定高风险操作前,智能体必须拒绝或请求用户确认。例如,防止模型绕过验证码或控制医疗设备。

Gemini 2.5 Computer Use的项目地址

  • 项目官网:https://blog.google/technology/google-deepmind/gemini-computer-use-model/
  • 技术论文:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use的应用场景

  • UI 测试:帮助开发者快速测试用户界面,自动化执行各种交互操作,显著提高软件开发效率。
  • 个人助理:为用户提供个性化的任务自动化服务,例如自动填写表单、安排预约或整理信息。
  • 工作流自动化:简化重复性任务,如数据输入、信息收集和跨平台操作,提升工作效率。
  • 客户服务:自动处理客户请求,例如在客户支持系统中填写工单或查询信息,提高响应速度。
  • 教育与培训:辅助在线学习平台,帮助学生完成练习或模拟操作,增强学习体验。

📝 站长洞察 (Editor’s Insight)

谷歌此举绝非一次简单的模型升级,而是其在AI智能体(Agent)赛道上的战略性落子。Computer Use模式让AI突破了数字世界的“最后一厘米”障碍,从分析者变为执行者。这背后是谷歌对“AI即操作系统”愿景的深化,意图将Gemini生态深度嵌入用户的日常工作流。短期内,它将极大冲击RPA(机器人流程自动化)和测试自动化市场;长期看,可能重塑软件交互逻辑,催生新一代的AI原生应用。谷歌通过构建工具链与安全框架,正试图定义下一代AI Agent的交互标准,其生态卡位意义深远。

DynamicCity – 上海 AI Lab 推出的4D动态场景生成框架
美图设计室
WriteMyPRD
Dolphin – 清华联合海天瑞声推出的语音识别大模型
阶跃星辰开源 Step 3.7 Flash:196B参数MoE架构,400 Tokens/s极速推理,专为智能体生产落地优化
TAGGED:AI智能体Computer UseGemini 2.5浏览器自动化谷歌DeepMind
分享
Email 复制链接 打印
Share
上一篇 OpenAI发布GPT-5.3 Instant:免费轻量级对话模型,幻觉率锐减27%,联网搜索深度分析能力升级
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAI发布GPT-5.3 Instant:免费轻量级对话模型,幻觉率锐减27%,联网搜索深度分析能力升级
AI 工具 AIGC 资讯
OpenAI发布GPT‑5.4:首款超越人类的AI模型,75%成功率自主操作电脑完成复杂任务
AI 工具 AIGC 资讯
腾讯混元世界模型1.1开源:单卡秒级推理的3D世界生成,如何重塑内容创作与工业仿真?
AI 工具 AIGC 资讯
字节跳动Seed3D 1.0重磅发布:单图生成高精度3D模型,赋能物理仿真与AI机器人训练
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

MagicMirror – 开源的一键 AI 换脸、换发型和穿搭应用

站外新闻
AIGC 资讯

文心大模型4.5 – 百度推出的首个原生多模态大模型

站外新闻
AIGC 资讯

Open-LLM-VTuber – AI数字人语音交互项目,支持实时语音对话和视觉感知

站外新闻
AI 工具AIGC 资讯

港大OpenHarness开源:仅1.1万行代码复刻98% Claude Code功能,轻量级AI Agent框架新标杆

站外新闻
AI Agent框架 Claude Code OpenHarness 轻量级AI 香港大学
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 隐私保护 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.