💡 站外导读:在数字化办公和Web测试领域,重复性的浏览器操作——如数据填写、跨站信息搬运、界面功能验证——耗费大量人力,且传统脚本编写门槛高、维护难。随着大模型视觉理解能力的突破,AI驱动的浏览器自动化正成为提升效率的关键趋势。谷歌开源的Computer Use Preview,正是这一浪潮下的明星工具,它利用Gemini模型的视觉识别,将自然语言指令转化为精准的网页操作,旨在彻底解放生产力。
Computer Use Preview是什么
Computer Use Preview 是谷歌开源的 AI 浏览器自动化工具。工具基于 Gemini 模型的视觉识别能力,通过“截图 – 分析 – 行动”能模拟人类操作网页,无需依赖固定的元素定位。工具能处理复杂任务,如跨网站数据搬运和视觉交互,且在任务完成测试中表现优异,得分为 69%,优于同类工具。Computer Use Preview集成 Gemini API 和 Vertex AI,具备强大的任务理解能力,适用 Web 测试、数据采集及日常操作,是零代码入门的理想选择。
阅读目录

Computer Use Preview的主要功能
- 自然语言驱动:用户能通过简单的自然语言描述任务,AI 自动规划并执行操作,无需编写复杂脚本,大大降低使用门槛。
- 智能交互:支持处理复杂的浏览器操作,如导航、点击、表单填写、滚动等。Gemini 模型能理解页面的动态变化,适应不同场景。
- 双环境支持
- Playwright(本地运行):在本地控制 Chrome 浏览器实例,适合需要本地数据处理的场景。
- Browserbase(云环境):连接到 Browserbase 实例,适合需要云资源支持或分布式操作的场景。
- 调试友好:支持截图和鼠标高亮功能,用户能实时监控执行过程,方便调试和优化操作。
- AI 大模型集成:集成 Gemini API 和 Vertex AI,提供强大的任务理解能力,能够处理复杂的指令和动态网页内容。
如何使用Computer Use Preview
- 准备工作:从 Computer Use Preview 的 GitHub 页面下载项目文件,解压到本地。
- 设置运行环境:安装 Python(建议 3.8 及以上),创建虚拟环境并激活,用于隔离项目依赖。
- 安装依赖:在项目文件夹中,运行命令安装项目依赖和 Playwright 浏览器。
- 配置 API 密钥:从 Google Cloud 获取 Gemini API 密钥,将其添加到环境变量中。
- 运行工具:用自然语言指令运行工具,例如:“Go to Google and type ‘Hello World’”。
- 可选配置:指定运行环境(如 Playwright 或 Browserbase),并根据需要配置相关参数。
Computer Use Preview的项目地址
- GitHub仓库:https://github.com/google-gemini/computer-use-preview
- 在线体验地址:Browserbase
Computer Use Preview的应用场景
-
Web 自动化测试:用于快速测试网页功能,验证按钮点击、表单提交等操作是否正常。
-
数据采集:工具能自动从网页抓取数据,如爬取新闻、商品信息等,无需手动操作。
-
跨网站数据搬运:将一个网站的数据自动搬运到另一个系统,简化数据迁移流程。
-
日常任务自动化:工具支持完成日常重复性任务,如自动登录、定时查询等,节省时间和精力。
-
视觉交互任务:工具能处理复杂的视觉交互,如识别网页元素并进行分类或拖拽操作。
📝 站长洞察 (Editor’s Insight)
Computer Use Preview的发布,标志着浏览器自动化从“基于元素定位”的脆弱脚本时代,正式迈入“基于视觉理解”的AI智能体时代。其核心突破在于融合了大模型的多模态能力,实现了更接近人类的、无需预定义路径的网页交互。这不仅是工具层面的升级,更是人机交互范式的演进——操作者从“程序员”变为“指挥官”。结合谷歌与OpenAI等巨头在AI Agent领域的密集布局,Computer Use Preview开源,意在快速构建生态,抢占Web自动化与AI桌面操作的未来标准。它预示着,未来所有重复性的线上工作流程,都可能被具备视觉认知的AI智能体接管,企业效率提升与个人工作模式变革将因此加速。
