谷歌重磅开源！Computer Use Preview：用自然语言指挥AI操控浏览器，零代码实现网页自动化

💡 站外导读：在数字化办公和Web测试领域，重复性的浏览器操作——如数据填写、跨站信息搬运、界面功能验证——耗费大量人力，且传统脚本编写门槛高、维护难。随着大模型视觉理解能力的突破，AI驱动的浏览器自动化正成为提升效率的关键趋势。谷歌开源的Computer Use Preview，正是这一浪潮下的明星工具，它利用Gemini模型的视觉识别，将自然语言指令转化为精准的网页操作，旨在彻底解放生产力。

Computer Use Preview是什么

Computer Use Preview 是谷歌开源的 AI 浏览器自动化工具。工具基于 Gemini 模型的视觉识别能力，通过“截图 – 分析 – 行动”能模拟人类操作网页，无需依赖固定的元素定位。工具能处理复杂任务，如跨网站数据搬运和视觉交互，且在任务完成测试中表现优异，得分为 69%，优于同类工具。Computer Use Preview集成 Gemini API 和 Vertex AI，具备强大的任务理解能力，适用 Web 测试、数据采集及日常操作，是零代码入门的理想选择。

阅读目录

Computer Use Preview是什么
Computer Use Preview的主要功能
如何使用Computer Use Preview
Computer Use Preview的项目地址
Computer Use Preview的应用场景

📝 站长洞察 (Editor’s Insight)

Computer Use Preview

Computer Use Preview的主要功能

自然语言驱动：用户能通过简单的自然语言描述任务，AI 自动规划并执行操作，无需编写复杂脚本，大大降低使用门槛。
智能交互：支持处理复杂的浏览器操作，如导航、点击、表单填写、滚动等。Gemini 模型能理解页面的动态变化，适应不同场景。
双环境支持
- Playwright（本地运行）：在本地控制 Chrome 浏览器实例，适合需要本地数据处理的场景。
- Browserbase（云环境）：连接到 Browserbase 实例，适合需要云资源支持或分布式操作的场景。
调试友好：支持截图和鼠标高亮功能，用户能实时监控执行过程，方便调试和优化操作。
AI 大模型集成：集成 Gemini API 和 Vertex AI，提供强大的任务理解能力，能够处理复杂的指令和动态网页内容。

如何使用Computer Use Preview

准备工作：从 Computer Use Preview 的 GitHub 页面下载项目文件，解压到本地。
设置运行环境：安装 Python（建议 3.8 及以上），创建虚拟环境并激活，用于隔离项目依赖。
安装依赖：在项目文件夹中，运行命令安装项目依赖和 Playwright 浏览器。
配置 API 密钥：从 Google Cloud 获取 Gemini API 密钥，将其添加到环境变量中。
运行工具：用自然语言指令运行工具，例如：“Go to Google and type ‘Hello World’”。
可选配置：指定运行环境（如 Playwright 或 Browserbase），并根据需要配置相关参数。

Computer Use Preview的项目地址

GitHub仓库：https://github.com/google-gemini/computer-use-preview
在线体验地址：Browserbase

Computer Use Preview的应用场景

Web 自动化测试：用于快速测试网页功能，验证按钮点击、表单提交等操作是否正常。
数据采集：工具能自动从网页抓取数据，如爬取新闻、商品信息等，无需手动操作。
跨网站数据搬运：将一个网站的数据自动搬运到另一个系统，简化数据迁移流程。
日常任务自动化：工具支持完成日常重复性任务，如自动登录、定时查询等，节省时间和精力。
视觉交互任务：工具能处理复杂的视觉交互，如识别网页元素并进行分类或拖拽操作。

📝 站长洞察 (Editor’s Insight)

Computer Use Preview的发布，标志着浏览器自动化从“基于元素定位”的脆弱脚本时代，正式迈入“基于视觉理解”的AI智能体时代。其核心突破在于融合了大模型的多模态能力，实现了更接近人类的、无需预定义路径的网页交互。这不仅是工具层面的升级，更是人机交互范式的演进——操作者从“程序员”变为“指挥官”。结合谷歌与OpenAI等巨头在AI Agent领域的密集布局，Computer Use Preview开源，意在快速构建生态，抢占Web自动化与AI桌面操作的未来标准。它预示着，未来所有重复性的线上工作流程，都可能被具备视觉认知的AI智能体接管，企业效率提升与个人工作模式变革将因此加速。

谷歌重磅开源！Computer Use Preview：用自然语言指挥AI操控浏览器，零代码实现网页自动化

Computer Use Preview是什么

Computer Use Preview的主要功能

如何使用Computer Use Preview

Computer Use Preview的项目地址

Computer Use Preview的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

BigMac – 小红书开源的多模态大模型流水并行训练框架

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

红果短剧发布AI角色规范，专项整治“高频AI脸”与素材侵权

黑森林实验室FLUX3 多模态模型登场：单次生成 20 秒音视频，胜率碾压Grok与Seedance

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Computer Use Preview是什么

Computer Use Preview的主要功能

如何使用Computer Use Preview

Computer Use Preview的项目地址

Computer Use Preview的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复