Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列

Fara1.5是什么

Fara1.5是微软研究院 AI Frontiers 实验室最新推出的浏览器端AI智能体（CUA）模型系列，包含 4B、9B、27B 三个参数版本。模型基于 Qwen3.5 微调，采用纯像素级截图输入，通过观察—思考—行动循环输出鼠标与键盘操作，在 Online-Mind2Web 基准上 27B 版本任务成功率达 72%，超越 OpenAI Operator 与 Gemini 2.5 Computer Use。模型配套 MagenticLite 沙盒浏览器使用，支持表单填写、跨站比价、事件预订等复杂网页任务，在关键操作前主动请求用户确认。

阅读目录

Fara1.5是什么
Fara1.5的主要功能
Fara1.5的技术原理
如何使用Fara1.5
Fara1.5的核心优势
Fara1.5的项目地址
Fara1.5的同类竞品对比
Fara1.5的应用场景

Fara1.5

Fara1.5的主要功能

像素级浏览器控制：直接读取浏览器截图，不依赖 DOM 或无障碍树，输出 click、type、scroll、drag 等像素级鼠标键盘操作。
网页专用快捷动作：支持 web_search、visit_url、go_back 等高层网页操作，提升任务执行效率。
上下文管理元动作：内置 memorize、ask_user、finish 等动作，支持长程任务记忆与协作式人机交互。
安全沙盒执行：通过 MagenticLite 沙盒浏览器运行，形成与用户设备的安全边界，所有操作可追溯。
多规模部署：提供 4B、9B、27B 三个版本，兼顾边缘设备轻量化部署与高性能场景需求。

Fara1.5的技术原理

基础架构：以 Qwen3.5 为基座检查点，经约 200 万条有效样本监督微调（SFT）。
观察—思考—行动循环：每步输入包含完整对话历史与最近 3 张浏览器截图，模型先输出推理过程（thought），再预测下一步原子动作（action）。
滑动窗口损失掩码：仅对最近 3 个轮次的 thought 与 action token 计算交叉熵损失，历史截图与早期步骤仅作为输入上下文。
FaraGen1.5 合成数据引擎：通过教师智能体（GPT-5.4 + Fara1.5 工具能力约束）与用户模拟器多轮交互生成轨迹，再经正确性、效率、用户交互三重验证器过滤，补充登录态、不可逆操作等真实网页无法采集的数据。
训练数据配比：网页轨迹 60%、合成环境 12.8%、表单填写与用户交互 12.5%、事实锚定 8.8%、视觉问答 4.9%。

如何使用Fara1.5

环境准备：安装 MagenticLite 沙盒浏览器，该界面专为 Fara1.5 系列智能体设计，提供隔离的执行环境。
加载模型：根据硬件与性能需求选择 Fara1.5-4B、9B 或 27B 模型，完成模型加载与浏览器实例初始化。
下达任务：通过自然语言描述网页任务，如”在 NYC 预订 11 月 24-28 日的酒店房间”。
循环执行：模型自动进入 Observe-Think-Act 循环，读取截图、推理并执行单步动作，直至任务完成或在关键节点主动询问用户。
确认与干预：当遇到信息缺失、任务描述含糊或不可逆操作时，模型会暂停并请求用户确认，保障操作安全。

Fara1.5的核心优势

同尺寸性能领先：Fara1.5-9B 在 Online-Mind2Web 上取得 63.4% 成功率，相较同规模的 GUI-Owl-1.5-8B（48.6%）提升近 15 个百分点，创下该参数级别 SOTA；Fara1.5-4B 以 57.3% 的成绩已接近前代 Fara-7B（34.1%）的两倍，证明小模型也能承载复杂浏览器任务。
纯视觉驱动，零外部依赖：不解析 DOM 树、不依赖无障碍接口，仅通过像素截图理解页面，适配性更强，不受网页结构变化或前端框架限制。
突破公开网页边界：通过 FaraGen1.5 合成数据引擎模拟邮箱、日历、媒体平台等需登录或涉及不可逆操作的场景，让模型能力从”只读浏览”扩展到”可写交互”。
可部署于 modest hardware：4B 与 9B 版本可在普通消费级硬件上运行，降低企业和开发者接入门槛，27B 版本则用于追求极致性能的场景。

Fara1.5的项目地址

项目地址：https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/
GitHub仓库：https://github.com/microsoft/fara

Fara1.5的同类竞品对比

对比维度	Fara1.5-27B	Fara1.5-4B	OpenAI Operator
开发方	微软研究院	微软研究院	OpenAI
参数规模	27B	4B	未公开（专有）
Online-Mind2Web	72.0%	57.3%	58.3%
WebVoyager	88.6%	80.8%	—
开源/部署	开源权重，可本地部署	开源权重，边缘设备友好	云端专有 API
安全边界	MagenticLite 沙盒 + 主动询问	同上	专有沙盒环境
核心差异	纯 VLM 无 DOM 依赖，规模效应显著	小模型高性价比	生态整合与品牌认知强

Fara1.5的应用场景

自动化表单填写：在招聘、报销、预约等长表单页面中自动识别字段并填入信息，遇到缺失项时主动询问用户。
跨站比价与调研：在多个电商或信息站点间自动跳转、抓取商品参数与价格，汇总对比结果。
日程与预订操作：完成酒店、机票、会议室等需要多步点击、日期选择和支付确认的预订流程。
邮件与内容管理：在合成环境支持下，可执行邮件发送、草稿保存、附件上传等涉及账户权限的操作。
无障碍辅助：为视障或操作受限用户提供自然语言驱动的网页导航与交互代理。

Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列

Fara1.5是什么

Fara1.5的主要功能

Fara1.5的技术原理

如何使用Fara1.5

Fara1.5的核心优势

Fara1.5的项目地址

Fara1.5的同类竞品对比

Fara1.5的应用场景

发表评价取消回复

最近更新

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

DuoAttention – 提高LLMs处理长上下文推理效率的AI框架

HuggingChat macOS – Hugging Face开源的macOS聊天应用程序

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Fara1.5是什么

Fara1.5的主要功能

Fara1.5的技术原理

如何使用Fara1.5

Fara1.5的核心优势

Fara1.5的项目地址

Fara1.5的同类竞品对比

Fara1.5的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复