微软Fara 1.5杀入浏览器智能体赛道，72%成功率碾压OpenAI Operator

摘要： 微软AI Frontiers实验室最新发布的Fara 1.5系列浏览器智能体，以72%的任务成功率超越OpenAI Operator，标志着浏览器正在从信息展示工具演变为AI Agent的主战场。三档参数规模（4B/9B/27B）基于Qwen3.5架构，配合MagenticLite沙盒环境，采用"观察-思考-行动"循环执行网页任务——浏览器智能体的竞赛已经白热化。

浏览器：AI Agent的下一个主战场

2025年下半年以来，AI行业的注意力正在从"谁的大模型更强"转向"Agent能在哪里落地"。浏览器，这个每天被全球50亿人打开的软件，正在成为答案。

逻辑很清楚：绝大多数数字工作发生在浏览器里——填表单、查数据、下订单、做调研。谁能控制浏览器，谁就控制了数字世界的入口。这不是隐喻，而是字面意义上的控制——AI Agent需要像人一样"看到"网页并"操作"网页。

OpenAI率先用Operator证明了这条路可行，Google用Project Mariner紧随其后，Anthropic的Computer Use也在暗暗发力。而现在，微软正式入场了。

Fara 1.5：不只是"另一个浏览器AI"

2026年5月，微软AI Frontiers实验室发布了Fara 1.5系列模型。这不是简单的功能迭代，而是一次架构级的进化。

三档参数，覆盖全场景

Fara 1.5提供了三个参数规模：

版本	参数量	定位
Fara 1.5-4B	40亿	轻量级，移动端/嵌入式场景
Fara 1.5-9B	90亿	平衡型，主流桌面应用
Fara 1.5-27B	270亿	旗舰型，复杂多步任务

三个版本均基于Qwen3.5架构训练，这意味着微软选择了开源基座而非自研闭源模型——在浏览器智能体这个需要极致效率的赛道上，轻量和开源比"大而全"更有意义。

"观察-思考-行动"循环

Fara 1.5的核心设计哲学是感知驱动的闭环执行。它的每一次操作都遵循三步循环：

观察（Observe）：截取当前浏览器页面截图，理解页面状态
思考（Think）：基于截图和任务目标，推理下一步操作
行动（Act）：生成具体的浏览器操作指令（点击、输入、滚动等）

这个循环看似简单，实则是浏览器智能体最难的工程问题。传统RPA靠DOM选择器定位元素，一旦页面改版就全部失效。Fara 1.5用截图+视觉理解的方式，天然具备跨页面、跨站点的泛化能力。

当AI不再依赖DOM树而是像人一样"看"网页时，互联网对Agent的开放度将发生质变。

MagenticLite：沙盒里的安全实验场

Fara 1.5配合了MagenticLite沙盒浏览器界面。这不是一个简单的浏览器包装器，而是一个完整的Agent执行环境：

安全隔离：Agent在沙盒中操作，不会影响用户的真实浏览器会话
状态快照：每一步操作前后的页面状态都被完整记录
回滚机制：任务失败时可以回退到任意步骤重新执行

文章配图

72%成功率：数字背后的含义

Fara 1.5最引人注目的数据是72%的任务成功率，超过了OpenAI Operator。但这个数字需要拆解来看。

评测维度的差异

"任务成功率"取决于你定义什么任务。Fara 1.5的评测覆盖了三大场景：

信息检索类（如"找到XX产品最低价"）：成功率约85%
表单交互类（如"填写XX注册表单"）：成功率约68%
多步复合类（如"比较A和B产品后下单"）：成功率约58%

72%是加权平均。这意味着在简单任务上已经接近实用，在复杂任务上仍有明显短板——但比Operator好在哪？

关键差异：上下文理解深度

Fara 1.5相对Operator的核心优势在于上下文理解的深度。Operator在执行长链任务时容易出现"遗忘"现象——走到第5步时忘了第2步的约束条件。Fara 1.5通过更长的上下文窗口和显式的"思考"环节缓解了这个问题。

但Operator的强项是与OpenAI生态的深度整合。当你需要Agent调用GPT的推理能力时，Operator的无缝衔接仍然是优势。两者各有擅长，不存在绝对碾压。

浏览器智能体赛道全景

Fara 1.5不是孤例。浏览器智能体赛道在2026年已形成三大阵营：

阵营一：大厂自研派

OpenAI Operator：依托GPT推理能力，最先商业化
Google Project Mariner：Gemini驱动，Chrome深度集成
微软 Fara 1.5：Azure生态加持，企业场景优先

阵营二：开源先锋派

Browser Use：开源浏览器Agent框架，社区活跃
LaVague：法国团队，主打本地化部署
WebVoyager：学术界的基准项目

阵营三：垂直场景派

Hebbia：法律/金融文档的浏览器Agent
11x：销售自动化的浏览器Agent
MultiOn：电商下单自动化

三股力量从不同方向逼近同一个终点：让浏览器成为AI的双手。

对普通用户意味着什么

浏览器智能体的成熟将改变三个日常场景：

第一，信息获取从"搜"变"问"。 你不再需要打开10个标签页对比信息，Agent会替你浏览、筛选、汇总。智能体计算机的用户将率先体验到这种便利——一个指令，Agent自动完成从搜索到整理的全流程。

第二，重复性操作从"做"变"派"。 每月报销、每周填表、每日打卡——这些痛苦的操作可以交给Agent。但前提是你需要一个7×24小时在线的智能体计算机来托管这些任务。

第三，网页交互从"看"变"对话"。 当Agent能替你操作网页时，网页本身变成了后端接口，而你的对话框变成了前端。这不是科幻，Fara 1.5已经在做这件事了。

还有哪些硬伤没解决

客观说，浏览器智能体离"好用"还有三个核心问题：

可靠性不足。 72%的成功率意味着每4次任务就有1次失败。在日常使用中，这个失败率是不可接受的。Agent需要做到95%以上才能成为生产力工具。

安全边界模糊。 Agent操作浏览器时，你的登录态、支付信息都暴露在Agent的执行链中。一旦Agent被恶意指令诱导，后果严重。沙盒只能隔离，不能根治。

成本仍然偏高。 Fara 1.5-27B每次任务执行需要数十次模型推理调用，token消耗远超普通对话。按当前定价，一个复杂任务的执行成本可能超过1美元——对于日常高频场景，这个成本需要再降一个数量级。

写在最后

Fara 1.5的发布释放了一个清晰信号：浏览器是AI Agent落地的第一块真正意义上的"阵地"。 比大模型参数更重要的事情是——Agent能不能在真实世界的数字环境中可靠地行动。

从Operator到Fara 1.5再到Mariner，浏览器智能体的竞赛才刚刚开始。短期看谁的成功率更高，长期看谁能让Agent像人一样自如地在数字世界穿行。而这一切的基础，是一台始终在线、随时响应的智能体计算机。

铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI智能体追踪

微软推出Fara1.5系列浏览器AI智能体