微软Fara 1.5杀入浏览器智能体赛道,72%成功率碾压OpenAI Operator
摘要: 微软AI Frontiers实验室最新发布的Fara 1.5系列浏览器智能体,以72%的任务成功率超越OpenAI Operator,标志着浏览器正在从信息展示工具演变为AI Agent的主战场。三档参数规模(4B/9B/27B)基于Qwen3.5架构,配合MagenticLite沙盒环境,采用"观察-思考-行动"循环执行网页任务——浏览器智能体的竞赛已经白热化。
浏览器:AI Agent的下一个主战场
2025年下半年以来,AI行业的注意力正在从"谁的大模型更强"转向"Agent能在哪里落地"。浏览器,这个每天被全球50亿人打开的软件,正在成为答案。
逻辑很清楚:绝大多数数字工作发生在浏览器里——填表单、查数据、下订单、做调研。谁能控制浏览器,谁就控制了数字世界的入口。这不是隐喻,而是字面意义上的控制——AI Agent需要像人一样"看到"网页并"操作"网页。
OpenAI率先用Operator证明了这条路可行,Google用Project Mariner紧随其后,Anthropic的Computer Use也在暗暗发力。而现在,微软正式入场了。
Fara 1.5:不只是"另一个浏览器AI"
2026年5月,微软AI Frontiers实验室发布了Fara 1.5系列模型。这不是简单的功能迭代,而是一次架构级的进化。
三档参数,覆盖全场景
Fara 1.5提供了三个参数规模:
| 版本 | 参数量 | 定位 |
|---|---|---|
| Fara 1.5-4B | 40亿 | 轻量级,移动端/嵌入式场景 |
| Fara 1.5-9B | 90亿 | 平衡型,主流桌面应用 |
| Fara 1.5-27B | 270亿 | 旗舰型,复杂多步任务 |
三个版本均基于Qwen3.5架构训练,这意味着微软选择了开源基座而非自研闭源模型——在浏览器智能体这个需要极致效率的赛道上,轻量和开源比"大而全"更有意义。
"观察-思考-行动"循环
Fara 1.5的核心设计哲学是感知驱动的闭环执行。它的每一次操作都遵循三步循环:
- 观察(Observe):截取当前浏览器页面截图,理解页面状态
- 思考(Think):基于截图和任务目标,推理下一步操作
- 行动(Act):生成具体的浏览器操作指令(点击、输入、滚动等)
这个循环看似简单,实则是浏览器智能体最难的工程问题。传统RPA靠DOM选择器定位元素,一旦页面改版就全部失效。Fara 1.5用截图+视觉理解的方式,天然具备跨页面、跨站点的泛化能力。
当AI不再依赖DOM树而是像人一样"看"网页时,互联网对Agent的开放度将发生质变。
MagenticLite:沙盒里的安全实验场
Fara 1.5配合了MagenticLite沙盒浏览器界面。这不是一个简单的浏览器包装器,而是一个完整的Agent执行环境:
- 安全隔离:Agent在沙盒中操作,不会影响用户的真实浏览器会话
- 状态快照:每一步操作前后的页面状态都被完整记录
- 回滚机制:任务失败时可以回退到任意步骤重新执行

72%成功率:数字背后的含义
Fara 1.5最引人注目的数据是72%的任务成功率,超过了OpenAI Operator。但这个数字需要拆解来看。
评测维度的差异
"任务成功率"取决于你定义什么任务。Fara 1.5的评测覆盖了三大场景:
- 信息检索类(如"找到XX产品最低价"):成功率约85%
- 表单交互类(如"填写XX注册表单"):成功率约68%
- 多步复合类(如"比较A和B产品后下单"):成功率约58%
72%是加权平均。这意味着在简单任务上已经接近实用,在复杂任务上仍有明显短板——但比Operator好在哪?
关键差异:上下文理解深度
Fara 1.5相对Operator的核心优势在于上下文理解的深度。Operator在执行长链任务时容易出现"遗忘"现象——走到第5步时忘了第2步的约束条件。Fara 1.5通过更长的上下文窗口和显式的"思考"环节缓解了这个问题。
但Operator的强项是与OpenAI生态的深度整合。当你需要Agent调用GPT的推理能力时,Operator的无缝衔接仍然是优势。两者各有擅长,不存在绝对碾压。
浏览器智能体赛道全景
Fara 1.5不是孤例。浏览器智能体赛道在2026年已形成三大阵营:
阵营一:大厂自研派
- OpenAI Operator:依托GPT推理能力,最先商业化
- Google Project Mariner:Gemini驱动,Chrome深度集成
- 微软 Fara 1.5:Azure生态加持,企业场景优先
阵营二:开源先锋派
- Browser Use:开源浏览器Agent框架,社区活跃
- LaVague:法国团队,主打本地化部署
- WebVoyager:学术界的基准项目
阵营三:垂直场景派
- Hebbia:法律/金融文档的浏览器Agent
- 11x:销售自动化的浏览器Agent
- MultiOn:电商下单自动化
三股力量从不同方向逼近同一个终点:让浏览器成为AI的双手。
对普通用户意味着什么
浏览器智能体的成熟将改变三个日常场景:
第一,信息获取从"搜"变"问"。 你不再需要打开10个标签页对比信息,Agent会替你浏览、筛选、汇总。智能体计算机的用户将率先体验到这种便利——一个指令,Agent自动完成从搜索到整理的全流程。
第二,重复性操作从"做"变"派"。 每月报销、每周填表、每日打卡——这些痛苦的操作可以交给Agent。但前提是你需要一个7×24小时在线的智能体计算机来托管这些任务。
第三,网页交互从"看"变"对话"。 当Agent能替你操作网页时,网页本身变成了后端接口,而你的对话框变成了前端。这不是科幻,Fara 1.5已经在做这件事了。
还有哪些硬伤没解决
客观说,浏览器智能体离"好用"还有三个核心问题:
可靠性不足。 72%的成功率意味着每4次任务就有1次失败。在日常使用中,这个失败率是不可接受的。Agent需要做到95%以上才能成为生产力工具。
安全边界模糊。 Agent操作浏览器时,你的登录态、支付信息都暴露在Agent的执行链中。一旦Agent被恶意指令诱导,后果严重。沙盒只能隔离,不能根治。
成本仍然偏高。 Fara 1.5-27B每次任务执行需要数十次模型推理调用,token消耗远超普通对话。按当前定价,一个复杂任务的执行成本可能超过1美元——对于日常高频场景,这个成本需要再降一个数量级。
写在最后
Fara 1.5的发布释放了一个清晰信号:浏览器是AI Agent落地的第一块真正意义上的"阵地"。 比大模型参数更重要的事情是——Agent能不能在真实世界的数字环境中可靠地行动。
从Operator到Fara 1.5再到Mariner,浏览器智能体的竞赛才刚刚开始。短期看谁的成功率更高,长期看谁能让Agent像人一样自如地在数字世界穿行。而这一切的基础,是一台始终在线、随时响应的智能体计算机。
铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI智能体追踪