OpenClaw迎关键升级!Peekaboo v3发布,助力AI从聊天迈向实操

Published on: 2026-05-13

OpenClaw 关键升级!Peekaboo v3 发布,助力 AI 从"聊天"迈向"实操"

如果你用过 2023 年的 ChatGPT,一定对这个场景不陌生:问它"帮我查一下深圳明天会下雨吗",它回答得头头是道,但让你自己去打开天气 App 确认。问它"帮我写一封跟进邮件",它写好了,但让你自己复制粘贴到邮箱发送。

两年过去,AI 的"理解能力"已经突飞猛进,但"执行能力"依然是大多数 AI 工具的短板。

2026 年 5 月,OpenClaw 发布 Peekaboo v3——这个听起来像儿童捉迷藏游戏的名字,背后是一套让 AI 真正"看见"并"操作"你的屏幕、浏览器、本地应用的核心引擎。它的价值只有一句话:让 AI 从"告诉你怎么做"变成"直接帮你做完了"。


一、Peekaboo 是什么?为什么叫 v3?

Peekaboo 的名字来自儿童游戏"Peek-a-boo"(捉迷藏)——先遮住脸(不可见),再打开手(突然出现)。这个名字精准地描述了 AI 屏幕交互的核心矛盾:AI 能不能"看见"你在看什么,能不能理解屏幕内容,进而操作它

v1 → v2 → v3:三代进化

版本 核心能力 代表场景 局限
v1(2024) 截图 + OCR 文字识别 "帮我读一下这个截图里的文字" 只能"看",不能"动";准确度依赖截图质量
v2(2025) 截图 + 元素定位 + 模拟点击 "帮我点一下这个按钮" 只能操作已知结构的界面;遇到动态页面经常失灵
v3(2026) 实时屏幕理解 + 语义操作 + 多应用编排 "帮我整理这周的客户邮件,把需要跟进的写到表里"

v3 的核心突破不是"能截图了",而是理解屏幕语义并规划操作步骤。举个例子:

  • v2 水平:你告诉它"点'登录'按钮"——它需要屏幕上有且只有一个"登录"按钮,否则失败。
  • v3 水平:你告诉它"帮我登录"——它自己找到用户名输入框、输入、找到密码框、输入、找到登录按钮、点击,中间遇到验证码还能尝试调用打码平台或等待人工。

这是从"按键精灵"到"真人操作代理"的本质跨越。


配图

二、Peekaboo v3 的三大核心升级

2.1 实时屏幕理解(Real-time Screen Understanding)

v2 及以前,Peekaboo 的工作方式是"截图 → 发给视觉模型 → 等返回 → 操作"。这导致两个硬伤:延迟高(一次操作 3-8 秒),连续操作精度差(多步骤任务中间容易"迷失"当前屏幕状态)。

v3 改为持续理解屏幕流——它不等你下指令才截图,而是以 5-10 帧/秒的速度理解屏幕正在发生什么,并在需要时主动介入。

实际体验差异: - 以前:你说"帮我订一张明天去上海的票" → AI 截图 → 识别 → 点选 → 截图 → 识别 → 填表 → ……(全程 30-60 秒,中间可能卡死) - 现在:同样指令 → AI 在 5 秒内完成全部操作 → 停下来问你"座位靠窗还是靠过道?"

延迟从秒级压缩到毫秒级,连续操作的成功率从约 60%(v2)提升到 94%+(v3)

2.2 跨应用编排(Cross-App Orchestration)

这是 v3 最杀手级的能力,但也是最难做的功能。

以前 AI 操作电脑,基本局限在"一个应用内":让它在浏览器里帮你填表可以,但让它"从邮箱里把附件下载下来,打开 Excel 做汇总,再生成一份 PDF 报告发送到微信"——这种跨应用的任务,v2 基本做不了。

v3 引入了应用上下文切换理解: - 它知道当你从浏览器切换到 Excel 时,数据应该怎么传递 - 它知道微信收到的文件,保存到哪个本地目录,Excel 应该去哪里找 - 它知道一个多步骤任务中,哪一步失败了,从哪里重新开始

真实场景:你是跨境电商运营,每天早上需要: 1. 打开 Gmail,把昨晚的订单邮件整理到 Google Sheets 2. 打开 Shopify 后台,核对库存 3. 打开微信,给供应商发今天的进货确认 4. 打开 Canva,生成今天的促销海报

以前:4 个独立自动化脚本,或者手动做。
现在:Peekaboo v3 一个指令搞定——"帮我完成早上的 4 件事",它自己打开应用、操作、切换、验证结果。

2.3 本地隐私模式(Local Privacy Mode)

这是和铠盒智能体计算机深度绑定的功能。Peekaboo v3 支持完全本地运行——屏幕理解、元素定位、操作规划,全部在本地完成,不需要把你的屏幕截图发到云端 API。

为什么这很重要: - 你在操作银行网页——截图里有账号、金额、交易记录 - 你在操作公司内部系统——截图里有客户名单、合同金额、业务流程 - 你在操作微信/企业微信——截图里有同事聊天、客户沟通、商业机密

发到云端意味着……你永远不知道这些截图会不会被用于模型训练,或者被黑客截获。

本地模式下的 Peekaboo v3: - 屏幕数据全程不离开你的铠盒设备 - 视觉理解用本地运行的视觉模型(支持 Qwen2.5-VL、LLaVA-Next 等开源模型) - 操作日志可选本地加密存储,支持审计回溯

一句话:你的屏幕,只有你的 AI 可以看。


三、从"聊天"到"实操"——AI 使用方式的范式转移

Peekaboo v3 的发布,实际上标志着 AI 使用方式的一次分水岭。

3.1 聊天式 AI 的天花板

过去三年,几乎所有 AI 工具都在优化"对话体验":回答更准确、语气更自然、支持更长的上下文。但这条路有天花板——无论 AI 多聪明,如果每次执行都需要人来做"最后一步",它的价值就永远受限于"人的时间"

使用方式 AI 的角色 人的角色 效率上限
聊天式(ChatGPT 模式) 回答者 执行者(复制粘贴、打开网页、操作软件) 人的工作时间
指令式(Agent 模式) 规划者 监督者(确认关键步骤) Agent 运行时间
实操式(Peekaboo v3 模式) 执行者 审核者(事后检查例外情况) 7×24 无人值守

Peekaboo v3 把 AI 从"副驾驶"抬到了"主驾驶"位置——人只需要在关键决策点确认,其他全部让 AI 自己完成。

3.2 实操式 AI 对硬件的要求

聊天式 AI 对硬件要求不高——有个浏览器就行。但实操式 AI 需要: 1. 持续运行的算力(Agent 可能工作一整夜) 2. 低延迟的本地视觉推理(截图→理解→操作,全程在秒级完成) 3. 稳定的 7×24 运行环境(不能像 PC 一样"休眠")

这正是铠盒智能体计算机存在的意义。Peekaboo v3 在云端运行,效果会打折扣(网络延迟、隐私顾虑、Token 费用);但在铠盒本地运行,体验是满血的。


四、实战场景:Peekaboo v3 能帮你做什么?

场景 1:自媒体创作者的"每日选题 + 竞品监控"自动化

以前:打开头条号后台 → 刷推荐流 30 分钟 → 记录 5 个爆款选题 → 打开电脑上的 Excel 表格记录 → 打开 ChatGPT 帮忙扩展选题 → 手动整理成选题库。

现在(Peekaboo v3 配置一次,每天自动执行): - 早上 6:00,Agent 自动打开今日头条网页,滚动推荐流 - 识别"阅读量 10 万+"的文章标题和关键词 - 打开飞书多维表格,把选题录入(分类、关键词、热度评分) - 早上 7:00,你打开飞书,10 个选题已经躺在那里等你的判断

全程不需要人介入。你只需要在飞书里打勾、选方向、让 AI 帮你扩展成文。

场景 2:跨境电商的"订单→库存→补货"全自动链路

以前:Gmail 收到订单邮件 → 手动打开 Shopify 核对 → 打开供应商网站下单 → 更新库存表格 → 回复客户"已发货"。

现在(Peekaboo v3 全流程自动化): - Agent A 每 15 分钟检查 Gmail 新邮件(订单通知) - Agent B 自动打开 Shopify 后台,核对订单、扣减库存 - 库存低于安全线 → Agent C 自动打开供应商网站,下单补货 - Agent D 调用微信 API,给客户发"您的订单已发货,单号是……"

四个 Agent 协作,Peekaboo v3 负责它们之间的"桥接"——把上一个 Agent 的输出(订单号、SKU、客户信息)传递给下一个 Agent 作为输入。

场景 3:企业行政的"发票整理 + 报销单生成"

以前:收集各部门发来的发票截图 → 手动录入 Excel → 分类(差旅、办公、招待)→ 生成报销单 → 走审批流程。

现在(Peekaboo v3 + 本地 OCR): - 发票截图收到 → 自动保存到指定目录 - Peekaboo v3 调用本地视觉模型,识别发票金额、日期、类型、税号 - 自动填入 Excel 表格(按公司报销模板格式) - 月底自动生成报销单 PDF,推送到审批系统

关键:发票上有税号、金额、交易对手方——这些敏感财务数据,全程不离开本地铠盒设备。


五、如何开始使用 Peekaboo v3?

5.1 铠盒用户:一键升级

如果你已经在用铠盒智能体计算机,升级 Peekaboo v3 只需要一条指令:

openclaw update --channel stable

升级完成后,在 OpenClaw 管理面板(kaihe.local)的"技能(Skills)"页面,启用"Peekaboo 屏幕交互 v3"。

5.2 新用户:999 元起步

铠盒 A1(999 元)就能完整运行 Peekaboo v3 的全部功能。配置流程: 1. 插电 → 浏览器打开 kaihe.local 2. 选择"Peekaboo v3 实操模式" 3. 对着屏幕说一句话:"帮我每天早上涨 7 点整理昨天的客户邮件" 4. 完成

不需要写代码、不需要配置 API、不需要懂"提示词工程"。

5.3 隐私模式:默认开启

Peekaboo v3 的本地隐私模式默认开启。你可以在管理面板里查看每一次屏幕理解的日志——哪次任务调用了视觉模型、截图的哈希值(用于验证没有被传输)、操作记录。

如果不需要本地模式(比如操作的都是公开网页,没有敏感数据),可以在设置里切换到"云端加速模式"——调用 GPT-4o 或 Claude 的视觉能力,速度更快,但隐私保护相应减弱。


六、写在最后:AI 的下一个战场在"执行力"

过去两年,AI 行业都在卷"谁的模型更聪明"——上下文更长、推理更准确、多模态支持更好。但 Peekaboo v3 的发布提醒整个行业:模型再聪明,如果执行能力跟不上,"最聪明的 AI"也只是一个更好的搜索引擎而已

OpenClaw 选择的方向很明确:让 AI 成为真正的"数字员工",而不只是一个"更聪明的对话框"。Peekaboo v3 是这愿景的关键一步——它让 AI 看见了屏幕,理解了操作,并且能够像人一样跨应用完成任务。

而铠盒智能体计算机,就是这台"数字员工"的身体。插电即用的 AI 执行力,第一次完整地交到了普通人手里。


本文提及的产品和功能:
铠盒智能体计算机:nizwo.com/products
OpenClaw 官网:openclaw.com
Peekaboo v3 升级指南:docs.openclaw.com/peekaboo-v3

© KAIHE AI - Agent Computer Specialist