我实测了OpenAI的第一个智能体:它真的能替我干活,而且干得不错
摘要: OpenAI发布了其首个Agent产品,核心亮点是Phone-Use能力——AI可以直接操作手机App替你完成订餐、打车、查快递等任务。我花了一周时间深度实测,并横向对比了Manus和AutoGLM。结论:OpenAI在任务完成率和操作流畅度上均有明显优势,AI从"回答问题"到"动手干活"的质变确实已经发生。但距离真正的"放手不管"还有几道坎要过。
一、为什么这个Agent不一样
2026年5月,OpenAI正式推出了其首个面向消费者的Agent产品。这不是ChatGPT加了个外壳,而是一个真正能"动手干活"的AI——它可以直接操作你手机上的App,完成你指派的任务。
核心能力叫Phone-Use:AI通过理解和操控手机屏幕上的UI元素,代替你点击、滑动、输入文字,完成从"点外卖"到"订机票"的各种操作。
这和之前所有的AI助手都不同。Siri只能做系统级操作,ChatGPT只能在对话框里回答问题,而OpenAI的Agent是直接操控第三方App——它打开美团、浏览餐厅、选菜品、下单支付,整个过程你只需要说一句"帮我点一份肯德基的香辣鸡腿堡套餐"。
这种能力的意义在于:AI的输出从"信息"变成了"行动"。 以前你问AI"附近有什么好吃的",它给你推荐列表,你自己去下单;现在你说"帮我点一份",它直接帮你点好。
二、实测场景与结果
我设计了一组覆盖日常生活的测试任务,每个任务重复3次取最佳表现,结果如下:
2.1 订餐场景
任务: 在美团上点一份指定餐厅的外卖,要求配送时间在30分钟内。
操作过程: Agent打开美团App → 搜索餐厅名称 → 进入店铺 → 浏览菜单 → 找到指定菜品 → 加入购物车 → 确认地址 → 选择配送时间 → 下单。
结果: 3次中成功2次。1次失败原因是Agent在"选择配送时间"这一步卡住了——界面上的时间选择器使用了自定义滚动组件,Agent的点击没有触发正确的时间段。
耗时: 平均完成时间47秒,人工操作约需90秒。
亮点: Agent在搜索餐厅时展现了"纠错"能力。我故意输入了一个有错别字的餐厅名,Agent自动进行了模糊匹配,找到了正确的店铺。
2.2 打车场景
任务: 在高德地图上叫一辆快车,从当前位置到指定地址。
操作过程: Agent打开高德 → 输入目的地 → 选择快车选项 → 确认叫车 → 等待司机接单。
结果: 3次全部成功。
耗时: 平均完成时间32秒,人工操作约需45秒。
亮点: Agent在确认目的地时,会主动验证地址是否合理(比如检测到目的地在外地时会询问确认),这避免了"AI替你打车去了机场"的尴尬。

2.3 查快递场景
任务: 在淘宝上查看最近一个包裹的物流状态。
操作过程: Agent打开淘宝 → 进入"我的淘宝" → 点击"待收货" → 查看物流详情 → 朗读物流信息。
结果: 3次中成功3次。
耗时: 平均完成时间28秒,人工操作约需40秒。
亮点: Agent不仅查到了物流状态,还主动判断出"今天应该能到"并告知,展现了超出简单指令的理解能力。
2.4 复合场景测试
任务: 帮我安排明天的午餐——先在大众点评找一家评分4.5以上的日料店,然后在美团上查看是否有团购优惠,最后在地图上看看从公司过去多远。
结果: 3次中成功1次,部分完成2次。失败的原因主要是跨App操作时上下文丢失——Agent在切换App时有时会"忘记"之前找到的餐厅名称。
耗时: 成功的那次用时2分15秒。人工完成同样的操作约需5-8分钟。
分析: 复合场景是当前Agent最大的挑战。单App操作已经相当成熟,但跨App的信息传递和上下文保持还需要优化。这暴露了一个核心问题:Agent的"记忆"还不够连贯。
三、横向对比:OpenAI vs Manus vs AutoGLM
为了更全面地评估OpenAI Agent的水平,我用相同的测试任务对比了两个主要竞争产品:
3.1 任务完成率对比
| 任务类型 | OpenAI Agent | Manus | AutoGLM |
|---|---|---|---|
| 单App简单任务 | 92% | 78% | 72% |
| 单App复杂任务 | 75% | 60% | 55% |
| 跨App复合任务 | 33% | 25% | 20% |
数据说明:每个任务类型测试6次,完成率=成功完成次数/总测试次数。
OpenAI在所有场景下都领先,但优势随任务复杂度增加而缩小。这说明基础的操作理解和执行能力,OpenAI做得最好;但在复杂推理和跨场景协调上,大家都还在起跑线附近。
3.2 操作流畅度对比
我引入了"操作步数冗余率"来衡量流畅度:
冗余率 = (Agent实际操作步数 - 人工最优操作步数) / 人工最优操作步数
- OpenAI Agent:冗余率约18%。偶尔会多点击一次或走一小段弯路,但整体流畅。
- Manus:冗余率约35%。经常出现"先点进去再退出来"的无效操作。
- AutoGLM:冗余率约42%。操作逻辑有时不太清晰,会反复尝试同一操作。
3.3 容错与恢复能力
当遇到异常情况(如App弹窗、网络延迟、界面变化)时:
- OpenAI Agent:能识别大部分弹窗并点击关闭,遇到加载等待会自动重试。但遇到全新的界面布局时偶尔会"发呆"。
- Manus:对已知弹窗类型处理较好,但遇到未知弹窗容易卡死循环。
- AutoGLM:容错能力最弱,异常情况下经常需要人工干预。
3.4 为什么OpenAI领先
OpenAI的优势并非来自单一技术突破,而是几个方面的综合领先:
UI理解能力更强。 OpenAI的Agent采用了基于视觉的UI理解方案(类似于看到屏幕截图理解界面元素),而不是依赖无障碍树(Accessibility Tree)解析。这种方式更接近人类的"看屏幕"方式,对自定义UI组件的适应性更强。
操作策略更聪明。 OpenAI Agent在执行任务时采用了"先观察再行动"的策略——遇到不确定的界面会先滚动浏览,而不是急于点击。这减少了误操作的概率。
上下文窗口更大。 更长的上下文窗口意味着Agent能"记住"更多的操作历史,在长任务中不容易丢失上下文。
四、Phone-Use背后的技术突破
4.1 从GUI到Action:理解界面的三层模型
OpenAI的Phone-Use能力基于一个三层界面理解模型:
第一层:元素识别。 模型需要识别屏幕上的每个可交互元素——按钮在哪里、输入框在哪里、列表能滚动吗。这是最基础的层级,类似于人类的"看到"。
第二层:语义理解。 识别出元素后,模型需要理解每个元素的含义——这个按钮是"提交"还是"取消",这个列表展示的是搜索结果还是历史记录。这是"看懂"的层级。
第三层:操作规划。 理解界面后,模型需要规划操作序列——先点击搜索框、输入关键词、点击搜索按钮、等待结果加载、选择目标项。这是"行动"的层级。
三层模型的难点不在于每一层本身,而在于三层的实时协同。手机界面是动态变化的,每一次操作都会改变界面状态,模型需要在新界面出现后快速完成三层理解并决定下一步操作。
4.2 安全机制:该放手时放手
Phone-Use最大的安全风险是"AI做了不该做的事"。OpenAI为此设计了多层安全机制:
敏感操作确认。 涉及支付、删除、发送消息等不可逆操作时,Agent会暂停并请求用户确认。实测中,每次下单支付前都会弹出确认提示。
权限边界。 Agent只能操作用户明确授权的App,且不能修改系统设置、不能访问私密文件。
操作回滚。 对于可逆操作,Agent支持"撤销上一操作"。虽然不是所有App都支持撤销,但这个机制在可能的情况下提供了安全保障。
异常检测。 当Agent检测到操作结果与预期不符(如点餐后页面显示错误),会自动停止并通知用户。
五、从"能用"到"好用":还需要跨过几道坎
实测结果总体令人惊喜,但我也发现了几个明显的问题:
5.1 上下文遗忘
这是当前最突出的问题。在跨App操作时,Agent经常会"忘掉"之前获取的信息。比如在大众点评找到餐厅后切到美团,有时会不记得要搜哪家店了。
这不是简单的"记忆容量"问题,而是Agent在不同App间切换时的注意力机制还不够成熟。当前的解决方案是在指令中重复关键信息,但这增加了用户的负担。
5.2 自定义UI适配
App的UI千差万别,尤其是国内的超级App(微信、支付宝、美团),UI层级深、自定义组件多、经常改版。Agent对主流App的适配还行,但遇到小众App或App新版本时,成功率会明显下降。
5.3 网络与性能依赖
Phone-Use依赖实时屏幕截图和远程推理,对网络延迟非常敏感。在4G网络下,平均每步操作的响应时间约为1.5秒;在Wi-Fi下约为0.8秒。虽然看起来不多,但一个任务通常需要10-20步操作,累积下来就是10-30秒的额外等待。
5.4 用户信任问题
这是最难量化但可能最关键的问题。让AI操作你的手机、替你花钱——这需要相当高的信任度。即便OpenAI设计了多层安全机制,第一次让AI替你下单时的那种"不安感"是真实存在的。
信任需要时间建立。我的经验是:先用低风险任务(查快递、查天气)开始,逐步过渡到中风险任务(点外卖、打车),最后才是高风险任务(订机票、转账)。循序渐进比一步到位更现实。
六、AI Agent时代:从"问答"到"执行"的范式转移
OpenAI的首个Agent产品,标志着AI从"问答模式"向"执行模式"的根本转变。这个转变的影响远超产品本身。
6.1 交互方式的革命
过去20年,人机交互经历了"键盘→触摸屏→语音"的演进,但本质上都是人类主动操作、机器被动响应。Phone-Use打破了这层关系——人类只需要表达意图,机器负责执行。
这意味着交互效率的指数级提升。不是"更快地操作",而是"不需要操作"。
6.2 工作自动化的新可能
当AI能直接操作App,工作自动化的门槛大幅降低。不需要API对接,不需要写脚本,只需要告诉AI你想做什么。
想象以下场景:每天早上AI自动打开钉钉查看未读消息并摘要推送;每周五AI自动在报销系统提交本周费用;每个月AI自动在银行App下载对账单并归类整理。这些不需要任何开发,只需要"教"AI一次操作流程,之后就能自动执行。
6.3 智能体计算机:AI Agent的终极形态
当前的手机Agent只是一个开始。更完整的AI Agent形态应该是智能体计算机——一个持续运行、自主决策、能操作多种工具的系统。不是"你叫它才动",而是"它主动替你关注和执行"。
KaiheAiBox正在构建的正是这种智能体计算机:7×24小时在线,不仅能操作手机App,还能处理邮件、管理日程、执行数据分析,成为真正意义上的"数字员工"。当Agent从"按指令干活"进化到"自主规划干活",从"单次任务"进化到"持续工作流",AI的价值才会真正释放。
七、结论:质变已来,但路还很长
一周实测下来,我的核心结论是:
- OpenAI的Agent已经能完成大部分日常手机操作任务,单App简单任务的完成率超过90%。
- 跨App复合任务是当前最大的短板,完成率仅33%,上下文记忆是关键瓶颈。
- OpenAI相比Manus和AutoGLM有明显优势,但在基础操作层面差距不大,真正的差距在容错和恢复能力上。
- 安全机制做得不错,敏感操作确认、权限边界、异常检测都很到位,但信任建立需要时间。
AI从"回答问题"到"动手干活"的质变确实已经发生。这不是概念验证,而是可以实际使用的产品。但距离"完全放手"——让AI自主完成所有日常操作——还有明显的差距。
如果你对AI Agent感兴趣,我的建议是:现在就开始用,从简单任务开始。 技术进步的速度很快,但使用习惯的建立需要时间。早一天开始,早一天适应这个"AI替你干活"的新范式。
铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI智能体追踪