Codex Appshots:双击Command把窗口喂给AI,编程进入所见即所得时代
摘要: 2026年5月22日,OpenAI发布Codex六项重大更新,头号主角Appshots让开发者双击Command键即可截取应用窗口"喂"给AI——不只截图,还能读取屏幕外的隐藏文字。同时/goal命令从实验转正,支持跨天长期任务。Mac锁屏后手机也能远程操控Codex继续写代码。AI编程从"你说我写"正式迈入"你指我改"的新阶段。
一、Appshots是什么?
5月22日凌晨,OpenAI发布Codex桌面版重大更新,六项新功能齐发。CEO山姆·奥特曼在X平台高调官宣"全新Codex上线",新智元将其称为"Codex最强的一次升级"。
六项更新中最受关注的,毫无疑问是Appshots(应用快照)。
简单说,Appshots让Mac用户按下快捷键(默认左右Command键,可在设置中调整),就能把当前应用窗口截屏并发送给Codex。但这不是普通截图——Codex能读取窗口里的所有文字内容,包括屏幕上暂时看不到的部分。
这意味着什么?你不再需要手动复制粘贴代码片段、截图发给AI、描述你看到了什么bug。你只需要双击Command,Codex就能"看见"你看到的一切,甚至比你看得更多。

二、Appshots解决的三个核心痛点
根据OpenAI官方说明,Appshots主要解决以下痛点:
痛点1:调试网页时发现Bug,描述成本高
以前:截图→粘贴到聊天框→用文字描述"这个按钮点不了,报错信息在控制台第三行"→AI理解半天→给你一个可能不相关的修复方案。
现在:在浏览器中直接双击Command,Codex自动捕获整个窗口(包括开发者工具中的控制台报错),直接理解问题并给出修复代码。
痛点2:设计稿转代码,界面信息传递困难
以前:把Figma截图拖进ChatGPT→描述布局结构→AI生成代码→你发现理解错了→重新描述→再生成。
现在:在设计工具窗口双击Command,Codex读取整个界面(包括隐藏在滚动区域外的内容),一次性理解完整布局,直接生成更准确的代码。
痛点3:复杂界面信息无法用文字完整传达
以前:你需要把错误信息、日志输出、配置文件、UI截图分别复制粘贴给AI,然后花大量时间描述它们之间的关系。
现在:双击Command,整个应用窗口的所有可视和隐藏内容一次性传达给AI,AI自动建立上下文关联。
这不是简单的"截图发AI"——传统截图工具只能捕获像素,而Appshots能提取文字内容(包括屏幕外部分),这是本质区别。
三、/goal命令转正:AI可以跑跨天任务了
与Appshots同时更新的另一个重头戏是/goal命令正式从实验阶段"毕业"。
此前/goal作为实验功能时,用户已经可以在Codex中设定一个长期目标,Codex会持续推进直到达成。但实验版存在稳定性问题,无法可靠地跨会话保持状态。
转正后的/goal命令支持:
- 跨小时甚至跨天的长期任务执行:设定"重构整个认证模块",Codex会自主拆分子任务、逐步推进
- 中途查看进度:随时检查Codex当前做到哪一步了
- 调整方向或暂停:发现方向不对可以及时纠正,不需要等全部完成
- 多平台统一体验:在Codex App、IDE Extension、CLI三个入口均可使用
/goal和Appshots的组合非常强大:你可以设定一个/goal(比如"修复所有登录相关的Bug"),然后用Appshots逐个把出问题的窗口喂给Codex,Codex会自动将这些快照关联到目标,持续跟踪修复进度。
四、Mac锁屏也能打工:手机远程操控
这次更新的另一个亮点:即使Mac已锁定且屏幕关闭,Codex也可以通过手机安全地使用Mac上的应用程序。
5月14日上线的Codex移动端(iOS和Android预览版)在这次更新中实现了锁屏远程操控。实际场景:
- 你在公司开会,突然想起有个部署需要确认→掏出手机→打开ChatGPT中的Codex面板→远程操控Mac执行命令
- 你已经下班回家,同事报告线上有个Bug→用手机远程让Codex在锁屏Mac上定位问题
- 你在通勤路上想到一个功能改进→通过手机给Codex分配任务,到家时代码已经写好了
OpenAI特别强调安全性:远程操控需要验证,不会在未授权的情况下执行任何操作。
五、其他三项更新
1. 内置浏览器增强
新版浏览器在高级标注模式下速度更快,定位更准确,并支持批量评论。对需要Codex浏览网页获取信息的工作流来说,这是一个实用性提升。
2. 团队插件共享
Business和Enterprise用户可以在团队内共享插件配置,避免每个人重复设置相同的工作流。对企业团队协作效率提升明显。
3. 企业分析面板
新增多维分析面板,包含活跃用户统计、Token使用量、代码行数等数据,帮助企业管理者了解团队AI编程工具的使用情况。
六、Appshots背后的技术思考
Appshots的核心价值不在于"截图"——截图工具早就有了。它真正突破的是多模态上下文融合:
- 视觉信息:窗口布局、UI元素位置、颜色、字体
- 文本信息:代码内容、错误日志、配置参数(包括屏幕外部分)
- 交互上下文:当前在哪个应用、哪个页面、什么状态
这三类信息同时传递给AI,让AI第一次拥有了与人类开发者相同的"工作环境感知"。这不是渐进式改进,而是交互范式的跃迁。
从更宏观的角度看,Appshots代表了AI编程工具的第三次交互革命:
- 文本对话(2023-2024):你用文字描述需求,AI返回代码
- IDE集成(2024-2025):AI嵌入编辑器,能看到你打开的文件
- 全屏感知(2026-):AI能"看见"你屏幕上的一切,甚至更多
每一次跃迁都大幅降低了"人机信息差"——人类知道但AI不知道的那部分信息。Appshots把信息差压缩到了接近零。
七、对智能体硬件的启示
Appshots和/goal组合,让Codex从一个"代码助手"升级为一个"全天候编程Agent"。它需要:
- 持续在线:/goal任务可能跨天运行,中间不能断
- 屏幕访问权限:Appshots需要读取窗口内容,这要求Agent有独立的图形化运行环境
- 远程可访问:手机远程操控需要Mac始终联网在线
这意味着未来编程Agent的最佳运行形态,可能不是你的主力开发机(你要关机、要打游戏、要换项目),而是一台7×24小时在线的专用设备——低功耗、稳定运行、与主力机隔离,Agent在上面持续执行/goal任务,你随时通过手机或主电脑查看进度。
铠盒智能体计算机正是为此设计:7×24小时运行、10W超低功耗、与主力PC物理隔离。不管你是跑Codex的/goal长任务,还是用OpenClaw调度多个Agent并行工作,都需要一台不关机的专用硬件来承载。
铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI智能体追踪