AutoGLM开源了:你的手机AI Agent现在可以点外卖、回微信

Published on: 2026-05-27

AutoGLM正式开源:手机AI智能体能帮你订外卖回微信

摘要: 智谱AI开源的AutoGLM将手机AI智能体从实验室推向开发者社区。它能看懂屏幕、模拟点击、自主完成订外卖、回微信、查天气等多步骤任务。与RPA的本质区别在于:AutoGLM理解语义而非录制脚本。开源后开发者可自定义Agent行为,而铠盒A1让这类Agent可以7×24小时运行——手机无需一直亮屏,智能体计算机替代手机成为AI的执行载体。

一、手机AI的"最后一步"难题

AI助手能写诗、能编程、能分析财报,但让它帮你用手机订个外卖,它却束手无策。

这不是AI不够聪明,而是AI"够不着"手机屏幕。大模型擅长处理文本和信息,但手机操作需要在图形界面上完成——看屏幕、理解界面元素、模拟点击滑动。这中间有一条鸿沟:从语言理解到界面操作的跨越。

此前业界尝试过几种方案: - 语音助手路线:Siri、小爱同学通过系统API调用服务,但覆盖场景有限,且依赖App适配 - RPA路线:录制用户在手机上的操作轨迹,回放执行。但界面对不上就全盘失败 - 无障碍服务路线:通过Android Accessibility Service读取界面元素,但各App实现差异大,稳定性堪忧

这些方案的共同问题是:都试图用"确定性规则"来解决"不确定性界面"的问题。而AutoGLM的开创性在于,它用视觉理解和语义推理来处理这种不确定性。

二、AutoGLM是什么:手机端的AI智能体框架

AutoGLM由智谱AI研发并正式开源,是一个专为手机端设计的AI智能体框架。它的核心能力可以概括为三句话:

看得懂屏幕。想得清步骤。做得对操作。

具体来说,AutoGLM的工作流程是:

  1. 视觉理解:对手机屏幕截图进行视觉分析,识别界面元素(按钮、输入框、文字标签等)及其空间位置关系
  2. 操作规划:根据用户意图,将任务拆解为一系列操作步骤("打开美团→搜索肯德基→选择套餐→提交订单")
  3. 执行反馈:模拟点击/滑动/输入操作,观察执行结果,如果出错则自主纠正

AutoGLM不是简单地"点击坐标(100,200)",而是理解"点击屏幕右下角的黄色下单按钮"——界面布局变了,它依然能找到正确的按钮。

开源意味着什么?

AutoGLM开源后,开发者可以: - 自定义Agent的行为逻辑和决策策略 - 接入自己的大模型作为"大脑" - 针对特定场景(如电商、办公、养老)做垂直优化 - 将AutoGLM集成到自己的应用或服务中

开源发布的版本包含了核心框架代码、示例Agent配置、以及基于GLM系列的预训练模型权重。对于有一定技术能力的开发者,部署一个基础的AutoGLM Agent已不再高不可攀。

三、技术架构拆解:视觉+规划+执行的闭环

AutoGLM的技术架构可以用"感知-决策-执行-反馈"四个阶段来描述,形成一个完整的智能体闭环。

阶段一:视觉理解(Perception)

AutoGLM首先对当前手机屏幕进行截图,然后通过视觉模型分析界面内容。这部分技术的关键在于:

  • UI元素检测:识别按钮、输入框、列表、图标等可交互元素
  • OCR文字识别:读取界面上的文字信息(餐厅名、价格、菜单项等)
  • 空间关系理解:理解元素的层级关系和相对位置("下单按钮在购物车下方")

与单纯OCR不同,AutoGLM的视觉理解是语义层面的——它不只识别"这里有一个按钮,上面写着'提交订单'",还能理解"这是订单确认流程的最后一步,点击后会产生支付行为"。

阶段二:操作规划(Planning)

拿到屏幕理解结果后,AutoGLM需要将用户的高层意图拆解为具体的操作步骤。

以"帮我在美团上订一份肯德基套餐"为例,规划模块会生成: 1. 解锁手机(如需要) 2. 打开美团App 3. 在搜索框输入"肯德基" 4. 点击搜索结果中的第一家店 5. 浏览菜单,选择热门套餐 6. 点击"去结算" 7. 确认地址和支付方式 8. 提交订单

这个过程不是写死的脚本,而是根据当前屏幕状态动态生成的。如果某一步失败了(比如App崩溃、网络错误、界面改版),规划模块会重新分析并调整后续步骤。

阶段三:执行(Execution)

执行模块负责将规划好的操作步骤转化为实际的手机操作:点击、长按、滑动、输入文字、手势操作等。

AutoGLM通过Android的Accessibility Service或类似机制实现操作模拟。关键点在于:操作是语义驱动的,而不是坐标驱动的。即使App更新了界面布局,只要语义元素还在,AutoGLM就能找到正确的操作目标。

阶段四:反馈闭环(Feedback)

执行完操作后,AutoGLM会再次截图,分析操作是否成功:目标页面是否加载?按钮是否可点击?有没有弹出错误提示?

如果发现问题,它会回到规划阶段,重新决策。这种闭环机制让AutoGLM具备了一定的"容错能力"——这是传统RPA工具完全不具备的。

文章配图

四、AutoGLM vs RPA:理解语义 vs 录制脚本

要理解AutoGLM的革命性,必须把它和传统RPA(机器人流程自动化)工具做对比。

维度 传统RPA AutoGLM
操作逻辑 录制回放,固定坐标/元素ID 语义理解,动态适应界面变化
界面改版 脚本失效,需重新录制 自动适应,只要语义元素存在
异常处理 基本没有,出错即停止 有反馈闭环,可自主纠正
任务定义 像素级精确操作序列 高层意图+自主规划
适用场景 固定流程、稳定界面 开放场景、动态界面

RPA是"教机器人模仿你的每一个动作",AutoGLM是"告诉机器人你想达成什么目标,它自己想办法"。

这个区别至关重要。手机App的界面更新频率极高,用RPA思路做的自动化脚本,往往活不过一个版本更新。而AutoGLM的语义理解方式,让Agent具备了一定程度的"界面泛化能力"——这正是手机端AI智能体能够实用的前提。

五、应用场景:不止于订外卖

AutoGLM的能力远不止"帮你点外卖"这么简单。从开源社区的早期探索来看,以下几个方向最具潜力:

1. 老年人辅助:缩短数字鸿沟

老年人使用智能手机的痛点非常具体:字太小看不清、操作流程太复杂、不知道该点哪里。AutoGLM可以理解老年人的语音指令("我想看我孙子的照片"、"帮我交电费"),然后在手机上自主完成操作。

想象一个场景:老人对手机说"我想看今天的天气",AutoGLM自动打开天气App、定位到老人所在城市、把天气信息用大字体展示出来。整个过程不需要老人学习任何操作。

2. 残障人士辅助:让手机真正可用

对于视障或肢体障碍人士,智能手机的操作门槛极高。AutoGLM结合屏幕阅读器和语音交互,可以让这类用户通过自然语言完成复杂的手机操作,大幅提升数字生活的自主性。

3. 企业自动化:批量操作手机集群

企业需要批量管理大量手机设备(如电商刷单、社交媒体运营、App测试等场景)。传统方案需要大量人工或脆弱的脚本,而AutoGLM可以在理解界面语义的基础上,稳定地完成批量操作任务。

4. 个人效率:你的AI私人助理

在日常场景中,AutoGLM可以帮你: - 每天早上报天气、读新闻摘要 - 监控电商价格变化,降价时自动下单 - 定时检查并回复微信消息 - 自动填写各类表单(预约、报名、打卡等)

六、铠盒A1:让AutoGLM类Agent永不下线

AutoGLM解决的是"Agent如何操作手机"的问题,但还有一个关键问题没有解决:手机不能一直亮屏等着Agent工作

这正是铠盒A1智能体计算机的价值所在。

架构优势

A1可以7×24小时运行AutoGLM类Agent,而手机只需要"被操作"——不需要一直亮屏、不需要保持App在前台、不需要消耗手机算力和电量。

具体工作流程: 1. 用户在手机上通过语音或文字发出指令 2. 指令发送到A1上的AutoGLM Agent 3. A1通过ADB或云端控制接口操作手机(手机可以锁屏) 4. 任务执行结果推送到手机通知栏

智能体计算机替代手机成为AI的执行载体,手机回归它最擅长的事情——显示和交互。

为什么是A1?

  • 永不断电:A1插电运行,不受手机电量限制
  • 多任务并发:可以同时运行多个Agent,分别管理不同的手机或账号
  • 算力充足:A1的算力远强于手机,运行大模型推理更流畅
  • 稳定可靠:不需要担心手机来电、低电量、系统更新等干扰因素

这种架构下,AutoGLM从"手机上的一个实验性功能"升级为"随时待命的AI助理服务"。

七、写在最后

AutoGLM的开源,标志着手机AI智能体从"演示视频"走向"可部署的系统"。它不完美——视觉理解会出错,操作规划会卡壳,复杂场景下的成功率仍有提升空间。但方向是对的:让AI理解界面语义,而不是死记硬背操作坐标。

而当这类Agent与智能体计算机结合,一个更有想象力的图景浮现出来:每个人都可以拥有不止一个AI助理——一个帮你管理日程,一个帮你监控电商折扣,一个帮你筛选求职信息。它们7×24小时运行在A1上,在你需要的时候把结果推送到手机。

AI智能体的终极形态,不是手机里的一个App,而是一个随时待命、跨设备协同、持续进化的数字助理网络。

AutoGLM是这条路上的一个里程碑。而铠盒A1,正是让这个里程碑真正落地到日常使用的那块基石。


文/明传-文案专家 · AI智能体追踪

© KAIHE AI - Agent Computer Specialist