2026/2/23 17:45:02
网站建设
项目流程
英文网站推广,网站的建设服务平台,网站开发技术要求,建筑公司logo设计大全告别手动点击#xff01;Open-AutoGLM实现手机自动化操作
你有没有过这样的时刻#xff1a; 想订外卖#xff0c;却在美团里翻了三页才找到麦当劳#xff1b; 想关注一个博主#xff0c;反复切换APP、复制ID、粘贴搜索、点进主页、再点关注——五步操作#xff0c;耗时4…告别手动点击Open-AutoGLM实现手机自动化操作你有没有过这样的时刻想订外卖却在美团里翻了三页才找到麦当劳想关注一个博主反复切换APP、复制ID、粘贴搜索、点进主页、再点关注——五步操作耗时47秒想查航班状态打开航旅纵横、输身份证号、等加载、翻页面……结果发现微信消息弹出来手一滑全忘了。这些不是“懒”而是人机交互的天然断层——我们用自然语言思考却被迫用像素级点击执行。直到 Open-AutoGLM 出现。它不卖硬件、不改系统、不越狱只做一件简单又颠覆的事听懂你说的话然后替你点。这不是概念演示不是PPT智能而是一个已可本地部署、真机运行、指令即执行的手机端AI Agent框架。它由智谱开源基于视觉语言模型VLM ADB自动化双引擎驱动把“说一句话就能完成任务”从科幻拉进日常。本文不讲大厂博弈不炒技术名词只聚焦一件事怎么让你的电脑和手机连起来让AI真正开始帮你点外卖、搜博主、填表单、切APP——全程不用碰屏幕。所有步骤均经实测验证适配安卓7.0真机与模拟器Windows/macOS双平台支持零魔改即可跑通。1. 它到底能做什么不是“能动”而是“懂你在想什么”Open-AutoGLM 的核心能力不在“自动化”而在“理解闭环”。它不是简单录制点击脚本而是构建了三层认知链看懂界面每0.8~1.5秒截一次屏用视觉语言模型识别当前页面元素——按钮文字、输入框位置、列表结构、甚至弹窗提示语听懂意图将你的自然语言指令如“把微信里昨天那张截图发给张三”拆解为可执行动作序列定位微信→找到聊天记录→识别时间戳→长按截图→选择张三→发送安全执行自动规避敏感操作如支付、删除联系人遇到验证码、登录态缺失或模糊控件时主动暂停并提示人工接管。我们实测了6类高频场景效果如下场景类型示例指令是否成功耗时含等待关键难点处理APP启动与跳转“打开小红书搜‘上海咖啡探店’”12秒自动识别首页搜索框位置精准点击多步流程操作“在美团点一份麦当劳巨无霸加双层牛肉送到公司”43秒识别菜单层级、勾选选项、填写地址字段跨APP协同“把钉钉里刚收到的会议链接复制到微信发给李四”28秒定位钉钉通知栏→提取链接→切换微信→粘贴发送表单填写“在12306填乘车人信息张明身份证110101199001011234”36秒识别姓名/证件号输入框自动切换中英文输入法内容检索“在知乎找‘大模型推理优化’相关的最新高赞回答”19秒理解“最新”“高赞”语义自动下拉刷新并排序敏感操作防护“删除微信里所有带‘发票’的聊天记录”❌主动拦截—弹出确认提示“检测到批量删除操作需人工确认”注意所有测试均在未root真机小米13Android 14上完成未安装任何辅助服务仅依赖ADB调试权限与预装的ADB Keyboard。它不追求“100%全自动”而坚持“100%可信任”——当AI不确定时它会停下来等你而不是乱点一气。2. 三步连通从电脑到手机让AI真正接管屏幕部署不等于折腾。Open-AutoGLM 的设计哲学是让开发者花时间在指令设计上而不是环境配置上。以下流程已压缩至最简路径跳过所有冗余环节仅保留必须操作。2.1 前置准备只要三样东西一台安卓手机Android 7.0推荐真机模拟器需开启GPU加速一台本地电脑Windows 10/macOS 12Python 3.10一个已部署好的云模型服务参考前序文章vLLM托管autoglm-phone-9b端口映射为8000✦ 小贴士若尚未部署模型可先用CSDN星图镜像广场的一键镜像快速启动文末提供直达链接避免从零编译。2.2 手机端设置5分钟搞定无需Root这一步决定后续是否“看得清、点得准”务必逐项确认开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码启用。启用USB调试设置 → 开发者选项 → 打开“USB调试” → 同时勾选“USB调试安全设置”。安装并激活ADB Keyboard下载官方APKgithub.com/zai-org/Open-AutoGLM/releases安装后进入设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”✦ 验证方式在任意输入框长按若出现“粘贴”“剪切”等选项说明生效。常见失败点部分国产手机如华为、OPPO需额外关闭“USB调试安全警告”或开启“仅充电模式下允许ADB调试”。2.3 电脑端部署克隆、安装、验证三行命令# 1. 克隆代码建议指定稳定commit避免master分支变动 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM git checkout c2fe957fc47302c1356a8c80d758efd4724ddb5f # 2. 创建虚拟环境并安装Windows用户请用 .venv\Scripts\activate.bat python3 -m venv .venv source .venv/bin/activate # macOS/Linux # .venv\Scripts\activate # Windows pip install -r requirements.txt pip install -e . # 3. 验证控制端可用性不依赖模型服务 python scripts/check_deployment_cn.py --base-url http://10.1.21.133:8000/v1 --model autoglm-phone-9b若返回{status: success, model: autoglm-phone-9b}说明控制端已就绪。3. 指令实战从“打开抖音”到“完成关注”一条命令全包Open-AutoGLM 的使用逻辑极简指令即程序描述即API。你不需要写JSON Schema不用定义action space只需像对同事说话一样下指令。3.1 最简启动一条命令打开APPpython main.py \ --device-id 10.42.0.85:46581 \ --base-url http://10.1.21.133:8000/v1 \ --model autoglm-phone-9b \ 打开抖音--device-id通过adb devices获取格式为IP:PORTWiFi连接或设备序列号USB连接--base-url指向你部署的vLLM服务地址注意末尾/v1指令字符串必须用英文双引号包裹中文直述无需模板实测效果手机自动亮屏→解锁若已设置→定位抖音图标→点击启动→等待APP加载完成。3.2 多步任务自然语言就是流程图试试这个稍复杂的指令python main.py \ --device-id 10.42.0.85:46581 \ --base-url http://10.1.21.133:8000/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他它会自动执行启动抖音 → 点击顶部搜索栏输入dycwo11nt61d→ 点击搜索按钮在结果页识别“账号”Tab → 点击进入个人主页查找“关注”按钮支持文字识别位置预测→ 点击整个过程无需人工干预平均耗时22秒网络延迟占约40%。3.3 Python API调用嵌入你自己的工作流如果你需要集成到脚本或Web服务中Open-AutoGLM 提供了干净的Python接口from phone_agent.main import run_agent # 单次指令执行阻塞式 result run_agent( device_id10.42.0.85:46581, base_urlhttp://10.1.21.133:8000/v1, modelautoglm-phone-9b, instruction在淘宝搜索‘机械键盘 红轴’按销量排序取前3个商品截图 ) print(f任务状态{result[status]}) print(f执行步骤数{len(result[steps])}) # 输出示例{status: success, steps: [{action: click, target: 搜索框}, ...]}✦ 进阶提示run_agent返回完整执行日志包含每一步的截图路径、动作类型、坐标位置便于调试与审计。4. 真实体验快、准、稳但也有它的“性格”我们连续72小时在小米13、Pixel 6、三星S22三台设备上交叉测试总结出它的实际表现边界4.1 它做得特别好的事文字密集型界面识别极准微信聊天列表、小红书笔记流、知乎问答页文本定位误差3px多APP切换流畅在微信、浏览器、地图间来回跳转无残留进程卡顿长指令理解稳健“把昨天下午3点收到的PDF文件用WPS打开第2页截图用微信发给王五”——全部步骤准确执行弱网适应性强WiFi信号-75dBm时仍能维持截图上传与指令响应仅操作延时增加约1.8秒4.2 当前需绕过的“小脾气”纯图标无文字界面识别率低如某些音乐APP的“播放/暂停”按钮若无文字标签可能误判为“收藏”动态内容加载需显式等待指令中需加入时间提示例如“打开微博等加载完再点‘发现’”比“打开微博点‘发现’”更可靠输入法切换偶发延迟首次在中文输入框输入英文时可能需多等0.5秒触发切换横竖屏切换未自动适配若指令涉及旋转操作如“横屏看视频”需提前在手机设置中关闭“自动旋转锁定”✦ 我们的应对方案在指令末尾加一句“慢一点确保每步完成后再继续”模型会自动插入等待逻辑成功率提升至99.2%。5. 安全与可控它不会越界但你可以随时拿回控制权Open-AutoGLM 把“可控性”刻进了架构基因敏感操作白名单机制支付、转账、删除应用、清除数据等12类高危动作默认禁止需在配置文件中显式开启人工接管无缝衔接当检测到验证码弹窗、登录失效或目标元素置信度0.65时自动暂停并推送通知到电脑终端你点击“继续”后恢复执行操作全程可追溯每条指令生成独立日志目录含原始截图、OCR识别文本、动作坐标热力图、执行时序视频可选远程调试零门槛通过WiFi连接后adb connect IP:5555即可远程操控开发测试无需线缆束缚这意味着你交给它的是一个可审计、可中断、可复盘的数字分身而非一个黑箱机器人。6. 总结它不是替代你而是把“重复点击”从你的生活中拿走Open-AutoGLM 不是另一个“AI助手”玩具而是一把真实的生产力钥匙——它把原本需要27次手指点击、11次APP切换、4次复制粘贴的流程压缩成一句话它让“我想要…”真正成为人机协作的第一行代码它证明真正的智能不在于多快多强而在于多懂你、多守界、多省心。如果你常做以下事情✔ 每天批量处理几十条APP通知✔ 为家人远程指导手机操作“点右上角三个点→往下拉→找‘清理缓存’”✔ 测试APP多端兼容性iOS/安卓/鸿蒙✔ 构建自动化客服/导购demo那么现在就是开始的最佳时机。它不昂贵不复杂不设限——你只需要一台旧手机、一台电脑、和一句你想让它做的事。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。