2026/2/21 6:51:49
网站建设
项目流程
备案网站可以做影视站,安徽建筑培训网,提高网站速度,网站制作验收单从0开始玩转Open-AutoGLM#xff0c;AI自动点外卖实测成功
1. 这不是脚本#xff0c;是真正会“看”会“点”的手机AI助手
你有没有过这样的时刻#xff1a; 手指划到发酸#xff0c;还在美团里翻第37页的火锅店#xff1b; 验证码弹出来#xff0c;刚想截图发给朋友帮…从0开始玩转Open-AutoGLMAI自动点外卖实测成功1. 这不是脚本是真正会“看”会“点”的手机AI助手你有没有过这样的时刻手指划到发酸还在美团里翻第37页的火锅店验证码弹出来刚想截图发给朋友帮忙识别又怕隐私泄露想让AI帮你订一杯瑞幸结果Siri只听懂了“打电话给瑞幸”然后拨通了客服热线……这些不是幻想——今天实测的 Open-AutoGLM真能让AI像人一样“睁眼看屏幕、动手点手机”。它不是传统自动化工具比如Auto.js那种靠坐标硬编码的脚本也不是语音助手那种只能调系统功能的“半残AI”。它是智谱开源的Phone Agent 框架核心能力有三点看得懂用视觉语言模型VLM实时分析手机截图识别按钮、输入框、列表项、图标文字甚至能区分“搜索框”和“地址栏”想得清把你的自然语言指令比如“帮我点一份不加香菜的酸辣粉送到公司”拆解成多步操作逻辑打开APP → 找到店铺 → 选菜品 → 勾选项 → 填地址 → 确认下单动得准通过 ADB 发送真实点击、滑动、输入指令所有动作都发生在真实安卓设备上连键盘弹出、页面加载动画都完全同步。更关键的是——你不需要显卡不用部署大模型一台普通Windows电脑一部安卓手机就能跑起来。本文全程基于智谱 BigModel API 实现零GPU成本小白可复现。下面我们就从一根USB线开始手把手带你把AI变成你的“数字手指”。2. 准备工作三件套配齐5分钟搞定环境别被“AI Agent”吓住这套方案对硬件极其友好。我们只用三样东西一台运行 Windows 或 macOS 的电脑测试用的是 Windows 11 i5-1135G7一部 Android 7.0 及以上手机实测 vivo S20、小米13、Pixel 4a 均通过一个智谱 BigModel 账号新用户送 100 万 tokens够跑几十次完整外卖流程。2.1 安装并配置 ADB 工具ADBAndroid Debug Bridge是连接电脑与手机的“神经中枢”。它不复杂但必须一步到位。Windows 用户去 Android 官方平台工具页 下载platform-tools-latest-windows.zip解压到任意路径例如C:\adb按Win R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb打开新命令行窗口输入adb version看到类似Android Debug Bridge version 34.0.5即成功。macOS 用户在终端执行curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH$PATH:$(pwd)/platform-tools建议将export行加入~/.zshrc永久生效验证是否就绪用原装USB线连接手机与电脑 → 手机弹出“允许USB调试”勾选“始终允许” → 命令行输入adb devices若返回类似ZY223456789 device的一行说明设备已识别。2.2 手机端设置三步打开“AI之门”这三步缺一不可但每步只需30秒开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次直到弹出“您现在处于开发者模式”。启用USB调试设置 → 系统 → 开发者选项 → 打开“USB调试”开关部分机型需同时打开“USB调试安全设置”。安装 ADB Keyboard关键这是让AI能“打字”的核心组件。下载 ADBKeyboard.apk → 用命令行安装adb install -r ~/Downloads/ADBKeyboard.apk安装成功后进入手机“设置 → 语言与输入法 → 当前输入法”切换为ADB Keyboard。注意不换输入法AI无法在搜索框里输入“酸辣粉”——它会卡在等待键盘弹出的死循环里。2.3 获取智谱 API Key免费、简单、即开即用访问 智谱 BigModel 官网注册账号 → 登录 → 进入“API Key 管理” → “创建新密钥” → 复制保存格式如bb0c1a2b3c4d5e6f7g8h9i0j1k2l3m4n。这个 Key 就是你调用云端 autoglm-phone 模型的“钥匙”后续所有命令都会带上它。无需本地部署模型不占显存响应延迟约2–5秒取决于网络完全可接受。3. 部署与启动一行命令让AI接管你的手机一切准备就绪现在进入最轻量的部署环节——没有 Docker、没有 vLLM、没有 CUDA 编译纯 Python 依赖。3.1 克隆代码并安装依赖打开终端Windows 推荐使用 PowerShell 或 Git Bash执行git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .提示建议用conda create -n autoglm python3.10创建独立虚拟环境避免包冲突。3.2 一行命令启动交互式AI助理不再需要记设备ID、填端口、配URL——用智谱 API 时命令极度简化python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ 打开美团搜索南京夫子庙附近的酸辣粉选‘老盛昌’门店点一份不加香菜的酸辣粉送到南京市秦淮区中山南路88号备注少辣成功运行后你会看到手机屏幕自动亮起、解锁若已设锁屏密码需手动输一次AI 截取当前屏幕 → 上传至智谱模型 → 分析界面元素 → 规划操作步骤屏幕上出现真实点击、滑动、输入动作就像有人在远程操控最终在美团订单确认页停住并输出结构化结果。小技巧首次运行建议先试简单指令如打开微信或返回桌面验证基础链路是否通畅。3.3 进入交互模式像聊天一样下指令不想每次改命令行启动交互式会话更自然python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here回车后出现提示Enter your task:此时直接输入中文指令即可例如帮我查一下今天北京到上海的高铁余票在小红书搜“露营装备推荐”保存前三篇笔记的封面图打开抖音关注抖音号 dycwo11nt61dAI 会逐条执行每步操作前还会在控制台打印决策日志例如[INFO] Detected 搜索 button at (520, 120) [INFO] Planning action: TAP at (520, 120) [INFO] Sending ADB tap command... [INFO] Screen updated. Detecting new elements...这种透明性让你清楚知道AI“为什么点这里”而不是黑箱盲操作。4. 实测记录从下单到收货通知全流程跑通我们以“点一份酸辣粉”为任务全程未人工干预记录关键节点如下步骤AI行为耗时备注1截图识别桌面 → 找到美团图标 → 点击启动3.2s自动处理了图标遮挡、文件夹分页2进入美团首页 → 识别顶部搜索框 → 点击激活2.8s准确区分“搜索”文字按钮与右侧语音图标3输入“南京夫子庙附近的酸辣粉” → 点击搜索4.1sADB Keyboard 输入流畅无错字4解析搜索结果页 → 定位“老盛昌”店铺卡片 → 点击进入3.5s成功过滤广告位选择自然排序第2名5进入店铺页 → 滑动到菜单 → 找到“酸辣粉” → 点击“”5.0s识别出“不加香菜”为可选规格自动勾选6填写地址“南京市秦淮区中山南路88号” → 选择“立即购买”4.3s地址自动补全跳过手动选择小区步骤7订单确认页 → 输出最终摘要2.7s同时返回文本结果与截图时间戳最终控制台输出Result: 已为您成功下单订单号 #MEIT20240521173822预计35分钟送达。 商品老盛昌·酸辣粉不加香菜少辣 地址南京市秦淮区中山南路88号 支付方式支付宝已绑定 备注少辣不加香菜手机端同步收到美团推送“您的订单已由商家接单”。整个过程耗时约 28 秒不含APP冷启动时间操作准确率 100%未出现误点、漏步、死循环。5. 能力边界与实用建议什么能做什么还需人工兜底Open-AutoGLM 不是魔法它有清晰的能力边界。实测后总结出以下规律帮你避开坑、提效率5.1 它擅长的三类高频场景信息检索类在高德地图查从南京南站到总统府怎么坐地铁→ AI自动打开高德 → 输入起点终点 → 截图解析路线图 → 提取换乘站与步行距离。内容消费类在B站搜‘大模型入门’播放播放量最高的前两个视频暂停在1分20秒→ 精准定位搜索框、筛选排序按钮、播放控件、进度条拖动点。轻量事务类在京东APP里把购物车里价格低于50元的商品全部删除→ 识别价格标签、复选框、批量操作按钮逻辑判断稳定。5.2 当前需人工介入的典型情况强验证场景银行APP登录、支付密码输入、人脸识别弹窗——系统内置了“敏感操作确认机制”遇到此类界面会主动暂停等待你手动授权。模糊指令歧义帮我订个吃的→ AI会回复“请明确APP名称如美团、饿了么和具体品类如火锅、奶茶”。它拒绝猜测保障操作确定性。长周期异步任务等外卖送到后告诉我→ 目前不支持监听通知栏。但你可以组合使用先下单 → 再发指令检查最新一条美团通知AI会截图通知栏并识别文字。5.3 提升成功率的4个实战技巧指令越具体成功率越高❌点个外卖→打开饿了么搜索‘南京大牌档’点一份盐水鸭送到公司前台优先使用头部APP美团、微信、淘宝、抖音、小红书等界面结构稳定AI识别准确率超95%小众APP或新版UI可能需微调提示词。保持屏幕常亮与网络畅通在手机“开发者选项”中开启“不锁定屏幕”和“USB调试安全设置”WiFi连接比USB更稳定尤其多任务时。善用截图回溯每次运行后项目自动生成screenshots/文件夹按时间戳保存所有中间截图。遇到失败直接看哪张图没识别准针对性优化指令。6. 进阶玩法不只是点外卖还能这样玩Open-AutoGLM 的潜力远不止于“代点单”。基于其多模态理解自动化执行双能力我们已验证多个延伸方向6.1 批量任务处理器写一个简单Python脚本循环执行指令列表from phone_agent.cli import run_task tasks [ 打开微博关注智谱AI, 在知乎搜‘AutoGLM原理’收藏前两篇回答, 在闲鱼发布闲置MacBook Pro 2019售价5800包邮 ] for task in tasks: print(fExecuting: {task}) run_task( base_urlhttps://open.bigmodel.cn/api/paas/v4, modelautoglm-phone, apikeyyour_key, tasktask, device_idZY223456789 )适合运营人员批量维护社交账号、学生党整理学习资料、电商卖家一键上架商品。6.2 无障碍辅助新方案为视障用户定制语音AI联动用手机语音输入我想知道微信未读消息里张三发了什么后端转成文本指令交给 Open-AutoGLMAI打开微信 → 截图未读对话 → 识别张三消息内容 → 合成语音播报。实测响应延迟 8 秒准确率优于现有OCR方案。6.3 低代码测试机器人替代部分App UI自动化测试输入登录账号 test123密码 abc456进入个人中心截图头像区域AI自动完成登录流程 → 导航 → 截图 → 返回坐标与尺寸数据开发者可基于此构建回归测试报告无需写一行 Appium 脚本。这些不是设想而是我们已在实验室跑通的最小可行案例。框架开放、模块解耦二次开发门槛极低。7. 总结一个正在长出手脚的大模型回到最初的问题AI到底能不能替我们“用手机”Open-AutoGLM 给出了肯定答案——而且是以一种克制、可靠、可解释的方式。它不追求“全自动无人值守”而是设计成“人在环路中”的智能协作者你看得见每一步操作截图日志你随时能打断或接管敏感操作强制确认你用自然语言指挥而非学习新语法没有YAML、没有JSON Schema。这次实测也印证了技术演进的一个趋势大模型的价值正从“会说”走向“会做”AI的落地场景正从“生成内容”走向“操作世界”。而 Open-AutoGLM正是这条路上最早一批能稳稳迈出脚步的实践者。如果你也想亲手试试让AI替你点单、查票、追番、管账号——现在就差一根USB线的距离。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。