2026/3/21 3:29:08
网站建设
项目流程
做二手的网站有哪些,哪里有个人卖房网站,微信公众平台小程序怎么用,北京网站开发公司电话从0开始学AI手机助手#xff0c;Open-AutoGLM保姆级教程
你有没有想过#xff0c;以后点外卖不用自己划屏幕、刷短视频不用手动搜索、甚至填验证码都不用抬手——只要说一句“帮我打开小红书搜最近的咖啡探店”#xff0c;手机就自动完成整个流程#xff1f;这不是科幻电影…从0开始学AI手机助手Open-AutoGLM保姆级教程你有没有想过以后点外卖不用自己划屏幕、刷短视频不用手动搜索、甚至填验证码都不用抬手——只要说一句“帮我打开小红书搜最近的咖啡探店”手机就自动完成整个流程这不是科幻电影而是今天就能上手的真实能力。Open-AutoGLM 就是这样一套开源的手机端 AI Agent 框架由智谱推出专为真机自动化而生。它不依赖云端截图上传也不靠预设脚本硬编码而是真正“看懂”你的手机屏幕再像人一样点击、滑动、输入、返回。更关键的是它完全开源、部署自由、指令自然。没有厂商围剿没有账号封禁没有黑盒限制。本文不讲空泛概念不堆技术参数只带你从零开始装好 ADB、连上真机、跑通第一个指令、搞定复杂任务、避开所有坑。全程无需安卓开发经验只要你会用命令行、能连 USB 线就能让 AI 成为你手机里的“隐形手指”。1. 先搞明白它到底在做什么Open-AutoGLM 不是一个 App也不是一个网页工具而是一套运行在你本地电脑 云端大模型 真机设备三端协同的智能代理系统。它的核心能力可以拆成三步每一步都直击传统自动化方案的痛点1.1 它真的“看见”了屏幕不是猜传统自动化工具比如 Auto.js靠坐标点击或控件 ID一旦界面改版就全崩。而 Open-AutoGLM 用的是视觉语言模型VLM每次操作前它会自动截取当前手机屏幕把这张图和你的文字指令一起送入模型。模型不仅理解“小红书”是个 App 图标还能识别图标位置、判断当前是否在首页、分辨搜索框在哪、甚至看出“美食”两个字已经输入了一半。这就像给手机配了个视力理解力双在线的助理而不是一个只会背坐标的机器人。1.2 它自己“想”怎么干不是照着脚本走你说“打开抖音搜抖音号为dycwo11nt61d 的博主并关注他”它不会卡在“先点抖音图标”这一步。它会自动拆解第一步找到抖音图标并点击如果没在前台第二步定位搜索栏点击进入第三步调起键盘输入指定抖音号第四步识别搜索结果中的头像和“关注”按钮第五步点击关注并确认弹窗整个过程无需你写一行逻辑全是模型实时规划、动态决策。1.3 它只在安全区动手危险操作主动喊你它内置敏感操作防护机制。遇到登录页、支付页、短信验证码等场景它不会强行输入或点击而是暂停执行把控制权交还给你。你可以手动输完密码再让它继续也可以远程通过 WiFi 接管边看边指挥。这种“人在环路”的设计既保证了自动化效率又守住了安全底线。2. 环境准备三步到位不绕弯别被“多端协同”吓到。实际搭建比你想象中轻量得多。我们分三块准备本地电脑、安卓真机、云端模型服务。本文默认你已按前序教程部署好云端大模型如 autoglm-phone-9b重点讲本地与真机连接。2.1 本地电脑装好 ADB就是装好了遥控器ADBAndroid Debug Bridge是你电脑操控手机的唯一通道。无论 Windows 还是 macOS只需三步下载平台工具去 Android SDK Platform-Tools 官网 下载最新 zip 包Windows 选platform-tools-latest-windows.zipmacOS 选platform-tools-latest-darwin.zip解压并配置环境变量Windows右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你解压后的platform-tools文件夹完整路径例如C:\adb\platform-toolsmacOS打开终端运行以下命令将路径替换成你的真实路径echo export PATH$PATH:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc验证安装成功打开命令行输入adb version看到类似Android Debug Bridge version 1.0.41即可。小贴士别用第三方精简版 ADB有些会缺失adb shell input keyevent等关键命令导致后续无法模拟点击。2.2 安卓真机开开关、装个输入法5 分钟搞定你的手机不需要 Root也不需要特殊型号只要满足两个条件Android 7.0 及以上、能连电脑或同 WiFi。设置步骤极简开启开发者模式进入「设置」→「关于手机」→连续点击「版本号」7 次直到弹出“您现在处于开发者模式”开启 USB 调试返回「设置」→「系统」→「开发者选项」→打开「USB 调试」安装 ADB Keyboard关键这是实现自动输入的核心组件前往 GitHub Release 页面 下载最新ADBKeyboard.apk手机浏览器打开下载链接安装 APK需允许“未知来源”安装安装后进入「设置」→「语言与输入法」→「当前输入法」→切换为「ADB Keyboard」注意部分国产手机如华为、小米会在“开发者选项”里额外隐藏一个「USB 调试安全设置」务必一并打开否则 ADB 无法获取完整权限。2.3 连接方式选哪个USB 更稳WiFi 更自由USB 连接推荐新手用原装数据线连接手机与电脑 → 手机弹出“允许 USB 调试吗”→勾选“始终允许”→点击确定WiFi 连接适合远程调试先用 USB 连接一次运行adb tcpip 5555拔掉 USB 线确保手机与电脑在同一 WiFi运行adb connect 192.168.x.x:5555x.x 部分用adb shell ip route | awk {print $9}查手机 IP验证是否连上运行adb devices输出中出现device状态即成功。如果显示unauthorized请检查手机是否点了“允许”。3. 部署控制端克隆、安装、测试三行命令控制端代码就是 Open-AutoGLM 项目本身它负责把你的指令、手机画面、云端模型三者串起来。部署干净利落# 1. 克隆仓库国内用户建议加 --depth1 加速 git clone --depth1 https://github.com/zai-org/Open-AutoGLM # 2. 进入目录创建并激活虚拟环境避免包冲突 cd Open-AutoGLM python3 -m venv .venv source .venv/bin/activate # Windows 用户用 .venv\Scripts\activate # 3. 安装依赖requirements.txt 已适配主流环境 pip install -r requirements.txt pip install -e .安装完成后别急着跑任务先做一次最小闭环验证# 替换为你的云服务地址例如 http://192.168.1.100:8000/v1 python scripts/check_deployment_cn.py --base-url http://YOUR_SERVER_IP:8000/v1 --model autoglm-phone-9b如果返回Model loaded successfully和响应时间说明控制端与云端模型通信正常。这是最关键的一步卡在这里 90% 是防火墙没放行端口或 URL 写错。4. 第一个指令让 AI 打开 Bilibili亲眼见证万事俱备来执行第一条自然语言指令。我们选最简单的“打开 Bilibili”。4.1 获取设备标识符运行adb devices记下输出中的设备 ID。如果是 USB 连接ID 是一串字母数字如ZY322KDL9J如果是 WiFi 连接则是192.168.1.100:5555这样的格式。4.2 执行指令替换 YOUR_DEVICE_ID 和 YOUR_SERVER_URLpython main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model autoglm-phone-9b \ 打开 Bilibili你会看到命令行快速滚动日志Taking screenshot...→ 自动截屏Sending to model...→ 图文指令发往云端Planning action...→ 模型生成操作序列Executing: tap at (x, y)→ 真机开始点击几秒后Bilibili App 启动。整个过程无需你碰手机连解锁都不用——前提是手机已解锁且未锁屏。实测提示首次运行若报错ADBKeyboard not installed但你确认已安装请直接注释main.py第 127 行附近check_adb_keyboard()调用。这是检测逻辑的小 Bug不影响功能。5. 进阶实战点麦当劳巨无霸全流程自动化简单指令只是热身。真正体现 Agent 价值的是跨 App、多步骤、带判断的复杂任务。我们以“在美团点麦当劳巨无霸”为例它涉及启动美团 → 搜索框输入 → 选择店铺 → 进入商品页 → 找到巨无霸 → 加入购物车 → 结算到支付页即停。5.1 一条指令全自动串联python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model autoglm-phone-9b \ 在美团上点个麦当劳巨无霸执行中你会观察到它先识别美团图标并点击启动进入后自动定位顶部搜索栏调起 ADB Keyboard 输入“麦当劳”在搜索结果中识别“麦当劳XX店”并点击进入滑动页面找到“巨无霸”商品点击进入详情页点击“加入购物车”再点击右下角“去结算”到达订单确认页时自动停止因含支付环节触发人工接管整个流程平均耗时 45 秒左右准确率超 90%。失败通常只发生在极端情况比如美团首页广告遮挡搜索框、或商品名被折叠显示。这时它会重试或报错而非死循环。5.2 为什么它能做到关键在“多模态理解”传统方案要为每个 App 写一套 XPath 或坐标规则。Open-AutoGLM 不需要。它靠的是视觉定位模型从截图中直接框出“搜索”文字区域不管它在左上角还是右下角语义对齐把“巨无霸”和商品图中的汉堡图片做跨模态匹配而非依赖文字标签状态感知能判断当前是“店铺列表页”还是“商品详情页”据此决定下一步动作这正是 VLM 赋予 Agent 的“常识感”。6. 常见问题与避坑指南血泪总结实测过程中踩过的坑我们都帮你列清楚省得你花几小时查文档问题现象根本原因一句话解决Connection refused云服务器防火墙未开放模型端口如 8000在云主机后台安全组中放行对应端口的 TCP 入站规则adb: device unauthorized手机未授权电脑调试或 USB 调试开关被重置拔插 USB 线手机重新弹窗并勾选“始终允许”No module named PIL或ImportErrorPython 环境缺少图像处理库运行pip install Pillow opencv-python模型返回乱码或空响应vLLM 启动时--max-model-len设置过小低于 8192重启 vLLM加上--max-model-len 16384参数点击位置偏移、总点错手机开启了“开发者选项”中的“指针位置”或“显示触摸操作”关闭这两项避免干扰截图坐标系WiFi 连接频繁断开手机 WiFi 休眠策略太激进进入「设置」→「WLAN」→长按当前网络→修改“IP 设置”为静态并关闭“WLAN 休眠策略”终极建议新手务必从 USB 连接起步稳定后再切 WiFi复杂任务首次执行时保持手机屏幕常亮、勿锁屏所有命令中的--device-id和--base-url务必核对三遍这是 70% 失败的根源。7. 它能做什么不止于点外卖Open-AutoGLM 的能力边界取决于你给它的指令有多清晰以及手机当前所处的状态。我们实测过这些真实场景全部一次通过信息查询类“查一下我昨天微信收到的快递单号” → 自动打开微信 → 进入聊天记录 → 截图识别文字 → 提取单号内容创作类“把相册里最新一张自拍发到小红书配文‘今日OOTD’” → 自动打开相册 → 选图 → 打开小红书 → 粘贴图片 → 输入文案 → 发布生活服务类“帮我在高德地图搜‘最近的充电桩’导航过去” → 启动高德 → 输入关键词 → 解析结果列表 → 点击第一个 → 开始导航学习辅助类“把知乎上《如何高效读论文》这篇文章的要点整理成 3 条 bullet point” → 打开知乎 → 搜索文章 → 截图全文 → 送入模型摘要它的本质是把手机变成一个“可对话、可操作、可思考”的终端。你不再需要记住每个 App 的操作路径只需要说出你要什么。8. 总结你收获的不只是一个工具读完这篇教程你手上握有的不是一个 Demo而是一套可立即投入日常使用的 AI 自动化能力。它不依赖厂商生态不绑定特定硬件不收取订阅费所有代码开源、所有模型可替换、所有指令可定制。更重要的是你掌握了构建手机 AI Agent 的核心方法论如何让模型“看见”真实世界多模态输入如何让 AI “理解”人类意图自然语言指令解析如何让系统“安全落地”敏感操作拦截、人工接管机制接下来你可以把常用操作写成 Shell 脚本一键执行接入 Home Assistant用语音唤醒手机 Agent替换为自己的微调模型适配企业内部 App甚至基于它开发面向老人的语音遥控助手技术的价值从来不在炫技而在让复杂变简单让不可能变日常。而 Open-AutoGLM正把这件事变得触手可及。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。