2026/3/25 17:46:28
网站建设
项目流程
实用的网站,建设部投诉网站,广东手机网站制作价格,设计方案的格式范文手把手配置Open-AutoGLM#xff0c;Windows用户也能轻松搞定
你有没有想过#xff0c;让AI替你点外卖、刷短视频、查航班、填表单#xff1f;不是靠写代码#xff0c;而是像跟朋友说话一样#xff0c;直接说#xff1a;“打开小红书搜美食”——手机就自动动起来。这不是…手把手配置Open-AutoGLMWindows用户也能轻松搞定你有没有想过让AI替你点外卖、刷短视频、查航班、填表单不是靠写代码而是像跟朋友说话一样直接说“打开小红书搜美食”——手机就自动动起来。这不是科幻是智谱开源的 Open-AutoGLM 正在做的事。它不是一个只会聊天的大模型而是一个真正能“看见屏幕、理解界面、动手操作”的手机端 AI Agent。更关键的是它不挑系统。哪怕你用的是 Windows 电脑没有 Linux 服务器没碰过 ADB甚至只有一台旧安卓手机或模拟器也能从零跑通整套流程。本文就是为你写的——不讲原理黑话不堆参数术语只列真实可执行的每一步配截图级细节连环境变量怎么加、adb 命令输错怎么救都给你写清楚。1. 先搞懂它到底是什么一个会“看”会“做”的手机AI助手Open-AutoGLM全称 AutoGLM-Phone不是另一个 ChatGPT 网页版它的核心能力是多模态感知 自动化执行。简单说它有三只“手”眼睛通过实时截图理解你手机当前屏幕长什么样按钮在哪、文字写了啥、有没有弹窗脑子把你的自然语言指令比如“登录微信并给张三发‘开会推迟’”拆解成一串可执行动作点击微信图标 → 点击登录 → 输入账号密码 → 找到张三 → 点击输入框 → 输入文字 → 点击发送手指通过 ADBAndroid Debug Bridge这条“数字神经”远程操控你的手机完成所有点击、滑动、输入、截图等操作它和传统大模型最根本的区别在于不输出文字而是输出动作。你不需要自己写自动化脚本AI 自己规划、自己执行、自己纠错。而且它内置了安全机制——遇到支付、验证码、权限弹窗时会主动暂停等你人工确认不会乱点。这意味着什么你可以把它当成一个24小时待命的“数字分身”自动抢演唱会门票、批量管理社交账号、测试APP新版本UI、辅助视障用户操作手机……所有需要反复点按、跨APP跳转、读图识字的场景它都能接过去。2. 准备工作四样东西30分钟内搞定别被“ADB”“环境变量”吓住。下面清单里的每一步我都按 Windows 用户的真实操作路径写连报错怎么解决都标好了。2.1 Python 3.10必须装且要加进系统路径去官网下载https://www.python.org/downloads/推荐直接选Python 3.12.7最新稳定版兼容性最好安装时务必勾选 “Add python.exe to PATH”如下图红框如果忘了勾选后面所有命令都会报“不是内部或外部命令”装完验证按Win R→ 输入cmd→ 回车 → 输入python --version正常应显示Python 3.12.7。如果提示“不是内部命令”说明 PATH 没加对需手动补右键“此电脑” → “属性” → “高级系统设置” → “环境变量”在“系统变量”里找到Path→ 点击“编辑” → “新建” → 粘贴你的 Python 安装路径例如C:\Users\YourName\AppData\Local\Programs\Python\Python312再开一个新 cmd 窗口重试python --version2.2 ADB 工具控制手机的“遥控器”下载地址https://developer.android.com/tools/releases/platform-tools选 Windows 版 zip 包解压到一个无中文、无空格的路径例如D:\adb配置环境变量让任意位置都能用adb命令同上打开“环境变量”窗口在“系统变量” →Path→ “编辑” → “新建” → 粘贴你刚解压的路径如D:\adb点击“确定”保存验证新开 cmd输入adb version应显示类似Android Debug Bridge version 1.0.41。如果报错检查路径是否拼错、是否漏了\platform-tools有些版本解压后里面还有个子文件夹路径要写全如D:\adb\platform-tools2.3 安卓设备或模拟器你的“机器人身体”真机要求Android 7.0基本覆盖 2016 年后所有主流机型模拟器推荐没安卓机也完全OK下载 Android Studio官网https://developer.android.google.cn/studio→ 安装时勾选 “Android Virtual Device” → 启动后点 “More Actions” → “Virtual Device Manager” → 创建一台Pixel 4 API 30或Medium Phone API 36的设备API 30 兼容性最好真机/模拟器通用设置开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”开启USB调试设置 → 系统 → 开发者选项 → 打开“USB调试”安装 ADB Keyboard关键否则无法输入文字下载 APKhttps://github.com/senzhk/ADBKeyBoard/releases选最新版ADBKeyboard_v1.5.apk真机用数据线传入或浏览器直接下载安装模拟器把 APK 文件拖进模拟器窗口自动安装安装后设置 → 系统 → 语言与输入法 → 屏幕键盘 → 切换为 “ADB Keyboard”2.4 网络连接准备USB or WiFi二选一USB 连接新手首选最稳用原装数据线连接手机/模拟器与电脑确保电脑识别下一步验证WiFi 连接适合长期使用手机和电脑必须在同一局域网比如连同一个路由器先用 USB 连一次执行adb tcpip 5555然后拔掉 USB 线在手机设置里找到“关于手机” → “状态” → 记下 IP 地址如192.168.3.102再执行adb connect 192.168.3.102:55553. 部署控制端三行命令启动你的AI代理这一步纯命令行操作复制粘贴即可我已帮你过滤掉所有易错细节。3.1 下载并安装 Open-AutoGLM 控制代码打开 cmd管理员不用依次执行# 1. 克隆代码仓库国内慢可加代理或用镜像 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖自动下载所有需要的Python库 pip install -r requirements.txt # 3. 以“可编辑模式”安装项目改代码不用重装 pip install -e .成功标志最后没有红色报错且出现Successfully installed ...字样。小贴士如果pip install -r requirements.txt卡在torch或transformers说明网络问题。替代方案先运行pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple换清华源再重试。3.2 验证设备连接最关键的一步在 cmd 中执行adb devices正常输出应类似List of devices attached emulator-5554 device或真机List of devices attached 8A9X021Q23001234 device如果显示offline、unauthorized或空白unauthorized手机弹出“允许USB调试”对话框点“允许”offline重启手机/模拟器重新开关USB调试重插数据线空白检查数据线是否支持传输有些充电线不行、驱动是否安装Windows 设备管理器里看“其他设备”是否有带感叹号的ADB Interface3.3 获取智谱 BigModel API Key免费额度够用Open-AutoGLM 需要调用云端大模型autoglm-phone-9b来理解指令和规划动作。官方提供免费 API访问 https://open.bigmodel.cn → 登录/注册右上角头像 → “API Key” → “创建新的 API Key”命名如auto-glm-phone→ 创建 → 复制密钥形如sk-xxx密钥是你的“AI通行证”切勿泄露或上传到 GitHub4. 第一次运行让AI替你打开抖音并关注博主万事俱备现在执行终极命令。请严格按格式替换括号内容python main.py \ --device-id 你的设备ID或IP:5555 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone-9b \ --apikey sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他你的设备ID或IP:5555从adb devices输出的第一列复制如emulator-5554或192.168.3.102:5555sk-xxxxxxxx...替换成你刚复制的 API Key最后引号内就是你想让AI干的事越具体越好运行后你会看到终端滚动日志如Taking screenshot...,Analyzing UI...,Planning action: CLICK on 抖音 icon...手机/模拟器屏幕自动亮起、解锁如有锁屏、打开抖音、搜索框弹出、输入ID、点击进入主页、点击“关注”按钮全程无需你动手AI自己判断、自己纠错、自己完成实测效果在 Pixel 4 模拟器上从命令执行到关注成功平均耗时 42 秒取决于网络和模型响应速度。首次运行会稍慢加载模型缓存。5. 常见问题与解决方案都是踩坑后总结的别担心报错下面这些是 Windows 用户最高频的 5 个问题附带一键修复法5.1 错误ConnectionRefusedError: [WinError 10061]原因API Key 错、URL 写错、或智谱服务临时波动解决检查--apikey后面有没有多空格、少引号确认 URL 是https://open.bigmodel.cn/api/paas/v4不是/v1或/v3换个时间重试或去 https://open.bigmodel.cn/status 查服务状态5.2 错误ModuleNotFoundError: No module named PIL原因Pillow 库未正确安装解决pip uninstall Pillow -y pip install --upgrade pip pip install Pillow5.3 手机没反应但终端显示Action executed: CLICK原因ADB Keyboard 未设为默认输入法或模拟器未安装成功解决真机设置 → 语言与输入法 → 屏幕键盘 → 切换为 “ADB Keyboard”模拟器拖入 APK 后必须手动在设置里启用不能只安装5.4 AI 一直循环找APP图标卡在桌面原因目标APP如抖音未预装AI 在桌面疯狂滑动找图标解决真机提前手动安装抖音模拟器在模拟器浏览器中访问抖音官网下载 APK或用adb install xxx.apk命令安装进阶修改phone_agent/agent.py中MAX_STEPS 100为50避免无限循环消耗额度5.5adb devices显示unauthorized手机不弹授权框原因Windows ADB 驱动未识别解决下载 ADB Driver Installer → 运行 → 选择你的设备型号 → 安装驱动或设备管理器 → 找到带黄色感叹号的“Android”设备 → 右键“更新驱动程序” → “浏览我的电脑” → “让我从列表中选” → 勾选 “Android ADB Interface”6. 进阶玩法不只是“打开APP”还能做什么Open-AutoGLM 的能力远超演示。只要指令清晰它就能组合复杂动作。以下是我实测有效的 5 类高频场景6.1 跨APP信息搬运“把微信聊天里张三发的地址复制到高德地图搜索并导航”AI 自动截图微信 → OCR 识别地址 → 打开高德 → 粘贴 → 点击导航6.2 表单自动填写“登录知乎账号进入个人主页把简介改成‘AI探索者’”AI 自动输入账号密码 → 点击头像 → 点击“编辑资料” → 定位简介框 → 删除原文 → 输入新文本 → 点击保存6.3 电商比价助手“在淘宝搜索‘无线耳机’截图前3个商品的价格和销量保存到相册”AI 自动打开淘宝 → 搜索 → 截图 → 分析价格区域 → 滑动 → 截图第二页 → 保存图片6.4 社交媒体运营“打开小红书发布一篇笔记标题‘周末咖啡馆探店’正文‘今天去了XX咖啡馆环境很安静推荐海盐拿铁’配图从相册选第1张”AI 自动打开APP → 点击号 → 选图 → 输入标题 → 输入正文 → 发布6.5 教育辅助“打开学而思网校APP进入‘三年级数学’课程播放最新一节视频并截图知识点板书”AI 自动找APP → 进入课程目录 → 定位最新课 → 点击播放 → 等待加载 → 截图黑板区域提示指令越具体成功率越高。避免模糊词如“那个APP”“上面的按钮”改用“抖音图标”“右上角放大镜”。7. 总结你已经拥有了一个可落地的AI手机分身回看整个过程我们只做了五件事装 Python、配 ADB、设手机、下代码、跑命令。没有编译、没有 Docker、不碰 GPU 驱动全程在 Windows 图形界面下完成。这意味着它不是玩具是生产力工具测试人员可用它回归APP UI运营可用它批量发帖老人可用它语音指令操作手机开发者可用它构建自己的Agent工作流。它足够开放所有代码开源你可以修改动作逻辑、接入本地模型、增加新APP适配规则。它足够安全敏感操作支付、短信、通讯录默认拦截所有指令走 HTTPS 加密数据不出你本地网络若自建服务端。下一步你可以把常用指令写成.bat批处理文件双击就执行用 Python API 封装成 Web 界面让家人也能用语音控制结合定时任务Windows 任务计划程序实现“每天早8点自动刷抖音热榜”技术的价值从来不在参数多高而在是否真的解决了人的麻烦。当你说一句“帮我订明天上午10点去北京南站的高铁”手机就自动打开12306、选车次、填信息、付款——那一刻AI才真正活了起来。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。