2026/3/29 9:59:35
网站建设
项目流程
网站中国风模板,网站的第二域名怎么用,唯爱wordpress主题,海南第四建设工程有限公司网站AutoGLM-Phone验证码场景处理#xff1a;人工接管流程实战演示
1. Open-AutoGLM#xff1a;智谱开源的手机端AI Agent框架
你有没有想过#xff0c;有一天只要说一句话#xff0c;手机就能自动帮你完成一连串操作#xff1f;比如#xff1a;“打开小红书搜美食”、“查…AutoGLM-Phone验证码场景处理人工接管流程实战演示1. Open-AutoGLM智谱开源的手机端AI Agent框架你有没有想过有一天只要说一句话手机就能自动帮你完成一连串操作比如“打开小红书搜美食”、“查一下明天北京的天气”、“给上周聊天的那个朋友发条消息”。听起来像科幻片其实它已经来了。Open-AutoGLM 是由智谱推出的开源项目基于 AutoGLM-Phone 构建的手机端 AI Agent 框架。它不是简单的语音助手而是一个真正能“看懂屏幕、理解意图、动手操作”的智能体。通过结合视觉语言模型VLM和 ADB 自动化控制它实现了从“感知”到“决策”再到“执行”的完整闭环。这个系统最厉害的地方在于它不需要修改手机系统也不依赖特定应用接口而是像人一样“看屏幕、点按钮”来完成任务。无论是打开 App、滑动页面还是输入文字、点击确认它都能自主完成。更关键的是当遇到敏感操作或验证码这类 AI 不该越权的场景时系统支持“人工接管”确保安全与可控。本文将带你深入实战重点演示在登录和验证码场景下如何实现人工接管并完整走通一次从指令下发到任务结束的全流程。2. AutoGLM-Phone 核心机制解析2.1 多模态理解 自动化执行 真正的手机助理AutoGLM-Phone 的工作流程可以拆解为四个核心环节屏幕感知通过 ADB 截图获取当前手机界面送入视觉语言模型进行分析。意图理解用户用自然语言下达指令模型将其与屏幕内容结合理解当前上下文。动作规划基于理解结果生成下一步操作序列如点击坐标、输入文本、滑动等。执行反馈通过 ADB 发送操作指令观察执行结果循环迭代直到任务完成。整个过程是动态推理的不是预设脚本。也就是说哪怕你中途切换了页面、弹出了新窗口它也能重新“看一眼”调整策略继续执行。2.2 安全设计敏感操作不越界人工接管保底线虽然自动化很强大但涉及隐私和安全的操作必须谨慎。例如输入银行卡密码接收短信验证码点击“同意并继续”类授权按钮这些场景AutoGLM-Phone 默认不会自动处理。相反它会主动暂停流程提示用户介入。这种机制叫做“人工接管Human-in-the-loop”。系统会在检测到以下情况时触发接管出现包含“验证码”、“短信”、“身份验证”等关键词的弹窗需要输入非明文可预测的内容如动态码检测到金融类 App 或高风险操作界面一旦触发AI 会停止执行并通过日志或通知告知用户“需要你输入验证码请完成后按回车继续。” 这样既保证了效率又守住了安全边界。3. 本地环境搭建与设备连接要让 AutoGLM-Phone 跑起来我们需要三部分协同工作云端模型服务已部署 vLLM AutoGLM 模型本地控制端运行 Open-AutoGLM 代码安卓设备被控手机本节聚焦本地控制端与真机的连接配置。3.1 硬件与环境准备项目要求操作系统Windows / macOSPython 版本建议 3.10安卓设备Android 7.0 及以上工具依赖ADBAndroid Debug BridgeADB 安装与配置ADB 是连接电脑与安卓设备的核心工具。以下是不同系统的配置方式Windows 用户下载 Android SDK Platform Tools解压后记下路径例如C:\platform-tools打开“系统属性” → “环境变量” → 在“系统变量”中找到Path→ 编辑 → 新增一行填入 ADB 路径打开命令行输入adb version若显示版本号则成功macOS 用户在终端执行以下命令假设解压目录为~/Downloads/platform-toolsexport PATH${PATH}:~/Downloads/platform-tools你可以将这行加入.zshrc或.bash_profile实现永久生效。验证安装adb version # 应输出类似Android Debug Bridge version 1.0.413.2 手机端设置为了让电脑能控制手机需开启开发者权限并安装专用输入法。步骤如下开启开发者模式进入“设置” → “关于手机” → 连续点击“版本号”7次直到提示“您已进入开发者模式”。开启 USB 调试返回设置主菜单 → “开发者选项” → 启用“USB 调试”。安装 ADB Keyboard关键下载 ADB Keyboard APK 并安装。安装后进入“语言与输入法”设置 → 将默认输入法切换为ADB Keyboard。为什么需要 ADB Keyboard因为 ADB 本身无法直接输入中文或复杂字符。ADB Keyboard 提供了一个虚拟输入法通道使得我们可以通过命令发送任意文本实现真正的“自动打字”。测试输入功能adb shell input text Hello_AutoGLM如果手机输入框出现Hello_AutoGLM下划线会被转为空格说明配置成功。4. 部署控制端代码并连接设备4.1 克隆项目与安装依赖在本地电脑上执行# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .该项目使用 Poetry 管理依赖如果你遇到问题也可以尝试poetry install poetry run python main.py --help4.2 设备连接方式确保手机通过 USB 连接到电脑或处于同一局域网内。方法一USB 直连推荐初学者adb devices正常输出应类似List of devices attached ABCDEF1234567890 device只要有设备 ID 和device状态就表示连接成功。方法二WiFi 远程连接适合无线调试先用 USB 连接启用 TCP/IP 模式adb tcpip 5555断开 USB 后通过 IP 连接adb connect 192.168.1.100:5555其中192.168.1.100是你的手机局域网 IP可在 WiFi 设置中查看。连接成功后即可拔掉数据线。提示首次使用需 USB 授权一次之后可长期免密连接。5. 实战演示关注抖音博主全过程现在我们来模拟一个真实任务打开抖音搜索指定账号并关注。但由于涉及登录状态缺失系统会跳转至验证码登录页——这正是人工接管的典型场景。5.1 启动 AI 代理在 Open-AutoGLM 目录下运行python main.py \ --device-id ABCDEF1234567890 \ --base-url http://123.45.67.89:8800/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他参数说明--device-id从adb devices获取的设备 ID--base-url你的云服务器公网 IP 和映射端口如 Nginx 或 Docker 映射的 8800--model指定使用的模型名称最后的字符串自然语言指令5.2 执行流程分解第一步启动抖音 AppAI 通过解析桌面图标识别“抖音”App 图标并点击打开。等待加载完成后进入首页。第二步进入搜索界面AI 在底部导航栏找到“放大镜”图标或“发现”页点击进入搜索框。第三步输入抖音号调用 ADB Keyboard 输入指令adb shell am broadcast -a ADB_INPUT_TEXT --es msg dycwo11nt61d文字准确出现在搜索框中。第四步执行搜索AI 识别键盘上的“搜索”按钮或回车键模拟点击完成搜索。第五步进入用户主页在搜索结果中定位目标账号点击头像进入个人主页。5.3 验证码场景触发人工接管此时系统判断当前未登录尝试关注会弹出“登录以继续”提示。点击后跳转至手机号登录页。AI 检测到“请输入验证码”字段立即做出反应[INFO] 敏感操作检测验证码输入界面 [WARNING] 自动化暂停需人工介入 [INSTRUCTION] 请手动接收短信并输入验证码完成后按 Enter 键继续...AI 停止所有操作等待用户输入。你可以在手机上手动输入收到的验证码点击“登录”。登录成功后回到电脑终端按回车键。AI 恢复运行刷新页面重新尝试“关注”按钮最终完成任务。5.4 人工接管的设计意义这一机制看似打断了自动化流程实则是智能化的重要体现避免越权风险AI 不应掌握用户的短信验证码提升鲁棒性面对不可预测的 UI 变化如图形验证码人类仍是最佳应对者构建信任让用户始终掌握控制权增强对 AI 助理的信任感而且接管过程非常轻量——只需输入一次验证码后续操作仍可全自动完成。6. 使用 Python API 实现远程设备管理除了命令行Open-AutoGLM 还提供了 Python API便于集成到其他系统中。以下是一个完整的远程连接与设备管理示例from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn ADBConnection() # 连接远程设备 success, message conn.connect(192.168.1.100:5555) print(f连接状态: {message}) # 列出已连接设备 devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) # 在 USB 设备上启用 TCP/IP success, message conn.enable_tcpip(5555) if success: ip conn.get_device_ip() print(f设备 IP: {ip}) # 断开连接 conn.disconnect(192.168.1.100:5555)这个 API 可用于批量管理多台测试机构建自动化测试平台开发远程运维工具7. 常见问题与排查建议7.1 连接类问题问题可能原因解决方案adb devices无输出驱动未安装 / USB 调试未开重装驱动检查开发者选项unauthorized状态未授权调试拔插 USB手机端确认授权弹窗connection refused防火墙拦截 / 端口未开放检查云服务器安全组规则放行对应端口7.2 执行类问题问题原因建议模型乱码或无响应vLLM 参数不匹配检查max_model_len是否 ≥ 8192显存是否足够输入中文失败ADB Keyboard 未设为默认进入输入法设置重新选择点击位置偏移屏幕分辨率适配问题更新最新版 Open-AutoGLM支持自适应坐标映射7.3 性能优化建议使用 SSD 存储模型缓存减少磁盘 IO 延迟保持手机屏幕常亮避免休眠中断流程在安静环境中运行避免误触或其他 App 弹窗干扰8. 总结让 AI 成为你手机的“左膀右臂”通过本次实战我们完整走通了 AutoGLM-Phone 从环境搭建、设备连接、任务执行到验证码场景人工接管的全流程。你会发现这套系统不仅技术先进而且设计人性化。它的价值体现在三个层面效率层面重复性操作交给 AI节省大量手动时间安全层面敏感操作保留人工干预入口防止失控扩展层面支持远程调试、API 调用易于集成进企业流程或自动化测试体系。未来类似的 AI Agent 会越来越多地出现在我们的数字生活中——它们不是取代人类而是作为“认知外脑”帮我们处理繁琐事务让我们专注于更有创造性的工作。而现在你已经掌握了如何部署和使用这样一位“手机助理”。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。