2026/2/14 1:20:30
网站建设
项目流程
嘉兴高端网站建设公司,嘉祥县建设局网站,百度网址浏览大全,百度推广登录后台Open-AutoGLM笔记记录代理#xff1a;灵感捕捉执行自动化部署
1. 引言
1.1 技术背景与核心价值
随着大模型技术的快速发展#xff0c;AI Agent 正从理论探索走向实际落地。在移动端#xff0c;用户每天面对大量重复性操作——打开应用、搜索内容、填写表单、关注账号等。…Open-AutoGLM笔记记录代理灵感捕捉执行自动化部署1. 引言1.1 技术背景与核心价值随着大模型技术的快速发展AI Agent 正从理论探索走向实际落地。在移动端用户每天面对大量重复性操作——打开应用、搜索内容、填写表单、关注账号等。这些任务虽然简单但累积起来消耗了大量时间和注意力。如何让 AI 真正“动手”代替人类完成这些操作Open-AutoGLM 的出现为此提供了可行路径。Open-AutoGLM 是由智谱开源的一款面向手机端的 AI Agent 框架基于 AutoGLM-Phone 构建融合视觉语言理解与自动化控制能力实现了从“感知”到“决策”再到“执行”的闭环。它不仅能理解自然语言指令还能通过 ADBAndroid Debug Bridge直接操控安卓设备真正实现“你说我做”。该框架的核心创新在于将多模态大模型与移动设备控制系统深度集成使得 AI 不再局限于回答问题而是成为用户的“数字双手”主动完成复杂交互流程。1.2 应用场景与典型用例Phone Agent 的应用场景广泛涵盖日常使用、远程管理、测试自动化等多个领域生活助手如“打开小红书搜索上海美食推荐并收藏前三条”社交操作如“进入抖音搜索指定账号 dycwo11nt61d 并关注”信息采集自动截图、翻页、提取文本内容UI 自动化测试替代传统脚本动态识别界面元素并执行点击远程协助为家人或客户远程操作手机解决问题其最大优势是无需开发插件或修改 App仅通过屏幕图像和系统接口即可完成操作具备极强的通用性和可扩展性。2. 系统架构与工作原理2.1 整体架构设计Open-AutoGLM 的系统架构分为三层客户端控制端、通信层ADB和服务端AI 模型。------------------ ------------------- -------------------- | Local Computer | --- | ADB Channel | --- | Android Device | | (Open-AutoGLM) | | (USB/WiFi) | | (Phone Agent) | ------------------ ------------------- -------------------- | ↑ ↓ | ------------------ ------------------ | Cloud Server |----------------------------| Screen Input | | (vLLM AutoGLM) | HTTP API (OpenAI-like) | Events Capture | ------------------ ------------------用户在本地运行 Open-AutoGLM 控制脚本脚本通过 ADB 获取手机屏幕截图并上传至云端模型云端 VLM视觉语言模型分析图像语义结合自然语言指令进行任务规划模型返回操作指令如点击坐标、滑动方向由 ADB 在设备上执行循环迭代直至任务完成。2.2 多模态感知与动作生成机制系统采用“观察-思考-行动”Observe-Thinking-Act循环模式Observe每轮通过adb shell screencap截取当前屏幕压缩后发送至模型。Thinking模型接收截图 用户指令输出结构化动作序列Action Plan。Act解析动作为 ADB 命令如input tap x y执行后等待反馈。关键组件包括视觉编码器将屏幕图像转换为特征向量语言解码器生成下一步操作指令JSON 格式动作空间定义支持 tap、swipe、type、back、home 等基本操作状态记忆模块维护上下文避免重复操作或死循环例如当用户输入“搜索某博主并关注”模型会依次判断是否在抖音首页 → 否则启动 App找到搜索框图标 → 定位坐标并点击输入指定用户名 → 使用 ADB Keyboard 输入查找目标账号卡片 → 点击进入主页判断是否已关注 → 若未关注则点击“关注”按钮整个过程完全基于视觉理解不依赖任何 UI 层级信息如 resource-id因此具有高度泛化能力。3. 本地部署与连接配置3.1 硬件与环境准备要成功部署 Open-AutoGLM需确保以下软硬件条件满足项目要求操作系统Windows / macOS推荐 Linux 开发Python 版本3.10 或以上安卓设备Android 7.0 实机或模拟器ADB 工具platform-tools 最新版网络环境USB 连接 或 同一局域网 WiFi注意建议使用物理机而非虚拟机以保证 ADB 稳定连接。ADB 环境配置Windows下载 Android SDK Platform Tools解压至本地目录如C:\platform-tools添加路径到系统环境变量Win R→ 输入sysdm.cpl“高级”选项卡 → “环境变量”在“系统变量”中找到Path添加新项C:\platform-tools验证安装adb version应输出类似Android Debug Bridge version 1.0.41。ADB 环境配置macOS在终端执行以下命令假设解压目录为~/Downloads/platform-toolsexport PATH${PATH}:~/Downloads/platform-tools可将其写入.zshrc或.bash_profile实现永久生效echo export PATH${PATH}:~/Downloads/platform-tools ~/.zshrc source ~/.zshrc3.2 手机端设置步骤开启开发者模式进入“设置” → “关于手机”连续点击“版本号”7次直到提示“您已开启开发者模式”启用 USB 调试返回“设置”主菜单 → “开发者选项”勾选“USB 调试”部分机型还需确认授权弹窗安装 ADB Keyboard下载 ADB Keyboard APK安装后进入“语言与输入法”设置将默认输入法切换为 “ADB Keyboard”目的允许通过 ADB 发送中文/英文文本输入安全提示请勿在公共电脑上长期开启 USB 调试防止恶意设备窃取数据。4. 控制端部署与设备连接4.1 克隆与安装 Open-AutoGLM在本地电脑执行以下命令# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .安装完成后可通过python -c import phone_agent; print(phone_agent.__version__)验证是否成功导入。4.2 设备连接方式USB 连接推荐用于调试使用数据线连接手机与电脑手机弹出“允许 USB 调试”时点击“确定”执行命令查看设备状态adb devices预期输出List of devices attached ABCDEF1234567890 device若显示unauthorized请重新插拔或重启 adb serveradb kill-server adb start-serverWiFi 远程连接适合远程控制首次需通过 USB 设置 TCP/IP 模式# 启用 TCP/IP 模式端口 5555 adb tcpip 5555 # 断开 USB使用 IP 连接需在同一局域网 adb connect 192.168.x.x:5555其中192.168.x.x为手机 IP 地址可在“设置 → WLAN → 当前网络详情”中查看。连接成功后即使断开 USB仍可通过 WiFi 控制设备极大提升灵活性。5. 启动 AI 代理与任务执行5.1 命令行方式启动在项目根目录下运行主程序python main.py \ --device-id ABCDEF1234567890 \ --base-url http://192.168.1.100:8800/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他参数说明参数说明--device-id通过adb devices获取的设备 ID 或 IP:port--base-url云端 vLLM 服务地址必须符合 OpenAI API 兼容格式--model指定模型名称需与服务端加载一致最后字符串用户自然语言指令重要base-url必须指向运行了 vLLM AutoGLM 模型的服务端且开放对应端口。5.2 Python API 方式调用对于更复杂的集成需求可使用 SDK 编程调用from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn ADBConnection() # 连接远程设备 success, message conn.connect(192.168.1.100:5555) print(f连接状态: {message}) # 列出所有已连接设备 devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) # 可选为 USB 设备启用 TCP/IP success, message conn.enable_tcpip(5555) if success: ip conn.get_device_ip() print(f设备 IP: {ip}) # 断开连接 conn.disconnect(192.168.1.100:5555)此方式适用于构建 Web 控制台、自动化测试平台等高级应用。6. 常见问题与优化建议6.1 常见问题排查问题现象可能原因解决方案adb devices无设备未开启 USB 调试检查开发者选项显示 unauthorized未授权电脑重新插拔并确认弹窗连接被拒绝connect fail防火墙阻止端口放行 5555 端口模型响应慢或超时网络延迟高改用 USB 或优化带宽输入中文乱码ADB Keyboard 未设为默认检查输入法设置操作失败/误触屏幕分辨率适配问题调整缩放比例或 ROI 区域6.2 性能优化建议降低截图分辨率在不影响识别的前提下缩小图像尺寸减少传输耗时缓存历史画面避免重复上传相同界面增加重试机制对关键操作如点击登录设置最多 3 次重试启用敏感操作确认涉及支付、删除等操作时暂停并提示人工干预使用 SSD 存储模型加快 vLLM 推理速度减少首 token 延迟7. 总结7.1 技术价值回顾Open-AutoGLM 代表了一种全新的 AI 交互范式从被动问答转向主动执行。它依托 AutoGLM-Phone 的多模态理解能力结合 ADB 实现真机自动化操作构建了一个完整的“AI 手指”系统。无论是日常生活辅助还是企业级自动化测试都展现出巨大潜力。其核心优势在于零侵入性无需 Root 或安装特殊权限跨应用通用基于视觉理解适用于任意 App自然语言驱动普通用户也能轻松使用远程可控支持 WiFi 连接便于远程运维7.2 实践建议与未来展望初学者建议先从 USB 连接 简单指令开始逐步熟悉流程进阶用户可自建 vLLM 服务部署更大规模模型如 13B开发者方向扩展动作类型长按、双击、支持多设备协同安全增强引入操作审计日志、权限分级机制未来随着端侧大模型的发展此类 Agent 有望在本地完成推理进一步提升响应速度与隐私安全性。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。