2026/2/15 6:14:18
网站建设
项目流程
xx网站建设策划方案,免费定制开发软件,企业网站的基本类型包括,坪山医院网站建设AutoGLM-Phone如何理解屏幕#xff1f;视觉语言模型解析实战案例
1. Open-AutoGLM#xff1a;手机端AI Agent的开源新范式
你有没有想过#xff0c;有一天只需说一句“帮我订今晚七点的餐厅”#xff0c;手机就能自动打开App、搜索推荐、完成预约#xff1f;这不再是科幻…AutoGLM-Phone如何理解屏幕视觉语言模型解析实战案例1. Open-AutoGLM手机端AI Agent的开源新范式你有没有想过有一天只需说一句“帮我订今晚七点的餐厅”手机就能自动打开App、搜索推荐、完成预约这不再是科幻场景。智谱推出的Open-AutoGLM正在让这种“会思考的手机助理”成为现实。这是一个完全开源的手机端AI Agent框架核心是名为AutoGLM-Phone的智能系统。它不依赖预设脚本或固定流程而是通过视觉语言模型VLM理解手机屏幕上的每一行字、每一个图标并结合自然语言指令自主规划操作路径像人一样“看图决策”。更关键的是它打通了“感知-决策-执行”的闭环用多模态模型理解界面用大模型做任务拆解与推理再通过 ADBAndroid Debug Bridge真正操控设备。用户只需要动嘴剩下的交给AI。本文将带你深入这个系统的运行机制重点解析它是如何“看懂”手机屏幕的并手把手演示从环境配置到真实任务执行的完整流程。2. 视觉语言模型如何“读懂”手机界面2.1 多模态理解不只是OCR传统自动化工具依赖控件ID或坐标点击一旦界面改版就失效。而 AutoGLM-Phone 的核心突破在于——它把整个手机屏幕当作一张“图像”来理解。每次执行操作前系统会通过 ADB 截取当前屏幕画面然后将这张图和用户的自然语言指令一起输入给视觉语言模型。模型的任务是识别屏幕上有哪些元素按钮、输入框、标题、图标理解这些元素的功能和语义“搜索框”、“返回箭头”、“关注按钮”判断当前所处的应用和页面是在微信聊天列表还是抖音视频流结合用户指令推理出下一步该点击哪里这不仅仅是简单的文字识别OCR而是真正的语义级理解。比如看到一个红色心形图标旁边写着“4.2万”模型能推断这是“点赞按钮”而不是把它当成两个独立元素。2.2 屏幕信息结构化从像素到可操作项模型输出的不是“点这里”这样的模糊指令而是一套结构化的操作建议。典型输出格式如下{ current_app: com.ss.android.ugc.aweme, current_page: 抖音主页, elements: [ { id: 1, text: 搜索, bbox: [100, 80, 620, 130], type: button, action: tap }, { id: 2, text: 消息, bbox: [720, 1800, 800, 1900], type: tab, action: tap } ], thought: 用户想搜索特定博主应先进入搜索页面, planned_action: { type: tap, element_id: 1 } }其中bbox是元素在屏幕上的坐标范围左上x, 左上y, 右下x, 右下y系统会根据这个区域中心点生成点击事件。整个过程无需预先知道控件ID真正做到“所见即所控”。2.3 动态规划与容错机制复杂的任务往往需要多步操作。例如“搜索博主并关注”AI需要拆解为打开抖音 → 2. 点击搜索框 → 3. 输入账号 → 4. 进入主页 → 5. 点击关注每一步完成后系统都会重新截图、重新分析形成一个感知-行动-反馈的循环。如果某一步失败比如没找到搜索框模型会尝试其他路径或请求人工确认。此外系统内置敏感操作拦截机制。当检测到支付、删除、权限授权等高风险操作时会暂停执行并提示用户确认避免误操作。3. 本地控制端部署全流程3.1 硬件与环境准备要让 AutoGLM-Phone 在你的设备上跑起来需准备以下环境操作系统Windows 或 macOS推荐 macOS/Linux兼容性更好Python版本3.10 或以上安卓设备Android 7.0 的真机或模拟器ADB工具Android SDK Platform ToolsADB 安装与配置Windows 用户下载 Platform Tools解压后将文件夹路径添加到系统环境变量Path打开命令行输入adb version若显示版本号则安装成功macOS 用户 在终端执行以下命令假设解压目录为~/Downloads/platform-toolsexport PATH${PATH}:~/Downloads/platform-tools可将其写入.zshrc或.bash_profile实现永久生效。3.2 手机端设置开启开发者模式进入“设置”→“关于手机”→连续点击“版本号”7次直到提示“您已进入开发者模式”。启用USB调试返回设置主界面 → “开发者选项” → 开启“USB调试”。安装 ADB Keyboard可选但推荐下载并安装 ADB Keyboard APK然后在“语言与输入法”中将其设为默认输入法。这样AI就能通过ADB发送文本实现自动打字。3.3 部署控制端代码在本地电脑执行以下命令# 克隆开源仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .该项目基于 Python 构建核心模块包括phone_agent/adbADB设备通信封装phone_agent/vision屏幕图像采集与预处理phone_agent/planner任务规划与动作生成main.py主入口支持命令行与API调用4. 设备连接与远程控制4.1 USB 连接方式推荐初学者使用数据线将手机连接电脑在命令行输入adb devices正常情况下会输出类似List of devices attached 1234567890ABCDEF device其中1234567890ABCDEF就是你的设备ID后续将用它进行控制。4.2 WiFi 远程连接支持无线操控若想摆脱数据线可通过WiFi连接# 先用USB连接开启TCP/IP模式 adb tcpip 5555 # 断开USB通过IP连接需手机与电脑在同一局域网 adb connect 192.168.1.100:5555连接成功后即使拔掉数据线也能持续控制。适合长期运行或远程调试。4.3 获取设备IP地址在手机“设置”→“WLAN”中查看当前连接的WiFi详情找到IP地址。也可通过ADB命令获取adb shell ip route | awk {print $9}5. 启动AI代理并执行任务5.1 命令行快速体验确保你的云服务端已部署好 vLLM 模型如autoglm-phone-9b并映射了端口如8800。在本地执行python main.py \ --device-id 1234567890ABCDEF \ --base-url http://192.168.1.200:8800/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他参数说明--device-id通过adb devices获取的设备标识--base-url云服务器上vLLM服务的公网IP和端口最后的字符串你的自然语言指令系统将自动截图当前屏幕发送图像指令给云端模型解析模型返回的操作建议通过ADB执行点击、输入、滑动等动作循环直至任务完成5.2 使用Python API进行集成你也可以在自己的项目中调用其API实现更灵活的控制from phone_agent.adb import ADBConnection, list_devices # 创建ADB连接管理器 conn ADBConnection() # 连接远程设备 success, message conn.connect(192.168.1.100:5555) print(f连接状态: {message}) # 列出所有已连接设备 devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) # 首次使用WiFi时启用TCP/IP模式 success, message conn.enable_tcpip(5555) if success: ip conn.get_device_ip() print(f设备IP: {ip}) # 任务结束后断开连接 conn.disconnect(192.168.1.100:5555)这套API非常适合嵌入到自动化测试、远程运维、智能客服等系统中。6. 常见问题与排查建议6.1 连接类问题问题现象可能原因解决方案adb devices无设备USB调试未开启检查开发者选项中的“USB调试”连接被拒绝防火墙阻止端口确保云服务器开放对应端口如8800WiFi连接不稳定路由器限制尝试重启路由器或改用USB连接6.2 模型与执行问题模型无响应或返回乱码检查vLLM启动参数是否正确特别是--max-model-len和显存配置。建议至少16GB GPU显存运行9B模型。点击位置偏差可能因屏幕分辨率适配问题。可在代码中加入分辨率校准逻辑或使用相对坐标归一化处理。输入中文失败确认已安装并启用 ADB Keyboard并在手机设置中设为默认输入法。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。