2026/4/7 12:15:15
网站建设
项目流程
微网站建设方案,杭州市建设网官网,jquery 做网站,网页制作工具的选择与网站整体风格没有关系AutoGLM-Phone如何评估执行成功率#xff1f;指标监控部署指南
Open-AutoGLM 是智谱开源的一款面向手机端的 AI Agent 框架#xff0c;旨在通过多模态理解与自动化操作能力#xff0c;让大模型真正“动手”完成用户指令。其核心项目 AutoGLM-Phone 和基于它构建的 Phone Ag…AutoGLM-Phone如何评估执行成功率指标监控部署指南Open-AutoGLM 是智谱开源的一款面向手机端的 AI Agent 框架旨在通过多模态理解与自动化操作能力让大模型真正“动手”完成用户指令。其核心项目 AutoGLM-Phone 和基于它构建的 Phone Agent正在重新定义人机交互方式——你只需说一句话AI 就能替你在手机上完成一系列复杂操作。1. AutoGLM-Phone让AI真正“会用手机”AutoGLM-Phone 是一个基于视觉语言模型VLM的 AI 手机智能助理框架。它不仅能“看懂”屏幕上的内容还能通过 ADBAndroid Debug Bridge自动操控设备。用户只需要输入一句自然语言指令比如“打开小红书搜索美食”系统就能自动解析意图、识别当前界面元素、规划操作路径并一步步执行点击、滑动、输入等动作全程无需人工干预。这一能力的背后是多模态感知 推理决策 自动化控制的深度融合。视觉语言模型负责理解屏幕截图中的文字、图标和布局任务规划模块将高层语义转化为可执行的操作序列ADB 则作为“手”精准模拟用户的触控行为。更进一步Phone Agent 在 AutoGLM-Phone 基础上增强了安全机制与远程调试能力。系统内置敏感操作确认机制在涉及支付、删除或权限变更时会暂停并提示用户确认。同时支持在登录验证、验证码输入等需要人类介入的场景中临时接管流程确保任务既智能又可控。此外Phone Agent 提供完整的远程 ADB 调试支持可通过 WiFi 或局域网连接设备实现跨空间的远程控制与开发调试极大提升了实验灵活性和部署便利性。2. 本地控制端部署全流程要让 AutoGLM-Phone 真正运行起来你需要在本地电脑配置控制端连接真机或模拟器并调用云端部署的 AI 模型服务。以下是详细部署步骤。2.1 硬件与环境准备操作系统Windows 或 macOSPython 版本建议使用 Python 3.10 及以上版本安卓设备Android 7.0 的真实手机或 Android 模拟器ADB 工具用于设备通信的核心工具包ADB 安装与环境配置Windows 用户下载 Android SDK Platform Tools 并解压。使用Win R输入sysdm.cpl进入“系统属性” → “高级” → “环境变量”。在“系统变量”中找到Path点击编辑添加 platform-tools 的解压路径如C:\platform-tools。打开命令行输入adb version若显示版本信息则说明配置成功。macOS 用户在终端中执行以下命令假设文件解压至~/Downloads/platform-toolsexport PATH${PATH}:~/Downloads/platform-tools为永久生效可将该行写入~/.zshrc或~/.bash_profile文件。2.2 手机端设置开启开发者模式进入“设置” → “关于手机” → 连续点击“版本号”5~7次直到提示“您已进入开发者模式”。启用 USB 调试返回“设置”主菜单 → “开发者选项” → 开启“USB 调试”。安装 ADB Keyboard关键下载并安装 ADB Keyboard APK。进入“设置” → “语言与输入法” → “默认键盘” → 切换为“ADB Keyboard”。此步骤至关重要否则 AI 无法向应用输入文字如搜索框、账号密码等。2.3 部署控制端代码Open-AutoGLM在本地电脑克隆并安装 Open-AutoGLM 控制端# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .注意pip install -e .会以可编辑模式安装包便于后续调试修改。2.4 设备连接方式确保手机通过 USB 连接电脑或处于同一局域网内。USB 连接方式adb devices正常输出应类似List of devices attached ABCDEF123 device如果显示unauthorized请在手机上确认是否允许该电脑调试。WiFi 远程连接方式首次需通过 USB 启用 TCP/IP 模式# 启用 ADB over TCP/IP adb tcpip 5555 # 断开 USB 后使用 IP 地址连接 adb connect 192.168.x.x:5555连接成功后即可拔掉数据线实现无线控制。3. 启动 AI 代理下达第一条指令一切就绪后就可以启动 AI 代理让它接管手机操作。3.1 命令行方式运行在Open-AutoGLM根目录下执行python main.py \ --device-id 你的设备ID或IP:5555 \ --base-url http://云服务器IP:映射端口/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他参数说明--device-id来自adb devices的设备标识如ABCDEF123或192.168.1.100:5555--base-url指向你云端 vLLM 服务的地址例如http://47.98.123.45:8800/v1--model指定使用的模型名称目前主要为autoglm-phone-9b最后的字符串你要下达的自然语言指令执行后你会看到 AI 自动截屏、分析界面、生成操作计划并逐步执行点击、跳转、搜索、关注等动作。3.2 使用 Python API 实现远程连接管理除了命令行你也可以通过编程方式集成到自己的系统中from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn ADBConnection() # 连接远程设备WiFi success, message conn.connect(192.168.1.100:5555) print(f连接状态: {message}) # 查看所有已连接设备 devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) # 在 USB 设备上启用 TCP/IP方便后续无线调试 success, message conn.enable_tcpip(5555) if success: ip conn.get_device_ip() print(f设备 IP: {ip}) # 断开连接 conn.disconnect(192.168.1.100:5555)这种方式适合构建自动化测试平台、远程运维系统或批量任务调度器。4. 如何评估 AutoGLM-Phone 的执行成功率当 AI 开始替你操作手机一个核心问题浮现它到底做得好不好执行成功率是衡量 AI Agent 能力的关键指标。但在实际应用中不能仅凭“有没有完成任务”来判断。我们需要建立一套细粒度、可观测、可复现的评估体系。4.1 执行成功率的定义维度我们通常从三个层面定义“成功”维度定义示例任务级成功率是否最终达成用户目标“关注指定博主”是否完成步骤级准确率每一步操作是否正确是否点到了正确的按钮意图理解准确率是否正确解析了用户指令把“搜美食”误认为“发消息”即失败其中任务级成功率是最核心的业务指标但难以实时量化而步骤级准确率更适合用于训练优化和日志回放分析。4.2 关键监控指标设计为了全面评估系统表现建议监控以下几类指标1任务执行状态统计成功完成数中途失败数超时未完成数人工干预次数可通过日志标记每个任务的status字段进行汇总。2单步操作置信度每次模型输出操作时附带一个置信度分数0~1反映其对当前决策的信心程度。低置信度往往预示风险操作。{ step: 3, action: click, element: 搜索按钮, confidence: 0.68, screenshot: step_3.png }长期收集可分析哪些界面容易导致低置信进而优化提示词或微调模型。3操作延迟与响应时间截图上传耗时模型推理时间ADB 指令执行延迟整体任务完成时间这些数据可用于性能瓶颈分析尤其是在高并发场景下。4错误类型分类对失败案例进行归因分类常见类型包括界面识别错误把“取消”识别成“确定”操作越界尝试点击不存在的元素死循环反复执行相同动作无进展网络中断ADB 断连或模型服务不可达权限阻塞未授权弹窗阻止后续操作定期回顾错误日志有助于持续改进系统鲁棒性。4.3 日志与可视化建议建议开启详细日志记录保存每一步的时间戳屏幕截图模型输入输出执行动作置信度评分结合 ELK 或 Grafana 等工具可搭建简易监控面板实现实时观察任务流、成功率趋势、平均耗时等关键指标。5. 常见问题排查与优化建议在实际部署过程中可能会遇到一些典型问题以下是解决方案汇总。5.1 连接类问题问题现象可能原因解决方案adb devices无设备ADB 未安装或路径未配置重新安装并检查环境变量显示unauthorized未授权调试在手机上点击“允许USB调试”connect refused防火墙拦截检查云服务器安全组是否开放对应端口WiFi 连接不稳定路由器信号差改用 USB 连接或优化网络环境5.2 模型与推理问题问题现象可能原因解决方案模型无响应vLLM 服务未启动或参数错误检查--host 0.0.0.0和端口映射输出乱码或格式错误tokenizer 不匹配确保使用官方推荐的模型权重与分词器推理速度慢显存不足或 max-model-len 设置过大调整 batch size 或升级 GPU5.3 操作执行问题问题现象可能原因解决方案无法输入文字ADB Keyboard 未设为默认输入法进入设置手动切换点击位置偏移分辨率适配问题检查设备 DPI 与模型训练数据是否一致误触返回键界面理解偏差添加上下文记忆机制或强化提示词获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。