帝国cms 网站搬家网站设网站设计
2026/1/8 9:41:00 网站建设 项目流程
帝国cms 网站搬家,网站设网站设计,成都旅游最佳季节,wordpress首页文件代码在AI之PhoneAgent#xff1a;Open-AutoGLM的简介、安装和使用方法、案例应用之详细攻略 目录 Open-AutoGLM的简介 1、特点 2、时间线 Open-AutoGLM的安装和使用方法 1、安装 环境准备#xff1a; 部署准备工作#xff1a; 启动模型服务#xff1a; 选项 A: 使用第三…AI之PhoneAgentOpen-AutoGLM的简介、安装和使用方法、案例应用之详细攻略目录Open-AutoGLM的简介1、特点2、时间线Open-AutoGLM的安装和使用方法1、安装环境准备部署准备工作启动模型服务选项 A: 使用第三方模型服务 (推荐)选项 B: 自行部署模型检查模型部署2、使用方法T1、命令行使用T2、Python API 使用运行—远程调试Open-AutoGLM的案例应用搜索美食购物比价社交媒体操作浏览器操作视频娱乐基础任务执行Open-AutoGLM的简介2025年12月9日智谱AI开源了AutoGLM包括核心模型、部署框架和演示代码旨在推动AI手机普及。‌Open-AutoGLM 是一个开源的手机Agent 模型和框架旨在“为每个人解锁 AI 手机”。它是一个基于 AutoGLM 构建的手机端智能助理框架能够以多模态方式理解手机屏幕内容并通过自动化操作帮助用户完成任务。该系统通过ADB(Android Debug Bridge)控制设备利用视觉语言模型进行屏幕感知并结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求例如“打开小红书搜索美食”Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制并支持在登录或验证码场景下进行人工接管。同时它提供远程 ADB 调试能力可通过 WiFi 或网络连接设备实现灵活的远程控制与开发。GitHub地址https://github.com/zai-org/Open-AutoGLM1、特点Open-AutoGLM 项目具备以下显著特点 多模态屏幕理解能够以多模态方式理解手机屏幕内容实现对当前界面的智能感知。 多自然语言指令控制用户可以通过自然语言描述需求Agent 即可自动解析意图并执行任务。 多自动化任务执行能够智能规划并执行一系列操作流程以完成用户指定的任务。 多ADB 控制设备利用 ADB (Android Debug Bridge) 实现对 Android 设备的精确控制。 多视觉语言模型驱动核心能力依赖于视觉语言模型进行屏幕感知和决策。 多敏感操作确认机制内置安全机制对涉及敏感信息的如支付、登录操作进行确认。 多人工接管支持在登录或验证码等需要人工干预的场景下支持用户进行人工接管。 多远程 ADB 调试支持通过 WiFi 或网络连接设备进行远程 ADB 调试无需 USB 连接。 多多语言模型支持提供针对中文手机应用优化的 AutoGLM-Phone-9B 模型以及支持英语场景的 AutoGLM-Phone-9B-Multilingual 模型。 多种模型部署选项支持使用第三方模型服务如智谱 BigModel, ModelScope或在本地/服务器自行部署模型支持 vLLM, SGLang。 多丰富的操作集Agent 可以执行包括启动应用、点击、输入文本、滑动、返回、回到桌面、长按、双击、等待、请求人工接管等多种操作。 多广泛的应用支持支持超过50 款主流中文应用涵盖社交通讯、电商购物、美食外卖、出行旅游、视频娱乐、音乐音频、生活服务、内容社区等多个分类。 多可定制的系统提示词支持中英文系统提示词用户可修改配置文件以增强模型在特定领域的能力或禁用特定应用。 多详细的调试信息在 Verbose 模式下Agent 会输出详细的思考过程和执行动作方便用户理解和调试。2、时间线AutoGLM是智谱AI开发的跨端通用智能体用于在真实或虚拟设备上执行多步骤操作任务。其发布时间线如下 ‌研发启动‌AutoGLM的研发始于2023年4月。 ‌初代发布‌2024年10月AutoGLM初代版本在CNCC上正式发布成为首个具备真机操作能力的AI智能体。 ‌AutoGLM 2.0发布‌2025年8月智谱发布AutoGLM 2.0版本这是全球首个手机智能体支持长链路任务执行并具备多模态能力。‌开源发布‌2025年12月9日智谱AI开源了AutoGLM包括核心模型、部署框架和演示代码旨在推动AI手机普及。Open-AutoGLM的安装和使用方法1、安装环境准备Python 环境建议使用 Python 3.10 及以上版本。ADB(Android Debug Bridge)下载官方 ADB 安装包并解压到自定义路径。配置环境变量将 ADB 工具的路径添加到系统的 PATH 中MacOS 或 Windows 均有详细配置方法。Android 设备或模拟器需要 Android 7.0 的设备。启用开发者模式通常在“设置-关于手机-版本号”连续点击约 10 次。启用 USB 调试在“设置-开发者选项”中勾选“USB 调试”。部分机型可能还需要开启“USB 调试安全设置”。检查权限确保手机用 USB 数据线连接到电脑后运行 adb devices 能看到设备信息。安装 ADB Keyboard下载 ADB Keyboard 安装包并在对应的安卓设备中安装。安装完成后需要在“设置-输入法”或“设置-键盘列表”中启用 ADB Keyboard。部署准备工作安装依赖pip install -r requirements.txt pip install -e .配置 ADB确保 USB 数据线具有数据传输功能。连接设备并验证adb devices。启动模型服务选项 A: 使用第三方模型服务 (推荐)智谱 BigModel--base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone --apikey your-bigmodel-api-keyModelScope--base-url https://api-inference.modelscope.cn/v1 --model ZhipuAI/AutoGLM-Phone-9B --apikey your-modelscope-api-key示例运行命令python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model autoglm-phone --apikey your-bigmodel-api-key 打开美团搜索附近的火锅店选项 B: 自行部署模型需要根据 requirements.txt 中的 For Model Deployment 章节安装推理引擎框架如 SGLang 或 vLLM。下载模型约 20GB并通过 vLLM 或 SGLang 启动 OpenAI 格式服务。例如使用 vLLM 启动命令python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs {\max_pixels\:5000000} \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt {\image\:10} \ --model zai-org/AutoGLM-Phone-9B \ --port 8000模型服务成功启动后将可以通过 http://localhost:8000/v1 访问远程部署则使用服务器 IP。检查模型部署使用脚本 python scripts/check_deployment_cn.py --base-url http://你的IP:你的端口/v1 --model 模型名称 验证模型是否正常工作。2、使用方法T1、命令行使用交互模式python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b指定任务python main.py --base-url http://localhost:8000/v1 打开美团搜索附近的火锅店使用 API Keypython main.py --apikey sk-xxxxx使用英文提示词python main.py --lang en --base-url http://localhost:8000/v1 Open Chrome browser列出支持的应用python main.py --list-appsT2、Python API 使用from phone_agent import PhoneAgent from phone_agent.model import ModelConfig model_config ModelConfig( base_urlhttp://localhost:8000/v1, model_nameautoglm-phone-9b, ) agent PhoneAgent(model_configmodel_config) result agent.run(打开淘宝搜索无线耳机) print(result)运行—远程调试在手机端开启无线调试确保手机和电脑在同一 WiFi。使用 adb connect 手机IP地址:端口 连接远程设备。在运行 Agent 时通过 --device-id 设备ID 指定设备。自定义回调可以定义函数来处理敏感操作确认和人工接管。Open-AutoGLM的案例应用项目通过自然语言指令展示了其在手机自动化任务中的应用以下是一些示例搜索美食指令“打开美团搜索附近的火锅店”效果Agent 会自动启动美团应用并在其中搜索附近的火锅店。购物比价指令“比较这个洗发水在京东和淘宝上的价格然后选择最便宜的平台下单。”效果Agent 会先在京东搜索商品并查看价格再在淘宝搜索并查看价格然后比较两者并选择最便宜的平台进行下单此为思维链示例实际执行需分步。社交媒体操作指令“打开微信对文件传输助手发送消息部署成功”效果Agent 会自动打开微信找到文件传输助手并发送指定消息。浏览器操作指令 (英文)“Open Chrome browser”效果Agent 会自动启动 Chrome 浏览器。视频娱乐指令“打开抖音刷视频”效果Agent 会自动打开抖音应用并开始刷视频。基础任务执行在 examples/ 目录下提供了更多使用示例包括basic_usage.py基础任务执行。单步调试模式。批量任务执行。自定义回调的使用。这些案例充分展示了 Open-AutoGLM 如何将用户的自然语言指令转化为手机上的具体操作从而实现智能化的手机应用交互。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询