2026/2/24 7:07:38
网站建设
项目流程
做家具厂招聘有哪些网站,营销型网站制作哪家好,北京发布最新消息今天,上海中汇建设发展有限公司网站用Open-AutoGLM做了个自动打卡机器人#xff0c;省时省力
每天早上八点#xff0c;闹钟还没响#xff0c;手机屏幕已经自动亮起——它正打开企业微信#xff0c;滑动到考勤页面#xff0c;点击“上班打卡”#xff0c;再截屏保存记录。整个过程不到23秒#xff0c;而我…用Open-AutoGLM做了个自动打卡机器人省时省力每天早上八点闹钟还没响手机屏幕已经自动亮起——它正打开企业微信滑动到考勤页面点击“上班打卡”再截屏保存记录。整个过程不到23秒而我还在被窝里翻了个身。这不是科幻电影的桥段而是我用Open-AutoGLM搭出来的自动打卡机器人的真实日常。它不写代码、不调API、不碰ADB命令行我只对它说了一句话“每天早上8:05在企业微信里完成上班打卡并截图”。然后它就记住了执行了持续了整整47天零失误。这背后没有复杂的调度系统没有定制化脚本也没有反复调试的XPath定位——只有一套真正理解手机界面、能看懂按钮文字、会判断页面状态、还能在关键时刻喊你“来按一下验证码”的AI代理。今天我就带你从零开始亲手把这个“数字同事”请进你的生活。1. 为什么是Open-AutoGLM不是RPA也不是传统自动化1.1 它不是“录屏回放”而是“看懂再操作”传统手机自动化工具比如Tasker或Auto.js依赖固定坐标、ID或文本匹配。一旦APP更新按钮位置、改了文案、换了图标整个流程就崩了。我试过用Auto.js写打卡脚本结果企业微信一次小版本更新打卡按钮从右下角挪到了左上角脚本直接点了通讯录。Open-AutoGLM完全不同。它通过视觉语言模型实时分析当前屏幕截图像人一样“看”这是不是企业微信的首页→ 看顶部状态栏和底部导航栏这个蓝色方块是不是“工作台”→ 识别文字颜色形状相对位置“考勤打卡”按钮在哪→ 不靠坐标靠语义理解区域聚焦它不记路径只认意图。你告诉它“打卡”它自己找入口、找按钮、判断是否已打、决定下一步——这才是真·智能。1.2 它不绕开安全机制而是“合作式接管”很多自动化工具遇到登录页、短信验证码就卡死。Open-AutoGLM的设计哲学很务实AI不逞强人在关键节点兜底。当检测到输入框带“验证码”字样它会暂停执行弹出提示“请手动输入验证码完成后按回车继续”当发现账号未登录它会停止操作截图发给你并说“检测到需登录请处理后告诉我”所有敏感操作如删除聊天、转账、修改密码默认禁用必须显式授权这种“人机协同”模式既保障了安全性又保留了自动化效率——它不是取代你而是把你从重复劳动中解放出来把注意力留给真正需要判断的事。1.3 它跑在手机端但“大脑”在云端隐私不落地你可能担心它要 constantly 截图传到服务器会不会泄露隐私Open-AutoGLM采用分层架构手机端只做三件事截图、执行ADB指令点击/滑动/输入、上传当前截图所有理解、规划、决策都在云端模型完成返回的是具体操作指令如“点击坐标(520, 840)”截图仅用于单次推理不存储、不缓存、不上传历史记录你甚至可以部署在私有服务器上全程数据不出内网我把它部署在自己家里的NAS上用vLLM服务公网IP都不暴露完全可控。2. 三步搭建你的专属打卡机器人2.1 准备工作让电脑和手机“握手成功”别被“ADB”“开发者模式”吓到这比连蓝牙耳机还简单。我用的是iPhone用户最怕的安卓机小米13整个过程10分钟搞定。第一步手机开“开发者模式”设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 出现“您现在处于开发者模式”第二步打开USB调试 安装ADB键盘设置 → 更多设置 → 开发者选项 → 勾选“USB调试”再去GitHub下载adb-keyboard.apk搜索关键词就能找到安装后在“设置→语言与输入法”里设为默认输入法——这是为了后续能用AI自动输密码、搜关键词。第三步电脑配ADBWindows/macOS通用下载Platform-tools解压后把文件夹路径加到系统环境变量Win系统属性→高级→环境变量→系统变量→Path→新建Mac终端运行export PATH$PATH:/your/path/to/platform-tools打开命令行输入adb version看到版本号就成功了最后用USB线连手机命令行敲adb devices如果显示一串字符“device”恭喜你的电脑已经“认出”手机了。小贴士如果显示“unauthorized”手机上会弹窗问“允许USB调试吗”勾选“始终允许”再点确定即可。2.2 部署AI大脑启动Open-AutoGLM服务端你不需要训练模型也不用买GPU。Open-AutoGLM官方提供了9B轻量级模型我在一台24G显存的二手A10服务器上用vLLM一键启动python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-processor-cache-type shm \ --mm_processor_kwargs {max_pixels:5000000}启动后访问http://你的服务器IP:8000/v1就能调用模型了。如果你没有服务器CSDN星图镜像广场已预置好Open-AutoGLM镜像支持一键拉起服务连Docker命令都不用敲。2.3 连接手机下达第一条指令回到本地电脑Windows/macOS都行执行git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .确认手机已连接adb devices能看到设备ID运行python main.py \ --device-id 1234567890ABCDEF \ # 替换为你自己的设备ID --base-url http://192.168.1.100:8000/v1 \ # 替换为你的服务端地址 --model autoglm-phone-9b \ 每天早上8:05在企业微信里完成上班打卡并截图保存第一次运行它会自动截图手机当前画面上传给云端模型分析模型返回操作序列“先找到企业微信图标→点击→等待加载→滑动到工作台→点击→查找考勤打卡→点击→等待页面出现打卡按钮→点击→等待成功提示→截屏→保存到相册”ADB逐条执行全程可视化你能在手机上看到手指在自动点击注意首次使用建议用USB连接WiFi远程adb connect 192.168.x.x:5555适合稳定后批量管理多台设备。3. 打卡只是起点它还能帮你做什么3.1 从“打卡”到“全流程办公助理”我把它扩展成了真正的办公搭子不再只盯一个APP场景你只需说的话它实际做的事日报提交“上午10点把今日工作填进飞书多维表格第3行”打开飞书→进入指定文档→定位到第3行→按模板填写“已完成XXX进行中YYY阻塞ZZZ”→保存会议提醒“下午2点前检查钉钉日程如果有新会议就微信发我摘要”截图钉钉日程页→识别今日会议→提取时间/主题/参会人→生成摘要→用微信发送给自己报销初审“扫描相册里最新3张发票把金额和商户名填到Excel”打开相册→选图→OCR识别→结构化提取→打开Excel→填入对应列→保存所有这些都不需要你写一行逻辑代码。它靠的是对界面的通用理解能力——只要APP有文字、有按钮、有列表它就能“看懂”。3.2 真实效果对比人工 vs AI代理我连续两周记录了打卡环节的耗时项目人工操作Open-AutoGLM代理平均耗时82秒找APP→解锁→滑动→点工作台→找考勤→点打卡→等响应→截图21.3秒全自动失败率12%偶尔点错、网络延迟导致失败0%失败自动重试最多3次每日干预需手动处理验证码平均每周2次验证码场景自动暂停等你输入后继续不打断流程可靠性依赖手机电量、网络、APP稳定性即使APP闪退它也能重启APP后继续任务更关键的是它从不抱怨加班。凌晨三点临时改打卡规则你改一句指令它立刻适配。3.3 安全边界哪些事它坚决不做Open-AutoGLM内置了三层安全护栏确保它永远是助手不是风险源操作白名单机制默认只允许点击、滑动、返回、截图、输入文字。禁止长按、双击、手势密码、安装APK、清除数据。敏感词实时拦截指令中若含“转账”“支付”“删除全部”“格式化”会立即终止并提示“该操作涉及高风险已拒绝执行”。人工接管开关常驻任何时候按手机音量键电源键3秒它会立刻暂停所有操作弹出控制台让你手动接管。我测试过让它操作银行APP它看到“请输入交易密码”就停了截图发我“检测到金融类应用需人工确认是否继续”非常克制。4. 进阶技巧让机器人更懂你4.1 让它记住你的习惯自定义提示词模板默认情况下它用通用中文提示词。但你可以让它更“懂你”。比如我们公司打卡要先点“考勤打卡”再点“上班打卡”最后点“确认”。你可以在配置文件里加一条# config/app_mapping.yaml enterprise_wechat: check_in_flow: - 考勤打卡 - 上班打卡 - 确认 success_text: 打卡成功下次它看到“打卡成功”四个字就知道任务完成不用再等3秒确认。4.2 多设备协同一台电脑管10台手机用WiFi连接后adb devices能列出所有在线设备。我写了段Python脚本让机器人轮询from phone_agent.adb import list_devices devices list_devices() for device in devices: if work in device.device_id: # 给设备ID打标签 agent PhoneAgent(model_configmodel_config, device_iddevice.device_id) agent.run(打卡)现在我办公室的5台测试机、家里3台备用机、还有2台员工机全部由同一套AI大脑统一调度。4.3 错误自愈当它“看不懂”时怎么办哪怕是最强的VLM也会遇到极端情况模糊截图、深色模式、动态水印。Open-AutoGLM提供了优雅的降级方案第一次失败自动重截一张图换角度再试第二次失败缩小识别区域比如只扫屏幕下半部分第三次失败截图当前指令发到你的微信附带一句“这个界面我没见过你能告诉我‘打卡’按钮长什么样吗”它不硬刚而是学会提问——这才是真正的人工智能。5. 总结它不是工具而是你的数字分身5.1 你得到的不只是“自动打卡”回顾整个搭建过程你获得的远不止一个打卡机器人一套可复用的AI自动化方法论从需求描述→界面理解→动作规划→执行反馈形成闭环零代码的业务流程再造能力市场部要自动发100条小红书笔记HR要批量导出50份考勤表一句话就能启动对多模态AI落地的切身体验它让你明白AI不是黑箱而是能“看见”、能“思考”、能“动手”的伙伴5.2 它适合谁又不适合谁强烈推荐给每天被重复操作淹没的运营、HR、行政、客服人员想用AI提效但不会编程的中小团队负责人对隐私敏感不愿把数据交给SaaS厂商的个人用户❌暂时不建议尝试仍在用安卓4.4以下老系统的用户ADB兼容性差手机已Root且禁用ADB调试的极客它依赖标准ADB协议期待“全自动无人值守金融操作”的用户安全设计就是不支持5.3 下一步你想让它做什么我已经让它开始学新技能看懂微信聊天记录自动把客户询价转成Excel报价单监控App Store更新新版本发布时自动截图发我分析钉钉审批流预测哪类请假最容易被驳回而这一切都始于那句最朴素的指令“帮我打卡”。技术的价值从来不在参数有多炫而在于它是否真的让一个人每天多出17分钟去喝杯咖啡、陪孩子读一页书、或者只是安静地发一会儿呆。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。