2026/4/10 14:24:11
网站建设
项目流程
微擎pc网站开发,郑州网站建设招标,上海装修公司前100名,网站忘记后台地址文章来源#xff5c;ByteDance Web Infra 团队 Midscene 自 2024 年开源发布以来#xff0c;已经在 Github 斩获 11k star 、Trending 榜第二名等成绩#xff0c;并在互联网、金融、政企、汽车等大量应用场景下完成落地。
本月#xff0c;我们正式宣布 Midscene v1.0 发布…文章来源ByteDance Web Infra 团队Midscene 自 2024 年开源发布以来已经在 Github 斩获 11k star 、Trending 榜第二名等成绩并在互联网、金融、政企、汽车等大量应用场景下完成落地。本月我们正式宣布 Midscene v1.0 发布本文将为你介绍案例回顾Midscene 在 PC、Android、iOS 等场景的任务能力社区案例社区开发者基于 Midscene 与任意界面集成的特性扩展了机械臂 视觉模型 语音模型等模块完成车机测试1.0 版本的模型路线拥抱纯视觉1.0 版本的特性优化报告优化、MCP 架构、跨端增强、API 变更等。案例回顾社区案例视觉模型 机械臂有社区开发者成功基于 Midscene 与任意界面集成的特性扩展了机械臂 视觉模型 语音模型等模块运用于车机大屏测试场景中。视觉模型 机械臂可在公众号查看视频https://mp.weixin.qq.com/s/24rFtAfihEos6f1u83jeLg移动端案例外卖下单打开美团帮我下单一杯 manner 超大杯冰美式咖啡要加浓少冰喔到结算页面让我确认。外卖下单在我们的 Midscene 官网上还有更多实战案例iOS 自动化 - Twitter 自动点赞 midscene_ai 首条推文Android 自动化 - 懂车帝查看小米 SU7 参数Android 自动化 - Booking 预订圣诞酒店MCP 集成 - Midscene MCP 操作界面发布 prepatch 版本。1.0 版本的模型路线从 V1.0 开始Midscene 全面转向视觉理解方案提供更稳定可靠的 UI 自动化能力。视觉模型有以下特点效果稳定业界领先的视觉模型如 Doubao Seed 1.6、Qwen3-VL 等表现足够稳定已经可以满足大多数业务需求UI 操作规划视觉模型通常具备较强的 UI 操作规划能力能够完成不少复杂的任务流程适用于任意系统自动化框架不再依赖 UI 渲染的技术栈无论是 Android、iOS、桌面应用还是浏览器中的canvas只要能获取截图Midscene 即可完成交互操作易于编写抛弃各类 selector 和 DOM 之后开发者与模型的“磨合”会变得更简单不熟悉渲染技术的新人也能很快上手token 量显著下降在去除 DOM 提取之后视觉方案的 token 使用量可以减少 80%成本更低且本地运行速度也变得更快有开源模型解决方案开源模型表现渐佳开发者开始有机会进行私有化部署模型如 Qwen3-VL 提供的 8B、30B 等版本在不少项目中都有着不错的效果。详情请阅读我们更新版的模型策略[1]。 多模型组合为复杂任务带来更好效果除了默认的交互场景Midscene 还定义了 Planning规划和 Insight洞察两种意图开发者可以按需为它们启用独立的模型。例如用 GPT 模型做规划同时使用默认的 Doubao 模型做元素定位。多模型组合让开发者可以按需提升复杂需求的处理能力。 运行时架构优化针对 Midscene 的运行时表现我们进行了以下优化减少对设备信息接口的调用在确保安全的情况下复用部分上下文信息提升运行时性能让大多数的时间消耗集中在模型端优化 Web 及移动端环境下的 Action Space 组合向模型开放更合理、更清晰的工具集。 回放报告优化回放报告是 Midscene 开发者非常依赖的一个特性它能有效提升脚本的调试效率。在 v1.0 中我们更新了回放报告参数视图标记出交互参数的位置信息合并截图信息快速识别模型的规划结果样式调整支持以深色模式展示报告更美观Token 消耗的展示支持按模型汇总 Token 消耗量分析不同场景的成本情况。 MCP 架构重构我们重新定义了 Midscene MCP 服务的定位。Midscene MCP 的职责是围绕着视觉驱动的 UI 操作展开将 iOS / Android / Web 设备 Action Space 中的每个 Action 操作暴露为 MCP 工具也就是提供各类“原子操作”。通过这种形式开发者可以更专注于构建自己的高阶 Agent而无需关心底层 UI 操作的实现细节并且时刻获得满意的成功率。详情请阅读MCP 文档[2]。 移动端能力增强iOS 改进新增 WebDriverAgent 5.x-7.x 全版本兼容新增 WebDriver Clear API 支持解决动态输入框问题提升设备兼容性。Android 改进新增截图轮询回退机制提升远程设备稳定性新增屏幕方向自动适配displayId 截图新增 YAML 脚本runAdbShell支持。跨平台在 Agent 实例上暴露系统操作接口包括 Home、Back、RecentApp 等。 API 变更方法重命名向后兼容改名aiAction()→aiAct()旧方法保留有弃用警告改名logScreenshot()→recordToReport()旧方法保留有弃用警告。环境变量重命名向后兼容改名OPENAI_API_KEY→MODEL_API_KEY新变量优先旧变量作为备选改名OPENAI_BASE_URL→MODEL_BASE_URL新变量优先旧变量作为备选。⬆️ 升级到最新版升级项目中的依赖例如npm install midscene/weblatest --save-devnpm install midscene/androidlatest --save-devnpm install midscene/ioslatest --save-dev。如果使用全局安装的命令行版本npm i -g midscene/cli。了解更多Midscene.js https://midscenejs.comGithub https://github.com/web-infra-dev/midscene1.0 版本 Changelog https://midscenejs.com/zh/changelog.html参考资料[1] 模型策略: https://midscenejs.com/zh/model-strategy[2] MCP 文档: https://midscenejs.com/zh/mcp