AI 驱动、视觉感知,适用于全平台的 UI 自动化。
使用 Midscene Skills 搭配 OpenClaw 控制任意平台
- Web 自动化 - 在浏览器中自动注册 GitHub 表单并通过所有字段校验
- iOS 自动化 - 美团下单咖啡
- iOS 自动化 - 自动点赞 @midscene_ai 的第一条推文
- Android 自动化 - 懂车帝:查看小米 SU7 参数
- Android 自动化 - 预订圣诞节酒店
- MCP 集成 - Midscene MCP UI prepatch 版本发布
- 车机测试中的机械臂 + 视觉 + 语音方案
- 描述你的目标和步骤,Midscene 会为你规划并操作用户界面。
- 使用 Javascript SDK 或 YAML 编写自动化脚本。
- Web 自动化: 可与 Puppeteer、Playwright 集成,或使用 Bridge Mode 控制桌面浏览器。
- Android 自动化: 使用 Javascript SDK 搭配 adb 控制本地 Android 设备。
- iOS 自动化: 使用 Javascript SDK 搭配 WebDriverAgent 控制本地 iOS 设备与模拟器。
- 任意界面自动化: 使用 Javascript SDK 控制你自己的界面。
- 三类 API:
- MCP: Midscene 提供 MCP 服务,将 Midscene Agent 的原子操作暴露为 MCP 工具,让上层 Agent 可以用自然语言检查和操作 UI。文档
- 缓存加速: 通过缓存回放脚本,更快得到结果。
- 调试体验: Midscene.js 提供可视化回放报告、内置 playground 和 Chrome 插件,简化调试流程。这些正是开发者真正需要的工具。
- Chrome 插件: 通过 Chrome 插件 立刻在浏览器内体验,无需编写代码。
- Android Playground: 内置 Android playground,可控制本地 Android 设备。
- iOS Playground: 内置 iOS playground,可控制本地 iOS 设备。
Midscene.js 在 UI 操作上完全采用纯视觉路线:元素定位与交互仅基于截图。它支持 Qwen3-VL、Doubao-1.6-vision、gemini-3-pro、UI-TARS 等视觉语言模型。在数据提取与页面理解场景中,你仍可按需选择携带 DOM。
- UI 操作使用纯视觉定位;不再保留 DOM 提取模式。
- 支持 Web、移动端、桌面端,甚至
<canvas>场景。 - UI 操作跳过 DOM,token 更少,成本更低,速度更快。
- 数据提取与页面理解场景仍可按需带上 DOM。
- 支持强大的开源模型自托管方案。
阅读更多:模型策略
- 官网: https://midscenejs.com
- 文档: https://midscenejs.com/zh
- 示例项目: https://github.com/web-infra-dev/midscene-example
- API 参考: https://midscenejs.com/zh/api
- GitHub: https://github.com/web-infra-dev/midscene
扩展 Midscene.js 能力的社区项目:
- midscene-ios - 面向 Midscene 的 iOS Mirror 自动化支持
- midscene-pc - 适配 Windows、macOS、Linux 的 PC 操作设备
- midscene-pc-docker - 预装 Midscene-PC 服务端的 Docker 镜像
- Midscene-Python - Midscene 自动化 Python SDK
- midscene-java by @Master-Frank - Midscene 自动化 Java SDK
- midscene-java by @alstafeev - Midscene 自动化 Java SDK
感谢以下项目:
- Rsbuild 与 Rslib 提供构建工具支持。
- UI-TARS 提供开源 Agent 模型 UI-TARS。
- Qwen-VL 提供开源视觉语言模型 Qwen-VL。
- scrcpy 与 yume-chan 让我们能在浏览器中控制 Android 设备。
- appium-adb 提供 adb 的 Javascript 桥接。
- appium-webdriveragent 提供 Javascript 操作 XCTest 能力。
- YADB 提供 yadb 工具以提升文本输入性能。
- libnut-core 提供跨平台原生键鼠控制。
- Puppeteer 提供浏览器自动化与控制能力。
- Playwright 提供浏览器自动化、控制与测试能力。
如果你在研究或项目中使用了 Midscene.js,请引用:
@software{Midscene.js,
author = {Xiao Zhou, Tao Yu, YiBing Lin},
title = {Midscene.js: Your AI Operator for Web, Android, iOS, Automation & Testing.},
year = {2025},
publisher = {GitHub},
url = {https://github.com/web-infra-dev/midscene}
}Midscene.js 采用 MIT 许可证。
如果这个项目对你有帮助或启发,欢迎点个 Star
