Midscene.js

English | 简体中文

官网: https://midscenejs.com/

AI 驱动、视觉感知，适用于全平台的 UI 自动化。

📣 Midscene Skills 已上线！

使用 Midscene Skills 搭配 OpenClaw 控制任意平台

案例

💡 特性

用自然语言编写自动化

描述你的目标和步骤，Midscene 会为你规划并操作用户界面。
使用 Javascript SDK 或 YAML 编写自动化脚本。

Web + 移动 App + 任意界面

Web 自动化: 可与 Puppeteer、Playwright 集成，或使用 Bridge Mode 控制桌面浏览器。
Android 自动化: 使用 Javascript SDK 搭配 adb 控制本地 Android 设备。
iOS 自动化: 使用 Javascript SDK 搭配 WebDriverAgent 控制本地 iOS 设备与模拟器。
任意界面自动化: 使用 Javascript SDK 控制你自己的界面。

面向开发者

三类 API:
- 交互 API: 与用户界面交互。
- 数据提取 API: 从用户界面与 DOM 中提取数据。
- 工具 API: aiAssert()、aiLocate()、aiWaitFor() 等实用函数。
MCP: Midscene 提供 MCP 服务，将 Midscene Agent 的原子操作暴露为 MCP 工具，让上层 Agent 可以用自然语言检查和操作 UI。文档
缓存加速: 通过缓存回放脚本，更快得到结果。
调试体验: Midscene.js 提供可视化回放报告、内置 playground 和 Chrome 插件，简化调试流程。这些正是开发者真正需要的工具。

👉 零代码快速体验

Chrome 插件: 通过 Chrome 插件立刻在浏览器内体验，无需编写代码。
Android Playground: 内置 Android playground，可控制本地 Android 设备。
iOS Playground: 内置 iOS playground，可控制本地 iOS 设备。

✨ 视觉语言模型驱动

Midscene.js 在 UI 操作上完全采用纯视觉路线：元素定位与交互仅基于截图。它支持 Qwen3-VL、Doubao-1.6-vision、gemini-3-pro、UI-TARS 等视觉语言模型。在数据提取与页面理解场景中，你仍可按需选择携带 DOM。

UI 操作使用纯视觉定位；不再保留 DOM 提取模式。
支持 Web、移动端、桌面端，甚至 <canvas> 场景。
UI 操作跳过 DOM，token 更少，成本更低，速度更快。
数据提取与页面理解场景仍可按需带上 DOM。
支持强大的开源模型自托管方案。

阅读更多：模型策略

📄 资源

官网: https://midscenejs.com
文档: https://midscenejs.com/zh
示例项目: https://github.com/web-infra-dev/midscene-example
API 参考: https://midscenejs.com/zh/api
GitHub: https://github.com/web-infra-dev/midscene

🤝 社区

🌟 Awesome Midscene

扩展 Midscene.js 能力的社区项目：

midscene-ios - 面向 Midscene 的 iOS Mirror 自动化支持
midscene-pc - 适配 Windows、macOS、Linux 的 PC 操作设备
midscene-pc-docker - 预装 Midscene-PC 服务端的 Docker 镜像
Midscene-Python - Midscene 自动化 Python SDK
midscene-java by @Master-Frank - Midscene 自动化 Java SDK
midscene-java by @alstafeev - Midscene 自动化 Java SDK

📝 致谢

感谢以下项目：

Rsbuild 与 Rslib 提供构建工具支持。
UI-TARS 提供开源 Agent 模型 UI-TARS。
Qwen-VL 提供开源视觉语言模型 Qwen-VL。
scrcpy 与 yume-chan 让我们能在浏览器中控制 Android 设备。
appium-adb 提供 adb 的 Javascript 桥接。
appium-webdriveragent 提供 Javascript 操作 XCTest 能力。
YADB 提供 yadb 工具以提升文本输入性能。
libnut-core 提供跨平台原生键鼠控制。
Puppeteer 提供浏览器自动化与控制能力。
Playwright 提供浏览器自动化、控制与测试能力。

📖 引用

如果你在研究或项目中使用了 Midscene.js，请引用：

@software{Midscene.js,
  author = {Xiao Zhou, Tao Yu, YiBing Lin},
  title = {Midscene.js: Your AI Operator for Web, Android, iOS, Automation & Testing.},
  year = {2025},
  publisher = {GitHub},
  url = {https://github.com/web-infra-dev/midscene}
}

✨ Star 历史

📝 许可协议

Midscene.js 采用 MIT 许可证。

如果这个项目对你有帮助或启发，欢迎点个 Star

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Midscene.js

📣 Midscene Skills 已上线！

案例

💡 特性

用自然语言编写自动化

Web + 移动 App + 任意界面

面向开发者

👉 零代码快速体验

✨ 视觉语言模型驱动

📄 资源

🤝 社区

🌟 Awesome Midscene

📝 致谢

📖 引用

✨ Star 历史

📝 许可协议

FilesExpand file tree

README.zh.md

Latest commit

History

README.zh.md

File metadata and controls

Midscene.js

📣 Midscene Skills 已上线！

案例

💡 特性

用自然语言编写自动化

Web + 移动 App + 任意界面

面向开发者

👉 零代码快速体验

✨ 视觉语言模型驱动

📄 资源

🤝 社区

🌟 Awesome Midscene

📝 致谢

📖 引用

✨ Star 历史

📝 许可协议