Skip to content

Latest commit

 

History

History
156 lines (111 loc) · 8.8 KB

File metadata and controls

156 lines (111 loc) · 8.8 KB

Midscene.js

Midscene.js

English | 简体中文

官网: https://midscenejs.com/

web-infra-dev%2Fmidscene | Trendshift

AI 驱动、视觉感知,适用于全平台的 UI 自动化。

npm version hugging face model downloads License discord twitter Ask DeepWiki.com

📣 Midscene Skills 已上线!

使用 Midscene Skills 搭配 OpenClaw 控制任意平台

案例

💡 特性

用自然语言编写自动化

  • 描述你的目标和步骤,Midscene 会为你规划并操作用户界面。
  • 使用 Javascript SDK 或 YAML 编写自动化脚本。

Web + 移动 App + 任意界面

面向开发者

  • 三类 API:
  • MCP: Midscene 提供 MCP 服务,将 Midscene Agent 的原子操作暴露为 MCP 工具,让上层 Agent 可以用自然语言检查和操作 UI。文档
  • 缓存加速: 通过缓存回放脚本,更快得到结果。
  • 调试体验: Midscene.js 提供可视化回放报告、内置 playground 和 Chrome 插件,简化调试流程。这些正是开发者真正需要的工具。

👉 零代码快速体验

✨ 视觉语言模型驱动

Midscene.js 在 UI 操作上完全采用纯视觉路线:元素定位与交互仅基于截图。它支持 Qwen3-VLDoubao-1.6-visiongemini-3-proUI-TARS 等视觉语言模型。在数据提取与页面理解场景中,你仍可按需选择携带 DOM。

  • UI 操作使用纯视觉定位;不再保留 DOM 提取模式。
  • 支持 Web、移动端、桌面端,甚至 <canvas> 场景。
  • UI 操作跳过 DOM,token 更少,成本更低,速度更快。
  • 数据提取与页面理解场景仍可按需带上 DOM。
  • 支持强大的开源模型自托管方案。

阅读更多:模型策略

📄 资源

🤝 社区

🌟 Awesome Midscene

扩展 Midscene.js 能力的社区项目:

📝 致谢

感谢以下项目:

  • RsbuildRslib 提供构建工具支持。
  • UI-TARS 提供开源 Agent 模型 UI-TARS。
  • Qwen-VL 提供开源视觉语言模型 Qwen-VL。
  • scrcpyyume-chan 让我们能在浏览器中控制 Android 设备。
  • appium-adb 提供 adb 的 Javascript 桥接。
  • appium-webdriveragent 提供 Javascript 操作 XCTest 能力。
  • YADB 提供 yadb 工具以提升文本输入性能。
  • libnut-core 提供跨平台原生键鼠控制。
  • Puppeteer 提供浏览器自动化与控制能力。
  • Playwright 提供浏览器自动化、控制与测试能力。

📖 引用

如果你在研究或项目中使用了 Midscene.js,请引用:

@software{Midscene.js,
  author = {Xiao Zhou, Tao Yu, YiBing Lin},
  title = {Midscene.js: Your AI Operator for Web, Android, iOS, Automation & Testing.},
  year = {2025},
  publisher = {GitHub},
  url = {https://github.com/web-infra-dev/midscene}
}

✨ Star 历史

Star History Chart

📝 许可协议

Midscene.js 采用 MIT 许可证


如果这个项目对你有帮助或启发,欢迎点个 Star