开源|阿里开源Page Agent:用自然语言操控网页界面的JavaScript GUI智能体
thinkindev • 2026-03-11
1510 views
阿里巴巴近日在GitHub上开源了名为“Page Agent”的项目,这是一个运行在网页内部的JavaScript图形用户界面(GUI)智能体。该技术的核心创新在于,允许用户直接使用自然语言指令(如“点击登录按钮”或“在搜索框输入关键词”)来操控网页界面,而无需依赖传统的浏览器扩展程序或外部自动化工具。Page Agent通过直接与网页的文档对象模型(DOM)进行文本交互来实现控制,这代表了一种人机交互范式的潜在转变,即从精确的鼠标点击和键盘输入转向更直观、更接近人类交流方式的自然语言指令。这项技术有望在自动化测试、无障碍辅助、智能办公以及为不熟悉复杂界面的用户提供便利等多个领域产生重要影响。其“In-Page”(页内运行)的特性也意味着更高的集成度和潜在的更优性能。作为来自中国科技巨头阿里巴巴的开源项目,Page Agent的发布也预示着自然语言处理与前端交互深度融合这一前沿趋势正加速走向实际应用。
核心要点
- 项目允许用户通过自然语言指令直接控制网页界面,无需安装浏览器插件或外部工具。
- 核心技术基于JavaScript在网页内部运行,通过文本方式直接操作DOM实现交互控制。
- 该开源项目由阿里巴巴发布,代表了自然语言处理与前端人机交互融合的前沿探索方向。