微软推出GUI-Actor:AI代理无需坐标即可操作屏幕界面
thinkindev • 2025-06-09
12388 views
微软研究院最新提出的GUI-Actor技术,彻底改变了AI代理与图形用户界面(GUI)的交互方式。这项突破性技术摒弃了传统依赖像素坐标预测的方法,转而采用注意力机制直接解析屏幕截图内容,使AI能够像人类一样'理解'界面元素并执行操作。该技术在多个GUI基准测试中达到了最先进水平,其技术优势在于仅需微调1亿参数(保持底层视觉模型冻结)即可媲美更大规模模型的性能,这标志着AI界面交互领域向高效能、低资源消耗方向迈出重要一步。该方法不仅大幅降低了计算成本,更为未来智能助手、自动化测试等场景提供了可扩展的解决方案,可能彻底改变人机交互范式。
核心要点
- 首创注意力机制替代坐标预测,实现AI对图形界面的'语义级'操作
- 仅微调1亿参数即达到SOTA性能,效率超传统方法10倍以上
- 冻结底层视觉模型的创新架构,为轻量化AI交互系统树立新标准