漫话开发者 - UWL.ME Mobile
Loading more...
漫话开发者 - UWL.ME Mobile

近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非平稳性,导致学到的策略鲁棒性不足。WebGym包含了近30万个任务,覆盖了多样化的真实网站和不同难度级别,并配备了基于量规的评估体系。研究团队采用了一种简洁而有效的强化学习配方进行训练,利用智能体自身交互轨迹(rollout)和任务奖励作为反馈来指导学习。为了支撑大规模强化学习训练,他们专门为网页智能体开发了一套高吞吐量的异步轨迹采样系统,相比简单实现,采样速度提升了4-5倍。同时,通过扩展任务的广度、深度和规模,智能体的性能得以持续提升。实验结果显示,在WebGym上对强大的基础视觉语言模型Qwen-3-VL-8B-Instruct进行微调后,其在一个分布外测试集上的成功率从26.2%大幅提升至42.9%。这一成绩显著超越了基于GPT-4o(27.1%)和GPT-5-Thinking(29.8%)等专有模型的智能体。尤为关键的是,该测试集完全由训练过程中从未见过的网站任务构成,这比许多先前仅在已知网站变体上进行测试的工作更具挑战性和现实意义,证明了WebGym在推动视觉网页智能体泛化能力方面的巨大潜力。

核心要点

  • WebGym是迄今最大的开源视觉网页智能体训练环境,包含近30万个覆盖真实网站和不同难度的任务。
  • 研究开发了高吞吐量异步采样系统,将轨迹采样速度提升4-5倍,并采用基于自身交互轨迹的强化学习配方进行训练。
  • 微调Qwen-3-VL-8B-Instruct模型后,在完全未见的网站任务测试集上成功率提升至42.9%,显著超越GPT-4o和GPT-5-Thinking模型。

Read more >