Tarsier:提升LLMs与网页交互的开源工具
talkingdev • 2024-05-23
527702 views
Reworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页的结构。在多项基准测试中,Tarsier的表现优于传统的视觉-语言模型。这个创新工具的推出,标志着LLMs在处理网页信息方面迈出了重要一步,未来有望在多个领域获得广泛应用。