漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

WebLinx对话式网页抓取数据集开源

talkingdev • 2024-02-14

629679 views

WebLinx是一个包含10万个基于对话格式的网络交互的数据集。它的发布是为了改善基于语言模型导向的网络导航的研究。该数据集包括对话、URL、HTML和屏幕截图。它由Carnegie Mellon大学的研究人员发布,已经开源。这个数据集可以帮助研究人员训练更好的语言模型,从而更好地理解对话式网页的结构和用户的行为。

核心要点

  • WebLinx对话式网页抓取数据集发布
  • 该数据集包括对话、URL、HTML和屏幕截图
  • 能够帮助研究人员训练更好的语言模型,更好地理解对话式网页的结构和用户的行为

Read more >