漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

斯坦福发布HELM Instruct基准测试

talkingdev • 2024-02-23

603679 views

斯坦福大学语言建模团队发布了一项广泛使用的基准测试,名为Holistic Evaluation of Language Models (HELM)。他们还发布了一份面向指令跟随的版本,名为HELM-Instruct。该测试是多维的、开放式的和绝对的。

核心要点

  • 斯坦福发布HELM Instruct基准测试
  • HELM-Instruct面向指令跟随
  • 该测试是多维的、开放式的和绝对的

Read more >