斯坦福发布HELM Instruct基准测试

talkingdev • 2024-02-23

603679 views

斯坦福大学语言建模团队发布了一项广泛使用的基准测试，名为Holistic Evaluation of Language Models (HELM)。他们还发布了一份面向指令跟随的版本，名为HELM-Instruct。该测试是多维的、开放式的和绝对的。