小型基准测试：用更少的示例评估LLM

talkingdev • 2024-03-08

563767 views

评估语言模型通常采用手动策划的基准测试。其中一些基准测试非常大，有些超过14k个示例，这导致评估成本和噪声很高。这项工作表明，您可以可靠地评估流行基准测试中的语言模型性能，只需使用100个示例即可。