"基准测试"的相关内容 - 漫话开发者

2024-07-17 talkingdev

Redis公布向量数据库基准测试结果

Redis最近公布了一项新的研究，该研究使用行业标准的Qdrant框架，对顶级的向量数据库进行了延迟和吞吐量的比较。关键发现包括Redis在低复杂度数据集上比竞品优越62%，在高维数据集上优越21%，在每秒查询次数和延迟方...

2024-06-28 talkingdev

MatText是一套专为评估材料科学中语言模型性能的基准测试工具和数据集。这套工具和数据集的设计目标，是使研究者能够更有效地理解和评估语言模型在材料科学应用中的表现。语言模型在材料科学中的应用，可以帮助科学...

2024-05-07 talkingdev

Vibe-Eval是一个新推出的基准测试，专为测试多模态聊天模型而设计。它包含了269项视觉理解提示，其中包括100项特别具有挑战性的提示。这些视觉理解提示的设计，力求能够全面、深入地评估和测试多模态聊天模型的性能...

2024-04-11 talkingdev

近期，Ada-LEval这一新基准测试的发布，旨在严格评估大型语言模型处理长篇及超长文本的理解能力。随着人工智能技术的不断进步，语言模型在处理文本信息方面的能力也越来越受到关注。Ada-LEval的推出，不仅为研究人员...

2024-04-10 talkingdev

近日，GitHub上发布了一项新的基准测试工具——化学工作台（Chemistry Bench），旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容，能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...

2024-03-08 talkingdev

近代LML中常用的多头注意力模块的不同实现之间的速度存在近10倍的差异。本笔记本展示了其中几个实现，并对其性能进行了基准测试。

2024-03-08 talkingdev

评估语言模型通常采用手动策划的基准测试。其中一些基准测试非常大，有些超过14k个示例，这导致评估成本和噪声很高。这项工作表明，您可以可靠地评估流行基准测试中的语言模型性能，只需使用100个示例即可。