基准测试的相关内容 - 漫话开发者

2024-03-29 talkingdev

AI21发布Jamba语言模型，性能超越Transformers

AI21实验室近日发布了一款新型语言模型——Jamba，它采用了独特的模型结构，旨在实现比Transformers更高的效率，同时保持相当的性能水平。Jamba模型的最大亮点在于其创新性地融合了MoE（Mixture of Experts）层，这使...

2024-03-28 talkingdev

近日，英伟达的GPU在MLPerf推理测试中取得了优异的成绩，尤其是H200型号。MLPerf推理测试是业界公认的深度学习性能评估基准，对AI系统的推理能力进行全方位评测。在此次测试中，英伟达的GPU展现了其在处理复杂机器学...

2024-03-28 talkingdev

随着新的模型不断涌现，声称在标准基准测试中达到了最先进的水平，衡量这些模型在特定任务和数据上的表现变得尤为重要。Superpipe是一个强大的工具，它能够帮助开发者构建自己的数据评估流水线。通过Superpipe，用户...

2024-03-28 talkingdev

语言模型（LLMs）的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...

2024-03-18 talkingdev

Anthropic公司最新推出的Claude 3 Haiku AI模型，以其卓越的速度和经济性成为目前市场上最快的AI模型。该模型具备先进的视觉能力，并在各项基准测试中表现突出。Claude 3 Haiku专为企业设计，注重速度和可负担性，为...

2024-03-13 talkingdev

Cognition发布了一款名为Devin的新系统，该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数，而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。

2024-03-08 talkingdev

近代LML中常用的多头注意力模块的不同实现之间的速度存在近10倍的差异。本笔记本展示了其中几个实现，并对其性能进行了基准测试。

2024-03-08 talkingdev

评估语言模型通常采用手动策划的基准测试。其中一些基准测试非常大，有些超过14k个示例，这导致评估成本和噪声很高。这项工作表明，您可以可靠地评估流行基准测试中的语言模型性能，只需使用100个示例即可。