基准测试的相关内容 - 漫话开发者

2024-04-08 talkingdev

MLPerf 基准测试新增大型生成型AI模型，Nvidia 系统性能超群

MLPerf 近日更新了其推理基准测试，新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型，这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中，Nvidia 的系统，尤其是搭载了 H200 处理器的...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...

2024-04-03 talkingdev

一款名为SWE-agent的开源软件代理在软件工程(SWE)基准测试中取得了12%的成功率，覆盖率达到100%。该代理利用GPT-4技术辅助编写软件并解决PRs（Pull Requests）。此代理的出现，不仅展示了人工智能在软件开发领域的潜...

2024-04-02 talkingdev

英伟达在其GitHub仓库Optimum-Nvidia中发布了TensorRT的最新更新，这一更新使得AI推理速度大幅提高，达到了比基线快28倍的速度。特别是在Llama 2的基准测试中，能够达到每秒处理1200个令牌的惊人速度。这一进步得益...

2024-04-02 talkingdev

视觉语言模型（VLMs）在处理输入图像时，有时会遇到无法回答的问题。即便是最先进的VLMs，如GPT-4V，也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试，并探讨了一些可能的改进方向。研究者们通过...

2024-04-02 talkingdev

苹果公司的人工智能研究人员开发了一种新型系统ReALM，该系统通过考虑屏幕上的内容、对话中的实体以及背景信息，增强了Siri理解上下文的能力。在基准测试中，ReALM系统的性能超过了ChatGPT 4.0。这一突破性的技术进...

2024-04-01 talkingdev

EvoEval是一套全新的基准测试工具，专为评估大型语言模型（LLMs）的编码能力而设计。该测试套件采用了比以往更加严格的测试标准，以确保对LLMs编程能力的全面检测。EvoEval的发布意味着开发者和研究人员现在可以更准...

2024-03-29 talkingdev

谷歌发布了一份数据集和基准测试，用以展示各语言模型生成事实信息的能力。本报告深入分析了如何提升模型的真实性，并揭示在多数情况下语言模型胜过人类注释者。这一发现不仅对技术领域产生重大影响，也对如何使用人...