漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-08 talkingdev

MLPerf 基准测试新增大型生成型AI模型,Nvidia 系统性能超群

MLPerf 近日更新了其推理基准测试,新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型,这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中,Nvidia 的系统,尤其是搭载了 H200 处理器的...

Read More
2024-04-08 talkingdev

论文:ReaLMistake基准测试,系统识别大型语言模型错误

研究人员近日推出了ReaLMistake基准测试工具,该工具专注于系统性地检测大型语言模型(LLM)响应中的错误。随着人工智能技术的发展,大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而,这些模型在生成文...

Read More
2024-04-03 talkingdev

开源软件工程Agent与Devin性能匹敌

一款名为SWE-agent的开源软件代理在软件工程(SWE)基准测试中取得了12%的成功率,覆盖率达到100%。该代理利用GPT-4技术辅助编写软件并解决PRs(Pull Requests)。此代理的出现,不仅展示了人工智能在软件开发领域的潜...

Read More
2024-04-02 talkingdev

英伟达TensorRT更新,性能提升达28倍,Llama 2基准测试每秒处理1200个令牌

英伟达在其GitHub仓库Optimum-Nvidia中发布了TensorRT的最新更新,这一更新使得AI推理速度大幅提高,达到了比基线快28倍的速度。特别是在Llama 2的基准测试中,能够达到每秒处理1200个令牌的惊人速度。这一进步得益...

Read More
2024-04-02 talkingdev

论文:视觉语言模型遇到难题:新基准测试与改进方向

视觉语言模型(VLMs)在处理输入图像时,有时会遇到无法回答的问题。即便是最先进的VLMs,如GPT-4V,也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试,并探讨了一些可能的改进方向。研究者们通过...

Read More
2024-04-02 talkingdev

苹果研究团队推出ReALM系统,性能超越GPT-4

苹果公司的人工智能研究人员开发了一种新型系统ReALM,该系统通过考虑屏幕上的内容、对话中的实体以及背景信息,增强了Siri理解上下文的能力。在基准测试中,ReALM系统的性能超过了ChatGPT 4.0。这一突破性的技术进...

Read More
2024-04-01 talkingdev

EvoEval:全新代码基准测试套件,全面提升大型语言模型编程能力评估

EvoEval是一套全新的基准测试工具,专为评估大型语言模型(LLMs)的编码能力而设计。该测试套件采用了比以往更加严格的测试标准,以确保对LLMs编程能力的全面检测。EvoEval的发布意味着开发者和研究人员现在可以更准...

Read More
2024-03-29 talkingdev

论文:LLM中的长篇文章真实性研究

谷歌发布了一份数据集和基准测试,用以展示各语言模型生成事实信息的能力。本报告深入分析了如何提升模型的真实性,并揭示在多数情况下语言模型胜过人类注释者。这一发现不仅对技术领域产生重大影响,也对如何使用人...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page