漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-02 talkingdev

神秘的AI模型gpt2-chatbot引发热议,OpenAI下一代产品的预告?

近日,一款名为gpt2-chatbot的神秘AI模型在lmsys.org网站上引发关注,其展示的能力类似于GPT-4.5,这引起了人们对其是否是OpenAI未公开的下一代产品测试的猜测。关键标识如响应质量、OpenAI特有的特征和频率限制等都...

Read More
2024-04-28 talkingdev

Llama3与SigLIP打造的多模态模型Bunny发布

多模态模型Bunny系列是一套强大的开放模型,尤其在MMMU基准测试中,其性能表现优秀。这是该团队基于Llama3 8B发布的首款开放模型。这个系列的模型采用了SigLIP与Llama3的技术,充分展示了其强大的性能和应用广泛性。...

Read More
2024-04-16 talkingdev

Eleuther发布Pile-T5:现代AI编码任务的升级版基础模型

Eleuther团队近期对T5模型进行了重新训练,采用了现代的分词器并延长了训练时间。T5作为现代AI领域的一匹黑马,此次升级后的Pile-T5模型在编码任务上表现出了显著的性能提升。经过持续的优化和调整,Pile-T5在多项基...

Read More
2024-04-12 talkingdev

Mistral推出新型8x22B模型,性能卓越

Mistral公司近日发布了一款新型的8x22B模型,并通过磁力链接供用户下载体验。根据社区首批基准测试结果显示,该模型作为基础模型表现突出,其77 MMLU(与推理能力密切相关的指标)得分令人瞩目。这一新模型的出现,...

Read More
2024-04-11 talkingdev

Anthropic的Beta工具在伯克利函数调用基准测试中击败GPT-4 Turbo

Anthropic公司开发的Beta工具使用API,在伯克利函数调用基准测试中,有50%的案例表现优于GPT-4 Turbo。这一测试主要评估AI工具在调用函数和解决问题方面的能力。Anthropic的Beta工具展现出了更高效的问题解决能力和...

Read More
2024-04-11 talkingdev

Elon Musk发布升级版Grok AI 提升编程与数学能力

Elon Musk旗下的xAI公司近日推出了Grok-1.5人工智能系统,该系统在数学和编程方面的处理能力得到了显著提升。与前一版本相比,Grok-1.5在性能上有大幅度提升,并在与业界领先的AI模型如GPT-4的竞争性基准测试中表现...

Read More
2024-04-11 talkingdev

Ada-LEval:全新基准测试,挑战理解长文本的能力

近期,Ada-LEval这一新基准测试的发布,旨在严格评估大型语言模型处理长篇及超长文本的理解能力。随着人工智能技术的不断进步,语言模型在处理文本信息方面的能力也越来越受到关注。Ada-LEval的推出,不仅为研究人员...

Read More
2024-04-10 talkingdev

Chemistry Bench:针对语言模型的化学问题测试基准

近日,GitHub上发布了一项新的基准测试工具——化学工作台(Chemistry Bench),旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容,能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page