漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-23 talkingdev

MathBench:LLM的数学能力评估新基准

MathBench是一项旨在全面评估大语言模型数学能力的新基准。这一基准的设计初衷是为了填补当前评估工具在数学领域的空白,提供一个更加系统化和科学化的评估方法。MathBench不仅涵盖了基础数学运算,还包括高级数学理...

Read More
2024-04-11 talkingdev

Elon Musk发布升级版Grok AI 提升编程与数学能力

Elon Musk旗下的xAI公司近日推出了Grok-1.5人工智能系统,该系统在数学和编程方面的处理能力得到了显著提升。与前一版本相比,Grok-1.5在性能上有大幅度提升,并在与业界领先的AI模型如GPT-4的竞争性基准测试中表现...

Read More