漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-07 talkingdev

Vibe-Eval开源:评估多模态聊天模型基准测试

Vibe-Eval是一个新推出的基准测试,专为测试多模态聊天模型而设计。它包含了269项视觉理解提示,其中包括100项特别具有挑战性的提示。这些视觉理解提示的设计,力求能够全面、深入地评估和测试多模态聊天模型的性能...

Read More
2024-05-02 talkingdev

Reka发布内部评估套件 Vibe-Eval,火速赶超顶级玩家

Reka是一家专业训练大型基础模型的公司,尽管资金规模只是顶级玩家的一小部分,但其发展速度却迅速赶超了一些业界最佳参与者。近日,Reka发布了其内部评估套件Vibe-Eval的一个子集,该套件被用于确定其模型的强度。...

Read More