多模态模型Bunny系列是一套强大的开放模型,尤其在MMMU基准测试中,其性能表现优秀。这是该团队基于Llama3 8B发布的首款开放模型。这个系列的模型采用了SigLIP与Llama3的技术,充分展示了其强大的性能和应用广泛性。...
Read More近日,Draw-and-Understand项目推出了一款名为SPHINX-V的多模态大型语言模型。该模型通过视觉提示,旨在增强人与AI之间的互动交流。SPHINX-V结合了文本、图像与声音等多种信息输入,通过深度学习技术,实现了更加自...
Read More这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...
Read More