漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-25 talkingdev

论文:MMCbench新基准测试大型多模型

这篇技术报告介绍了MMCBench,这是一个新的基准测试,旨在测试各种任务如文本到图像和语音到文本等情况下大型多模型(LMMs)的一致性和可靠性。该测试涵盖了超过100个流行模型,旨在提高读者对这些AI系统在现实世界...

Read More
2023-11-30 talkingdev

Roboflow开源适用于多模态模型的提示库

标记提示集是一种聪明的方法,可以显着提高视觉+语言模型的性能。Roboflow的这个库为您提供类似的控制,并使使用这些模型构建强大的视觉管道变得更加容易。它甚至支持像LLaVa这样的开放模型。

Read More
2023-10-27 talkingdev

论文:评估GPT-4V的光学字符识别能力

本文研究了大型多模型GPT-4V在各种光学字符识别(OCR)任务中的表现,包括读取场景和手写文本,理解复杂的文档结构等。

Read More