漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-11 talkingdev

Chameleon模型增加图像生成能力的新进展

Anole是一款基于Meta的Chameleon模型构建的开放自回归多模态模型。近期,研究者们着重对该模型进行了微调,成功地将图像生成能力重新整合进了模型中。这一改进不仅提高了模型的功能性,也为未来的开发打开了新的可能...

Read More
2024-07-03 talkingdev

mm-instruct:利用多样化的视觉指导数据提升多模态模型的性能

MM-Instruct是一个大规模数据集,旨在提升大型多模态模型(LMMs)的指令跟随能力。这个数据集集合了大量的指令和相关的视觉内容,帮助模型更好地理解和执行人类的指令。通过这种方式,MM-Instruct能够为多模态模型提...

Read More
2024-06-04 talkingdev

LLMs在医疗领域的新突破

InvariantSelectPR是一种旨在提高大型多模态模型(LMMs)在特定领域如医疗保健中的适应性的方法。这种方法通过优化模型的选择和调整,使其能够更好地处理不同领域的数据,提高预测的准确性和可靠性。在医疗领域,数...

Read More
2024-06-03 talkingdev

OpenAI 重启机器人研究团队,探索多模态机器人模型

在停摆三年后,OpenAI 宣布重启其机器人研究团队。此举旨在开发多模态机器人模型,并改进核心的人工智能模型。OpenAI 的这一决定标志着其在机器人领域的再度发力,旨在通过多模态模型结合视觉、语音和动作等多种感知...

Read More
2024-05-10 talkingdev

Image In Words数据集,图像与文字配对的新型标签方法

近日,一种新型的标签方法被研究者利用在了图片和文字的配对上,这种方法运用了两次的VLMs(视觉语言模型)扫描,产生了极为详细的图片和文字配对数据。这些配对数据的标题比以往的任何数据集都要详细,能够帮助训练...

Read More
2024-04-28 talkingdev

Llama3与SigLIP打造的多模态模型Bunny发布

多模态模型Bunny系列是一套强大的开放模型,尤其在MMMU基准测试中,其性能表现优秀。这是该团队基于Llama3 8B发布的首款开放模型。这个系列的模型采用了SigLIP与Llama3的技术,充分展示了其强大的性能和应用广泛性。...

Read More
2024-03-26 talkingdev

PSALM:面向图像分割任务的多模态模型扩展

PSALM是大型多模态模型(LMM)的扩展版本,通过引入一个掩码解码器和多功能输入模式,在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制,而且还使模型能够有效理解和分类复杂图像。PSALM的创...

Read More
2024-03-22 talkingdev

PuzzleVQA数据集:挑战GPT-4V等大型多模态模型的抽象推理能力

PuzzleVQA是一个专为测试大型多模态模型,如GPT-4V的抽象推理能力而设计的数据集。该数据集通过一系列复杂的视觉问题和答案对,评估模型在理解和推理方面的表现。这些问题往往需要模型进行深层次的逻辑思考和抽象概...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page