多模态的相关内容 - 漫话开发者

2024-09-27 talkingdev

体验Together AI的Llama 3.2，免费试用全新多模态模型

Together AI推出了Llama 3.2版本，用户可以在Together Playground上免费体验这一全新多模态模型。该模型在训练、微调和推理方面支持200多个模型，包括最新的Llama 3.2视觉模型。Llama 3.2在生产规模下实现了4倍的速...

2024-07-24 talkingdev

研究人员宣布了一个新的数据集，其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据，并可用于训练人工智能算法。通过使用这个数据集，研究人员可以更好地理解人类语言和视觉系统的工作...

2024-07-22 talkingdev

研究人员提出了一种名为“多模态专家混合体” (MoME) 的方法，以解决通用的多模态大型语言模型(MLLMs)中的任务干扰问题。在多模态大型语言模型中，任务干扰是一个常见的问题，它可能会影响模型的性能和效率。MoME的提...

2024-07-19 talkingdev

E5-V是一种新的框架，其改编了多模态大型语言模型（MLLMs）以创建全球多模态嵌入。通过使用提示，它弥补了不同输入类型之间的差距，而无需进行微调就实现了在多模态任务中的令人印象深刻的性能。这一全球多模态嵌入...

2024-07-11 talkingdev

Anole是一款基于Meta的Chameleon模型构建的开放自回归多模态模型。近期，研究者们着重对该模型进行了微调，成功地将图像生成能力重新整合进了模型中。这一改进不仅提高了模型的功能性，也为未来的开发打开了新的可能...

2024-07-08 talkingdev

EGIInet最近推出了一种新的点云补全方法，通过几何任务引导有效地结合了两种模态。这种方法的核心在于，通过几何任务引导，可以使两种模态的结合更为有效，从而达到更好的点云补全效果。EGIInet在GitHub上公开了这种...

2024-07-03 talkingdev

MM-Instruct是一个大规模数据集，旨在提升大型多模态模型（LMMs）的指令跟随能力。这个数据集集合了大量的指令和相关的视觉内容，帮助模型更好地理解和执行人类的指令。通过这种方式，MM-Instruct能够为多模态模型提...

2024-06-27 talkingdev

在预训练中，如何积极选择下一批最好的样本是一个挑战性和开放性的问题。DeepMind的这项工作探索了如何只花费10%的浮点运算和硬挖掘负样本，仍然能匹配各种任务的最新技术。在这个过程中，他们采用了一种名为“联合样...

2024-06-21 talkingdev

视觉启用的语言模型（VLMs）如GPT-4o和Gemini，能够赋予自主代理人完成诸如进行购物或编辑代码等任务的能力。然而，这项工作也突出了这些代理人易受到恶意攻击的脆弱性。在现实世界中，我们必须对这些具有视觉理解能...

2024-06-04 talkingdev

该研究探讨了如何利用CLIP（Contrastive Language-Image Pre-training）方法进行胸部X光片的异常检测。CLIP是一种新兴的多模态学习方法，它通过对图像和文本的联合训练，实现了在多个任务中的优异表现。在本研究中，...