Llava的相关内容 - 漫话开发者

2024-06-25 talkingdev

在TRL中训练视觉模型

TRL是一个Hugging Face库，专为使用强化学习训练变形金刚设计。这个示例允许您对基于视觉的语言模型如LLaVA进行相同的处理。Hugging Face是一个开源NLP（自然语言处理）社区和公司，致力于使用人工智能推动自然语言...

2024-05-22 talkingdev

在大型视觉语言模型（LVLMs）中，输出结果往往更倾向于语言模型的先验知识，而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术，有效减少了这种偏差。这些技术使得模型在处理各种任务时，能够生成更加准...

2024-05-17 talkingdev

Xmodel-VLM是一种针对消费级GPU服务器优化的视觉语言模型。为解决高昂的服务成本限制了大规模多模态系统的应用，这个10亿规模的模型采用了LLaVA范式进行模态对齐。这是一种新的方法，它优化了视觉和语言之间的协同工...

2024-04-29 talkingdev

研究人员近日推出了一种名为PLLaVA的新模型，该模型通过采用独特的池化策略，使得图像-语言人工智能模型能够适应视频任务。在众多已有的图像-语言模型中，PLLaVA以其全新的应用方式和技术策略，展现出了强大的潜力和...

2024-04-15 talkingdev

Gemma和Siglip最近发布了一款小型但功能强大的视觉语言模型（VLLM），该模型专为理解和生成与图像相关联的语言而设计。VLLM利用大规模的LAION和LLaVA数据集进行训练，这些数据集包含了大量的图像和相关文本信息，使...

2024-03-13 talkingdev

该项目提出了一种改善大型视觉语言模型（例如LLaVA-1.5、QwenVL-Chat和Video-LLaVA）效率的方法，解决了“低效的注意力”问题。使用FastV这种新方法，通过修剪视觉令牌和学习自适应注意力模式来优化这些模型，从而显著...

2024-02-22 talkingdev

近日，GitHub推出了一项新的方法，可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器，有效地保护这些模型免受恶意图像攻击，提高了它们在现实应用中的可靠...

2024-02-06 talkingdev

Ollama最近发布了对视觉模型的支持。Llava 1.6版本更新了支持，包括Python和JavaScript包中的视觉功能。