视觉语言模型的相关内容 - 漫话开发者

2024-11-18 talkingdev

论文：LLaVA-O1技术，视觉语言模型的逐步推理能力

最新研究LLaVA-O1展现了视觉语言模型（Vision Language Models，简称LLM）在推理方面的重要进步。该技术通过让模型逐步处理信息，极大提升了语言模型在理解和分析视觉数据时的推理能力。LLaVA-O1模型结合了文本和图...

2024-07-16 talkingdev

近日，研究人员提出了一种新的方法——标签驱动的自动提示调整(LAPT)，用于视觉语言模型如CLIP的异常值检测。这种新方法可以自动识别出数据集中的异常值，提高模型在处理各种情况时的灵活性和准确性。通过LAPT，可以更...

2024-07-15 talkingdev

MARS是一种全新的文本到图像(T2I)生成框架，它引入了语义视觉-语言集成专家(SemVIE)的特征。这种新型框架的主要目标是改进现有的T2I生成技术，使其能更好地理解和处理复杂的视觉语言任务。借助SemVIE，MARS能够实现...

2024-07-12 talkingdev

PaliGemma是一款基于SigLIP和Gemma 2B的强大视觉语言模型。这份技术报告详细阐述了在构建PaliGemma过程中的架构选择和数据收集方面所做的决策。SigLIP和Gemma 2B的结合使得PaliGemma在视觉语言建模方面展现出卓越性...

2024-07-10 talkingdev

Video Self-Training with augmented Reasoning (Video-STaR)是一种新的方法，用于改进大型视觉语言模型（LVLMs）。通过自我训练和增强推理，Video-STaR能够提高模型的学习能力和预测准确性。这种方法的主要优势在于...

2024-07-03 talkingdev

LLaRA是一个使用大型语言模型（LLM）来通过对话式的指令-响应对提高机器人行动政策的框架。通过整合视觉输入，这些视觉语言模型（VLM）处理状态信息并生成最优的政策决策。LLM的使用增强了机器人的理解和应对能力，...

2024-06-21 talkingdev

视觉启用的语言模型（VLMs）如GPT-4o和Gemini，能够赋予自主代理人完成诸如进行购物或编辑代码等任务的能力。然而，这项工作也突出了这些代理人易受到恶意攻击的脆弱性。在现实世界中，我们必须对这些具有视觉理解能...

2024-06-20 talkingdev

微软最近发布了一套名为Florence-2的MIT许可的小型视觉语言模型（VLMs）。这套模型在图像标注、边界识别和分类等任务上，表现出色，大大超过了许多体型更大的模型。Florence-2模型的发布，标志着微软在人工智能和机...

2024-06-12 talkingdev

CARES是一个全面的评估框架，用于评估医疗大视觉语言模型（Med-LVLMs）的可信度。该框架的目标是确保这些模型能够在医疗环境中提供可靠且准确的结果。就像其他的人工智能模型一样，医疗大视觉语言模型的可信度是其成...

2024-06-07 talkingdev

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型（VLM）。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术，包括深度学习和神经网络优化，从而实...