VLM的相关内容 - 漫话开发者

2024-02-07 talkingdev

论文：多模态AI幻觉，解读视觉语言模型的错误描述现象

本篇论文揭示了大型视觉语言模型（LVLMs）为什么有时会错误地描述图像的原因，这种现象被称为多模态幻觉。语义转移偏差，特别是在段落中断处，是一个关键因素。研究人员发现，模型可能会出现误导性的预测，这些预测...

2024-01-23 talkingdev

机器学习工程开源书籍发布，该项目是一个开放的方法论集合，旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令，以使读者能够快速解决问题。该...

2024-01-09 talkingdev

V*是一种新的基于图像的搜索算法，可以显著提高GPT-V（和其他VLM）验证码识别性能。这项技术的开发者表示，V*可以通过大量的图像数据来训练模型，从而提高模型的精度。V*算法的另一个优点是它可以将不同的图像元素组...

2023-11-15 talkingdev

在深度学习领域中，视觉语言模型（VLM）越来越受到重视。由于Embedding as a Service Vision-Language Pre-Trained Models（VLPM）中的预训练模型包含了大量的视觉和语言信息，因此这种模型很容易成为恶意攻击的目标...

2023-11-09 talkingdev

CogVLM-17B是一个开放式的视觉语言模型，具有100亿视觉参数和70亿语言参数。该模型在许多标准基准测试中表现出色，并在人类评估中表现良好。CogVLM-17B的性能优于以往的模型，将为计算机视觉和自然语言处理领域的发...

2023-10-25 talkingdev

Cola是一个使用大型语言模型来协调各种视觉语言模型（VLM）以改进视觉推理的系统。该代码库已经在GitHub上发布。