漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-11-18 talkingdev

论文:LLaVA-O1技术,视觉语言模型的逐步推理能力

最新研究LLaVA-O1展现了视觉语言模型(Vision Language Models,简称LLM)在推理方面的重要进步。该技术通过让模型逐步处理信息,极大提升了语言模型在理解和分析视觉数据时的推理能力。LLaVA-O1模型结合了文本和图...

Read More
2024-08-01 talkingdev

Flux:开源文本到图像模型,参数达到120亿

由 FAL 团队开发的 Flux 是一个新的文本到图像模型,它是一个参数量达到 120 亿的深度神经网络。这个模型能够从文本描述中生成高质量、多样性的图像,它会对输入的文本进行语义分析,并且能够根据文本描述生成精细的...

Read More
2024-06-19 talkingdev

论文:图像的子对象标记化,革新视觉模型理解方式

子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段,采用子对象标记化的模型会从有意义的段落,例如物体的部分来观察图像。这种新的视觉模型理解方式,相比传统的划分方案,可能更加...

Read More
2024-05-13 talkingdev

Salesforce发布BLIP-V3模型,主要用于图像理解和标注

近日,Salesforce已经训练并发布了广受欢迎的BLIP模型的第三个非商业版本。这款模型主要用于图像理解和标注,是视觉和语言模型的最新成果。Salesforce一直致力于开发和研究这种模型,以提高其在图像理解和标注方面的...

Read More
2024-05-07 talkingdev

使用Morph-Tokens增强视觉能力

研究人员已经开发出“Morph-Tokens”来提高AI的视觉理解和图像生成能力。这些令牌将用于理解的抽象概念转换为用于图像创建的详细视觉,利用MLLM框架的先进处理能力。Morph-Tokens的开发,不仅能够提高AI的图像理解和生...

Read More
2024-03-21 talkingdev

交互式推理技术助力大型视觉语言模型更精准理解图像

Chain-of-Spot(CoS)技术近日提出了一种交互式推理方法,该方法大幅提升了大型视觉语言模型(LVLMs)处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域,使得LVLMs能够在不损失图像分辨率的前...

Read More
2023-10-20 talkingdev

Fuyu-8B:面向AI Agent的多模态架构

HuggingFace 上现已推出 Fuyu-8B,这是一款专为数字代理设计的多模态模型。与其他多模态模型不同的是,它具有简化的架构,并支持任意图像分辨率,在不到 100 毫秒的时间内响应大图像。尽管针对特定应用程序,Fuyu-8B...

Read More
2023-08-17 talkingdev

CIM开源,提升计算机视觉和图像理解能力

在一张图片中,计算机有时会将同一对象识别为多个。现在,一个新的项目开发出一种方法,帮助计算机识别并聚焦于对象的单一完整版本。这种方法的出现,将对计算机视觉和图像理解能力的提升起到关键作用,不仅可以优化...

Read More
2023-07-26 talkingdev

新论文:提升医疗图像理解的新方法

最新的一项研究论文介绍了一种新的方法,以更好地从医疗图像和相应的书面报告中学习。不同于以往的方法,这一方法专注于详细的图像-报告链接,并采用独特的手段在图像和报告之间重建和交换信息。该方法的创新之处在...

Read More
2023-07-07 talkingdev

采用分层开放词汇学习的图像分割方法 (GitHub Repo)

本论文介绍了HIPIE,一种新颖的图像分割方法,通过将不同的语义层次纳入其学习过程中,解决了复杂场景下的图像分割问题。它在各种图像理解任务中表现优于现有模型,为不同情境下的分割任务提供了统一的解决方案。

Read More