漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-22 talkingdev

多模态模型训练方法LLaVa,可用于视频生成

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大,可以轻松实现视频摘要和字幕的最新表现。

Read More
2023-10-20 talkingdev

Fuyu-8B:面向AI Agent的多模态架构

HuggingFace 上现已推出 Fuyu-8B,这是一款专为数字代理设计的多模态模型。与其他多模态模型不同的是,它具有简化的架构,并支持任意图像分辨率,在不到 100 毫秒的时间内响应大图像。尽管针对特定应用程序,Fuyu-8B...

Read More
2023-10-13 talkingdev

多模态前沿模型的深度探究

本文深入探究了当前围绕多模态语言模型的研究活动。随着人工智能和自然语言处理领域的不断发展,多模态模型在语言理解、生成和预测等方面已经取得了很大的进展。本文介绍了多模态模型的基本原理,以及当前最先进的多...

Read More
2023-10-04 talkingdev

Reka发布旗舰多模态模型Yasa-1,表现亮眼

Reka近日推出一款名为Yasa-1的多模态模型,该模型能处理音频、视频和文本,是极其受欢迎的T5语言模型的创造者带来的最新力作。Yasa-1在许多任务中都展示了优秀的表现,目前正处于私人预览阶段。Yasa-1继承了T5的精神...

Read More
2023-09-29 talkingdev

联合训练大型多模态模型:一种新的算法取得了突破

模型通常针对特定任务(例如,语言生成和图像生成)进行单独训练。然而,最近提出的一种名为联合自回归混合(JAM)的算法,通过巧妙地交叉注意力和温和的微调,成功地将不同的模型结合在一起。这种新颖的方法在多种...

Read More
2023-04-20 talkingdev

机器学习:使用视觉指令调整大型语言模型

本文介绍了一篇新的论文,提出使用机器生成的指令跟踪数据来调整大型语言模型(LLMs)以执行多模态任务。该论文开发了LLaVA,这是一个大型多模态模型,它结合了视觉编码器和仅限于语言的GPT-4。经过调整后,LLaVA展...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3