漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-12 talkingdev

论文:PaliGemma技术报告-基于SigLIP 和 Gemma 2B的强大视觉语言模型

PaliGemma是一款基于SigLIP和Gemma 2B的强大视觉语言模型。这份技术报告详细阐述了在构建PaliGemma过程中的架构选择和数据收集方面所做的决策。SigLIP和Gemma 2B的结合使得PaliGemma在视觉语言建模方面展现出卓越性...

Read More
2024-05-15 talkingdev

Google发布PaliGemma优化模型

Google在今天的发布中公布并展示了一些开源模型。其中一个已经发布的模型是基于SigLIP的视觉语言模型。这个模型非常容易调整和扩展到多种任务。这个Colab笔记本展示了如何用简洁、易读的代码来实现这一点。SigLIP是...

Read More
2024-04-28 talkingdev

Llama3与SigLIP打造的多模态模型Bunny发布

多模态模型Bunny系列是一套强大的开放模型,尤其在MMMU基准测试中,其性能表现优秀。这是该团队基于Llama3 8B发布的首款开放模型。这个系列的模型采用了SigLIP与Llama3的技术,充分展示了其强大的性能和应用广泛性。...

Read More
2024-04-15 talkingdev

Gemma和Siglip推出VLLM,利用LAION和LLaVA数据集进行训练

Gemma和Siglip最近发布了一款小型但功能强大的视觉语言模型(VLLM),该模型专为理解和生成与图像相关联的语言而设计。VLLM利用大规模的LAION和LLaVA数据集进行训练,这些数据集包含了大量的图像和相关文本信息,使...

Read More
2024-01-30 talkingdev

基于Phi-2和SigLIP训练的多模态模型,可在本地设备上运行

最近,一款基于Phi-2和SigLIP训练的多模态模型Imp v1 3B发布了。该模型在性能上表现极为出色,并且体积小,足以在设备上运行。Imp v1 3B的发布,对于未来的多模态研究和应用具有重要意义。目前,该模型的开源代码已...

Read More
2023-12-06 talkingdev

Nous Research发布Hermes 2.5视觉模型

Nous Research发布了Hermes 2.5视觉模型,该模型基于最佳的7B语言模型和SigLIP集成,是一种强大的新型开源文本和视觉模型,可在消费级硬件上运行。这里的一个很酷的创新是集成函数调用。由于存在幻觉问题,该模型仍...

Read More
2023-09-29 talkingdev

谷歌发布SigLIP的checkpoints

联合嵌入模型将两种数据类型整合到一个空间中。CLIP是将图像和文本结合的热门方法之一。近期,谷歌研究员提出了一个表现优秀并且基于视觉变压器的Sigmoid CLIP模型。他们现在已经发布了关于模型的更多信息,并更新了...

Read More