漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-05 talkingdev

支持在浏览器WebGPU上运行的Florence 2模型

Florence 2是一个小型视觉模型,完全基于onnx和WebGPU在浏览器中运行。WebGPU是一种新型的Web标准,为Web应用程序提供高效的低级图形和计算功能。这种模型旨在帮助开发者更好地理解和利用WebGPU的性能优势。Onnx则是...

Read More
2024-07-01 talkingdev

纽约大学全面开源高性能视觉模型Cambrian-1

纽约大学(NYU)最近推出了一种全面公开、性能卓越的视觉模型Cambrian-1。此模型对文本编码器和数据混合进行了大规模的消融研究。这一技术的开发,将对视觉模型的研发产生深远影响,推动相关技术向前发展。全面开放...

Read More
2024-07-01 talkingdev

MUMU视觉模型:强势引领图像和文本的交织生成

MUMU视觉模型是一种创新的生成图像模型,它的特点在于能够将文本和图像交织在一起进行更强的条件化处理。这种独特的方法使得MUMU视觉模型在性能上超越了纯文本条件化模型。MUMU视觉模型的核心优势在于,它不仅仅是将...

Read More
2024-06-25 talkingdev

在TRL中训练视觉模型

TRL是一个Hugging Face库,专为使用强化学习训练变形金刚设计。这个示例允许您对基于视觉的语言模型如LLaVA进行相同的处理。Hugging Face是一个开源NLP(自然语言处理)社区和公司,致力于使用人工智能推动自然语言...

Read More
2024-06-21 talkingdev

Anthropic推出高效视觉模型Claude 3.5 Sonnet,性能超越Opus

Anthropic最近推出了一款名为Claude 3.5 Sonnet的新型视觉模型。Claude 3.5 Sonnet在性能上超越了Opus,而且成本只有Opus的五分之一。这款模型目前是市场上最优秀的视觉模型,颠覆了前沿模型的性能标准。Claude 3.5...

Read More
2024-06-20 talkingdev

TroL-高效大型语言和视觉模型开源

近日,一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布,其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息,其性能和效率都达到了非常高的水平。这些模...

Read More
2024-06-20 talkingdev

微软发布全新顶尖视觉模型Florence-2

微软最近发布了一套名为Florence-2的MIT许可的小型视觉语言模型(VLMs)。这套模型在图像标注、边界识别和分类等任务上,表现出色,大大超过了许多体型更大的模型。Florence-2模型的发布,标志着微软在人工智能和机...

Read More
2024-06-19 talkingdev

论文:图像的子对象标记化,革新视觉模型理解方式

子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段,采用子对象标记化的模型会从有意义的段落,例如物体的部分来观察图像。这种新的视觉模型理解方式,相比传统的划分方案,可能更加...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page