漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-06 talkingdev

Ollama发布视觉模型本地部署支持

Ollama最近发布了对视觉模型的支持。Llava 1.6版本更新了支持,包括Python和JavaScript包中的视觉功能。

Read More
2024-02-02 talkingdev

FireLlava-商业许可的视觉模型开源

FireLlava是一个新的开源视觉模型,经过数据训练,可以用于商业任务。它与原始Llava的性能相当,但还没有达到Llava 1.5的水平。

Read More
2024-01-12 talkingdev

本地部署AI模型现在也能拥有视觉能力

Ollama现在支持视觉模型啦,这意味着您可以在MacBook Pro上运行Llava,实现最先进的视觉和语言性能。 随着人工智能技术的发展,AI的应用场景越来越广泛。然而,由于许多私人AI的计算能力和算法限制,它们往往无法像...

Read More
2023-12-13 talkingdev

BioCLIP:专为生物应用设计的视觉模型

近日,研究人员开发出了一种专门为生物应用设计的视觉模型BioCLIP。实验结果显示,在特定的生物任务上,BioCLIP的表现比OpenAI的clip高出近20%。此外,BioCLIP还提供了一个由1千万对图像和文本构成的训练集。 事实...

Read More
2023-12-06 talkingdev

Nous Research发布Hermes 2.5视觉模型

Nous Research发布了Hermes 2.5视觉模型,该模型基于最佳的7B语言模型和SigLIP集成,是一种强大的新型开源文本和视觉模型,可在消费级硬件上运行。这里的一个很酷的创新是集成函数调用。由于存在幻觉问题,该模型仍...

Read More
2023-11-17 talkingdev

论文:智能眼镜上的物体检测技术

该团队创建了一个新的面向视觉的RISC-V硬件,并训练了一个超小的YOLO计算机视觉模型,实现了低功耗和极低延迟的实时物体检测。该技术可广泛应用于智能眼镜、自动驾驶、智能家居等领域。

Read More
2023-11-14 talkingdev

Tarsier开源,基于视觉交互的Web Agent

随着强大的新视觉模型的出现,许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具(例如元素标记),您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

Read More
2023-10-23 talkingdev

SoM开源,多模态语言模型的新进展

多模态语言模型(multimodal language models)的发展正日益成熟。最近,一种名为State of Mark prompting的方法在GitHub Repo上引起了广泛关注。该方法首先使用Segment Anything算法对图像进行处理,对检测到的类别...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page