视觉模型的相关内容 - 漫话开发者

2024-02-06 talkingdev

Ollama发布视觉模型本地部署支持

Ollama最近发布了对视觉模型的支持。Llava 1.6版本更新了支持，包括Python和JavaScript包中的视觉功能。

2024-02-02 talkingdev

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。

2024-01-12 talkingdev

Ollama现在支持视觉模型啦，这意味着您可以在MacBook Pro上运行Llava，实现最先进的视觉和语言性能。随着人工智能技术的发展，AI的应用场景越来越广泛。然而，由于许多私人AI的计算能力和算法限制，它们往往无法像...

2023-12-13 talkingdev

近日，研究人员开发出了一种专门为生物应用设计的视觉模型BioCLIP。实验结果显示，在特定的生物任务上，BioCLIP的表现比OpenAI的clip高出近20%。此外，BioCLIP还提供了一个由1千万对图像和文本构成的训练集。事实...

2023-12-06 talkingdev

Nous Research发布了Hermes 2.5视觉模型，该模型基于最佳的7B语言模型和SigLIP集成，是一种强大的新型开源文本和视觉模型，可在消费级硬件上运行。这里的一个很酷的创新是集成函数调用。由于存在幻觉问题，该模型仍...

2023-11-17 talkingdev

该团队创建了一个新的面向视觉的RISC-V硬件，并训练了一个超小的YOLO计算机视觉模型，实现了低功耗和极低延迟的实时物体检测。该技术可广泛应用于智能眼镜、自动驾驶、智能家居等领域。

2023-11-14 talkingdev

随着强大的新视觉模型的出现，许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具（例如元素标记），您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

2023-10-23 talkingdev

多模态语言模型（multimodal language models）的发展正日益成熟。最近，一种名为State of Mark prompting的方法在GitHub Repo上引起了广泛关注。该方法首先使用Segment Anything算法对图像进行处理，对检测到的类别...