Together AI推出了Llama 3.2版本,用户可以在Together Playground上免费体验这一全新多模态模型。该模型在训练、微调和推理方面支持200多个模型,包括最新的Llama 3.2视觉模型。Llama 3.2在生产规模下实现了4倍的速...
Read MoreFlorence 2是一个小型视觉模型,完全基于onnx和WebGPU在浏览器中运行。WebGPU是一种新型的Web标准,为Web应用程序提供高效的低级图形和计算功能。这种模型旨在帮助开发者更好地理解和利用WebGPU的性能优势。Onnx则是...
Read More纽约大学(NYU)最近推出了一种全面公开、性能卓越的视觉模型Cambrian-1。此模型对文本编码器和数据混合进行了大规模的消融研究。这一技术的开发,将对视觉模型的研发产生深远影响,推动相关技术向前发展。全面开放...
Read MoreMUMU视觉模型是一种创新的生成图像模型,它的特点在于能够将文本和图像交织在一起进行更强的条件化处理。这种独特的方法使得MUMU视觉模型在性能上超越了纯文本条件化模型。MUMU视觉模型的核心优势在于,它不仅仅是将...
Read MoreTRL是一个Hugging Face库,专为使用强化学习训练变形金刚设计。这个示例允许您对基于视觉的语言模型如LLaVA进行相同的处理。Hugging Face是一个开源NLP(自然语言处理)社区和公司,致力于使用人工智能推动自然语言...
Read MoreAnthropic最近推出了一款名为Claude 3.5 Sonnet的新型视觉模型。Claude 3.5 Sonnet在性能上超越了Opus,而且成本只有Opus的五分之一。这款模型目前是市场上最优秀的视觉模型,颠覆了前沿模型的性能标准。Claude 3.5...
Read More近日,一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布,其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息,其性能和效率都达到了非常高的水平。这些模...
Read More微软最近发布了一套名为Florence-2的MIT许可的小型视觉语言模型(VLMs)。这套模型在图像标注、边界识别和分类等任务上,表现出色,大大超过了许多体型更大的模型。Florence-2模型的发布,标志着微软在人工智能和机...
Read More子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段,采用子对象标记化的模型会从有意义的段落,例如物体的部分来观察图像。这种新的视觉模型理解方式,相比传统的划分方案,可能更加...
Read More研究人员开发了一种名为随机颜色擦除的新学习策略,旨在解决计算机视觉中的颜色偏差问题。该方法通过从训练数据中选择性地移除颜色信息,平衡颜色与其他特征的重要性,从而提高模型在复杂场景中的表现,如广域监控和...
Read More