Llava是一种视觉语言模型,最新版本为1.6,经过改进后,其OCR、推理和世界知识等方面有了很大提升,甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型,以便更多人能够使用。
Read More本周,Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露,该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道,该模型在EQ-Bench上超过了全球所有其他LLM模型,仅次于GPT-4。Mistra...
Read More元学习是训练系统学习和快速适应新任务的过程。谷歌的这项工作使用从通用图灵机生成的合成数据来改进元学习,并在实验和理论上分析结果。该论文称,通用预测器(UP)是一种通用的元学习方法,可以学习任何任务。UP是...
Read MoreNASA的火星直升机“机智号”(Ingenuity)最近完成了一次史无前例的飞行,它向人类展示了在其他星球上实现动力飞行是可能的,从而为人类探索和开拓其他星球带来了新契机。此次飞行突破了人类对其他星球飞行的局限,为未...
Read More研究人员开发出一种名为共享特征校准(SFC)的方法,以增强语义分割。这个方法通过在特征图上进行跨层归一化,来缩小不同层次特征图之间的差异,从而提高了模型的性能。通过在多个数据集上的测试,研究人员发现,使...
Read More图像相似度系统根据两个图像的相似程度给出分数。这项工作通过依赖于合成数据和人类偏好,改进了以前的方法。以往的方法主要是基于像素级别的相似度计算,而本研究使用了更先进的方法,如卷积神经网络,将图像表示为...
Read More研究人员开发出了一种新方法来创建场景图,使该过程更快速和高效。他们基于Transformer的技术专注于改进模型对图像中不同元素的理解和连接方式,从而提高了模型在挑战性任务上的性能。
Read More最近,由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成,将复杂的图像创建任务分解为更简单的任务,从而在处理多个...
Read More