改进的相关内容 - 漫话开发者

2024-02-02 talkingdev

Llava 1.6发布，OCR、推理和世界知识得到改进

Llava是一种视觉语言模型，最新版本为1.6，经过改进后，其OCR、推理和世界知识等方面有了很大提升，甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型，以便更多人能够使用。

2024-02-01 talkingdev

本周，Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露，该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道，该模型在EQ-Bench上超过了全球所有其他LLM模型，仅次于GPT-4。Mistra...

2024-01-31 talkingdev

元学习是训练系统学习和快速适应新任务的过程。谷歌的这项工作使用从通用图灵机生成的合成数据来改进元学习，并在实验和理论上分析结果。该论文称，通用预测器（UP）是一种通用的元学习方法，可以学习任何任务。UP是...

2024-01-30 talkingdev

NASA的火星直升机“机智号”(Ingenuity)最近完成了一次史无前例的飞行，它向人类展示了在其他星球上实现动力飞行是可能的，从而为人类探索和开拓其他星球带来了新契机。此次飞行突破了人类对其他星球飞行的局限，为未...

2024-01-29 talkingdev

研究人员开发出一种名为共享特征校准（SFC）的方法，以增强语义分割。这个方法通过在特征图上进行跨层归一化，来缩小不同层次特征图之间的差异，从而提高了模型的性能。通过在多个数据集上的测试，研究人员发现，使...

2024-01-29 talkingdev

图像相似度系统根据两个图像的相似程度给出分数。这项工作通过依赖于合成数据和人类偏好，改进了以前的方法。以往的方法主要是基于像素级别的相似度计算，而本研究使用了更先进的方法，如卷积神经网络，将图像表示为...

2024-01-29 talkingdev

研究人员开发出了一种新方法来创建场景图，使该过程更快速和高效。他们基于Transformer的技术专注于改进模型对图像中不同元素的理解和连接方式，从而提高了模型在挑战性任务上的性能。

2024-01-25 talkingdev

最近，由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成，将复杂的图像创建任务分解为更简单的任务，从而在处理多个...