漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-28 talkingdev

通过街头霸王游戏测试基准语言模型

语言模型(LLMs)的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...

Read More
2024-02-14 talkingdev

苹果推出MGIE,一款革命性的AI模型,用于基于指令的图像编辑

苹果推出了一款名为MGIE的开源AI模型,用于图像编辑,使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作,例如“使图像更亮”或“添加红色滤镜”。苹果表示,MGIE的目的是...

Read More
2023-08-03 talkingdev

LISA开源:通过LLM进行推理分割

这项研究引入了一个名为“理性分割”的新AI任务,设计用于根据复杂和隐含的文本指令生成分割掩膜。此研究展示了一个名为LISA(Large-language Instructed Segmentation Assistant)的工具作为展示。LISA结合了大语言模...

Read More
2023-06-20 talkingdev

基于文本指令的图像编辑大规模数据集发布

MAGICBRUSH是一个独特的、大规模的数据集,可帮助通过文本指令进行图像编辑,改进了过去容易出错且需要大量手动调整的方法。MAGICBRUSH包含超过10,000个图像及其文本指令的示例,已用于训练InstructPix2Pix图像编辑...

Read More