漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

苹果公司和康奈尔大学的研究人员于10月份发布了一个名为Ferret的开源多模态LLM模型。Ferret是一个系统,可以在图像中的任何位置引用和定位任何东西,并以任何粒度进行查询。该模型可以检查图像上绘制的区域,确定其内部对于用户查询有用的元素,识别这些元素,绘制一个包围检测到的元素的边界框,并回答有关这些元素的问题。Ferret的发布表明,苹果公司正在开始更加开放其人工智能领域的工作。

核心要点

  • Ferret是一个开源的多模态LLM模型,可以实现图像中任意粒度的元素识别和查询。
  • Ferret模型可以检查图像上绘制的区域,确定其内部对于用户查询有用的元素,识别这些元素,绘制一个包围检测到的元素的边界框,并回答有关这些元素的问题。
  • 苹果公司的Ferret模型的发布表明,其正在开始更加开放其人工智能领域的工作。

Read more >