漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-04 talkingdev

论文:使多模态大型语言模型适应各种任务

多模态大型语言模型在许多任务中表现优秀,但在定位图像中的特定对象方面往往存在困难。为了改善这一问题,研究人员已经开发出一种新的方法:将物体的位置转化为文本,并通过特殊任务进行模型的训练。这种方法的出现...

Read More
2023-10-03 talkingdev

通过对话教授图像识别模型:开创视觉-语言模型新方法

研究人员已经开发出一种新的方法,仅通过自然语言提示就可以提高视觉-语言模型的性能。这些模型能够理解文本和图像,而研究人员的新方法将使它们在处理视觉和语言信息时更加精确。通过与模型进行对话,研究人员可以...

Read More
2023-09-27 talkingdev

OpenAI的GPT-4虽然在视觉领域有所突破,但仍存在缺陷

尽管OpenAI在防止其GPT-4视觉模型破解CAPTCHAS以及基于年龄和种族估计人的年龄方面已经取得了一定的进步,但它仍然有时难以进行推理,并且仍然容易产生幻觉。这些问题暴露出,尽管我们在人工智能的发展和应用上取得...

Read More
2023-09-21 talkingdev

DFormer开源,更深入理解RGB-D图像

DFormer是一种独特的方法,可以同时研究图像的颜色和深度。与旧有的方法不同,DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息(R,G,B)和深度信息(D)的图像。DFormer的设计目标是提供一种更有效的...

Read More
2023-09-14 talkingdev

ExLlamaV2:在消费级GPU上运行本地LLMs的推理库

ExLlamaV2是一个在GitHub上开源的项目,它是为现代消费级图像处理单元(GPU)上运行本地语言模型(LLMs)而设计的推理库。这款推理库的出现,可以帮助用户在个人电脑上使用现代GPU进行深度学习模型的推理计算,而无...

Read More
2023-09-04 talkingdev

modular-diffusion:一种使用PyTorch设计和训练自定义扩散模型的简单API

模块化扩散是一种易于使用的模块化API,可用于设计和训练自定义扩散模型。这款API基于PyTorch构建,为用户提供了一种灵活的方式,可根据需要进行定制和优化,从而实现在各种需求场景下的模型训练。由于其模块化的设...

Read More
2023-08-30 talkingdev

谷歌推出难以察觉但易于检测的SynthID水印

谷歌最近推出了名为SynthID的水印技术,该技术旨在使人类视觉难以察觉到图像中的水印,但对于检测工具而言却可以轻易发现。这种方式可为我们提供一种可靠的方法,以确定哪些图像是由人工智能生成的。这是谷歌在人工...

Read More
2023-08-23 talkingdev

AI预测两年成果报告

近日,一份评估人工智能(AI)进展的跨领域报告引起了业内的广泛关注。这份报告由一个专门预测各类结果的团队发布,详细分析了各类AI模型在各种基准测试中的表现。报告显示,一些前沿的AI模型在预测任务中表现出色,成...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page