漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-21 talkingdev

Art 3D:基于文本引导的高斯分布艺术场景生成技术

生成艺术性的二维图像是人工智能的一项有趣且富有创意的应用。这项工作通过高斯分布技术,将这一能力扩展到三维场景,并通过文本输入进行引导。高斯分布技术能够更加精准地捕捉和渲染三维空间中的细节,使得生成的3D...

Read More
2024-05-21 talkingdev

Art3D:高斯喷射技术引领文本指导的艺术场景生成

人工智能在生成艺术2D图像方面的运用早已让人们感到趣味盎然和富有创造力。而这项新的工作,将这种能力扩展到了3D领域,通过高斯喷射技术,以文本输入作为导向,使艺术场景生成更上一层楼。这种技术的出现,无疑为艺...

Read More
2024-05-17 talkingdev

MasterWeaver:一种全新的个性化文本到图像生成方法

在技术领域,一种名为MasterWeaver的新方法被提出,以提高个性化文本到图像生成模型的性能。这种技术的出现,无疑为AI领域的图像生成技术开辟了新的可能性,使得文本到图像的转换过程更为精确和个性化。MasterWeaver...

Read More
2024-03-28 talkingdev

通过街头霸王游戏测试基准语言模型

语言模型(LLMs)的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...

Read More
2024-02-23 talkingdev

开源多模态对话模型ChatterBox

众所周知,现代对话模型依赖于纯文本输入,因此在语言和视觉交互中,模型的表现力有限。为了克服这些限制,研究人员一直在探索多模态对话系统。在此背景下,ChatterBox是一种优秀的多模态对话模型,可在新建立的多模...

Read More
2024-02-09 talkingdev

论文:挑战多模态语言模型的新基准测试

一项新研究揭示了多模态大型语言模型(MLLMs)如GPT-4V的一个弱点:它们难以处理特定类型的图像-文本输入,从而导致错误。CorrelationQA是一个基准测试,旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

Read More
2023-11-02 talkingdev

HF开源结合语言模型和计算机视觉进行开放式分词

Hugging Face Space最近发布了两项重要技术:Segment Anything和MetaCLIP,这两项技术结合了最强大的语言模型和计算机视觉技术,能够基于文本输入进行开放式分词。开放式分词是计算机视觉领域中一个新颖且令人兴奋的...

Read More
2023-06-29 talkingdev

MotionGPT: 融合运动和语言的方法(GitHub仓库)

本仓库介绍了MotionGPT,这是一种将人体动作和语言相结合的新技术。通过将运动视为一种独立的语言形式,该工具可以帮助改善与运动相关的任务,例如根据文本输入预测或描述动作。

Read More
  1. Next Page