PSALM是大型多模态模型(LMM)的扩展版本,通过引入一个掩码解码器和多功能输入模式,在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制,而且还使模型能够有效理解和分类复杂图像。PSALM的创...
Read MoreElasticDiffusion是一种革新性的解码方法,它使得文本到图像的扩散模型能够在不经过额外训练的情况下,创建不同尺寸和宽高比的图像。这种技术的出现,为图像生成领域带来了新的可能性,尤其是在处理具有特定宽高比要...
Read More研究人员开发了一种名为View-Decoupled Transformer(VDT)的新型算法,用以应对通过不同摄像机视角识别个体的挑战,例如从无人机到地面摄像机的切换。VDT能够跨越视角差异,准确地识别和跟踪个体,这对于公共安全、...
Read More最近的一项研究提出了一种新的图像合成中写实阴影生成的方法,解决了以往在形状和强度准确性方面的挑战。研究人员通过增强ControlNet的强度调节模块以及扩展DESOBA数据集,显著提高了图像中阴影生成的质量。该技术的...
Read MoreCharacter Voice是一套功能,使用户能够在一对一聊天中听到角色对他们说话,将Character.AI体验提升到一个新的层次。这是公司构建多模态界面计划的第一步,该界面将促进更无缝、直观和引人入胜的互动体验。多模态界...
Read MoreOpen Interpreter O1 Light是一款创新的便携式语音接口设备,能够控制家中的电脑。它不仅能看见屏幕内容,还能使用各类应用程序,并不断学习新技能。作为一款开源基础设备,O1 Light为人工智能设备带来了全新的发展...
Read MoreSora项目是一次跨界合作的尝试,汇集了来自不同领域的视觉艺术家、设计师、创意总监和电影制作人的智慧。这个项目旨在通过创意的融合,探索艺术与科技的交汇点。Sora的内容丰富多彩,涵盖了从数字艺术到实景拍摄的多...
Read More由英特尔、谷歌、ARM、高通、三星等科技公司组成的统一加速(UXL)基金会,正在开发开源软件,旨在避免AI开发者受限于英伟达的专有技术。这一举措意味着,未来AI开发将有更多的选择,不必完全依赖英伟达的生态系统。...
Read More