AR的相关内容 - 漫话开发者

2024-03-26 talkingdev

PSALM：面向图像分割任务的多模态模型扩展

PSALM是大型多模态模型（LMM）的扩展版本，通过引入一个掩码解码器和多功能输入模式，在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制，而且还使模型能够有效理解和分类复杂图像。PSALM的创...

2024-03-26 talkingdev

ElasticDiffusion是一种革新性的解码方法，它使得文本到图像的扩散模型能够在不经过额外训练的情况下，创建不同尺寸和宽高比的图像。这种技术的出现，为图像生成领域带来了新的可能性，尤其是在处理具有特定宽高比要...

2024-03-26 talkingdev

研究人员开发了一种名为View-Decoupled Transformer（VDT）的新型算法，用以应对通过不同摄像机视角识别个体的挑战，例如从无人机到地面摄像机的切换。VDT能够跨越视角差异，准确地识别和跟踪个体，这对于公共安全、...

2024-03-26 talkingdev

最近的一项研究提出了一种新的图像合成中写实阴影生成的方法，解决了以往在形状和强度准确性方面的挑战。研究人员通过增强ControlNet的强度调节模块以及扩展DESOBA数据集，显著提高了图像中阴影生成的质量。该技术的...

2024-03-26 talkingdev

Character Voice是一套功能，使用户能够在一对一聊天中听到角色对他们说话，将Character.AI体验提升到一个新的层次。这是公司构建多模态界面计划的第一步，该界面将促进更无缝、直观和引人入胜的互动体验。多模态界...

2024-03-26 talkingdev

Open Interpreter O1 Light是一款创新的便携式语音接口设备，能够控制家中的电脑。它不仅能看见屏幕内容，还能使用各类应用程序，并不断学习新技能。作为一款开源基础设备，O1 Light为人工智能设备带来了全新的发展...

2024-03-26 talkingdev

Sora项目是一次跨界合作的尝试，汇集了来自不同领域的视觉艺术家、设计师、创意总监和电影制作人的智慧。这个项目旨在通过创意的融合，探索艺术与科技的交汇点。Sora的内容丰富多彩，涵盖了从数字艺术到实景拍摄的多...

2024-03-26 talkingdev

由英特尔、谷歌、ARM、高通、三星等科技公司组成的统一加速（UXL）基金会，正在开发开源软件，旨在避免AI开发者受限于英伟达的专有技术。这一举措意味着，未来AI开发将有更多的选择，不必完全依赖英伟达的生态系统。...