漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-26 talkingdev

PSALM:面向图像分割任务的多模态模型扩展

PSALM是大型多模态模型(LMM)的扩展版本,通过引入一个掩码解码器和多功能输入模式,在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制,而且还使模型能够有效理解和分类复杂图像。PSALM的创...

Read More
2024-03-26 talkingdev

ElasticDiffusion-实现灵活尺寸和宽高比的文本生成图像

ElasticDiffusion是一种革新性的解码方法,它使得文本到图像的扩散模型能够在不经过额外训练的情况下,创建不同尺寸和宽高比的图像。这种技术的出现,为图像生成领域带来了新的可能性,尤其是在处理具有特定宽高比要...

Read More
2024-03-26 talkingdev

论文:无人机与地面摄像机联手实现人群识别技术突破

研究人员开发了一种名为View-Decoupled Transformer(VDT)的新型算法,用以应对通过不同摄像机视角识别个体的挑战,例如从无人机到地面摄像机的切换。VDT能够跨越视角差异,准确地识别和跟踪个体,这对于公共安全、...

Read More
2024-03-26 talkingdev

论文:图像合成中的写实阴影生成技术取得新突破

最近的一项研究提出了一种新的图像合成中写实阴影生成的方法,解决了以往在形状和强度准确性方面的挑战。研究人员通过增强ControlNet的强度调节模块以及扩展DESOBA数据集,显著提高了图像中阴影生成的质量。该技术的...

Read More
2024-03-26 talkingdev

Character Voice:让每个角色都有声音

Character Voice是一套功能,使用户能够在一对一聊天中听到角色对他们说话,将Character.AI体验提升到一个新的层次。这是公司构建多模态界面计划的第一步,该界面将促进更无缝、直观和引人入胜的互动体验。多模态界...

Read More
2024-03-26 talkingdev

全新Open Interpreter O1 Light:开启AI家居新时代

Open Interpreter O1 Light是一款创新的便携式语音接口设备,能够控制家中的电脑。它不仅能看见屏幕内容,还能使用各类应用程序,并不断学习新技能。作为一款开源基础设备,O1 Light为人工智能设备带来了全新的发展...

Read More
2024-03-26 talkingdev

Sora: 视觉艺术家、设计师、创意总监和电影制作人的创意集结

Sora项目是一次跨界合作的尝试,汇集了来自不同领域的视觉艺术家、设计师、创意总监和电影制作人的智慧。这个项目旨在通过创意的融合,探索艺术与科技的交汇点。Sora的内容丰富多彩,涵盖了从数字艺术到实景拍摄的多...

Read More
2024-03-26 talkingdev

谷歌、英特尔和ARM联手挑战英伟达AI芯片霸主地位

由英特尔、谷歌、ARM、高通、三星等科技公司组成的统一加速(UXL)基金会,正在开发开源软件,旨在避免AI开发者受限于英伟达的专有技术。这一举措意味着,未来AI开发将有更多的选择,不必完全依赖英伟达的生态系统。...

Read More
  1. Prev Page
  2. 208
  3. 209
  4. 210
  5. Next Page