漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-22 talkingdev

llava-align:校正视觉语言模型中的关键偏差技术突破

在大型视觉语言模型(LVLMs)中,输出结果往往更倾向于语言模型的先验知识,而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术,有效减少了这种偏差。这些技术使得模型在处理各种任务时,能够生成更加准...

Read More
2024-05-21 talkingdev

LeMeViT:通过可学习元令牌加速视觉Transformer

LeMeViT是一种新的方法,通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息,从而显著提高推理速度。与传统的视觉Transformer相比,LeMeViT在保持高精度的同时,大幅减少了计...

Read More
2024-05-21 talkingdev

3D情景理解:挑战与解决方案

理解3D场景中物体的位置是一个具有挑战性的问题。然而,通过使用语言引导的3D理解,我们可以精确地为3D空间中的物体标记语义标签。语言引导的3D理解是一种新的技术,它允许我们通过使用特定的语言描述,更准确地确定...

Read More
2024-05-21 talkingdev

Art3D:高斯喷射技术引领文本指导的艺术场景生成

人工智能在生成艺术2D图像方面的运用早已让人们感到趣味盎然和富有创造力。而这项新的工作,将这种能力扩展到了3D领域,通过高斯喷射技术,以文本输入作为导向,使艺术场景生成更上一层楼。这种技术的出现,无疑为艺...

Read More
2024-05-21 talkingdev

论文:LeMeViT利用可学习的元Token实现快速视觉变换器

最近,一种名为LeMeViT的新方法用于降低视觉变换器中的计算成本,其核心策略是使用可学习的元令牌。这些令牌能够有效地捕获关键信息,从而提高推理速度。视觉变换器在计算机视觉领域有着广泛的应用,然而其计算成本...

Read More
2024-05-21 talkingdev

谷歌推出先锋安全框架,应对未来先进AI模型的风险

谷歌DeepMind近日推出了一项名为“先锋安全框架”的新技术,以应对未来先进AI模型可能带来的风险。这个框架确定了对可能有害的AI能力的关键能力级别(CCLs),并根据这些CCLs对模型进行评估,当达到阈值时,应用缓解策...

Read More
2024-05-20 talkingdev

Model Explorer-开源模型资源管理器让模型调试更便利

谷歌近日发布了一款名为 'Model Explorer' 的模型探索器,该工具可以帮助用户轻松查看并审查自己的模型计算图。这项新的工具对于调试和性能工程来说相当有用。Model Explorer以GitHub Repo形式存在,用户可以方便地...

Read More
2024-05-20 talkingdev

Experts开源:OpenAI助手的全新部署模式

专家们(Experts)是一款能以最简单的方式创建并部署OpenAI助手的工具,通过将这些助手链接成工具,可以创建出一个有着扩展记忆和对细节高度关注的专家团队系统。该系统不仅能够进行深度学习,还具有高度的适应性,...

Read More
  1. Prev Page
  2. 33
  3. 34
  4. 35
  5. Next Page