发展的相关内容 - 漫话开发者

2024-05-22 talkingdev

llava-align：校正视觉语言模型中的关键偏差技术突破

在大型视觉语言模型（LVLMs）中，输出结果往往更倾向于语言模型的先验知识，而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术，有效减少了这种偏差。这些技术使得模型在处理各种任务时，能够生成更加准...

2024-05-21 talkingdev

LeMeViT是一种新的方法，通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息，从而显著提高推理速度。与传统的视觉Transformer相比，LeMeViT在保持高精度的同时，大幅减少了计...

2024-05-21 talkingdev

理解3D场景中物体的位置是一个具有挑战性的问题。然而，通过使用语言引导的3D理解，我们可以精确地为3D空间中的物体标记语义标签。语言引导的3D理解是一种新的技术，它允许我们通过使用特定的语言描述，更准确地确定...

2024-05-21 talkingdev

人工智能在生成艺术2D图像方面的运用早已让人们感到趣味盎然和富有创造力。而这项新的工作，将这种能力扩展到了3D领域，通过高斯喷射技术，以文本输入作为导向，使艺术场景生成更上一层楼。这种技术的出现，无疑为艺...

2024-05-21 talkingdev

最近，一种名为LeMeViT的新方法用于降低视觉变换器中的计算成本，其核心策略是使用可学习的元令牌。这些令牌能够有效地捕获关键信息，从而提高推理速度。视觉变换器在计算机视觉领域有着广泛的应用，然而其计算成本...

2024-05-21 talkingdev

谷歌DeepMind近日推出了一项名为“先锋安全框架”的新技术，以应对未来先进AI模型可能带来的风险。这个框架确定了对可能有害的AI能力的关键能力级别（CCLs），并根据这些CCLs对模型进行评估，当达到阈值时，应用缓解策...

2024-05-20 talkingdev

谷歌近日发布了一款名为 'Model Explorer' 的模型探索器，该工具可以帮助用户轻松查看并审查自己的模型计算图。这项新的工具对于调试和性能工程来说相当有用。Model Explorer以GitHub Repo形式存在，用户可以方便地...

2024-05-20 talkingdev

专家们（Experts）是一款能以最简单的方式创建并部署OpenAI助手的工具，通过将这些助手链接成工具，可以创建出一个有着扩展记忆和对细节高度关注的专家团队系统。该系统不仅能够进行深度学习，还具有高度的适应性，...