研究人员开发了Diffusion-SS3D,这是一种改进半监督3D物体检测的新方法,使用扩散模型添加噪声到3D空间中的物体大小和类别标签分布,然后使用扩散模型去噪和生成更好的边界框输出。
Read More这个GitHub仓库公布了两个重要贡献:RDVS数据集,包含丰富多样的RGB-D视频场景,以及DCTNet+,一种专门用于RGB-D视频对象检测的网络,配备了创新功能,以精确预测和改进现有模型的性能。
Read More针对LLM(语言模型)的指令数据集,CoachLM引入了一种新型AI技术,通过修改而非删除低质量样本独特地改进了数据集,从而显著提高了LLM遵循指令的效果。
Read More研究人员发现,大型语言模型在视频问答(VideoQA)中有时会出现错误,这是因为它们过于依赖语言而忽略了实际的视频内容。为了解决这个问题,研究人员引入了一种名为Flipped-VQA的新方法,这种方法使得这些模型更好地...
Read More往往情况下,当你使用生成模型生成一张图片后,它不完全是你想要的。然而,使用同一模型对图像进行编辑是极具挑战性的。Meta有一个关键的想法,即将所有生成视为指令,从而使编辑功能出现。这与新的模型架构的简单性...
Read More本项目引入一种名为“distance indexing”的新方法,以改进传统的视频帧插值技术(VFI),该技术通常难以准确预测物体的运动。这种方法通过向模型提供有关物体在帧之间移动的距离的明确信息,来明确学习目标并减少模糊...
Read More近日,有学者在GitHub上发布了一项新的研究项目,名为“知识偏好对齐(KnowPAT)”,该项目旨在利用大型语言模型来改进领域特定问答系统。研究人员借助该技术,可以更加精准地针对特定领域提出问题,从而得到更加准确...
Read More经过增强的LLaMA模型现已包含16,000个泰米尔语令牌,利用了LoRA方法进行高效训练。这个更新,连同Alpaca和OpenOrca数据集的新的泰米尔语版本,显著改进了泰米尔语文本处理,为印度语言人工智能的未来发展铺平了道路...
Read More