DSNIE是一种方法,可以显著提高单目表面法向量估计的准确度,可用于多种计算机图形应用程序。DSNIE方法基于深度学习,使用卷积神经网络对输入图像进行处理,并输出表面法向量。该方法在各种室内和室外场景中进行了测...
Read More社区对代理在处理各种数字工作负载方面的潜力非常兴奋。然而,即使是最好的通用模型也难以完成人类70%以上成功的任务。显然,我们可能需要专门针对这些任务进行训练的模型。
Read More众所周知,Gemini的惊人1m+代币窗口使用HyperAttention技术取得了如此的成功。这种技术可使计算机通过模拟人类大脑中的注意力机制来聚焦于代币,并识别出其中的关键信息。HyperAttention技术不仅提高了Gemini的精度...
Read More本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。
Read More据悉,字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。该系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率,相当惊人。此外,字节跳动...
Read More这是一份关于使用LLMs进行注释的精选论文列表,LLMs是一种基于机器学习的语言模型,能够自动预测文本中的下一个单词或字符。使用LLMs进行注释可以提高注释的准确性和效率,目前在自然语言处理和计算机视觉领域被广泛...
Read MoreAlphaFold被用于预测蛋白质折叠后的状态。通过添加可逆的流匹配,您可以在整个蛋白质领域显著提高建模能力。在蛋白质结构预测领域,AlphaFold目前是最先进的计算机程序之一,它使用深度学习技术来预测蛋白质的三维结...
Read More世界体积感知多摄像头驾驶场景生成器(WoVoGen)是一个创新系统,旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频,以帮助自动驾驶车辆更好地识别和适应不同的路况。W...
Read More