Anthropic的研究科学家一直在研究一种使用电路的理解深度神经网络的方法。这些电路旨在识别模型中用于特定任务的子部分。研究团队公布了他们尝试和结果的月度更新。通过使用电路,Anthropic的研究人员已经能够更好地...
Read MoreOpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder,通过训练合成多轮数据集和使用人类反馈,能够在编程HumanEval基准测试中获得85%以上的准确率。
Read MoreSnap研究开发了一种视频生成模型,其速度比之前的最先进模型快3倍(排除Sora)。该模型可以生成高质量的视频,并且在处理速度方面具有显著优势。Snap的这项技术将对视频制作、社交媒体、游戏等领域产生重大影响。
Read MoreMeta最近发布了一款名为Pearls的强化学习库,该库已经在拍卖竞标系统、推荐引擎等应用中进行了部署,可以用于研究和部署。Pearls提供了一些在强化学习领域中非常实用的工具,例如,一些用于环境模拟和数据前处理的工...
Read MoreGeneOH扩散技术是一种新的技术,它通过改正手部动作和与物体的关系中的错误来提高模型对物体的理解和交互。这种方法专注于使这些交互更加自然。
Read More研究人员开发了一种新方法,通过采用专家级稀疏化方法来使LLMs更加高效和易于使用,该方法可以在不损失性能的情况下减少模型大小。这对于Mixture-of-Experts LLMs尤其有用,这种模型通常太大而不易处理。
Read MoreAlphaFold被用于预测蛋白质折叠后的状态。通过添加可逆的流匹配,您可以在整个蛋白质领域显著提高建模能力。在蛋白质结构预测领域,AlphaFold目前是最先进的计算机程序之一,它使用深度学习技术来预测蛋白质的三维结...
Read MoreREINFORCE是一种简单、标准且易于理解的强化学习方法。然而,在模拟器中使用它很难稳定地进行训练。PPO在一般情况下更为高效和稳定。Gemini使用REINFORCE算法,而据信GPT-4使用PPO算法。
Read More