Visual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。
Read MoreDreamRec引入了一种新颖的“学习生成”方法,用于顺序推荐。与传统方法从正负项目的混合中分类用户偏好不同,它创建了一个代表用户理想下一个选择的“神谕”项目。
Read More研究人员开发了一种新方法,通过采用专家级稀疏化方法来使LLMs更加高效和易于使用,该方法可以在不损失性能的情况下减少模型大小。这对于Mixture-of-Experts LLMs尤其有用,这种模型通常太大而不易处理。
Read More一种使用语言解码器进行物体识别的新方法。该方法涉及从图像嵌入中预测文本标记,并利用专门的非因果注意掩模。它可以实现多标签的高效并行采样。
Read More近日,GitHub推出了一项新的方法,可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器,有效地保护这些模型免受恶意图像攻击,提高了它们在现实应用中的可靠...
Read More本文介绍了LoRA+,一种优于现有Low-Rank Adaptation (LoRA)方法的微调大模型的方法。LoRA+通过为过程中的关键部分使用不同的学习速率来实现更好的性能和更快的微调,而无需增加计算需求。
Read More近日,一项名为ZeroSwot的新方法被提出,通过独特的技术,成功突破了语音和文本之间的差异以及数据缺乏等难题,实现了提高语音翻译准确度的目标。具体来说,ZeroSwot通过使用语音识别数据训练语音编码器,然后将其与...
Read More最近,研究人员提出了一种新方法,称为SLEB,可以通过剪枝冗余的变压器块来加速大型语言模型(LLMs)的训练和推理。该方法可以减少存储空间和计算成本,同时保持模型的准确性。SLEB通过自适应的剪枝技术来删除冗余的...
Read More