LeMeViT是一种新的方法,通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息,从而显著提高推理速度。与传统的视觉Transformer相比,LeMeViT在保持高精度的同时,大幅减少了计...
Read More视觉Transformer (ViT)已经成为视觉领域的主要研究方向,然而在它们的嵌入中,仍然有时会出现网格状的伪影。这使得社区在将其应用于下游任务时持怀疑态度。本研究提出了一种更新位置嵌入的方法,消除了这一问题,并...
Read More