计算成本的相关内容 - 漫话开发者

2024-06-27 talkingdev

论文：DeepMind通过联合样本选择进行数据策划，进一步加速多模态学习

在预训练中，如何积极选择下一批最好的样本是一个挑战性和开放性的问题。DeepMind的这项工作探索了如何只花费10%的浮点运算和硬挖掘负样本，仍然能匹配各种任务的最新技术。在这个过程中，他们采用了一种名为“联合样...

2024-06-06 talkingdev

GenS是一款端到端的通用神经表面重建模型，能够在没有3D监督的情况下，从多视图图像中出色地重建表面。与传统的表面重建方法相比，GenS在处理复杂的几何形状和纹理细节方面表现尤为突出。这一模型不仅提高了重建的精...

2024-06-03 talkingdev

muP 是一种被所有前沿模型实验室广泛使用的强大工具，用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型，从而显著提升训练性能，同时降低计算成本。通过muP，研...

2024-05-31 talkingdev

Yuan 2.0-M32是一款具备40亿参数的专家混合模型，其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19，但其性能却接近后者。该模型在2万亿个token上进行了训练，展现出了令人惊讶的强大性...

2024-05-28 talkingdev

近日，计算机科学家们推出了一款名为Llama 3-V的新型人工智能模型，其与GPT4-V性能相当，但模型大小只有GPT4-V的1/100。与GPT4-V的高昂价格相比，Llama 3-V仅需500美元即可获得。这款新型模型可以应用于自然语言处理...

2024-05-27 talkingdev

LoRA-Ensemble是一种面向自注意力网络的参数高效深度集成方法。该技术扩展了低秩适配（LoRA）的应用，通过隐式集成实现了在不增加传统集成方法高计算成本的情况下，仍能做出准确且校准良好的预测。这种方法不仅在精...

2024-05-24 talkingdev

研究人员开发了一种新的方法——全局-局部语义一致学习（Global-Local Semantic Consistent Learning，简称GLSCL），以提升文本视频检索的效率。这一创新方法不仅提高了检索的准确性，还显著降低了计算成本。GLSCL通过...

2024-05-21 talkingdev

LeMeViT是一种新的方法，通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息，从而显著提高推理速度。与传统的视觉Transformer相比，LeMeViT在保持高精度的同时，大幅减少了计...

2024-05-21 talkingdev

最近，一种名为LeMeViT的新方法用于降低视觉变换器中的计算成本，其核心策略是使用可学习的元令牌。这些令牌能够有效地捕获关键信息，从而提高推理速度。视觉变换器在计算机视觉领域有着广泛的应用，然而其计算成本...

2024-05-15 talkingdev

深度学习中的SiLU和SoftMax函数在许多任务中都是必不可少的，但它们的计算成本很高。为了改进这一点，来自华盛顿大学的研究人员提出了两个新的指数函数，可以将它们的速度提高2倍，同时完全保持准确性。这些函数分别...