Transformer的相关内容 - 漫话开发者

2023-07-25 talkingdev

Transformers的注意力偏移问题及修复方法

（Transformers）在其激活过程中常常出现数字异常，这一现象被追溯为注意力机制的问题。这篇博文提出了一个修复方案。注意力机制是变形金刚的核心组成部分，对于其性能起着决定性作用。然而，数字异常的出现可能会影...

2023-07-20 talkingdev

研究人员已经开发出一种新型的轻量级神经网络，名为RepViT。该网络通过整合轻量级视觉变换器（Vision Transformers）和传统的卷积神经网络（Convolutional Neural Networks）的高效设计元素而形成。这项技术的开发，...

2023-07-18 talkingdev

该项目介绍了Video-FocalNet，这是一个有效而高效的视频识别系统，它将Transformer和卷积模型的优点合二为一。Video-FocalNet采用了独特的方法，能够有效地分析视频的局部和全局上下文，这使得它在多个大型数据集上...

2023-07-17 talkingdev

Meta最近发布了一种新型模型，该模型的工作原理与GPT系列的解码器仅Transformer相似，都是一次预测一个令牌。然而，如果你将交错的文本和图像视为令牌，这种模型就可以从文本生成图像，反之亦然。更令人惊奇的是，该...

2023-07-14 talkingdev

聚焦变换器是一种有趣的检索策略，它使用对比学习来提高key和value的缓存使用。此方法已被证明可相对稳定地扩展到几十万个标记。然而，目前尚不清楚这种方法在大规模应用中的表现如何，或者是否受到其他长期上下文方...

2023-07-10 talkingdev

该研究介绍了一种新的技术，专注变压器，这种技术可以帮助AI模型在处理大量数据的情况下，记住并专注于相关的信息。该方法改进了AI如何理解和使用长篇的文本，他们在OpenAI的模型上的测试显示了这一点。专注变压器的...

2023-07-03 talkingdev

最近，状态空间模型引起了广泛关注。它们作为一种潜在有用的模型替代方案而出现，通过避开Transformer的一些挑战性方面，同时保持性能。在这项工作中，Hyena模型被应用于DNA序列建模，并在23个任务中取得了改进。

2023-06-30 talkingdev

Audiocraft推出MusicGen，这是一种简化和增强音乐生成的模型。这种单阶段的自回归Transformer模型不需要像之前的方法那样进行自监督语义表示，通过并行预测所有码本，它更高效地生成音乐，从而每秒音频的步骤更少。