Transformers的相关内容 - 漫话开发者

2023-07-27 talkingdev

免费课程揭秘音频变压器技术

近年来，使用变压器生成内容的技术日益流行，但其实这样的技术难以入门，而且更难找到相关的学习资料。好消息是，HuggingFace公司最近推出了一门极好的新课程，详细介绍了如何处理音频数据以及如何训练变压器。这门...

2023-07-25 talkingdev

（Transformers）在其激活过程中常常出现数字异常，这一现象被追溯为注意力机制的问题。这篇博文提出了一个修复方案。注意力机制是变形金刚的核心组成部分，对于其性能起着决定性作用。然而，数字异常的出现可能会影...

2023-07-20 talkingdev

研究人员已经开发出一种新型的轻量级神经网络，名为RepViT。该网络通过整合轻量级视觉变换器（Vision Transformers）和传统的卷积神经网络（Convolutional Neural Networks）的高效设计元素而形成。这项技术的开发，...

2023-06-26 talkingdev

ExLlama是HF Transformers实现的一种内存更高效的量化权重重写。这个重写的目的是为了在使用量化权重时能够更好地节省内存。Llama是HF Transformers的一个开源项目，但在使用量化权重时存在内存占用较高的问题。ExLl...

2023-05-25 talkingdev

Meta AI提出了一种新的AI模型架构，名为Megabyte，可以在多个格式上生成超过100万个标记。Megabyte解决了当前模型中的可扩展性问题，并并行执行计算，提高了效率并优于Transformers。 ## 核心要点：以下是这篇新...

2023-05-17 talkingdev

近日，基于线性注意力模型与内置循环的RWKV模型成为Transformers库中首个推出的RNN模型。该模型是一个强大的语言模型，理论上可运行较长的上下文窗口，并具有快速的运行速度。目前，该模型在HuggingFace平台上的开发...

2023-04-19 talkingdev

本文是一篇采访亚马逊的两位杰出科学家Sudipta Sengupta和Dan Roth的转录，谈论机器学习技术。在谈话中，两位科学家帮助解密了从单词表示到定制硅上的专业计算等一切事项。从2019年以来，神经网络架构Transformers已...