Transformer的相关内容 - 漫话开发者

2023-12-05 talkingdev

万能GPT来袭，美国政府与英特尔启动ScienceGPT训练计划

近日，美国政府与英特尔公司合作启动了一个名为ScienceGPT的训练计划。该计划旨在训练一个万亿参数的GPT模型，以便提高自然语言处理的效率和精度。GPT（Generative Pre-trained Transformer）是一种基于Transformer...

2023-11-14 talkingdev

AI 小镇是一个令人惊叹的实验，在这里，数百个代理在语言模型的提示状态下过着日常生活。 RWKV 模型是一种线性语言模型，需要比标准 Transformer 更少的资源。此存储库使用这个更便宜的模型在您的本地计算机上运行 A...

2023-11-09 talkingdev

PixArt是一种新的文本到图像模型，它使用T5文本编码、交叉注意力和扩散变压器，以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型，可以比使用UNet模型训练快90%。PixArt模型的训练...

2023-10-31 talkingdev

Magnetic是一个用于轻松集成大型语言模型到Python代码的库。这个名为Magnetic的库是由NLP引擎提供商Hugging Face发布的。基于Transformers，Magnetic允许您轻松地将大型语言模型集成到您的Python代码中，以进行各种...

2023-10-31 talkingdev

HuggingFace团队成功复现了OpenAI的第一个RLHF代码库，该代码库于2019年发布，是引入了一些最初的RLHF（强化学习与人类因素）想法。这个代码库被称为“Generative Pretraining Transformer（GPT）”。通过在计算机上训...

2023-10-20 talkingdev

研究人员提出了DGUA-FAS方法，旨在解决面部反欺骗技术的挑战，特别是在面临领域变化和陌生攻击类型时。该方法使用基于Transformer的特征提取器和一个特殊的网络来模拟未知攻击。这种方法在处理已知和未知威胁方面更...

2023-10-19 talkingdev

这项研究介绍了Zipformer，一种用于自动语音识别（ASR）的改进Transformer模型，它更快、占用更少内存，而且比广泛使用的Conformer效果更好。Zipformer是一种新型的语音识别模型，它使用了一种全新的架构，能够更快...

2023-10-06 talkingdev

机械可解释性是通过将神经网络分解为更可解释的子部分来理解神经网络的过程。不幸的是，神经元本身往往不可解释。有一些深层次的原因，如叠加，导致了这个挑战。Anthropic公司的这项工作使用稀疏自编码器从一层Trans...