Transformer模型的相关内容 - 漫话开发者

2024-06-26 talkingdev

Transformer进行分子模型设计：GeoMFormer的全新实践

GeoMFormer是一种全新的基于Transformer的模型，旨在通过学习不变量和等变量特征来改进分子模型。这种模型的设计，彻底改变了传统分子建模的方法，为化学和生物科学的研究者提供了新的视角和工具。GeoMFormer的出现...

2024-06-20 talkingdev

Logit Lens方法已经得到了增强，该方法通过分解logit输出，帮助我们理解Transformer模型的决策过程。这种方法使用“prisms”来处理残差流，注意力层和MLP层，揭示了这些部分如何影响预测，并为gemma-2b模型执行的诸如...

2024-04-05 talkingdev

现代变压器模型在处理数据时，每个数据单元都使用相同的预测计算量，但事实上，不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制，允许模型在生成过程中根据数据单元的难易程度提前退出，从而减少...

2024-04-04 talkingdev

科研团队近期推出了一项名为DiJiang的创新技术，旨在将现有的Transformer模型转化为更精简、更快速的版本，同时避免了重新训练模型所需的巨大成本。DiJiang技术通过优化模型结构，大幅减少了计算资源的消耗，使得Tra...

2024-02-26 talkingdev

Stability AI宣布推出Stable Diffusion 3，这是一款类似于OpenAI的Sora的Diffusion Transformer。公司训练了一套模型，参数范围从8亿到80亿，这是从以前的图像生成模型中跨越式的飞跃。这些模型将在经过一段时间的研...

2024-02-12 talkingdev

近日，一种名为MetaTree的新型决策树算法在GitHub上公开发布。与传统的决策树算法不同，MetaTree采用Transformer模型进行学习，从而提高了泛化能力。根据开发者的介绍，MetaTree在多个数据集上进行了测试，结果表明...

2024-01-31 talkingdev

3D对象生成的一个关键挑战是可以创建的物品的多样性。本研究使用修改后的架构来提高样本效率，并将系统扩展到可以处理每个3D类别中更大的对象集。

2024-01-31 talkingdev

RWKV是主流Transformer模型的一种架构替代方案。它使用一种新颖的线性注意力机制，使其极其高效。这个新的检查点和配置是在1T令牌上训练的，超越了许多其他功能强大的基于7B Transformer的模型。

2024-01-30 talkingdev

该项目提出了一种新颖的增强Transformer的方法，使用来自不同模态的无关数据，例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer，使目标模态能够从另一种模态的优势中受益。

2024-01-12 talkingdev

大多数音频生成技术使用扩散或自回归模型来生成声音。而这项研究并不使用多步骤或复杂的Transformer。相反，它使用了一个掩码语言模型来生成音频令牌。