漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

MosaicBERT:针对快速预训练优化的双向编码器

talkingdev • 2024-01-03

750475 views

BERT是一种仅有编码器的Transformer。这意味着它通常用于以嵌入形式表示自然语言,而不是用于生成文本。重要的是,它是最早用于搜索的Transformer之一,因为它可以表示查询和要检索的信息。Mosaic团队集成了FlashAttention,GLU和许多其他创新,极大地提高了预训练速度(1小时,20美元),同时匹配了更大的传统BERT模型的性能。

核心要点

  • MosaicBERT是一种针对快速预训练优化的双向编码器
  • Mosaic团队集成了FlashAttention,GLU和许多其他创新
  • MosaicBERT能够在匹配更大的传统BERT模型性能的同时,大幅提高预训练速度

Read more >