漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-23 talkingdev

精准前瞻解码可减少推理延迟2.3倍

加速自回归语言模型推理的方式有很多。人们正在热衷于使用草稿模型的一种方式。这需要两个模型,但速度可能会更慢。然而,通过从相同模型生成相关的n-gram,可以减轻对草稿模型的需求,并使生成速度线性加快。

Read More