漫话开发者 - UWL.ME Mobile

近日,信息检索领域迎来突破性进展——基于生成式模型的上下文排序(ICR)技术实现规模化应用。传统ICR方法通过将任务描述、候选文档和查询直接输入大语言模型(LLM)来识别相关文档,虽效果显著但存在计算效率瓶颈:随着候选文档数量增加,注意力机制的二次方/超线性增长导致计算成本急剧上升。针对这一挑战,研究人员发现经ICR微调的LLM注意力机制中存在可优化的结构特征:一是文档间块稀疏性(同一文档块内注意力密集,跨文档块则稀疏),二是查询-文档块相关性(中间层中特定查询词与文档块的注意力分数与实际相关性高度吻合)。基于此,团队提出BlockRank创新方案,通过架构层面强制实施文档间块稀疏性,将注意力复杂度从二次方降至线性且不损失性能,同时利用对比学习目标优化相关文档的注意力分配。在BEIR、MSMarco和NQ数据集上的实验表明,基于Mistral-7B的BlockRank在匹配或超越现有SOTA列表排序模型的同时,推理效率提升4.7倍(处理100篇MSMarco文档),并能在一秒内处理约500篇文档的長上下文场景(约10万标记长度),为下一代信息检索系统提供了兼具效能与扩展性的解决方案。

核心要点

  • 提出BlockRank方法突破ICR效率瓶颈,通过注意力块稀疏化将计算复杂度从二次方降为线性
  • 在三大基准测试中超越现有SOTA排序模型,推理速度提升4.7倍并支持500文档長上下文处理
  • 发现并利用LLM注意力中的文档块稀疏性与查询-文档相关性两大关键特征优化检索性能

Read more >