漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

大语言模型中不安全提示的检测方法

talkingdev • 2024-02-26

595358 views

GradSafe是一种新的方法,用于检测大型语言模型中的不安全提示,无需进行大量的训练。它通过分析特定参数的梯度,比当前方法更有效地识别不安全的提示。

核心要点

  • GradSafe是一种新的检测大型语言模型中不安全提示的方法
  • 它可以更有效地识别不安全的提示,而无需进行大量的训练
  • 该方法可以通过分析特定参数的梯度来实现

Read more >