漫话开发者 - UWL.ME Mobile

一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:首先,自动生成不同质量层次的多模态指令-响应对;其次,为每个数据对生成推理轨迹和评判结果,并筛选掉不符合预期质量水平的数据;最后,利用正确的评判答案及其推理轨迹对模型进行训练。研究团队在涵盖正确性、偏好、推理、安全性和视觉问答等多个领域的Multimodal RewardBench和VL-RewardBench基准上进行了评估。结果显示,该方法将Llama-3.2-11B多模态评判者的VL-RewardBench整体准确率从0.38提升至0.51,其表现甚至经常超越Llama-3.2-90B、GPT-4o和Claude 3.5 Sonnet等规模大得多的模型,尤其在通用性、幻觉抑制和推理能力维度上提升显著。这一成果不仅大幅降低了模型评估成本,更重要的是,其展现出的强大性能预示着未来有可能构建出能够与快速进化的VLM能力同步迭代的“自我评判者”,为模型自主进化与安全对齐开辟了新路径。

核心要点

  • 研究提出无需人工标注的自训练框架,通过生成和筛选多模态数据来训练VLM评判模型。
  • 该方法显著提升了小规模模型(Llama-3.2-11B)的评判能力,在多个基准上超越多个大型模型。
  • 成果展示了构建能与VLM能力同步进化的“自我评判者”的潜力,为模型自主评估与对齐提供新思路。

Read more >