Wombat：从RLHF到RRHF，以“正确”的方式对齐人类喜好（GitHub代码库）

talkingdev • 2023-04-13

1514355 views

## 新闻内容： Wombat是一种新的RLHF（Reinforcement Learning with Human Feedback，即通过人类反馈进行强化学习）学习范式，它通过更高效地将语言模型输出与人类喜好对齐，在需要更少的模型的情况下提供了简单的PPO（Proximal Policy Optimization，即近端策略优化）替代方案。在LLaMA和Alpaca数据集上的评估表明，RRHF展示了与PPO相当的性能，同时在单个训练会话中简化了对齐过程。 ## 要点总结： - Wombat是一种新的RLHF学习范式，可以更高效地将语言模型输出与人类喜好对齐。 - Wombat需要更少的模型，是PPO的简单替代方案。 - 在LLaMA和Alpaca数据集上的评估表明，RRHF展示了与PPO相当的性能，同时在单个训练会话中简化了对齐过程。

Wombat：从RLHF到RRHF，以“正确”的方式对齐人类喜好（GitHub代码库）

Related posts