漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-12 talkingdev

使用Distilabel技术的DPO数据集

一种新的方法可以过滤高质量的配对偏好以进行对齐。它可以显著提高基准模型的性能。

Read More