漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-30 talkingdev

星际编程2 15B模型:人类与合成数据的混合训练成果

星际编程2 15B模型是一款在合成数据和人类数据上进行训练的人工智能模型。该模型在humaneval测试中获得了72.6的高分,表现出色。开发者在训练过程中不仅展示了他们的数据管道复制能力,还提供了将合成数据应用于其他...

Read More
2024-02-13 talkingdev

高质量人类数据探讨

本文主要讨论人类在数据生成中的作用。人类可以收集偏好数据、进行注释标记等,以提高数据的质量。随着机器学习和人工智能的发展,高质量的人类数据越来越受到重视。本文还探讨了如何让人类数据更加准确、可靠,同时...

Read More
2023-08-17 talkingdev

强化学习:微型故事模型的对齐工具

强化学习可能是当前对齐大型语言模型(甚至视觉模型)最好的工具。然而,当你需要大量的人类数据来训练一个奖励模型时,这就成为了一项挑战。如果你可以只使用“提示”呢?这是RLCF(强化学习计算框架)趋势的又一绝佳...

Read More