强化学习的相关内容 - 漫话开发者

2023-08-17 talkingdev

强化学习：微型故事模型的对齐工具

强化学习可能是当前对齐大型语言模型（甚至视觉模型）最好的工具。然而，当你需要大量的人类数据来训练一个奖励模型时，这就成为了一项挑战。如果你可以只使用“提示”呢？这是RLCF（强化学习计算框架）趋势的又一绝佳...

2023-07-31 talkingdev

新的算法“思考者”引入了一种独特的方法，使人工智能能够独立地与模拟环境交互并从中学习，从而提高其制定战略计划的能力。在推箱子游戏和雅达利2600基准测试中，该算法展现了顶级的性能，为AI的强化学习提供了一种新...

2023-07-10 talkingdev

逆向强化学习有时被称为行为克隆或专家模仿。它通过引入一个内部强化学习环路，将监督调优的简单任务变得复杂。然而，如果我们去掉这个环路，我们可以获得强化学习探索的许多优势，同时避免了函数近似问题的挑战。这...

2023-06-19 talkingdev

强化学习在扩展方面一直很棘手。也就是说，当你增加模型大小或增加剧集数量时，事情开始变得复杂。然而，在其他AI学科中，扩展带来的性能足够好，值得克服这个挑战。在这项研究中，作者通过使用一些巧妙的设计技巧，...

2023-06-16 talkingdev

近日，OpenAI开源了一份老但经典的论文——Hindsight Experience Replay，该论文是OpenAI成立初期所撰写的。Hindsight Experience Replay是一种处理强化学习中非每个时间步都有奖励的方法，它将代理的经验保存在重放缓...

2023-05-23 talkingdev

在最近的工作中，强化学习一直备受关注，主要集中在人类反馈方面。但事实证明，您也可以使用计算反馈作为奖励模型。在这项工作中，他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是，他们能够显着提...

2023-05-04 talkingdev

在自然语言处理中，大型语言模型的推理能力往往比小型模型更强。这种推理能力有助于解决困难的任务，并可能使语言模型成为下一代计算平台/操作系统的基础。通过代码训练、思维链提示和强化学习等技术，可以提高模型...

2023-04-28 talkingdev

这项研究利用深度强化学习（Deep RL）来训练一个低成本、小型的人形机器人，通过20个关节来玩一个简化的1v1足球比赛，从而开发出了稳健和动态的运动技能和基本战略理解。高频控制、有针对性的动力学随机化以及模拟训...