漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-17 talkingdev

强化学习:微型故事模型的对齐工具

强化学习可能是当前对齐大型语言模型(甚至视觉模型)最好的工具。然而,当你需要大量的人类数据来训练一个奖励模型时,这就成为了一项挑战。如果你可以只使用“提示”呢?这是RLCF(强化学习计算框架)趋势的又一绝佳...

Read More
2023-07-31 talkingdev

论文:AI现已能从模拟环境中学习并独立交互

新的算法“思考者”引入了一种独特的方法,使人工智能能够独立地与模拟环境交互并从中学习,从而提高其制定战略计划的能力。在推箱子游戏和雅达利2600基准测试中,该算法展现了顶级的性能,为AI的强化学习提供了一种新...

Read More
2023-07-10 talkingdev

无需强化学习环节的逆向强化学习:快速且稳健

逆向强化学习有时被称为行为克隆或专家模仿。它通过引入一个内部强化学习环路,将监督调优的简单任务变得复杂。然而,如果我们去掉这个环路,我们可以获得强化学习探索的许多优势,同时避免了函数近似问题的挑战。这...

Read More
2023-06-19 talkingdev

超越人类水平:通过扩展强化学习系统实现超人级性能

强化学习在扩展方面一直很棘手。也就是说,当你增加模型大小或增加剧集数量时,事情开始变得复杂。然而,在其他AI学科中,扩展带来的性能足够好,值得克服这个挑战。在这项研究中,作者通过使用一些巧妙的设计技巧,...

Read More
2023-06-16 talkingdev

GitHub开源项目:Hindsight Experience Replay

近日,OpenAI开源了一份老但经典的论文——Hindsight Experience Replay,该论文是OpenAI成立初期所撰写的。Hindsight Experience Replay是一种处理强化学习中非每个时间步都有奖励的方法,它将代理的经验保存在重放缓...

Read More
2023-05-23 talkingdev

通过强化学习训练扩散模型

在最近的工作中,强化学习一直备受关注,主要集中在人类反馈方面。但事实证明,您也可以使用计算反馈作为奖励模型。在这项工作中,他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是,他们能够显着提...

Read More
2023-05-04 talkingdev

小模型备受欢迎,但能追赶上大模型吗?

在自然语言处理中,大型语言模型的推理能力往往比小型模型更强。这种推理能力有助于解决困难的任务,并可能使语言模型成为下一代计算平台/操作系统的基础。通过代码训练、思维链提示和强化学习等技术,可以提高模型...

Read More
2023-04-28 talkingdev

学习敏捷的足球技能:强化学习

这项研究利用深度强化学习(Deep RL)来训练一个低成本、小型的人形机器人,通过20个关节来玩一个简化的1v1足球比赛,从而开发出了稳健和动态的运动技能和基本战略理解。高频控制、有针对性的动力学随机化以及模拟训...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page