漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-04-20 talkingdev

著名科技人士John Schulman发表演讲:强化学习从人类反馈中获得突破

- John Schulman是伯克利校友、OpenAI联合创始人和ChatGPT首席架构师 - Schulman发表演讲,介绍了ChatGPT背后的强化学习从人类反馈中获得的突破 - 强化学习是解决人工智能中真实性问题的最大方式之一

Read More
2023-04-19 talkingdev

街头霸王AI (GitHub代码库)

新闻内容: 最近,人们开始致力于让强化学习智能体变得更加勇敢。其中一篇论文特别讨论了在强化学习模型中减轻懦弱的问题。这对于自动驾驶汽车领域具有重要意义,但在其他潜在应用中却令人恐惧。现在,这个代码库展...

Read More
2023-04-13 talkingdev

Wombat:从RLHF到RRHF,以“正确”的方式对齐人类喜好(GitHub代码库)

## 新闻内容: Wombat是一种新的RLHF(Reinforcement Learning with Human Feedback,即通过人类反馈进行强化学习)学习范式,它通过更高效地将语言模型输出与人类喜好对齐,在需要更少的模型的情况下提供了简单的P...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8