9.5_RLHF

基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)是一种将人类数据标签融入基于强化学习的优化过程的方法论。它的动机来自于对建模人类偏好的挑战

对于许多问题而言,即使你可以尝试编写一个理想的方程,人们对偏好的看法也会有所不同。

基于测量数据来更新模型是尝试缓解这些固有的人类机器学习问题的途径之一

开始学习 RLHF

要开始学习 RLHF,请按照以下步骤进行:

  1. 阅读这篇介绍:阐明从人类反馈中强化学习 (RLHF)

  2. 观看我们几周前的一次直播录像,其中 Nathan 介绍了强化学习从人类反馈中学习(RLHF)的基础知识,以及这项技术如何被用于实现像 ChatGPT 这样的最先进机器学习工具。这次讲座主要是关于相互关联的机器学习模型的概述。它涵盖了自然语言处理和强化学习的基础知识,以及如何在大型语言模型上使用 RLHF。最后,我们讨论了 RLHF 中的开放问题。

  1. 阅读关于这个主题的其他博客文章,例如 闭源API与开源仍在继续:RLHF,ChatGPT,数据护城河。如果还有其他你喜欢的资源,请告诉我们!

补充阅读

请注意,这是从上面的阐明 RLHF 博客文章中复制的内容。
以下是迄今为止关于 RLHF 的最重要的论文列表。该领域在 DeepRL 的出现(大约在 2017 年左右)后近年来受到关注,并发展成为许多大型科技公司应用 LLM 的广泛研究。下面是一些早于 LM 关注点的 RLHF 论文:

以下是一组不断增长的论文快照,展示了 RLHF 在 LM 领域的表现:

作者

本节内容由 Nathan Lambert 撰写。