RLHF是什么?
RLHF,全称:Reinforcement Learning from Human Feedback,即从人类反馈中学习强化学习。 RLHF是一个具有挑战性的概念,因为它涉及多模型训练过程和不同的部署阶段。 在语言模型流行之前, RLHF 就已经有相关的研究出现。
https://huggingface.co/blog/rlhf 英文原文
https://my.oschina.net/HuggingFace/blog/6142542 ChatGPT 背后的 “功臣”——RLHF 技术详解
原文开头:
在过去的几年中,语言模型通过根据人类输入提示生成多样化且引人注目的文本显示出令人印象深刻的能力。然而,什么才是“好”文本本质上很难定义,因为它是主观的并且依赖于上下文。有许多应用程序,例如编写您需要创意的故事、应该真实的信息性文本片段,或者我们希望可执行的代码片段。
编写一个损失函数来捕获这些属性似乎很棘手,而且大多数语言模型仍然使用简单的下一个标记预测损失(例如交叉熵)进行训练。为了弥补损失本身的缺点,人们定义了旨在更好地捕捉人类偏好的指标,例如BLEU或ROUGE. 虽然比损失函数本身更适合衡量性能,但这些指标只是简单地将生成的文本与具有简单规则的引用进行比较,因此也有局限性。如果我们使用生成文本的人工反馈作为性能衡量标准,或者更进一步并使用该反馈作为损失来优化模型,那不是很好吗?这就是从人类反馈中强化学习(RLHF)的想法;使用强化学习的方法直接优化带有人类反馈的语言模型。RLHF 使语言模型能够开始将在一般文本数据语料库上训练的模型与复杂人类价值观的模型对齐。