

基於人類反饋的強化學習(英語:reinforcement learning from human feedback,簡稱RLHF),包括基於人類偏好的強化學習reinforcement learning from human preferences),是一種直接根據人類反饋訓練「獎勵模型」的機器學習技術,並使用該模型作為強化學習中的獎勵函數,再通過近端策略優化等算法以優化智能體(agent)策略。[1]獎勵模型在進行策略優化之前預先訓練,以預測給定的輸出是好(高獎勵)還是壞(低獎勵)。RLHF可以提高強化學習智能體的魯棒性(robustness)和探索性(exploration),尤其適用於獎勵函數稀疏或有噪聲(不確定性)的情形。[2]


標準RLHF假設人類偏好遵循成對比較的布拉德利-特里模型英語Bradley–Terry model或者多重比較的普拉斯基特-盧斯模型(Plackett–Luce model),並通過最小化交叉熵損失以學習獎勵模型。[6]在訓練完獎勵模型之後,RLHF根據學習到的獎勵模型對語言模型進行進一步微調,使模型與人類偏好保持一致。


RLHF已應用於自然語言處理的各個領域,例如對話、文本摘要和自然語言理解。在普通的強化學習中,智能體根據「獎勵函數」從自己的行為中學習。但在自然語言處理任務中,獎勵通常不容易定義或測量,特別是在處理涉及人類價值觀或偏好的複雜任務時尤其如此。在RLHF的幫助下,語言模型能夠提供與這些複雜價值觀相符的答案,生成更為詳細的回覆,同時拒絕不適當或超出模型知識空間的問題。[7] 經RLHF訓練的語言模型包括OpenAI開發的ChatGPT及其前身InstructGPT[4]DeepMind的Sparrow等。



