Qiang Liu, Adrienne Kline, Ermin Wei

Policy Gradient Primal-Dual Method for Safe Reinforcement Learning from Human Feedback

Qiang Liu, Adrienne Kline, Ermin Wei / April 22, 2026

arXiv:2604.19024v1 Announce Type: new
Abstract: Safe Reinforcement Learning from Human Feedback (Safe RLHF) has recently achieved empirical success in developing helpful and harmless large language models by decoupling human preferences regarding help…

Author name: Qiang Liu, Adrienne Kline, Ermin Wei

Policy Gradient Primal-Dual Method for Safe Reinforcement Learning from Human Feedback