Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Peter Stone

Influencing Humans to Conform to Preference Models for RLHF

Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Peter Stone / April 14, 2026

arXiv:2501.06416v3 Announce Type: replace
Abstract: Designing a reinforcement learning from human feedback (RLHF) algorithm to approximate a human’s unobservable reward function requires assuming, implicitly or explicitly, a model of human preferences…

Author name: Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Peter Stone

Influencing Humans to Conform to Preference Models for RLHF