Tiffany Horter, Andrew Markham, Niki Trigoni, Serena Booth

Mitigating Cognitive Bias in RLHF by Altering Rationality

Tiffany Horter, Andrew Markham, Niki Trigoni, Serena Booth / May 11, 2026

arXiv:2605.06895v1 Announce Type: new
Abstract: How can we make models robust to even imperfect human feedback? In reinforcement learning from human feedback (RLHF), human preferences over model outputs are used to train a reward model that assigns sc…

Author name: Tiffany Horter, Andrew Markham, Niki Trigoni, Serena Booth

Mitigating Cognitive Bias in RLHF by Altering Rationality