Chenye Yang, Weiyu Xu, Lifeng Lai

Efficient Preference Poisoning Attack on Offline RLHF

Chenye Yang, Weiyu Xu, Lifeng Lai / May 5, 2026

arXiv:2605.02495v1 Announce Type: cross
Abstract: Offline Reinforcement Learning from Human Feedback (RLHF) pipelines such as Direct Preference Optimization (DPO) train on a pre-collected preference dataset, which makes them vulnerable to preference p…

Author name: Chenye Yang, Weiyu Xu, Lifeng Lai

Efficient Preference Poisoning Attack on Offline RLHF