Christian Moya, Alex Semendinger, Guang Lin, Elliott Thornley

Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training

Christian Moya, Alex Semendinger, Guang Lin, Elliott Thornley / May 13, 2026

arXiv:2605.11134v1 Announce Type: new
Abstract: Preference learning methods such as Direct Preference Optimization (DPO) are known to induce reliance on spurious correlations, leading to sycophancy and length bias in today’s language models and potent…

Author name: Christian Moya, Alex Semendinger, Guang Lin, Elliott Thornley

Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training