Jan Dubi\'nski, Jan Betley, Anna Sztyber-Betley, Daniel Tan, Owain Evans

Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers

Jan Dubi\'nski, Jan Betley, Anna Sztyber-Betley, Daniel Tan, Owain Evans / April 29, 2026

arXiv:2604.25891v1 Announce Type: new
Abstract: Finetuning a language model can lead to emergent misalignment (EM) [Betley et al., 2025b]. Models trained on a narrow distribution of misaligned behavior generalize to more egregious behaviors when teste…

Author name: Jan Dubi\'nski, Jan Betley, Anna Sztyber-Betley, Daniel Tan, Owain Evans

Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers