Zheng-Xin Yong, Stephen H. Bach

Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training

Zheng-Xin Yong, Stephen H. Bach / April 30, 2026

arXiv:2510.20956v2 Announce Type: replace-cross
Abstract: We discover a novel and surprising phenomenon of unintentional misalignment in reasoning language models (RLMs), which we call self-jailbreaking. Specifically, after benign reasoning training o…

Author name: Zheng-Xin Yong, Stephen H. Bach

Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training