Cameron Pattison, Lorenzo Manuali, Seth Lazar

Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules

Cameron Pattison, Lorenzo Manuali, Seth Lazar / April 9, 2026

arXiv:2604.06233v1 Announce Type: new
Abstract: Safety-trained language models routinely refuse requests for help circumventing rules. But not all rules deserve compliance. When users ask for help evading rules imposed by an illegitimate authority, ru…

Author name: Cameron Pattison, Lorenzo Manuali, Seth Lazar

Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules