Matteo Leonesi, Francesco Belardinelli, Flavio Corradini, Marco Piangerelli

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Matteo Leonesi, Francesco Belardinelli, Flavio Corradini, Marco Piangerelli / April 30, 2026

arXiv:2604.26511v1 Announce Type: cross
Abstract: Alignment faking (AF) occurs when an LLM strategically complies with training objectives to avoid value modification, reverting to prior preferences once monitoring is lifted. Current detection methods…

Author name: Matteo Leonesi, Francesco Belardinelli, Flavio Corradini, Marco Piangerelli

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs