Shun Shao, Binxu Wang, Shay B. Cohen, Anna Korhonen, Yonatan Belinkov

Differentiable Faithfulness Alignment for Cross-Model Circuit Transfer

Shun Shao, Binxu Wang, Shay B. Cohen, Anna Korhonen, Yonatan Belinkov / April 28, 2026

arXiv:2604.24302v1 Announce Type: new
Abstract: Mechanistic interpretability has made it possible to localize circuits underlying specific behaviors in language models, but existing methods are expensive, model-specific, and difficult to scale to larg…

Author name: Shun Shao, Binxu Wang, Shay B. Cohen, Anna Korhonen, Yonatan Belinkov

Differentiable Faithfulness Alignment for Cross-Model Circuit Transfer