Bruno Puri, Jim Berend, Sebastian Lapuschkin, Wojciech Samek

Atlas-Alignment: Making Interpretability Transferable Across Language Models

Bruno Puri, Jim Berend, Sebastian Lapuschkin, Wojciech Samek / April 27, 2026

arXiv:2510.27413v2 Announce Type: replace-cross
Abstract: Interpretability is crucial for building safe, reliable, and controllable language models, yet existing interpretability pipelines remain costly and difficult to scale. Interpreting a new model…

Author name: Bruno Puri, Jim Berend, Sebastian Lapuschkin, Wojciech Samek

Atlas-Alignment: Making Interpretability Transferable Across Language Models