Ruben Fernandez-Boullon, Pablo Magari\~nos-Docampo, Javier Perez-Robles

From Token Lists to Graph Motifs: Weisfeiler-Lehman Analysis of Sparse Autoencoder Features

Ruben Fernandez-Boullon, Pablo Magari\~nos-Docampo, Javier Perez-Robles / May 8, 2026

arXiv:2605.06494v1 Announce Type: new
Abstract: Sparse autoencoders (SAEs) have become central to mechanistic interpretability, decomposing transformer activations into monosemantic features. Yet existing analyses characterise features almost exclusiv…

Author name: Ruben Fernandez-Boullon, Pablo Magari\~nos-Docampo, Javier Perez-Robles

From Token Lists to Graph Motifs: Weisfeiler-Lehman Analysis of Sparse Autoencoder Features