Vivek Narayanaswamy, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla

Improving Robustness In Sparse Autoencoders via Masked Regularization

Vivek Narayanaswamy, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla / April 9, 2026

arXiv:2604.06495v1 Announce Type: cross
Abstract: Sparse autoencoders (SAEs) are widely used in mechanistic interpretability to project LLM activations onto sparse latent spaces. However, sparsity alone is an imperfect proxy for interpretability, and …

Author name: Vivek Narayanaswamy, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla

Improving Robustness In Sparse Autoencoders via Masked Regularization