Erik Nordby, Tasha Pais, Aviel Parrack

Linear Probe Accuracy Scales with Model Size and Benefits from Multi-Layer Ensembling

Erik Nordby, Tasha Pais, Aviel Parrack / April 16, 2026

arXiv:2604.13386v1 Announce Type: new
Abstract: Linear probes can detect when language models produce outputs they “know” are wrong, a capability relevant to both deception and reward hacking. However, single-layer probes are fragile: the best layer v…

Author name: Erik Nordby, Tasha Pais, Aviel Parrack

Linear Probe Accuracy Scales with Model Size and Benefits from Multi-Layer Ensembling