Emil Ryd, Henning Bartsch, Julian Stastny, Joe Benton, Vivek Hebbar

Removing Sandbagging in LLMs by Training with Weak Supervision

Emil Ryd, Henning Bartsch, Julian Stastny, Joe Benton, Vivek Hebbar / April 27, 2026

arXiv:2604.22082v1 Announce Type: cross
Abstract: As AI systems begin to automate complex tasks, supervision increasingly relies on weaker models or limited human oversight that cannot fully verify output quality. A model more capable than its supervi…

Author name: Emil Ryd, Henning Bartsch, Julian Stastny, Joe Benton, Vivek Hebbar

Removing Sandbagging in LLMs by Training with Weak Supervision