Frank Xiao, Santiago Aranguri

Probe-Based Data Attribution: Discovering and Mitigating Undesirable Behaviors in LLM Post-Training

Frank Xiao, Santiago Aranguri / April 28, 2026

arXiv:2602.11079v3 Announce Type: replace-cross
Abstract: We propose probe-based data attribution, a method that traces behavioral changes in post-trained language models to responsible training datapoints. By computing activation-difference vectors f…

Author name: Frank Xiao, Santiago Aranguri

Probe-Based Data Attribution: Discovering and Mitigating Undesirable Behaviors in LLM Post-Training