Santiago Aranguri - Provide.ai

Uncategorised

Probe-Based Data Attribution: Surfacing and Mitigating Undesirable Behaviors in LLM Post-Training

Santiago Aranguri / April 29, 2026

IntroductionResearch by Frank Xiao (SPAR mentee) and Santiago Aranguri (Goodfire).Post-training can introduce undesired side effects that are difficult to detect and even harder to trace to specific training datapoints. We show that a probe-based metho…

Author name: Santiago Aranguri

Probe-Based Data Attribution: Surfacing and Mitigating Undesirable Behaviors in LLM Post-Training