Prakhar Gupta, Garv Shah, Donghua Zhang

Self-Mined Hardness for Safety Fine-Tuning

Prakhar Gupta, Garv Shah, Donghua Zhang / May 6, 2026

arXiv:2605.03226v1 Announce Type: new
Abstract: Safety fine-tuning of language models typically requires a curated adversarial dataset. We take a different approach: score each candidate prompt’s difficulty by how often the target model’s own rollouts…

Author name: Prakhar Gupta, Garv Shah, Donghua Zhang

Self-Mined Hardness for Safety Fine-Tuning