Sadia Asif, Mohammad Mohammadi Amiri

RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs

Sadia Asif, Mohammad Mohammadi Amiri / May 5, 2026

arXiv:2605.01913v1 Announce Type: new
Abstract: Fine-tuning safety-aligned language models for downstream tasks often leads to substantial degradation of refusal behavior, making models vulnerable to adversarial misuse. While prior work has shown that…

Author name: Sadia Asif, Mohammad Mohammadi Amiri

RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs